コンテンツへスキップ

テキストマイニング

2020年度新入社員研修 ー 文系出身 従来型ITからAIまで奮戦記

所属:総務部人事課
人文社会科学部 人文社会科学科/Y.C
2020年4月入社

当社にご入社される方の参考になればと思い、限られた紙面の中ですが、私が当社の研修で学んできた概要を書いてみました。

■4月~5月  研修と実践
1.研修の内容

社会人マナー研修 電話対応、メールマナー、名刺交換のマナー など
PG/SE基礎研修 プロジェクトの流れ、システムについて、仮想環境構築 など
ウェブサイト構築研修 HTML、CSS、JavaScriptを実際に書く など

2.HTML、CSS、JavaScriptを使ってお客様のホームページを作成

3.私の感想
自分にとって未知の分野であったため、新しく聞く言葉も多く、入り込みにくさから難しいと感じる部分もありましが、基礎からしっかりと指導していただきました。
ホームページを作成する際、HTMLやCSSに最初のうちは慣れずに煩わしさを感じることもありました。慣れれば色々と試してみたくなり、イメージ通りに仕上がれば達成感がありました。

私の配属先は人事課でした。
人事課では人事から契約書の作成までいろいろな仕事がありますが、これら庶務の仕事と並行して、AIに関する研修も受けました。
特に人事に関して当社の業務を知る必要があるため、実践を兼ねて自然言語処理にも取り組みました。

■6月から8月  研修と実践
AI テキストマイニング(形態素解析・構文解析)

1.取り組み
(1)Python3の研修について
主として、書籍を通して学習しました。Pythonの特徴として、プログラムの読みやすさがあげられ、一番はじめに学ぶのに最もよい言語とも云われています。

(2)開発環境構築について
Anacondaを利用
Anaconda:科学計算のためのPython及びR言語の無料のオープンソースディストリビューション(色々な便利ツールをひとまとめにしたもの)です。
Anacondaには、Python本体だけでなく機械学習や科学計算でよく使うライブラリがまとめられています。

(3)ライブラリについて
使い方と適用一例

NumPy 配列やベクトルなど、数値計算を行う為のライブラリ
SciPy 科学計算の為のライブラリ
Matplotlib グラフを描画する際に使うライブラリ
Pandas データ解析の為のライブラリ
scikit-learn 機械学習用のライブラリ

(4)データの処理について
データ分析・AIは課題に応じてデータ収集、データ前処理、、モデルの構築、入力・分析、検証、学習という工程をたどります。これは、テキストマイニングもデータマイニングと同じです。

(5)実際の開発について
国語の自動採点を目標とし、自然言語処理に挑戦しました。

プログラミング言語に対して、人間が扱う言語を自然言語といいます。その自然言語を機械で処理することを自然言語処理といいます。
自然言語処理は、形態素解析→構文解析→意味解析→文脈解析の流れがあります。

形態素解析とは、文法や単語の品詞情報をもとに、文章を形態素(意味を持つ最小単位)に分けることです。単に単語を切り出すだけではなく、その語の品詞や活用・語尾変化、語幹、終止形などの情報を得ることができます。
また、英語のように、言葉の区切りに空白を入れる書き方を分かち書きといいます。

日本語形態素解析ツールMeCabを用いています。
Windows版に含まれている、コンパイル済みのIPA辞書を使用しました。
得られる品詞情報は以下の通りです。
品詞, 品詞細分類1, 品詞細分類2, 品詞細分類3, 活用型, 活用形, 原形, 読み, 発音
例:日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン

構文解析は、主語と述語の関係や目的語と述語の関係などの文法的な構造を分析します。係り受け解析とも呼ばれ、単語間の関係性についての解析を行います。
使用したツールは、日本語係り受け解析器CaboChaです。

意味解析以降は、高次な分野であり非常に難しい問題を含んでいます。単語の意味は一意には決まらないところがあります。複数の意味から、他の単語間のつながりなどを考慮して適切な一つを選ぶ必要があるなど難しいところが多くあります。

多くの文章(生徒別の解答)が与えられたとき、文章をいくつかのカテゴリに分類し、さらに、文章の中にある単語に分解して単語の出現頻度のみに着目して、文章をいくつかのカテゴリに分類する方法に潜在意味解析( Latent Semantic Analysis:LSA)があります。
最初、クラスタリングや主成分分析を使いましたが上手くいきませんでした。

潜在意味解析の問題点を解決する方法として、トピックモデルが注目を集めています。
潜在意味解析(LSA)に実装されている gensim を使いました。
gensimはトピック分析を可能にするPython3に実装されているライブラリです。
トピックとは文章の中にある主題で、文によって陳述される中心的対象をいいます。

分析結果は完璧ではありませんが、各々の生徒が提出した解答に対しておおよその評価点がつけられており成果を上げられました。

2.私の感想
私は文系学部の出身で人事課の配属でしたが、人事は庶務と同時に人に関わるお仕事をするため、当社の業務内容、特に開発についてより詳しく知る必要があったため、人事のお仕事と並行して、AIの研修に入りました。自分がプログラミングを学ぶことになったときは不安を覚えました。しかしながら数ヶ月間携わってみると、拙いながらも、何とか自分でもプログラムを書くことができるようになりました。
今後は学んだことをしっかりと自分のものにしていきたいと思っています。

AI(深層学習)体験・・テキストデータを用いた構文解析/秋季短期インターンシップ

終了しました。

AI(深層学習)体験・・テキストデータを用いた構文解析/秋季短期インターンシップ

ー☆ Society5.0 に向かって ☆ー

▼ー文科省は全ての大学生に数理・データサイエンス教育を実施できる環境を整備していますー▼
拠点大学6校は2016年から数理・データサイエンス教育を先導、協力校20校は2021年4月から全学生を対象に数理・データサイエンス教育が必修になります。2025年からは全ての大学に広がります。

ー☆ 当社のデータ分析・AI ☆ー
当社は少人数ながら、まだデータサイエンス教育がなされていなかった時代から、データサイエンティストの育成に力を入れてきました。
今日では、従来型システム開発とデータ分析・AIを融合させ、お客様の事業施策に応え、製品やサービスの質を高め、新たな市場や顧客を開拓する新しい価値を提供しています。

ー☆ みなさんもデータサイエンスに取り組みませんか ☆ー

1週間程度の短期ではありますが、皆さんにはデータを活用した価値の創出に取り組んでいただきます。

■私たちの社会には様々な課題があります。
それらの課題に対して、データを収集して構造的に整理しデータを効率的に扱えるようにして(ハンドリング)、データの持つ特徴を抽出して課題を解決していきます。

分析やAI全体の作業において、データを前処理する作業に多くの時間がさかれています。
データハンドリング・モデリング・レポート作成一連の工程を実践で学んでいくことで、分析・AIの基本が理解できます。

今回は時間の関係でテキストマイニングを取り上げました。
テキストマイニングもデータマイニングと同様です。

■教材作成、テスト業務の自動化
国語の自動採点により、教師の採点時間の短縮を行う。

■概要
・就業体験内容
課題に対して長文(データ)を使い、データハンドリング、モデリング、レポート作成までを体験していただきます。

課題の説明
使用言語 python
自然言語処理のための前処理
辞書、形態素解析
知識獲得
可視化
深層学習フレームワーク

・開催地域
岡山
・実施場所
オンライン(ライブ)
・開催時期と実施日数
開催時期
9月 毎土曜日
9月12日開始予定、12,19,26,10/3,10/10,10/17

10月 毎土曜日
10月24日開始予定、24,31,11/7,11/14,11/21,11/28
実施日数
6日/1回
・インターンシップで会える人物
経営層、中堅社員、若手社員
・将来に活かせるシゴト
データサイエンティスト、システムエンジニア
・就業体験後のフィードバック
成果報告会

■応募要項
・参加条件
Python でコーディングができること
・受け入れ人数
6人/1回
・応募締切日
9月実施  9月 5日締め切り
10月実施  9月30日締め切り
・積極受付中
2022年3月卒業予定の方、2022年4月1日までに入社可能な方
・選考有無
選考あり
書類選考(履歴書)
WEB面接(30分)
・応募から参加までの流れ
マイナビ2022よりエントリー(2020年8月4日公開)
もしくは当社WEBサイトよりお申し込みください。

履歴書提出

書類選考:メールで選考結果ご連絡

WEB面接(30分):メールで合否ご連絡
※ 選考のフローは変更になる場合があります。

■報酬・条件
・学業に対する配慮
配慮あり、土曜日開催予定
・報酬
支給なし
・交通費
支給なし
・宿泊費
支給なし
・保険加入
不要

■問い合わせ先
〒700-0901 岡山県岡山市北区本町3番13号イトーピア岡山本町ビル
総務部人事課 山地
TEL:086-230-2416
メールアドレス:staff@itccorp.co.jp