コンテンツへスキップ

データ分析・AI

kaggle活動記録-2

こんにちは。アイティーシーの藤原です。
今回は新卒社会人1年目、python・機械学習初心者の私が取り組んだ、Kaggleコンペティションについてご紹介いたします。

今回取り組んだコンペティション
Titanic – Machine Learning from Disaster

コンペティションの内容
タイタニック号の遭難事故での乗客データから、誰が生存者生き残るか?を予測するコンペティションです。
乗客データは訓練用データとテストデータに分かれており、それぞれの乗客者データには名前、年齢、性別、社会的地位の情報が与えられました。

所感
Titanic Tutorialはkaggle初学者が一番初めに取り組むべきコンペティションだと思います。理由は以下の通りです。
・kaggleプラットフォームに慣れることを目的として作成されたコンペティションであること。
・有志の方がチュートリアルガイドを作成していること。

kaggleでコンペティションに参加するためには、用意されたデータを取得して、学習モデルを構築し、それらから得た分析結果を提出する必要があります。
チュートリアルガイドでは、これらのステップについて順を追って解説しているので、kaggleの使い方について簡単に理解することができました。
こちらのチュートリアルガイドは、このコンペティション用に作成されたものなので、書かれた通りに作業を進めるだけでコンペティションを完了させることができました。
私が今回取り組んだコードはこちらから参照することができます。ご興味ある方はぜひご覧ください。

私はPythonや機械学習については研修を受けた程度で、高度なスキルや現場での経験を持っているわけではありません。
こちらのチュートリアルガイドにはコーディングも記載されていますので、機械学習そのものに不安を持たれている方でも問題ありません。それでも不安に思われる方は、kaggle内にPythonや機械学習についての学習コースも用意されていますので、そちらから取り組まれてもいいかもしれません。


(↑kaggleの学習コースページ。初歩から学習することができます。)

kaggleに登録はしたものの、どこから手をつけたらいいのかわからないという方にはぜひ、こちらのコンペティションに参加することをお勧めいたします。

————————————————–
自己紹介
所属:株式会社アイティーシー ソリューション事業部所属
経歴:2022年度入社。新卒一年目。
現在、一人前のSE・DSになるため日々の業務に勤しんでおります。
kaggleアカウントページはこちら:https://www.kaggle.com/shutafujiwara

AIセミナー 1dayインターンシップ 日程追加のおしらせ

2024年度新卒向けインターンシップの日程を追加しました。
ご興味のある方は、ぜひご応募ください!

▶・・IT業界の動向をお伝えします。皆さまの就活の参考になれば幸甚です。

IT業界は日々激変していると云っても過言ではないでしょう。
そのような中で、当社が力を入れている先端ITを中心に、従来型ソフトウェアと先端ITにおけるAI・データ分析について業界の現状および今後の動向をお伝えします。

プログラミングについて
皆さんは就職に際してプログラミングに大きな関心をお持ちだと思います。

昨今のプログラミングは皆さまが心配するほど難易度は高くなく、むしろ誰でもがコーディングできる環境にあります。今回のテーマではありませんが、プログラミングについてのご質問があれば当日お答えいたします。

当社で行っている新入社員研修で、2022年度に入社した社員の記事をご紹介します。
https://www.itccorp.co.jp/blog/training14/

要はアルゴリズムとデータ構造を理解することでどのような言語でも
記述が可能なのです。アルゴリズムは皆さんが小学生の頃から身につけているはずです。

それでは皆さまのご参加をお待ちしております。

インターンシップ

実施日程 12月14日(水) 9:00~12:00
実施場所詳細 オンライン開催
募集人数 20名程度
資格・対象 2024年3月に4年制大学・大学院卒業予定の方および2024年4月までに入社可能な方
※文系理系不問
エントリー方法 リクナビ2024からエントリー

または、会社HP(https://www.itccorp.co.jp/entry.html)からエントリー
※お問い合わせ内容欄に、「インターンシップ参加希望」および参加希望日程を記入。

準備物および服装 ・パソコン(スマホ、タブレット可)
動画をご視聴頂きますのである程度の通信帯域が必要です
・筆記用具
・服装は自由です

AIセミナー 1dayインターンシップ 日程追加のおしらせ

2024年度新卒向けインターンシップの日程を追加しました。
ご興味のある方は、ぜひご応募ください!
開催日 ①8/26 ②9/27 ③10/27 のいずれか
実施場所詳細 オンライン開催
募集人数 20名程度
なお、最小実施人数は5名以上です
資格・対象 2024年3月に4年制大学・大学院卒業予定の方および2024年4月までに入社可能な方
※文系理系不問
エントリー方法 リクナビ2024からエントリー

または、会社HP(https://www.itccorp.co.jp/entry.html)からエントリー
※お問い合わせ内容欄に、「インターンシップ参加希望」および参加希望日程を記入。

準備物および服装 ・パソコン(スマホ、タブレット可)
動画をご視聴頂きますのである程度の通信帯域が必要です
・筆記用具
・服装は自由です

 

Kaggle活動記録-1

こんにちは。アイティーシー DA事業部の岡です。

Kaggle活動記録では、岡が参加したKaggleコンペティションの内容と、実績について詳しく書いていきます。
※本記事は、機械学習を勉強し始めた方や、これからKaggle等のコンペティションサイトに参加しようとされている方向けの記事です。以降で出現する専門用語について、1つひとつの説明を割愛しているので、何卒ご容赦ください。

Kaggleについて
皆さま、Kaggleについてご存じでしょうか?
Kaggle(サイト)は、企業や研究者がデータやコードを投稿・共有し、世界中のデータサイエンティストがその最適モデルを競い合うプラットフォームサイトです。https://www.kaggle.com/
Kaggle社はGoogle傘下の、予想モデリングおよび分析手法関連プラットフォームを提供している企業です。

今回ご紹介するコンペティション
Tabular Playground Series-6月版
「Tabular Playground Series」は、他のコンペティションと比較し、参加しやすい初心者向けのコンペティションです。
~Tabular Playground Series 参加しやすいポイント~
◎学習/分析対象データは、表形式のデータで、ほとんどの場合、データファイルは1種類のみです。
◎ほとんどのSeriesのデータで、提供されるデータに欠損値は存在しません。
◎コンペティションで競う評価指標はメジャーなものが多く分かりやすいです。
正答率や絶対平均誤差がよく使用される評価指標になります。

コンペティション内容詳細
上記『参加しやすいポイント』で記載した内容とは相反しますが、6月版コンペティションは、欠損値が多く存在するデータ群が提供され、これ(欠損値)を予測/補完するモデルを作成、精度を競い合う、という内容でした。評価指標はRMSE(二乗平均平方根誤差)で、RMSEが小さいほど精度が高いモデル(予測)である、と評価されます。

予測値算出までの主な流れ
Tabular Playground Seriesで、予測値を提出するまでの”個人的な”作業の流れは決まっていて、以下のようになります。
データ状態の確認(EDA)
・・
学習データの準備
・・
モデルの構築(学習)
・・
精度評価
・・
提出用データ作成
この流れに沿って、実際にモデル構築を行ったソースコード、フェーズ毎の詳細な説明などは以下Kaggleページで公開しています。ご興味があれば、是非ご覧ください。
https://www.kaggle.com/code/imnaho/tps-jun22-eda-predict

考察
今回のコンペティションは、個人的にはとても納得できる結果が出ました。
今回の分析対象のデータは、ID列を除いた80列、1000000行のデータ群でしたが、データ状態を確認したところ、単相関で相関が強い列と相関がほぼ0なデータ列が極端に分かれていることが分かりました。

(↑公開コードより単相関のheatmap画像を抜粋。黒色箇所が相関ほぼ0です。↑)
このことから、特に相関が強い列については回帰やランダムフォレストなど、数値予測としてポピュラーなアルゴリズムを利用することで、精度が高くなることが予想できますし、逆に相関ほぼ0な列については他の列はあまり気にせず、単純な平均値や中央値により補完する方が良いのではないか?と予想することができます。
上記URLで記載している公開コードでは、補完が必要な列に対し、列ごとに複数のアルゴリズムで学習させ、精度を評価しています。
具体的には、欠損値が存在しているデータ列数が55列、選定したアルゴリズムが4種類+単純な中央値補完1種類で精度を評価したため、学習と評価(RMSEの計算)は55×5=275回行っています。
結果は想定通り、相関が高い列は数値予測アルゴリズムで精密(精密さはパラメータで指定します)に予想した方が精度が高く、相関がほぼ0な列では時間をかけて学習したモデルより、単純な列毎の中央値の値の方が精度が良い、もしくはほぼ変わりなしという結果になりました。
実際にデータ補完を依頼される場合には、これで終わりではなく、結果をレポートにまとめ、特に相関が0に近いデータ列について、お客様によくよくヒアリングを行い、相関が0になる理由や、データ自体が間違っている可能性がないか、相関が高くなる可能性があるデータを追加できないか等、追加検討し、より精度の高いモデルの構築を目指します。
ともあれ、仮説がぴったり当たっているととても気持ちがいいものです。
データ状態の確認から、仮説、仮説検証の道筋を綺麗に書けたのと、これに沿って構築したモデルの予測値スコアが上場の結果だったため、公開したNotebookに対しシルバーを獲得することができました。upvoteいただいた方に感謝です。

今後もKaggle活動記録を追加していきますのでお楽しみに!

————————————————–
自己紹介
所属:株式会社アイティーシー データアナリティクス事業部
経歴:約6年間、SEとして基幹システムの運用保守、開発を担当していました。
データサイエンティストへのキャリアチェンジを試み、日々奮闘中です。
Kaggleアカウントページはこちら:https://www.kaggle.com/imnaho
LinkedInページはこちら:https://www.linkedin.com/in/naho-oka-9ba89322b/

一社)金融データ活用推進協会加盟の目的

一般社団法人金融データ活用推進協会(略称 FDUA )が6月22日の発足と同時に株式会社アイティーシー(ITC)も特別会員として加盟しました。

FDUAの主な活動内容は、
(1)金融機関のAI・データ活用推進のためのデザインパターンの作成
(2)金融業界内・関係諸団体等との情報交換や連携
(3)金融データの魅力を発信するデータ分析コンペティションの開催、運営
です。

FDUAが掲げるミッションのひとつに「地方創生」があります。
当社も地方創生を目指して活動を続けております。
趣意が一致するため、当社も特別会員として加盟いたしました。
当社はFDUAへの加盟を通じて、大手金融機関やデータ分析・AI開発のトップ企業と切磋琢磨し、最先端の情報やそれらの技術を共有および活用することで、より多くの企業にデータ分析・AIの魅力を発信し参ります。
それと並行して、岡山に最先端のデータ利活用・AI開発のノウハウを持ち帰り、企業各社がデータ活用・AIをリーズナブルに早期導入出来るようにすることで、地方の人手不足解消につなげたいと考えております。

また、地方大学でのデータ分析コンペティション開催等を通じて、地方でのデータサイエンス人材育成を盛り上げ、リスキリングすることで、企業ニーズに即した実践的なDX人材を増やし、地方活性化・地方創生に少しでも貢献できるように努力して参ります。

AIセミナー 1dayインターンシップ開催 – 2024年度

1Dayインターンシップを開催いたします。

データ分析・AI開発事業は、当社のビジネス分野の一つです。
今回の1day仕事体験では、当社が取り組んできたデータ利活用の事例をもとに、データ分析・AIの業務を学ぶことができます。
また、従来型ITから先端IT(データ分析・AI)へと激変するIT市場構造の変化もお伝えします。

職種:データサイエンティスト、システムエンジニア

対象:2024年3月大学卒/大学院了、2024年4月までに入社可能な方

AIセミナー

~ 夏季(7月、8月) 入門コース 概要 ~

☆インフラ評価システム(当社事例)から学ぶデータ分析・AI 開発
「課題」、「データ」、「ニューラルネットワークの使い方」、「可視化」、「実装」

☆AI 開発の手法を学ぶ

☆ 従来型ソフトウェアとデータ分析・AIの違い

    • 従来型ソフトウェアは効率化、データ分析・AIはベネフィット
    • ビジネスモデルを変革するデータ利活用(データ分析・AI)
    • AI開発でプラットフォーマー環境が使える場合、独自環境を構築する場合

☆ IT市場の構造の変化を知る

    • 先端ITと従来型IT
      2027年頃には市場構造が従来型ITから先端ITに逆転します
      市場構造の変化に伴い技術者もスキルの転換が必要になります
      一朝一夕には難しく当社は2015年から先端IT技術を蓄積して参りました

☆ データ分析・AIに必要な知識と人材

    • AIに必要な3つの力と開発手法を知る

☆ディスカッションとまとめ

■予定時間 10時~15時 (昼休憩1時間、途中の小休憩)

~ 冬季(11月、12月) 実践コース 予定 ~

    • 冬季実施内容は、夏季入門コースを深掘りして、より実践的な内容を計画しております。
      したがって、夏季参加者の方を対象とさせていただきます。
    • 冬季にはじめて参加される方は入門コースを別途ご用意します。

 

開催日 ①7/28 ②8/26 のどちらかを選択
実施場所詳細 オンライン開催
募集人数 20名程度
なお、最小実施人数は5名以上です
資格・対象 2024年3月に4年制大学・大学院卒業予定の方および2024年4月までに入社可能な方
※文系理系不問
エントリー方法 リクナビ2024からエントリー
準備物および服装 ・パソコン(スマホ、タブレット可)
動画をご視聴頂きますのである程度の通信帯域が必要です
・筆記用具
・服装は自由です

 

■□■□■皆さまのご応募をお待ちしております■□■□■

2023年度新卒採用 – 会社説明会のお知らせ

2023年3月に卒業予定の学生の皆さまを対象に個別会社説明会を開催します。

マイナビ2023に情報掲載中です。

マイナビ2023

会社説明会2023
■概要

募集職種 1.データ分析・人工知能開発
2.システム(ソフトウェア)開発
募集対象
  1. 2023年3月に卒業予定または2023年4月1日までに入社可能な方
  2. データ分析・AIまたはシステム開発の仕事にご興味のある方
募集学科 理系・文系、学部学科・専攻は問いません
雇用形態 正社員
持ち物 筆記用具
場所 WEB(オンライン)
時間 2時間程度
申込み締切 予定日の前日まで

■説明会プログラム

  1. データ分析・AI開発と弊社の取り組み(動画あり)
  2. 会社紹介・事業紹介
  3. 弊社の技術研修の強み(有効性)について
  4. メンバーの素顔(座談会、動画)
  5. 質疑応答
  6. 採用試験のご案内

■3月の説明会日程
※日程は随時更新していきます。

3月1日(火) 16:00
3月3日(木) 10:00
3月8日(火) 10:00
3月8日(火) 14:00
3月11日(金) 10:00
3月18日(金) 14:00
3月25日(金) 10:00
3月30日(水) 10:00

■お申し込み
マイナビもしくは弊社ホームページからお問い合わせください。

2023年度新卒採用情報を公開しました。

2023年新卒および2023年4月迄に入社可能な方を対象に会社説明会および採用選考のエントリーを随時受け付けています。
新型コロナウイルス感染拡大防止のため、会社説明会、採用試験、面接すべてオンラインを予定しております。
2023年度新卒採用情報

2023年度新卒採用

【募集職種】
先端IT領域:データ分析・AI(人工知能)
従来型IT領域:システム(ソフトウェア)開発

【募集対象】
2023年3月に卒業予定の方または2023年4月1日までに入社可能な方
データ分析・AIまたはシステム開発の仕事にご興味のある方

【募集学科】
理系・文系、学部学科・専攻は問いません。

■会社説明会プログラム

  1. データ分析・AI開発最前線
    弊社の開発事例をもとにした映像も含めて分かりやすくAIをご説明します。
  2. 一般的なシステム開発と分析・AI開発の違い
  3. 会社概要
  4. 事業概要
  5. 当社が期待する人材
  6. 福利厚生&教育研修
  7. 当社の雰囲気、若手メンバーからひと言

会社説明会への参加は事前のエントリーが必要です。
会社説明会および採用選考へのエントリーはこちらから

皆さまにお会いできる日を心よりお待ちしております。

所在地および連絡先 〒700-0901
岡山市北区本町3番13号イトーピア岡山本町ビル  総務部人事課
事業内容 システムコンサルティング
データ分析(ビッグデータ)・人工知能の製品開発
ソフトウェア開発
自社製品の製造販売
・・勤怠管理システム(クラウド、オンプレミス)

株式会社アイティーシーの社員