More Related Content Similar to AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた_Deep Learning Digital Conference_200801 (20) AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた_Deep Learning Digital Conference_2008011. DEEP LEARNING Digital Conference
20年8月1日 15:20-15:45
AI・ディープラーニングを駆使して、
「G検定合格者アンケートのフリーコメント欄」
を分析してみた
株式会社電通国際情報サービス
X(クロス)イノベーション本部 AIテクノロジー部
兼 CDLEメンバ
小川 雄太郎、御手洗拓真
[※本スライドは後ほど公開]
6. 6
小川 雄太郎 所属:電通国際情報サービス クロスイノベーション本部 AIテクノロジー部
業務:AI案件のコンサル、リード、自社AI製品の開発
兼職:日本ディープラーニング協会 委員、早稲田大学 非常勤講師、執筆業
詳細:https://github.com/YutaroOgawa/about_me
Twitter:https://twitter.com/ISID_AI_team
出版: PyTorch・発展ディープラーニング、深層強化学習、機械学習入門、因果分析
自己紹介
21. 2. 文書の特徴量作成
No. アンケート単語
1 AI, ビジネス,勉強
2 AI, ビジネス, 活用
3 AI, 勉強
No. AI ビジネス 勉強 活用
1 -0.1 0 0 0
2 -0.1 0 0 0.12
3 -0.15 0 0 0
単語に分割した文字列データを、数値データ(ベクトル)に変換(ALBERT or TF-IDF )
数値データを、可視化用に二次元(X軸とY軸)に変換(PCA or UMAP)
No. X軸 Y軸
1 0.1 0.5
2 0.5 0.6
3 0.3 0.7
ベクトル化
次元圧縮 No. AI ビジネス 勉強 活用
1 -0.1 0 0 0
2 -0.1 0 0 0.12
3 -0.15 0 0 0
X
Y
大まかな流れは、アンケートをベクトル化した後、二次元に減らしてプロット
26. 2. 文書の特徴量作成:TF-IDFの仕組み①
TF-IDF
PCA
UMAP
ベクト
ル化
次元
圧縮
No. 単語
1 AI,ビジネス, 勉強
2 AI, ビジネス, 活用
3 AI, 勉強
No AI ビジネス 勉強 活用
1 -0.1 0 0 0
2 -0.1 0 0 0.12
3 -0.15 0 0 0
No. [AI,ビジネス,勉強,活用]
1 [ -0.1, 0 , 0, 0]
2 [-0.1, 0, 0.12 ]
3 [-0.15, 0, 0,0]
TF-IDF は、 単語の重要度スコア
▼形態素解析 ▼TF-IDFでベクトル化
イメージは、「重要な単語はポイントを高く」
「そうでもない単語はポイント低く」して文章をベクトル化
ALBERT
28. 2. 文書の特徴量作成:TF-IDFの仕組み③(省略)
重要度 そうでもない度
TF-IDF
重要スコア
TF IDF= ×
例
計算
No. アンケートのトークン表現
1 AI, ビジネス, 勉強
2 AI, ビジネス, 活用
3 AI, 勉強,
AI
ビジ
ネス
勉強 活用
IDF値 -0.3 0.0 0.0 0.4
No. AI
ビジ
ネス
勉強 活用
1 0.3 0.3 0.3 0
2 0.3 0.3 0 0.3
3 0.5 0 0.5 0
No. AI
ビジ
ネス
勉
強
活用
1 -0.1 0 0 0
2 -0.1 0 0 0.12
3 -0.15 0 0 0
単語の重要スコア= 重要度 × そうでもない度
PCA
UMAP
ベクト
ル化
次元
圧縮
TF-IDF
ALBERT
34. 4. クラスタリング、5. 重要単語、 6. 要約
各文書をクラスタリング クラスターごとの
重要単語を算出
クラスターごとに、
重要単語を含む要約文を生成
おおまかな流れは、
クラスタリング ⇒ クラスターごとに重要単語算出⇒ クラスターごとに要約文生成
41. 5. 重要単語の算出:ランダムフォレスト 1vsALL
クラスタリング結果を目的変数とし
一つのクラスター vs それ以外
の二値分類モデルを
ランダムフォレストで学習
No. AI
ビジ
ネス
勉強 活用 目的変数
1 -0.1 0 0 0
クラスタ
1
2 -0.1 0 0 0.12
クラスタ
1以外
3 -0.15 0 0 0
クラスタ
1以外
AI
ビジネス
活用
E
検定
受験
勉強会
セミナー
出席
クラスター1の重要単語
クラスター2の要単語
クラスター3の要単語
ランダムフォレストの
特徴量重要度を、
そのクラスターの重要単語とする
全てのクラスターに対して、
1:二値分類モデル作成、
2:特徴量重要算出
を行う
クラスタリングの結果を正解ラベルにして、
ランダムフォレストで教師有りの二値分類
58. 付録:最近の私たちのAI関連の発表スライド
[1] NLP ソリューション開発の最前線, DLLAB 自然言語処理ナイト, 20年7月.
[2] SIerで自然言語処理AI製品をアジャイル開発した際の試行錯誤, Machine Learning 15minutes!, 20年7月.
https://www.slideshare.net/DeepLearningLab/nlp-236520444
https://drive.google.com/file/d/1xT_o7YbfLWfSBrjSw4l3-
h2uAolS9jPe/view?fbclid=IwAR3SlNzvg1kCVYZpD7IFOiBkoy9kz9RmDIkIbFGyCPw43ZpuNCCnuuaJMLM
59. 付録:最近の私たちのAI関連の発表スライド
[3] OSS プロジェクトの Issue 議論内容に対する BERT および AutoML を用いた文章分類の提案, 山田, 櫨山,
小川, 人工知能学会 2020@熊本, 20年6月.
[4] 進化するSIerの最前線!電通国際情報サービス(ISID)が先端技術の活用事例を紹介【AI編】, 芝田, 小川,
19年12月.
https://confit.atlas.jp/guide/event/jsai2020/subject/3Rin4-08/advanced
https://techplay.jp/column/910?fbclid=IwAR3Di0Wad0y2sjjnlyZHlUaa_mHzC9Cf0aSaBY6MwE_ll8tMH9rsORo7E3k
https://techplay.jp/eventreport/758740