Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

BERTによる文書系AIの取り組みと、Azureを用いたテーブルデータの説明性実現!

2,324 views

Published on

DLLAB Engineer Days Day2: Conference
Room2-4
株式会社電通国際情報サービス
小川 雄太郎 氏

Published in: Technology
  • Be the first to comment

BERTによる文書系AIの取り組みと、Azureを用いたテーブルデータの説明性実現!

  1. 1. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 0 BERTによる文書系AIの取り組みと、 Azureを用いたテーブルデータの説明性実現! (株)電通国際情報サービス(通称、ISID) クロスイノベーション本部 AIテクノロジー部 小川 雄太郎 DLLAB Engineer Days Day2: Conference 19年10月07日 14:30-15:00@東京コンファレンスセンター・品川
  2. 2. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 1 本発表の内容 01 簡単に会社と自己紹介 02 表形式データでのAzure Automated MLとExplainer 03 ISIDにおけるテキストデータ説明性技術の開発を紹介 04 おわりに
  3. 3. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 簡単に会社と自己紹介 Section 01 2
  4. 4. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 株式会社電通 3 1975年に創業 電通グループのIT集団(SIer) General Electric Company(GE) 電通国際情報サービス(ISID)
  5. 5. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 4 自己紹介の前に、皆様に質問 1. クラウドサービスを使用したことがある方? 2. Azureを使用したことがある方? 3. Azure MLサービスを使用したことがある方? 4. Azure Automated MLを使用したことがある方?
  6. 6. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 5 所属:電通国際情報サービス クロスイノベーション本部・AIテクノロジー部 兼職:早稲田大学 非常勤講師、日本ディープラーニング協会 委員 経歴:明石高専、東京大学工学部、東京大学新領域創成科学研究科 博士課程を卒業。脳科学の分野にて博士号(科学)を取得 出版:深層強化学習やPyTorchによる発展ディープラーニング本など 詳細:https://github.com/YutaroOgawa/about_me 小川 雄太郎(おがわ ゆうたろう)
  7. 7. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 表形式データでの Azure Automated MLとExplainer Section 02 6
  8. 8. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 7 表形式データ、時系列データ※に対して自動で機械学習モデルを構築 Azure Automated ML https://docs.microsoft.com/ja-jp/azure/machine-learning/service/concept-automated-ml
  9. 9. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 8 表形式データ※に対するモデルと推論結果に解釈性と説明性を与える機能 (アルゴリズムはSHAP[1]) Azure Explainer https://docs.microsoft.com/ja-jp/azure/machine-learning/service/machine-learning-interpretability-explainability ※後ほど 動画デモで詳細解説
  10. 10. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 9 Azure Explainer 解釈性(Interpretability)と 説明性(Explainability)の定義 「AIプロダクト品質保証ガイドラインAI4Q」[2]を参考に ●解釈性:アルゴリズムが予測に至るために用いるプロセスを人間が どれだけ簡単に理解しやすいかを示す(例:決定木は解釈性が高い) ●説明性:とある推論結果において、入力したデータの各説明変数が 予測結果にどの程度影響を与えたのかなどを示す 表形式データ※に対するモデルと推論結果に解釈性と説明性を与える機能
  11. 11. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 10 表形式データ:Azure Automated MLとExplainer Azure AutoMLで自動で良いモデルを作らせ、Explainerで機械学 習モデルのブラックボックス性を緩和できたら、良い感じでは? ↓ よし、タイタニック・データでやってみよう ↓ 問題に直面(次ページへ)
  12. 12. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 11 表形式データ:Azure Automated MLとExplainer タイタニック・データは例えば以下のような変数を持つ - 目的変数:生存(1) - 性別:女性 - 年齢:58才 - 兄弟、配偶者の同乗者数:0 - 両親、子供の同乗者数:0 - 部屋の階級:1 - 乗船した港:Cherbourg - 乗船料金:146.52 「カテゴリカルデータ」
  13. 13. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 12 表形式データ:Azure Automated MLとExplainer カテゴリカルデータに対する、通常の機械学習の前処理 乗船港 2 3 乗船港 B港 C港 乗船港 A 乗船港 B 乗船港 C 乗船港 Null 0 1 0 0 0 0 1 0 欠損値 処理 One-Hot Encoding One-Hot Encodingした後のデータを使うと、One-Hotの制限が無視 されるため、説明性が変になる・・・ One-Hot 前の変数で説明性が欲しい
  14. 14. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 13 表形式データ:Azure Automated MLとExplainer 解決手法(のひとつ)を紹介 ① 多重共線性処理と欠損値処理を事前に行う ② 変数の型を修正 ③ One-Hot Encodingを実施 ④ Automated MLに、③までを実施したデータを投入 ⑤ Explainerに、②までの訓練・テストデータと、④で得た学習済み モデルを投入。 Explainerの引数transformationsに③One-Hot Encoding処理をscikitlearnのColumnTransformer形式で与える
  15. 15. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 14 表形式データ:Azure Automated MLとExplainer さらなる詳細は、「タイタニックデータでのAzure Automated MLと Azure Explainerの実装コード」として、 https://github.com/YutaroOgawa/my_azure で公開しています。 (次ページ:動画デモ)
  16. 16. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 15 表形式データ:Azure Automated MLとExplainer タイタニックデータでのAzure Automated MLとExplainerの動画デモ (2倍速再生、6分30秒) ※動画は公開されておりません
  17. 17. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. ISIDにおけるテキストデータ説明性 技術の開発を紹介 Section 03 16
  18. 18. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 17 BERTによる文書系AIの取り組み 実現したいこと テキストデータの教師あり学習において、テストデータを推論した際に、 なぜそのクラスと推論されたのか、説明性を与えたい。 そこでテストデータと最もよく似ている訓練データを示し、説明する。 「このテストデータは訓練データのこちらとよく似ているのでクラス● と推論されたのです」作戦
  19. 19. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 18 BERTによる文書系AIの取り組み 手法の概要 BERT[3]を使用したテキスト分類モデルをファインチューニングで学習。 influence[4]を使用して、推論するテストデータとよく似た訓練データ を探す。
  20. 20. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 19 BERTによる文書系AIの取り組み BERTとは:自然言語処理のディープラーニングモデルです 詳細は拙著をご覧ください、実装しながら解説しています PyTorchによる発展ディープラーニング 第1章:画像分類と転移学習(VGG) 第2章:物体検出(SSD) 第3章:セマンティックセグメンテーション(PSPNet) 第4章:姿勢推定(OpenPose) 第5章:GANによる画像生成(DCGAN、Self-Attention GAN) 第6章:GANによる異常検知(AnoGAN、Efficient GAN) 第7章:自然言語処理による感情分析(Transformer) 第8章:自然言語処理による感情分析(BERT) 第9章:動画分類(3DCNN、ECO)
  21. 21. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 20 BERTによる文書系AIの取り組み influenceとは: 「とある訓練データ1つを抜いてモデルを学習させて、説明したいテス トデータを推論した際、その結果が最も変化する訓練データ」を求める。 実際に訓練データを1つずつ抜いた全パターンの学習モデルを用意して 推論するのは非現実的なので、近似計算をする。 テスト画像 類似性が高いと判明した訓練画像 類似性が低いとされた訓練画像
  22. 22. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 21 BERTによる文書系AIの取り組み 開発手法の概要 - ディープラーニングモデル:BERT - モデルの初期値:京大黒橋・川原研 BERT日本語Pretrainedモデル[5] - 分かち書き: Juman++v2[6] - データセット: livedoor ニュースコーパス(9クラス)[7] (9クラス:スポーツ、IT、家電、映画など) - ファインチューニング対象:BERTの最終Transformerと分類層 - 実装:PyTorch
  23. 23. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 22 BERTによる文書系AIの取り組み 結果:対象テストデータ (スポーツカテゴリ、テレビ番組、女子ゴルフ、苦労の話) ギャルとゴルファーからなる造語=ギャルファーを名乗る21歳、女子プロゴル ファー・金田久美子。3日深夜放送、TBS「S1」番組内「Turning Point」のコー ナーでは、美女アスリートの一人として19歳で大手スポンサーと契約を果たし、鳴 り物入りでプロ入りするも、その一年目は30試合で14回の予選落ちという苦しい 日々が続いた彼女にスポットを当てた。「このままダメなんじゃないかとか、この まま一生勝てないんじゃないかとか。ゴルフ場に着くと涙が出てくるんですよ
  24. 24. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 23 BERTによる文書系AIの取り組み 結果: BERT+influenceで計算した、最も似ている訓練データ (スポーツカテゴリ、テレビ番組、女子柔道、プレッシャーの話) 11日放送、テレビ朝日「あさナビ」には、ロンドン五輪・柔道女子57kg級金メダリ スト・松本薫が出演した。五輪の重圧について、「プレッシャーはあったんですけ ど、48kg級と52kg級の選手が試合の後、すぐに声をかけてくれて、プレッシャーは 全部吹き飛びました」と切り出した松本は、「福見選手は頑張れと。で、中村選手 は“最初の金メダルは松本さんだね”と声をかけて頂きました」と明かす。また、彼 女の代名詞となった
  25. 25. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 24 BERTによる文書系AIの取り組み 結果: BERT+influenceで計算した最も似ていない訓練データ(※Sports) (スポーツ新聞、男子サッカー、長友いじられエピソード) イタリアのスポーツ紙「ガゼッタ・デロ・スポルト」が16日、インテルのDF長友佑 都に関する記事を掲載。ロッカールームでの「いじられ役」として長友が人気者と なっており、食事の際にナプキンに大量のパルメザンチーズが仕込まれており、開 いた途端にチーズまみれになったエピソードを紹介している。しかしこの「いじ り」の内容に、ネットユーザーからは「いじり、ではなくいじめではないのか?」 と話題に。「いじめられてんじゃ
  26. 26. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. おわりに Section 04 25
  27. 27. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 26 これからのアナウンス 私たちと一緒に働いていただけるコンサルタント、エンジニアも募集中 以下サイトをご覧ください ●AIビジネスプロジェクトマネージャ https://www.isidgroup.com/u/job.phtml?job_code=532 ●データサイエンス・ビジネス開発エンジニア https://www.isidgroup.com/u/job.phtml?job_code=430 https://www.isidgroup.com/u/job.phtml?job_category_code=5&company_code=1
  28. 28. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 27 引用文献とその他、おすすめ資料 [1] SHAP。 Lundberg, S. M., & Lee, S. I. (2017). A unified approach to interpreting model predictions. In Advances in Neural Information Processing Systems (pp. 4765-4774). [2] QA4AIコンソーシアムのAIプロダクト品質保証ガイドライン(19年5月) http://www.qa4ai.jp/download/ [3] BERT。Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805. [4] influence。 Koh, P. W., & Liang, P. (2017, August). Understanding black-box predictions via influence functions. In Proceedings of the 34th International Conference on Machine Learning-Volume 70 (pp. 1885-1894). JMLR. org. [5]京都大学黒橋・川原研BERT日本語Pretrainedモデル 。http://nlp.ist.i.kyoto- u.ac.jp/index.php?BERT%E6%97%A5%E6%9C%AC%E8%AA%9EPretrained%E3%83%A2%E3%83%87%E3%83%AB [6] Juman++v2 http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN++ [7] livedoor ニュースコーパス https://www.rondhuit.com/download.html
  29. 29. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 28 [8] 機械学習モデルの判断根拠の説明、原、第20回ステアラボ人工知能セミナー 、2018.12。 https://www.slideshare.net/SatoshiHara3/ss-126157179 [9]機械学習と解釈可能性、吉永、ソフトウェアジャパン2019。 https://speakerdeck.com/line_developers/machine-learning-and-interpretability
  30. 30. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 29 [10]深層学習の判断根拠を理解するための研究とその意義、久保、PRMU 2017熊本。 https://www.slideshare.net/takahirokubo7792/prmu-2017 [11] 2019年度 人工知能学会全国大会(第33回) 企画セッション「機械学習における説明可能性・公平性・安全性への 工学的取り組み」 https://www.jst.go.jp/crds/sympo/201906_JSAI/index.html
  31. 31. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. 30 [12] Explainable AI in Industry (KDD 2019 Tutorial) https://www.slideshare.net/KrishnaramKenthapadi/explainable-ai-in-industry-kdd-2019- tutorial?utm_campaign=piqcy&utm_medium=email&utm_source=Revue%20newsletter
  32. 32. COPYRIGHT 2019 INFORMATION SERVICES INTERNATIONAL - DENTSU, LTD. ALL RIGHTS RESERVED. CONFIDENTIAL 本文書(添付資料を含む)は、株式会社電通国際情報サービスが著作権その他の権利を有する営業秘密(含サプライヤー等第三者が権利を有するもの)です。 当社の許可なく複製し利用すること、また漏洩することは「著作権法」「不正競争防止法」によって禁じられております。 本資料内の社名・製品名は各社の登録商標です。

×