Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

自然言語処理で新型コロナウィルスに立ち向かう

3,059 views

Published on

Structure First approach will be needed for NLP in crisis

Published in: Data & Analytics

自然言語処理で新型コロナウィルスに立ち向かう

  1. 1. Copyright © TIS Inc. All rights reserved. 自然言語処理で新型コロナウィルスに立ち向かう 戦略技術センター 久保隆宏 Structure First approach will be needed for NLP in crisis
  2. 2. Copyright © TIS Inc. All rights reserved. 2 Agenda ◼ 新型コロナウィルス対策のための自然言語処理 ◼ データセット ◼ 論文検索 ◼ 質問回答 ◼ 対話診断 ◼ 危機的状況で問われる自然言語処理の有用性 ◼ 前提 ◼ 課題 ◼ 学び ◼ 危機的状況での自然言語処理の役割 ◼ 構造化
  3. 3. Copyright © TIS Inc. All rights reserved. 3 久保隆宏 TIS株式会社 フィナンシャルサービス部 ◼ 化学系メーカーの業務コンサルタント出身。 ◼ 既存の技術では業務改善の範囲に限界があると感じ、戦略技術 センターへ異動。その後ESGxNLPの芽が出てきたので現部門に異動。 ◼ ESGだけでなく広く企業の適正評価を目指し、財務/非財務一体の評価 をテーマに研究/事業化を推進。 自己紹介 機械学習をシステムに組み込む 際の依存性管理について (@MANABIYA 2018) ESG評価を支える自然言語処理 基盤の構築 (@ML@Loft #6) Pythonで学ぶ強化学習 (@講談社サンエンティフィク)
  4. 4. Copyright © TIS Inc. All rights reserved. 4 ESG評価に関するTISの取り組みについて ◼ TISのフィナンシャルサービス部では、財務データの取り込み・診断 サービスを提供しています。 SCORE ENTRY 決算書から勘定と値を読み取るOCRサービス。 国内企業の決算書処理数シェア1位・銀行を中心とした 300を超える企業様に導入頂いています。 SCORE NAVI 財務データの診断サービス。財務上の問題点をコメント し、グラフを使いわかりやすく提供する。M&Aでの企業 評価には別途Finplusを提供。 ◼ 企業評価には財務だけでなく非財務の観点も必要です。現在非財務情報 の活用、特にESG情報の活用に力を入れています。 CoARiJ 財務データと、有価証券報告書の記載内容/CSR報告書と いった非財務データを組み合わせたデータセット。 非財務の情報(テキストでの記述)がどう財務に影響して いるか、財務パフォーマンスがどう非財務の活動に影響 を与えるかといった分析が可能。 ⇒研究・非財務利活用の土壌を醸成 コンペ開催中
  5. 5. 新型コロナウィルス対策のための自然言語処理
  6. 6. Copyright © TIS Inc. All rights reserved. 6 データセット ◼ COVID-19 Open Research Dataset (CORD-19) Allen Institute for AIが中心となり公開した、新型コ ロナに関連する論文を集めたデータセット。 52,000件のフリーアクセスの論文(うち41,000件につ いては全文)が収録されている。週次で更新されている。 ◼ COVID-19 information by language Googleが立ち上げた絶滅の危機にある言語の情報を収 集するプロジェクト。新型コロナウィルスに関する情 報も収集されており、政府やNGOなどが公式発表した リソースがまとめられている。
  7. 7. Copyright © TIS Inc. All rights reserved. 7 論文検索 ◼ CoViz データセットを公開するAllen Institute for AI が公開した、(論文内の)キーワード同士の関連 を可視化するサイト。薬学用と症例用が分かれ ている。 エッジをクリックすると、関連が含まれる論文 が表示される(一時話題になった抗マラリア薬の 情報も、COVID-19=malariaのエッジから発見 することができる)。 ◼ TREC-COVID Allen Institute for AIが公開したデータセットをベースにした検索シ ステムの構築タスク。現在はRound1で、特定のトピック(queryだけ でなくqueryの背景にある質問・状況などをセットにしたもの)に関連 するデータを抽出する。4/25(今日)からアノテーションをして評価 データセットを作っている。
  8. 8. Copyright © TIS Inc. All rights reserved. 8 質問回答 (1/2) ◼ COVID-19 Open Research Dataset Challenge (CORD-19) 新型コロナウィルスに関する科学的な質問に対 し正確・有用な情報を回答するコンペティショ ン(質問は米国科学アカデミーやWHOのR&Dブ ループリントから設定されている)。 コンペティションでは、精度と同程度に手法の 明確性・実装容易性、また可視化が評価される。 こんな感じでかなり凝っている(ドキュメントも秀逸)
  9. 9. Copyright © TIS Inc. All rights reserved. 9 質問回答 (2/2) ◼ COVID-19 Kaggle community contributions-Literature Review Kaggleが公開している、論文から新型コロナ ウィルスに関係する質問の回答まとめたページ。 潜伏期間や基礎疾患の有無による致死率など、 観点ごとにまとめられたデータを公開している。 アルゴリズムによる抽出+人手の精査で作成し ており、フォーマットに則った抽出結果を出力 するKernel(アルゴリズム部分)を募集している (詳細はこちら)。
  10. 10. Copyright © TIS Inc. All rights reserved. 10 対話診断 ◼ Testing for COVID-19: Self-Checker アメリカ疾病予防管理センター(CDC)は新型コ ロナウィルスの診察を受けるべきかを自己診断 できる対話型アプリケーションを公開している。 他にも様々な新型コロナウィルス診断の対話 サービスがあるが、同じ症状を想定して対話し ても結果が異なるという指摘あり。人間の医師 の診断もまちまちという説もあるが、Webサー ビスの場合世界中の人が使えるので影響範囲が 大きく公衆衛生に影響を与えるという意見も。
  11. 11. 危機的状況で問われる自然言語処理の有用性
  12. 12. Copyright © TIS Inc. All rights reserved. 12 ◼ この状況で有用と認められた応用例は、今後の自然言語処理の活用に 非常に重要な意味を持つ。 ◼ 一方「そもそも役に立たなかった」となれば自然言語処理の発展に 暗雲が立ち込めることになる(悪く言うと緊急時役に立たない余暇 の技術)。 ◼ 現在の挑戦の多くは、過去の「重大な失敗例」と同じ轍を踏んでいる。 ◼ 失敗から学びあるべき活用方法にたどり着く必要がある。 重大な失敗例とは・・・ 前提 (1/2)
  13. 13. Copyright © TIS Inc. All rights reserved. 13 前提 (2/2) Waton Health (※貶めるわけではなく、難題に挑戦し問題点を明らかにした先駆者としての貢献 は非常に大きいと思います) ◼ d 記事リンク https://news.livedoor.com/article/detail/14921960/ 論文検索のWatson for Oncologyや薬に 関する情報を発見するIBM Watson for Drug Discoveryなど、現状提案されて いるほぼあらゆるソリューションを完備 している。 4000億円ともいわれるその投資の結果 は、2018年5月後半に大規模なレイオフ、 公式ページも昨年から更新無し、最新の 事例は2017年・・・となっている。 この軌跡は"How IBM Watson Overpromised and Underdelivered on AI Health Care "に詳しい。
  14. 14. Copyright © TIS Inc. All rights reserved. 14 論文/カルテのマイニングを行うWatson for Oncologyで指摘された点 ◼ 頻度 != 真実 ◼ Wantsonは統計に基づき処方を提案するが実際の医者はそうしない ◼ 統計的に発見されたパターンは医学的「エビデンス」と認められない。 ◼ 情報 != 現在 ◼ あらゆる情報が「現在」の情報ではない。 ◼ テキストからの情報抽出をもとにした診断精度は90~96%だが、時系列の 診療データに対する抽出精度は63~65%と精度が30%程落ちる。 ◼ 精度 != 信頼 ◼ 提案された診断結果とエキスパートの判断の一致率が病院によって 10~30%異なる。 課題 (1/2) How IBM Watson Overpromised and Underdelivered on AI Health Care より。 近年注目されている、機械学習モデル のバイアスに近い問題。
  15. 15. Copyright © TIS Inc. All rights reserved. 15 「頻度 != 真実」は自然言語処理の有用性について根源的な問題。 ◼ 真実の情報は少ない一方、噂や憶測を含めた雑多な情報は多い。 ◼ 真実: 公的機関・政府機関・保健機関等の公表情報 ◼ その他: SNS、ニュース、ブログ記事etc... ◼ 頻度ベースで判断するとその他のノイズに引きずられることになる。 ◼ トイレットペーパーがなくなる!とか。 課題 (2/2)
  16. 16. Copyright © TIS Inc. All rights reserved. 16 ◼ Watson for Genomicsは結構使われている ◼ 患者の遺伝情報をベースに関連資料をまとめてレポートを作る ◼ 遺伝情報は構造化されていてかつ欠損がないのがポイント 当たり前だがSQLにかけられるデータが非常に役に立つ。 =>構造化されたデータに対する、曖昧性のない検索が有用。 学び
  17. 17. 危機的状況での自然言語処理の役割
  18. 18. Copyright © TIS Inc. All rights reserved. 18 ◼ 専門的知見から定義された構造に準じ非構造データを構造化する 危機的状況での自然言語処理の役割 (1/3) 構造化(前処理) 東洋経済オンライン「新型コロナウイルス 国内感染の状況」のGitHubより 構造化項目が増えるほど検索の適格性が高まる。 特にActive/Not Activeの情報(有効期間など)はとても大事。
  19. 19. Copyright © TIS Inc. All rights reserved. 19 危機的状況での自然言語処理の役割 (2/3) ◼ COVID-19 Kaggle community contributions-Literature Reviewの 活動が、一番的を得ている。 ◼ 論文情報の構造化。 〇: Structure First あるべき情報構造を決定し、非構造のデータを構造化する。 ①情報構造の決定 ②情報の抽出 ×: Data First とりあえず文書をぶっこんでセサミストリートファミリー (BERT/ELMo)で検索
  20. 20. Copyright © TIS Inc. All rights reserved. 20 自然言語処理の活躍シーンはまだまだこれから。 ◼ 特に補助金や支援の情報 ◼ 構造の定義、構造に基づいた検索がまさに求められる領域。 危機的状況での自然言語処理の役割 (3/3) 都道府県 期間 額 愛知県 4/1~12/31 30万 静岡県 4/15~9/30 15万 ・・・ ◼ 経済産業省らが頑張ってまとめてくれている。 ◼ 新型コロナウイルス感染症対策の支援情報公開・検索サービスについて ◼ こちらをベースにより有用な構造化、まだ構造化されていない補助金/ 支援情報を構造化するのはGOOD。
  21. 21. THANK YOU

×