SlideShare a Scribd company logo
1 of 21
Download to read offline
Copyright © TIS Inc. All rights reserved.
自然言語処理で新型コロナウィルスに立ち向かう
戦略技術センター
久保隆宏
Structure First approach will be needed for NLP in crisis
Copyright © TIS Inc. All rights reserved. 2
Agenda
◼ 新型コロナウィルス対策のための自然言語処理
◼ データセット
◼ 論文検索
◼ 質問回答
◼ 対話診断
◼ 危機的状況で問われる自然言語処理の有用性
◼ 前提
◼ 課題
◼ 学び
◼ 危機的状況での自然言語処理の役割
◼ 構造化
Copyright © TIS Inc. All rights reserved. 3
久保隆宏
TIS株式会社 フィナンシャルサービス部
◼ 化学系メーカーの業務コンサルタント出身。
◼ 既存の技術では業務改善の範囲に限界があると感じ、戦略技術
センターへ異動。その後ESGxNLPの芽が出てきたので現部門に異動。
◼ ESGだけでなく広く企業の適正評価を目指し、財務/非財務一体の評価
をテーマに研究/事業化を推進。
自己紹介
機械学習をシステムに組み込む
際の依存性管理について
(@MANABIYA 2018)
ESG評価を支える自然言語処理
基盤の構築
(@ML@Loft #6)
Pythonで学ぶ強化学習
(@講談社サンエンティフィク)
Copyright © TIS Inc. All rights reserved. 4
ESG評価に関するTISの取り組みについて
◼ TISのフィナンシャルサービス部では、財務データの取り込み・診断
サービスを提供しています。
SCORE ENTRY
決算書から勘定と値を読み取るOCRサービス。
国内企業の決算書処理数シェア1位・銀行を中心とした
300を超える企業様に導入頂いています。
SCORE NAVI
財務データの診断サービス。財務上の問題点をコメント
し、グラフを使いわかりやすく提供する。M&Aでの企業
評価には別途Finplusを提供。
◼ 企業評価には財務だけでなく非財務の観点も必要です。現在非財務情報
の活用、特にESG情報の活用に力を入れています。
CoARiJ
財務データと、有価証券報告書の記載内容/CSR報告書と
いった非財務データを組み合わせたデータセット。
非財務の情報(テキストでの記述)がどう財務に影響して
いるか、財務パフォーマンスがどう非財務の活動に影響
を与えるかといった分析が可能。
⇒研究・非財務利活用の土壌を醸成
コンペ開催中
新型コロナウィルス対策のための自然言語処理
Copyright © TIS Inc. All rights reserved. 6
データセット
◼ COVID-19 Open Research Dataset (CORD-19)
Allen Institute for AIが中心となり公開した、新型コ
ロナに関連する論文を集めたデータセット。
52,000件のフリーアクセスの論文(うち41,000件につ
いては全文)が収録されている。週次で更新されている。
◼ COVID-19 information by language
Googleが立ち上げた絶滅の危機にある言語の情報を収
集するプロジェクト。新型コロナウィルスに関する情
報も収集されており、政府やNGOなどが公式発表した
リソースがまとめられている。
Copyright © TIS Inc. All rights reserved. 7
論文検索
◼ CoViz
データセットを公開するAllen Institute for AI
が公開した、(論文内の)キーワード同士の関連
を可視化するサイト。薬学用と症例用が分かれ
ている。
エッジをクリックすると、関連が含まれる論文
が表示される(一時話題になった抗マラリア薬の
情報も、COVID-19=malariaのエッジから発見
することができる)。
◼ TREC-COVID
Allen Institute for AIが公開したデータセットをベースにした検索シ
ステムの構築タスク。現在はRound1で、特定のトピック(queryだけ
でなくqueryの背景にある質問・状況などをセットにしたもの)に関連
するデータを抽出する。4/25(今日)からアノテーションをして評価
データセットを作っている。
Copyright © TIS Inc. All rights reserved. 8
質問回答 (1/2)
◼ COVID-19 Open Research Dataset Challenge (CORD-19)
新型コロナウィルスに関する科学的な質問に対
し正確・有用な情報を回答するコンペティショ
ン(質問は米国科学アカデミーやWHOのR&Dブ
ループリントから設定されている)。
コンペティションでは、精度と同程度に手法の
明確性・実装容易性、また可視化が評価される。
こんな感じでかなり凝っている(ドキュメントも秀逸)
Copyright © TIS Inc. All rights reserved. 9
質問回答 (2/2)
◼ COVID-19 Kaggle community contributions-Literature Review
Kaggleが公開している、論文から新型コロナ
ウィルスに関係する質問の回答まとめたページ。
潜伏期間や基礎疾患の有無による致死率など、
観点ごとにまとめられたデータを公開している。
アルゴリズムによる抽出+人手の精査で作成し
ており、フォーマットに則った抽出結果を出力
するKernel(アルゴリズム部分)を募集している
(詳細はこちら)。
Copyright © TIS Inc. All rights reserved. 10
対話診断
◼ Testing for COVID-19: Self-Checker
アメリカ疾病予防管理センター(CDC)は新型コ
ロナウィルスの診察を受けるべきかを自己診断
できる対話型アプリケーションを公開している。
他にも様々な新型コロナウィルス診断の対話
サービスがあるが、同じ症状を想定して対話し
ても結果が異なるという指摘あり。人間の医師
の診断もまちまちという説もあるが、Webサー
ビスの場合世界中の人が使えるので影響範囲が
大きく公衆衛生に影響を与えるという意見も。
危機的状況で問われる自然言語処理の有用性
Copyright © TIS Inc. All rights reserved. 12
◼ この状況で有用と認められた応用例は、今後の自然言語処理の活用に
非常に重要な意味を持つ。
◼ 一方「そもそも役に立たなかった」となれば自然言語処理の発展に
暗雲が立ち込めることになる(悪く言うと緊急時役に立たない余暇
の技術)。
◼ 現在の挑戦の多くは、過去の「重大な失敗例」と同じ轍を踏んでいる。
◼ 失敗から学びあるべき活用方法にたどり着く必要がある。
重大な失敗例とは・・・
前提 (1/2)
Copyright © TIS Inc. All rights reserved. 13
前提 (2/2)
Waton Health
(※貶めるわけではなく、難題に挑戦し問題点を明らかにした先駆者としての貢献
は非常に大きいと思います)
◼ d
記事リンク
https://news.livedoor.com/article/detail/14921960/
論文検索のWatson for Oncologyや薬に
関する情報を発見するIBM Watson for
Drug Discoveryなど、現状提案されて
いるほぼあらゆるソリューションを完備
している。
4000億円ともいわれるその投資の結果
は、2018年5月後半に大規模なレイオフ、
公式ページも昨年から更新無し、最新の
事例は2017年・・・となっている。
この軌跡は"How IBM Watson
Overpromised and Underdelivered on
AI Health Care "に詳しい。
Copyright © TIS Inc. All rights reserved. 14
論文/カルテのマイニングを行うWatson for Oncologyで指摘された点
◼ 頻度 != 真実
◼ Wantsonは統計に基づき処方を提案するが実際の医者はそうしない
◼ 統計的に発見されたパターンは医学的「エビデンス」と認められない。
◼ 情報 != 現在
◼ あらゆる情報が「現在」の情報ではない。
◼ テキストからの情報抽出をもとにした診断精度は90~96%だが、時系列の
診療データに対する抽出精度は63~65%と精度が30%程落ちる。
◼ 精度 != 信頼
◼ 提案された診断結果とエキスパートの判断の一致率が病院によって
10~30%異なる。
課題 (1/2)
How IBM Watson Overpromised and Underdelivered
on AI Health Care より。
近年注目されている、機械学習モデル
のバイアスに近い問題。
Copyright © TIS Inc. All rights reserved. 15
「頻度 != 真実」は自然言語処理の有用性について根源的な問題。
◼ 真実の情報は少ない一方、噂や憶測を含めた雑多な情報は多い。
◼ 真実: 公的機関・政府機関・保健機関等の公表情報
◼ その他: SNS、ニュース、ブログ記事etc...
◼ 頻度ベースで判断するとその他のノイズに引きずられることになる。
◼ トイレットペーパーがなくなる!とか。
課題 (2/2)
Copyright © TIS Inc. All rights reserved. 16
◼ Watson for Genomicsは結構使われている
◼ 患者の遺伝情報をベースに関連資料をまとめてレポートを作る
◼ 遺伝情報は構造化されていてかつ欠損がないのがポイント
当たり前だがSQLにかけられるデータが非常に役に立つ。
=>構造化されたデータに対する、曖昧性のない検索が有用。
学び
危機的状況での自然言語処理の役割
Copyright © TIS Inc. All rights reserved. 18
◼ 専門的知見から定義された構造に準じ非構造データを構造化する
危機的状況での自然言語処理の役割 (1/3)
構造化(前処理)
東洋経済オンライン「新型コロナウイルス 国内感染の状況」のGitHubより
構造化項目が増えるほど検索の適格性が高まる。
特にActive/Not Activeの情報(有効期間など)はとても大事。
Copyright © TIS Inc. All rights reserved. 19
危機的状況での自然言語処理の役割 (2/3)
◼ COVID-19 Kaggle community contributions-Literature Reviewの
活動が、一番的を得ている。
◼ 論文情報の構造化。
〇: Structure First
あるべき情報構造を決定し、非構造のデータを構造化する。
①情報構造の決定
②情報の抽出
×: Data First
とりあえず文書をぶっこんでセサミストリートファミリー
(BERT/ELMo)で検索
Copyright © TIS Inc. All rights reserved. 20
自然言語処理の活躍シーンはまだまだこれから。
◼ 特に補助金や支援の情報
◼ 構造の定義、構造に基づいた検索がまさに求められる領域。
危機的状況での自然言語処理の役割 (3/3)
都道府県 期間 額
愛知県 4/1~12/31 30万
静岡県 4/15~9/30 15万
・・・
◼ 経済産業省らが頑張ってまとめてくれている。
◼ 新型コロナウイルス感染症対策の支援情報公開・検索サービスについて
◼ こちらをベースにより有用な構造化、まだ構造化されていない補助金/
支援情報を構造化するのはGOOD。
THANK YOU

More Related Content

What's hot

財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けて財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けてTakahiro Kubo
 
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本Takahiro Kubo
 
機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発Takahiro Kubo
 
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイントNaoki Ohsugi
 
機械学習技術の紹介
機械学習技術の紹介機械学習技術の紹介
機械学習技術の紹介Takahiro Kubo
 
Reinforcement Learning Inside Business
Reinforcement Learning Inside BusinessReinforcement Learning Inside Business
Reinforcement Learning Inside BusinessTakahiro Kubo
 
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-Takahiro Kubo
 
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-Takahiro Kubo
 
kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理
kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理
kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理Takahiro Kubo
 
なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~
なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~
なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~正善 大島
 
データサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティストデータサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティストThe Japan DataScientist Society
 
Corex ロジカルシンキング(論理的思考)研修
Corex ロジカルシンキング(論理的思考)研修Corex ロジカルシンキング(論理的思考)研修
Corex ロジカルシンキング(論理的思考)研修Daisuke Kaita
 

What's hot (14)

財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けて財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けて
 
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
 
SQiPシンポジウムアブストラクト作成のポイント
SQiPシンポジウムアブストラクト作成のポイントSQiPシンポジウムアブストラクト作成のポイント
SQiPシンポジウムアブストラクト作成のポイント
 
機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発
 
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
 
機械学習技術の紹介
機械学習技術の紹介機械学習技術の紹介
機械学習技術の紹介
 
Reinforcement Learning Inside Business
Reinforcement Learning Inside BusinessReinforcement Learning Inside Business
Reinforcement Learning Inside Business
 
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
 
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-
 
kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理
kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理
kintone Cafe Japan 2016: kintone x 機械学習で実現する簡単名刺管理
 
2012就職活動すすめかた【投影資料】
2012就職活動すすめかた【投影資料】2012就職活動すすめかた【投影資料】
2012就職活動すすめかた【投影資料】
 
なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~
なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~
なぜ、現状の基幹業務システムは、ビジネス環境の変化に迅速に対応できないのか? ~超高速開発ツールの導入が必然である理由~
 
データサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティストデータサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティスト
 
Corex ロジカルシンキング(論理的思考)研修
Corex ロジカルシンキング(論理的思考)研修Corex ロジカルシンキング(論理的思考)研修
Corex ロジカルシンキング(論理的思考)研修
 

Similar to 自然言語処理で新型コロナウィルスに立ち向かう

ソフト業界生き残りの条件
ソフト業界生き残りの条件ソフト業界生き残りの条件
ソフト業界生き残りの条件Katsuhide Hirai
 
AIによる経済情報の活用
AIによる経済情報の活用AIによる経済情報の活用
AIによる経済情報の活用Akira Kitauchi
 
第44回千葉県経営研究集会第3分科会講演資料
第44回千葉県経営研究集会第3分科会講演資料第44回千葉県経営研究集会第3分科会講演資料
第44回千葉県経営研究集会第3分科会講演資料NPO Information Gap Buster
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理Preferred Networks
 
白砂青松プロジェクト
白砂青松プロジェクト白砂青松プロジェクト
白砂青松プロジェクトTOCInGovernment
 
脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理
脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理
脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理Takayuki Ushida
 
「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するには「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するにはTakahiro Kubo
 

Similar to 自然言語処理で新型コロナウィルスに立ち向かう (13)

ソフト業界生き残りの条件
ソフト業界生き残りの条件ソフト業界生き残りの条件
ソフト業界生き残りの条件
 
AIによる経済情報の活用
AIによる経済情報の活用AIによる経済情報の活用
AIによる経済情報の活用
 
第44回千葉県経営研究集会第3分科会講演資料
第44回千葉県経営研究集会第3分科会講演資料第44回千葉県経営研究集会第3分科会講演資料
第44回千葉県経営研究集会第3分科会講演資料
 
Flu and BCM
Flu and BCMFlu and BCM
Flu and BCM
 
20110723 jmrx message_v2
20110723 jmrx message_v220110723 jmrx message_v2
20110723 jmrx message_v2
 
Startup Science ③
Startup Science ③Startup Science ③
Startup Science ③
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
I-TRIZ の概要
I-TRIZ の概要 I-TRIZ の概要
I-TRIZ の概要
 
脆弱性情報はこうしてやってくる
脆弱性情報はこうしてやってくる脆弱性情報はこうしてやってくる
脆弱性情報はこうしてやってくる
 
bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
 
白砂青松プロジェクト
白砂青松プロジェクト白砂青松プロジェクト
白砂青松プロジェクト
 
脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理
脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理
脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理
 
「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するには「人工知能」をあなたのビジネスで活用するには
「人工知能」をあなたのビジネスで活用するには
 

More from Takahiro Kubo

自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析Takahiro Kubo
 
国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法Takahiro Kubo
 
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してExpressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してTakahiro Kubo
 
あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用Takahiro Kubo
 
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章Takahiro Kubo
 
Curiosity may drives your output routine.
Curiosity may drives  your output routine.Curiosity may drives  your output routine.
Curiosity may drives your output routine.Takahiro Kubo
 
2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由Takahiro Kubo
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention NetworkTakahiro Kubo
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018Takahiro Kubo
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析Takahiro Kubo
 
機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理Takahiro Kubo
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...Takahiro Kubo
 
技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>Takahiro Kubo
 
kintone evangelist meetup 2017
kintone evangelist meetup 2017kintone evangelist meetup 2017
kintone evangelist meetup 2017Takahiro Kubo
 
機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~
機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~
機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~Takahiro Kubo
 
kintone Café 大阪 Vol.13 〜karuraで学ぶ、機械学習の活かし方〜
kintone Café 大阪 Vol.13 〜karuraで学ぶ、機械学習の活かし方〜kintone Café 大阪 Vol.13 〜karuraで学ぶ、機械学習の活かし方〜
kintone Café 大阪 Vol.13 〜karuraで学ぶ、機械学習の活かし方〜Takahiro Kubo
 
「人工知能」との正しい付き合い方
「人工知能」との正しい付き合い方「人工知能」との正しい付き合い方
「人工知能」との正しい付き合い方Takahiro Kubo
 
Tech Circle #23 Next Music Production by Google Magenta
Tech Circle #23 Next Music Productionby Google MagentaTech Circle #23 Next Music Productionby Google Magenta
Tech Circle #23 Next Music Production by Google MagentaTakahiro Kubo
 
開発の本質:チケット数を1/100にする方法
開発の本質:チケット数を1/100にする方法開発の本質:チケット数を1/100にする方法
開発の本質:チケット数を1/100にする方法Takahiro Kubo
 

More from Takahiro Kubo (19)

自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析
 
国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法
 
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してExpressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
 
あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用
 
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
 
Curiosity may drives your output routine.
Curiosity may drives  your output routine.Curiosity may drives  your output routine.
Curiosity may drives your output routine.
 
2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析
 
機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
 
技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>
 
kintone evangelist meetup 2017
kintone evangelist meetup 2017kintone evangelist meetup 2017
kintone evangelist meetup 2017
 
機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~
機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~
機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~
 
kintone Café 大阪 Vol.13 〜karuraで学ぶ、機械学習の活かし方〜
kintone Café 大阪 Vol.13 〜karuraで学ぶ、機械学習の活かし方〜kintone Café 大阪 Vol.13 〜karuraで学ぶ、機械学習の活かし方〜
kintone Café 大阪 Vol.13 〜karuraで学ぶ、機械学習の活かし方〜
 
「人工知能」との正しい付き合い方
「人工知能」との正しい付き合い方「人工知能」との正しい付き合い方
「人工知能」との正しい付き合い方
 
Tech Circle #23 Next Music Production by Google Magenta
Tech Circle #23 Next Music Productionby Google MagentaTech Circle #23 Next Music Productionby Google Magenta
Tech Circle #23 Next Music Production by Google Magenta
 
開発の本質:チケット数を1/100にする方法
開発の本質:チケット数を1/100にする方法開発の本質:チケット数を1/100にする方法
開発の本質:チケット数を1/100にする方法
 

自然言語処理で新型コロナウィルスに立ち向かう

  • 1. Copyright © TIS Inc. All rights reserved. 自然言語処理で新型コロナウィルスに立ち向かう 戦略技術センター 久保隆宏 Structure First approach will be needed for NLP in crisis
  • 2. Copyright © TIS Inc. All rights reserved. 2 Agenda ◼ 新型コロナウィルス対策のための自然言語処理 ◼ データセット ◼ 論文検索 ◼ 質問回答 ◼ 対話診断 ◼ 危機的状況で問われる自然言語処理の有用性 ◼ 前提 ◼ 課題 ◼ 学び ◼ 危機的状況での自然言語処理の役割 ◼ 構造化
  • 3. Copyright © TIS Inc. All rights reserved. 3 久保隆宏 TIS株式会社 フィナンシャルサービス部 ◼ 化学系メーカーの業務コンサルタント出身。 ◼ 既存の技術では業務改善の範囲に限界があると感じ、戦略技術 センターへ異動。その後ESGxNLPの芽が出てきたので現部門に異動。 ◼ ESGだけでなく広く企業の適正評価を目指し、財務/非財務一体の評価 をテーマに研究/事業化を推進。 自己紹介 機械学習をシステムに組み込む 際の依存性管理について (@MANABIYA 2018) ESG評価を支える自然言語処理 基盤の構築 (@ML@Loft #6) Pythonで学ぶ強化学習 (@講談社サンエンティフィク)
  • 4. Copyright © TIS Inc. All rights reserved. 4 ESG評価に関するTISの取り組みについて ◼ TISのフィナンシャルサービス部では、財務データの取り込み・診断 サービスを提供しています。 SCORE ENTRY 決算書から勘定と値を読み取るOCRサービス。 国内企業の決算書処理数シェア1位・銀行を中心とした 300を超える企業様に導入頂いています。 SCORE NAVI 財務データの診断サービス。財務上の問題点をコメント し、グラフを使いわかりやすく提供する。M&Aでの企業 評価には別途Finplusを提供。 ◼ 企業評価には財務だけでなく非財務の観点も必要です。現在非財務情報 の活用、特にESG情報の活用に力を入れています。 CoARiJ 財務データと、有価証券報告書の記載内容/CSR報告書と いった非財務データを組み合わせたデータセット。 非財務の情報(テキストでの記述)がどう財務に影響して いるか、財務パフォーマンスがどう非財務の活動に影響 を与えるかといった分析が可能。 ⇒研究・非財務利活用の土壌を醸成 コンペ開催中
  • 6. Copyright © TIS Inc. All rights reserved. 6 データセット ◼ COVID-19 Open Research Dataset (CORD-19) Allen Institute for AIが中心となり公開した、新型コ ロナに関連する論文を集めたデータセット。 52,000件のフリーアクセスの論文(うち41,000件につ いては全文)が収録されている。週次で更新されている。 ◼ COVID-19 information by language Googleが立ち上げた絶滅の危機にある言語の情報を収 集するプロジェクト。新型コロナウィルスに関する情 報も収集されており、政府やNGOなどが公式発表した リソースがまとめられている。
  • 7. Copyright © TIS Inc. All rights reserved. 7 論文検索 ◼ CoViz データセットを公開するAllen Institute for AI が公開した、(論文内の)キーワード同士の関連 を可視化するサイト。薬学用と症例用が分かれ ている。 エッジをクリックすると、関連が含まれる論文 が表示される(一時話題になった抗マラリア薬の 情報も、COVID-19=malariaのエッジから発見 することができる)。 ◼ TREC-COVID Allen Institute for AIが公開したデータセットをベースにした検索シ ステムの構築タスク。現在はRound1で、特定のトピック(queryだけ でなくqueryの背景にある質問・状況などをセットにしたもの)に関連 するデータを抽出する。4/25(今日)からアノテーションをして評価 データセットを作っている。
  • 8. Copyright © TIS Inc. All rights reserved. 8 質問回答 (1/2) ◼ COVID-19 Open Research Dataset Challenge (CORD-19) 新型コロナウィルスに関する科学的な質問に対 し正確・有用な情報を回答するコンペティショ ン(質問は米国科学アカデミーやWHOのR&Dブ ループリントから設定されている)。 コンペティションでは、精度と同程度に手法の 明確性・実装容易性、また可視化が評価される。 こんな感じでかなり凝っている(ドキュメントも秀逸)
  • 9. Copyright © TIS Inc. All rights reserved. 9 質問回答 (2/2) ◼ COVID-19 Kaggle community contributions-Literature Review Kaggleが公開している、論文から新型コロナ ウィルスに関係する質問の回答まとめたページ。 潜伏期間や基礎疾患の有無による致死率など、 観点ごとにまとめられたデータを公開している。 アルゴリズムによる抽出+人手の精査で作成し ており、フォーマットに則った抽出結果を出力 するKernel(アルゴリズム部分)を募集している (詳細はこちら)。
  • 10. Copyright © TIS Inc. All rights reserved. 10 対話診断 ◼ Testing for COVID-19: Self-Checker アメリカ疾病予防管理センター(CDC)は新型コ ロナウィルスの診察を受けるべきかを自己診断 できる対話型アプリケーションを公開している。 他にも様々な新型コロナウィルス診断の対話 サービスがあるが、同じ症状を想定して対話し ても結果が異なるという指摘あり。人間の医師 の診断もまちまちという説もあるが、Webサー ビスの場合世界中の人が使えるので影響範囲が 大きく公衆衛生に影響を与えるという意見も。
  • 12. Copyright © TIS Inc. All rights reserved. 12 ◼ この状況で有用と認められた応用例は、今後の自然言語処理の活用に 非常に重要な意味を持つ。 ◼ 一方「そもそも役に立たなかった」となれば自然言語処理の発展に 暗雲が立ち込めることになる(悪く言うと緊急時役に立たない余暇 の技術)。 ◼ 現在の挑戦の多くは、過去の「重大な失敗例」と同じ轍を踏んでいる。 ◼ 失敗から学びあるべき活用方法にたどり着く必要がある。 重大な失敗例とは・・・ 前提 (1/2)
  • 13. Copyright © TIS Inc. All rights reserved. 13 前提 (2/2) Waton Health (※貶めるわけではなく、難題に挑戦し問題点を明らかにした先駆者としての貢献 は非常に大きいと思います) ◼ d 記事リンク https://news.livedoor.com/article/detail/14921960/ 論文検索のWatson for Oncologyや薬に 関する情報を発見するIBM Watson for Drug Discoveryなど、現状提案されて いるほぼあらゆるソリューションを完備 している。 4000億円ともいわれるその投資の結果 は、2018年5月後半に大規模なレイオフ、 公式ページも昨年から更新無し、最新の 事例は2017年・・・となっている。 この軌跡は"How IBM Watson Overpromised and Underdelivered on AI Health Care "に詳しい。
  • 14. Copyright © TIS Inc. All rights reserved. 14 論文/カルテのマイニングを行うWatson for Oncologyで指摘された点 ◼ 頻度 != 真実 ◼ Wantsonは統計に基づき処方を提案するが実際の医者はそうしない ◼ 統計的に発見されたパターンは医学的「エビデンス」と認められない。 ◼ 情報 != 現在 ◼ あらゆる情報が「現在」の情報ではない。 ◼ テキストからの情報抽出をもとにした診断精度は90~96%だが、時系列の 診療データに対する抽出精度は63~65%と精度が30%程落ちる。 ◼ 精度 != 信頼 ◼ 提案された診断結果とエキスパートの判断の一致率が病院によって 10~30%異なる。 課題 (1/2) How IBM Watson Overpromised and Underdelivered on AI Health Care より。 近年注目されている、機械学習モデル のバイアスに近い問題。
  • 15. Copyright © TIS Inc. All rights reserved. 15 「頻度 != 真実」は自然言語処理の有用性について根源的な問題。 ◼ 真実の情報は少ない一方、噂や憶測を含めた雑多な情報は多い。 ◼ 真実: 公的機関・政府機関・保健機関等の公表情報 ◼ その他: SNS、ニュース、ブログ記事etc... ◼ 頻度ベースで判断するとその他のノイズに引きずられることになる。 ◼ トイレットペーパーがなくなる!とか。 課題 (2/2)
  • 16. Copyright © TIS Inc. All rights reserved. 16 ◼ Watson for Genomicsは結構使われている ◼ 患者の遺伝情報をベースに関連資料をまとめてレポートを作る ◼ 遺伝情報は構造化されていてかつ欠損がないのがポイント 当たり前だがSQLにかけられるデータが非常に役に立つ。 =>構造化されたデータに対する、曖昧性のない検索が有用。 学び
  • 18. Copyright © TIS Inc. All rights reserved. 18 ◼ 専門的知見から定義された構造に準じ非構造データを構造化する 危機的状況での自然言語処理の役割 (1/3) 構造化(前処理) 東洋経済オンライン「新型コロナウイルス 国内感染の状況」のGitHubより 構造化項目が増えるほど検索の適格性が高まる。 特にActive/Not Activeの情報(有効期間など)はとても大事。
  • 19. Copyright © TIS Inc. All rights reserved. 19 危機的状況での自然言語処理の役割 (2/3) ◼ COVID-19 Kaggle community contributions-Literature Reviewの 活動が、一番的を得ている。 ◼ 論文情報の構造化。 〇: Structure First あるべき情報構造を決定し、非構造のデータを構造化する。 ①情報構造の決定 ②情報の抽出 ×: Data First とりあえず文書をぶっこんでセサミストリートファミリー (BERT/ELMo)で検索
  • 20. Copyright © TIS Inc. All rights reserved. 20 自然言語処理の活躍シーンはまだまだこれから。 ◼ 特に補助金や支援の情報 ◼ 構造の定義、構造に基づいた検索がまさに求められる領域。 危機的状況での自然言語処理の役割 (3/3) 都道府県 期間 額 愛知県 4/1~12/31 30万 静岡県 4/15~9/30 15万 ・・・ ◼ 経済産業省らが頑張ってまとめてくれている。 ◼ 新型コロナウイルス感染症対策の支援情報公開・検索サービスについて ◼ こちらをベースにより有用な構造化、まだ構造化されていない補助金/ 支援情報を構造化するのはGOOD。