SlideShare a Scribd company logo
1 of 23
Download to read offline
Copyright © TIS Inc. All rights reserved.
自然言語処理で読み解く金融文書
戦略技術センター
久保隆宏
Survey for NLP deals with financial documents
Copyright © TIS Inc. All rights reserved. 2
Agenda
◼ 自然言語処理 x 金融文書の現状
◼ 研究x活用の状況
◼ 活用領域ピックアップ
◼ Risk Management
◼ Asset Management
◼ 現状と今後の発展
Copyright © TIS Inc. All rights reserved. 3
久保隆宏
TIS株式会社 フィナンシャルサービス部
◼ 化学系メーカーの業務コンサルタント出身。
◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦
略技術センターへと異動。
◼ 現在は財務/非財務一体の企業評価を目指し、主にESG投資への活用を
テーマとした研究/事業化を担当。
自己紹介
チュートリアル講演:深層学習
の判断根拠を理解するための研
究とその意義(@PRMU 2017)
機械学習をシステムに組み込む
際の依存性管理について
(@MANABIYA 2018)
あるべきESG投資の評価に向け
た、自然言語処理の活用
(@CCSE 2019)
Copyright © TIS Inc. All rights reserved. 4
自然言語処理 x 金融文書の現状
ACL系
NeurIPS
AAAI系
KDD
2018 2019 2020
ECONLP 2018
@ ACL2018
ECONLP 2019
@ EMNLP2019
ECONLP 2020
@ ?
Robust AI in FS
@ NeurIPS2019
FinNLP & FinSDB
@ IJCAI2019
KDF
@ AAAI2020
ADF 2019
@ KDD2019
ADF 2017
@ KDD2017
FNP 2018
@ LREC2018
FNP 2019
@ NoDaLiDa 2019
FNP 2020
@ COLING2020
2018~2019年にかけ、多くの国際カンファレンスでワークショップが立ち上が
る(●が初回開催、○が継続)。自然言語処理応用の一分野として確立しつつある。
開催確定
復活
Copyright © TIS Inc. All rights reserved. 5
研究x活用の状況 (1/4)
◼ 研究x活用の状況は、概ね以下のようになっている。
◼ 色が濃い方が盛んで、左下 が研究、右上 が応用。
Marketing Investment Risk
Management
Compliance Asset
Management
Classification
Sentiment Analysis
Clustering
QA/Dialog
Relation Extraction
Event Extraction
Copyright © TIS Inc. All rights reserved. 6
研究x活用の状況 (2/4)
活用領域の分類
("Machine learning in UK financial services"をベースに作成)
Asset Management
Risk Management
Marketing Investment
Compliance
顧客管理、取引管理を行うことで資産の
安全性を担保する
定められた内部ルール(内規)への適合性を
検証し、活動の安全性を担保する
投資活動を通じて資産を増やす営業活動を通じて顧客を増やす
リソース(内部文書/外部情報(SNS等))の活用を通じて各活動の支援を行う。
Copyright © TIS Inc. All rights reserved. 7
研究x活用の状況 (3/4)
ざっくりとした傾向
◼ 研究
◼ Asset Managementに関する研究、特にテキストから市場動向を探
るような研究が多い(株価予測含む)。
◼ 実用でニーズのあるRisk Management(アンチマネーロンダリング
/破産予測など)の研究も行われている。
◼ 実用
◼ 内部的に持っていたモデルを機械学習に置き換えるケースが多い。
◼ Risk Management: アンチマネーロンダリング/信用リスク予測等。
◼ (内部データを使うので、モデルは内製することが多い)。
◼ Marketingに使うチャットボットなども試験的に導入されている。
◼ 熟練営業担当者並みになったという報告もある。
◼ ただ、金融独自というより既存の営業xチャットボットの文脈上にある。
◼ Asset Management/Investmentは道半ば
◼ 研究は盛んだが、顕著な応用例は出ていない。
Copyright © TIS Inc. All rights reserved. 8
研究x活用の状況 (4/4)
◼ ここからは以下の注目領域に絞って紹介を行う。
◼ 研究x活用共に盛んな領域としてRisk Management
◼ 研究が先行している領域としてAsset Management
Marketing Investment Risk
Management
Compliance Asset
Management
Classification
Sentiment Analysis
Clustering
QA/Dialog
Relation Extraction
Event Extraction
Copyright © TIS Inc. All rights reserved. 9
研究領域ピックアップ: Risk Management (1/6)
Risk Managementの代表例は以下2点となる。
◼ AML: Anti-Money Laundering
◼ 不正な取引の予防と検知。
◼ 予防: フィルタリング
◼ サービス利用者の同一性(本人であるか)、信用性(暴力団とかじゃない
か)を判定する。前者はKYC(Know Your Customer)/CDD(Customer
Due Diligence)とも呼ばれる。
◼ 検知: トランザクション・モニタリング
◼ 不正取引の傾向を見つけてアラートを行う。
◼ Fraud Detectionと同種。最近Amazonがサービスを公開した。
◼ Bankruptcy Prediction
◼ (取引先が)破産しないか予測する。
Copyright © TIS Inc. All rights reserved. 10
研究領域ピックアップ: Risk Management (2/6)
Risk Management系の研究は以下のようなものがある。
◼ AML: Anti-Money Laundering
◼ 予防: フィルタリング
◼ NextGen AML: Distributed Deep Learning based Language
Technologies to Augment Anti Money Laundering Investigation
◼ ACL2018 System Demonstrationに採択。
◼ Are You for Real? Detecting Identity Fraud via Dialogue
Interactions
◼ EMNLP2019採択。
◼ 検知: トランザクション・モニタリング
◼ Detecting money laundering and terrorist financing via data
mining
◼ KDD2019 Invited Talk。
◼ Automatic Model Monitoring for Data Streams
◼ KDD2019 Poster。
Copyright © TIS Inc. All rights reserved. 11
研究領域ピックアップ: Risk Management (3/6)
NextGen AML: Distributed Deep Learning based Language
Technologies to Augment Anti Money Laundering Investigation
アンチマネーロンダリングでは基本的に
False Positiveになるケースが多い(本当はシ
ロだがクロと判定してしまう) 。
「不正取引を見逃してました」、「実は暴力
団関係者でした」という事態が許されないた
め。
そのためクロ判定後の確認作業を支援するシ
ステムを構築(支援している顧客の回答では、
30%ほど確認時間を削減できたとのこと)。
ニュースやツイートのセンチメント抽出、固
有表現/関係認識からのネットワーク構築を
行うことで情報探索を支援する。開発は
Accenture Labsがメインのよう。
Copyright © TIS Inc. All rights reserved. 12
研究領域ピックアップ: Risk Management (4/6)
Are You for Real? Detecting Identity Fraud via Dialogue Interactions
本人確認を行う対話システムの提案。対話を通じて、本人かどうか(=別の人に成
りすましていないか)を検出する。既存の研究は、マルチモーダルな特徴(画像や
音声)を使うものが多い(Detecting Concealed Information in Text and Speech
@ACL2019)。
Userをルートとしたグラフで個人情報を表現。地理的な情報(出身地や出身大学)
に周辺地理情報を付与する。グラフのトリプル(筑波大/最寄り駅/つくば駅)から
質問を生成し、回答結果でグラフを更新。詐称を見抜けたかどうかを報酬として
強化学習で学習する。ローン審査のユーザーシミュレーターを作り検証。
Copyright © TIS Inc. All rights reserved. 13
研究領域ピックアップ: Risk Management (5/6)
Detecting money laundering and terrorist financing via data mining
マネーロンダリングを検知するための基本的な仕組みの説明。
わかりやすいマネーロンダリングの仕組み(※やらないでください)。
Overvalueは安価なものを高く、Undervalueは高価なものを安価にやり取りする
ことで国内から海外への送金を実現する。米国の輸出入データ(2001年)で上位/
下位四分位点を超える/下回る単価を調べたところ、怪しい取引を検出できた
($4,000のトイレットペーパーとか$13のダイアモンドなど)。
国内 国外
overvalue
輸入
金額の過剰評価
支払
国内 国外
物品の購入 売却
輸出
請求/支払
undervalue
お勧め
物品の購入
国内の汚いお
金がいったん
物品になるの
でovervalueよ
り安全!
金額の過少評価
Copyright © TIS Inc. All rights reserved. 14
研究領域ピックアップ: Risk Management (6/6)
Automatic Model Monitoring for Data Streams
ストリームデータに対する予測を監視する手法。
◼ 予測モデルは十分なデータが手に入るまで
は精度が悪い(ヒット商品によるアクセス負
荷と不正試行によるアクセス負荷が区別で
きない)。
◼ 左図中段は初回の検出に失敗している
(検出スコアが低い)
◼ しかし予測の挙動に変化が出るはずなので、
その変化をとらえることで検出のサポート
を行う。
◼ 左図最下段は、実際の予測値系列(T)と
異常がある場合の予測値系列(R)を比較
して異常検知を行う(教師なし)。
監視結果をレポートにし人間がチェックすると
いう運用(その後モデル改良など対応を取る)。
Copyright © TIS Inc. All rights reserved. 15
研究領域ピックアップ: Asset Management (1/5)
Asset Managementは様々な文書からの情報抽出を行う。
MarketingやInvestment支援の基礎となる情報(企業同士の関係や市場動
向)を抽出したい。
研究は盛んだが、応用は今一歩進んでいない。「抽出できて、それからど
うする」が不透明。
企業活動(営業/投資)の意思決定を上手く支援できるフローを作れれば応
用が進むかもしれない。
◼ 営業活動支援
◼ 販売先のリストアップ
◼ 調達先のリストアップ
◼ 投資活動支援
◼ M&A/出資先のリストアップ
Copyright © TIS Inc. All rights reserved. 16
研究領域ピックアップ: Asset Management (2/5)
企業文書からの情報抽出としては、以下のような研究がある。
◼ Economic Causal-Chain Search using Text Mining Technology
◼ FinNLP2019 Best paper
◼ Doc2EDAG: An End-to-End Document-level Framework for
Chinese Financial Event Extraction
◼ EMNLP2019採択。
◼ Extracting Complex Relations from Banking Documents
◼ EMNLP-ECONLP2019採択。
Copyright © TIS Inc. All rights reserved. 17
研究領域ピックアップ: Asset Management (3/5)
Economic Causal-Chain Search using Text Mining Technology
財務諸表のサマリやニュースから、
因果関係に関する記述を抽出した研
究(日本の文書を対象にしている)。
1. 因果関係に関する文の抽出
2. 関係を表す記述の抽出(~のため、
など)
3. 記述をもとにした関係(トリプル)
抽出
という3段階で処理を行っている。
抽出だけでなく、デモシステムも開
発している。結果/原因の探索双方が
可能。
Copyright © TIS Inc. All rights reserved. 18
研究領域ピックアップ: Asset Management (4-1/5)
Doc2EDAG: An End-to-End Document-level Framework for Chinese
Financial Event Extraction
ドキュメントからイベントを抽出するタスクを提案した研究。
具体的には誰と/誰が/いつ/何をして/その結果は/、という情報をテーブル
形式にまとめる。イベントの記載は複数文にまたがるため、文単体でなく
文書全体からの抽出を行っている。中国の企業文書データセット
(ChFinAnn)を対象に実験。
Copyright © TIS Inc. All rights reserved. 19
研究領域ピックアップ: Asset Management (4-2/5)
Doc2EDAG: An End-to-End Document-level Framework for Chinese
Financial Event Extraction
1. SentenceをTransformerに入れてEncode
2. CRFでEntityを認識
3. SentenceとEntityの潜在表現をconcat(サイズはMaxpoolでそろえる)
4. TransformerでEncode(ここでDocumentレベルの相関が考慮される)
5. レコード(Event)に相当するイベントが発生しているか判定
6. 5=TrueならRole(カラム)順に沿い探索を行っていく(レコードを作る)
①
② ③ ④ ⑤ ⑥
Copyright © TIS Inc. All rights reserved. 20
研究領域ピックアップ: Asset Management (5/5)
Extracting Complex Relations from Banking Documents
銀行に寄せられる文書をOCRし、そこから
リクエストを抽出する研究。送金依頼に
絞って送金先や金額などを検出している。
ドキュメント上の文字は一列に並べた系列
として処理する。系列に対し固有表現認識
を行った後に関係抽出をしてグラフを構築。
このグラフから送金指示を抽出する。
グラフからの送金指示抽出には、最大ク
リーク分解(maximal clique
factorization=各頂点が互いに接続されて
いるサブグラフを抽出する手法)が使用さ
れている。
Copyright © TIS Inc. All rights reserved. 21
現状と今後の発展 (1/2)
現状「金融文書解析といったらこれ」というスタンダードなタスクがない。
ものすごい基礎的か、ものすごい応用かかなり極端。
以下の整備が進んでくれば、分野として発展していくのではないかと考え
られる。
◼ タスクの整備
◼ 金融文書に適したタグの提案と定着
◼ 固有表現(会社名、勘定etc)
◼ 意味表現(Semantic Role, 買収、取引先etc)
◼ 実課題に結びついたタスク(リスト照合(ブラックリスト確認)等)
◼ データセットの整備
◼ スタンダードなデータセットの登場
◼ BERT/ELMoなどの事前学習に耐えられるボリュームのコーパス
◼ SciBERT/BioBERTなどと肩を並べるモデルが作れるか。
Copyright © TIS Inc. All rights reserved. 22
現状と今後の発展 (2/2)
タスク/データセットの整備には実務者とのコミュニケーションが不可欠。
◼ タスクの精度向上→業務効率向上につながるとベスト
特にAsset Managementは、実務者のフィードバックが必要。
◼ 「どういうことができるのか」を実務者に着信する
◼ 属人的/属会社的でない業務/意思決定プロセスの定義
◼ ある人、ある会社の業務改善だけできても分野として発展しない
◼ 精度と業務上のKPIの関連定義
◼ 応用寄りの研究なら、実務のどこで役立つかは意識したい。
実務者・研究開発者双方向のコミュニケーションを取っていくべく・・・
THANK YOU

More Related Content

What's hot

クラシックな機械学習の入門  11.評価方法
クラシックな機械学習の入門  11.評価方法クラシックな機械学習の入門  11.評価方法
クラシックな機械学習の入門  11.評価方法Hiroshi Nakagawa
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理Preferred Networks
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016Mai Otsuki
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)HarukaKiyohara
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用Hiroyuki Masuda
 
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈	BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈 順也 山口
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心takehikoihayashi
 
情報検索の基礎
情報検索の基礎情報検索の基礎
情報検索の基礎Retrieva inc.
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方BrainPad Inc.
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するTakahiro Kubo
 

What's hot (20)

クラシックな機械学習の入門  11.評価方法
クラシックな機械学習の入門  11.評価方法クラシックな機械学習の入門  11.評価方法
クラシックな機械学習の入門  11.評価方法
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
論文に関する基礎知識2016
 論文に関する基礎知識2016 論文に関する基礎知識2016
論文に関する基礎知識2016
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)強化学習 と ゲーム理論 (MARL)
強化学習 と ゲーム理論 (MARL)
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
 
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈	BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
情報検索の基礎
情報検索の基礎情報検索の基礎
情報検索の基礎
 
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTaBERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 

Similar to 自然言語処理で読み解く金融文書

自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かうTakahiro Kubo
 
コロナウイルス感染症対策の補助金・支援制度セミナー
コロナウイルス感染症対策の補助金・支援制度セミナーコロナウイルス感染症対策の補助金・支援制度セミナー
コロナウイルス感染症対策の補助金・支援制度セミナーfys-consulting
 
TISにおける、研究開発のメソッド
TISにおける、研究開発のメソッドTISにおける、研究開発のメソッド
TISにおける、研究開発のメソッドTakahiro Kubo
 
機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発Takahiro Kubo
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋Issei Kurahashi
 
中小企業におけるSDGsの活用方法~国内外の動向と活用に向けたステップ・活用事例紹介~
中小企業におけるSDGsの活用方法~国内外の動向と活用に向けたステップ・活用事例紹介~中小企業におけるSDGsの活用方法~国内外の動向と活用に向けたステップ・活用事例紹介~
中小企業におけるSDGsの活用方法~国内外の動向と活用に向けたステップ・活用事例紹介~Kentaro Imai
 
オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018Hisashi Nakayama
 
ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築Takahiro Kubo
 
情シスのひみつ
情シスのひみつ情シスのひみつ
情シスのひみつcloretsblack
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介Takahiro Kubo
 
アドテクを支える人と技術
アドテクを支える人と技術アドテクを支える人と技術
アドテクを支える人と技術Ransui Iso
 
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?Norihiko Nakabayashi
 
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]Dentsu Razorfish
 
アントレプレナー研究会
アントレプレナー研究会アントレプレナー研究会
アントレプレナー研究会Masakazu Masujima
 
みんなのPython勉強会#21 澪標アナリティクス 井原様
みんなのPython勉強会#21 澪標アナリティクス 井原様みんなのPython勉強会#21 澪標アナリティクス 井原様
みんなのPython勉強会#21 澪標アナリティクス 井原様Takeshi Akutsu
 
金融ISAC アニュアルカンファレンス 2020:Intelligence Driven Securityの「ことはじめ」
金融ISAC アニュアルカンファレンス 2020:Intelligence Driven Securityの「ことはじめ」金融ISAC アニュアルカンファレンス 2020:Intelligence Driven Securityの「ことはじめ」
金融ISAC アニュアルカンファレンス 2020:Intelligence Driven Securityの「ことはじめ」Tomohisa Ishikawa, CISSP, CSSLP, CISA, CISM, CFE
 
RuleWatcher_intro_JP
RuleWatcher_intro_JPRuleWatcher_intro_JP
RuleWatcher_intro_JPMasato Oda
 
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~Kentaro Imai
 

Similar to 自然言語処理で読み解く金融文書 (20)

自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう
 
コロナウイルス感染症対策の補助金・支援制度セミナー
コロナウイルス感染症対策の補助金・支援制度セミナーコロナウイルス感染症対策の補助金・支援制度セミナー
コロナウイルス感染症対策の補助金・支援制度セミナー
 
TISにおける、研究開発のメソッド
TISにおける、研究開発のメソッドTISにおける、研究開発のメソッド
TISにおける、研究開発のメソッド
 
機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発機械学習を用いた会議診断システムの開発
機械学習を用いた会議診断システムの開発
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋
 
中小企業におけるSDGsの活用方法~国内外の動向と活用に向けたステップ・活用事例紹介~
中小企業におけるSDGsの活用方法~国内外の動向と活用に向けたステップ・活用事例紹介~中小企業におけるSDGsの活用方法~国内外の動向と活用に向けたステップ・活用事例紹介~
中小企業におけるSDGsの活用方法~国内外の動向と活用に向けたステップ・活用事例紹介~
 
オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018
 
ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築
 
情シスのひみつ
情シスのひみつ情シスのひみつ
情シスのひみつ
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介
 
アドテクを支える人と技術
アドテクを支える人と技術アドテクを支える人と技術
アドテクを支える人と技術
 
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
 
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
失敗談から学ぶ!アクションにつながるデータ分析のコツ[2014.12.11 開催セミナー]
 
Newsletter20110202
Newsletter20110202Newsletter20110202
Newsletter20110202
 
20141018 osc tokyo2014講演(配布用)
20141018 osc tokyo2014講演(配布用)20141018 osc tokyo2014講演(配布用)
20141018 osc tokyo2014講演(配布用)
 
アントレプレナー研究会
アントレプレナー研究会アントレプレナー研究会
アントレプレナー研究会
 
みんなのPython勉強会#21 澪標アナリティクス 井原様
みんなのPython勉強会#21 澪標アナリティクス 井原様みんなのPython勉強会#21 澪標アナリティクス 井原様
みんなのPython勉強会#21 澪標アナリティクス 井原様
 
金融ISAC アニュアルカンファレンス 2020:Intelligence Driven Securityの「ことはじめ」
金融ISAC アニュアルカンファレンス 2020:Intelligence Driven Securityの「ことはじめ」金融ISAC アニュアルカンファレンス 2020:Intelligence Driven Securityの「ことはじめ」
金融ISAC アニュアルカンファレンス 2020:Intelligence Driven Securityの「ことはじめ」
 
RuleWatcher_intro_JP
RuleWatcher_intro_JPRuleWatcher_intro_JP
RuleWatcher_intro_JP
 
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
中小企業による人工知能の活用~既存事業のアップグレードとイノベーション~
 

More from Takahiro Kubo

自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析Takahiro Kubo
 
国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法Takahiro Kubo
 
arXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返るarXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返るTakahiro Kubo
 
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してExpressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してTakahiro Kubo
 
Reinforcement Learning Inside Business
Reinforcement Learning Inside BusinessReinforcement Learning Inside Business
Reinforcement Learning Inside BusinessTakahiro Kubo
 
あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用Takahiro Kubo
 
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章Takahiro Kubo
 
Curiosity may drives your output routine.
Curiosity may drives  your output routine.Curiosity may drives  your output routine.
Curiosity may drives your output routine.Takahiro Kubo
 
2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由Takahiro Kubo
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention NetworkTakahiro Kubo
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方Takahiro Kubo
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018Takahiro Kubo
 
TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018Takahiro Kubo
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析Takahiro Kubo
 
機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理Takahiro Kubo
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...Takahiro Kubo
 
技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>Takahiro Kubo
 
kintone evangelist meetup 2017
kintone evangelist meetup 2017kintone evangelist meetup 2017
kintone evangelist meetup 2017Takahiro Kubo
 
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本Takahiro Kubo
 

More from Takahiro Kubo (20)

自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析
 
国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法
 
arXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返るarXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返る
 
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してExpressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
 
Reinforcement Learning Inside Business
Reinforcement Learning Inside BusinessReinforcement Learning Inside Business
Reinforcement Learning Inside Business
 
あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用
 
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
nlpaper.challenge NLP/CV交流勉強会 画像認識 7章
 
Curiosity may drives your output routine.
Curiosity may drives  your output routine.Curiosity may drives  your output routine.
Curiosity may drives your output routine.
 
EMNLP2018 Overview
EMNLP2018 OverviewEMNLP2018 Overview
EMNLP2018 Overview
 
2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析
 
機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理
 
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
 
技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>技術文書を書く際の、心技体<改訂版>
技術文書を書く際の、心技体<改訂版>
 
kintone evangelist meetup 2017
kintone evangelist meetup 2017kintone evangelist meetup 2017
kintone evangelist meetup 2017
 
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
深層学習の判断根拠を理解するための 研究とその意義 @PRMU 2017熊本
 

自然言語処理で読み解く金融文書

  • 1. Copyright © TIS Inc. All rights reserved. 自然言語処理で読み解く金融文書 戦略技術センター 久保隆宏 Survey for NLP deals with financial documents
  • 2. Copyright © TIS Inc. All rights reserved. 2 Agenda ◼ 自然言語処理 x 金融文書の現状 ◼ 研究x活用の状況 ◼ 活用領域ピックアップ ◼ Risk Management ◼ Asset Management ◼ 現状と今後の発展
  • 3. Copyright © TIS Inc. All rights reserved. 3 久保隆宏 TIS株式会社 フィナンシャルサービス部 ◼ 化学系メーカーの業務コンサルタント出身。 ◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦 略技術センターへと異動。 ◼ 現在は財務/非財務一体の企業評価を目指し、主にESG投資への活用を テーマとした研究/事業化を担当。 自己紹介 チュートリアル講演:深層学習 の判断根拠を理解するための研 究とその意義(@PRMU 2017) 機械学習をシステムに組み込む 際の依存性管理について (@MANABIYA 2018) あるべきESG投資の評価に向け た、自然言語処理の活用 (@CCSE 2019)
  • 4. Copyright © TIS Inc. All rights reserved. 4 自然言語処理 x 金融文書の現状 ACL系 NeurIPS AAAI系 KDD 2018 2019 2020 ECONLP 2018 @ ACL2018 ECONLP 2019 @ EMNLP2019 ECONLP 2020 @ ? Robust AI in FS @ NeurIPS2019 FinNLP & FinSDB @ IJCAI2019 KDF @ AAAI2020 ADF 2019 @ KDD2019 ADF 2017 @ KDD2017 FNP 2018 @ LREC2018 FNP 2019 @ NoDaLiDa 2019 FNP 2020 @ COLING2020 2018~2019年にかけ、多くの国際カンファレンスでワークショップが立ち上が る(●が初回開催、○が継続)。自然言語処理応用の一分野として確立しつつある。 開催確定 復活
  • 5. Copyright © TIS Inc. All rights reserved. 5 研究x活用の状況 (1/4) ◼ 研究x活用の状況は、概ね以下のようになっている。 ◼ 色が濃い方が盛んで、左下 が研究、右上 が応用。 Marketing Investment Risk Management Compliance Asset Management Classification Sentiment Analysis Clustering QA/Dialog Relation Extraction Event Extraction
  • 6. Copyright © TIS Inc. All rights reserved. 6 研究x活用の状況 (2/4) 活用領域の分類 ("Machine learning in UK financial services"をベースに作成) Asset Management Risk Management Marketing Investment Compliance 顧客管理、取引管理を行うことで資産の 安全性を担保する 定められた内部ルール(内規)への適合性を 検証し、活動の安全性を担保する 投資活動を通じて資産を増やす営業活動を通じて顧客を増やす リソース(内部文書/外部情報(SNS等))の活用を通じて各活動の支援を行う。
  • 7. Copyright © TIS Inc. All rights reserved. 7 研究x活用の状況 (3/4) ざっくりとした傾向 ◼ 研究 ◼ Asset Managementに関する研究、特にテキストから市場動向を探 るような研究が多い(株価予測含む)。 ◼ 実用でニーズのあるRisk Management(アンチマネーロンダリング /破産予測など)の研究も行われている。 ◼ 実用 ◼ 内部的に持っていたモデルを機械学習に置き換えるケースが多い。 ◼ Risk Management: アンチマネーロンダリング/信用リスク予測等。 ◼ (内部データを使うので、モデルは内製することが多い)。 ◼ Marketingに使うチャットボットなども試験的に導入されている。 ◼ 熟練営業担当者並みになったという報告もある。 ◼ ただ、金融独自というより既存の営業xチャットボットの文脈上にある。 ◼ Asset Management/Investmentは道半ば ◼ 研究は盛んだが、顕著な応用例は出ていない。
  • 8. Copyright © TIS Inc. All rights reserved. 8 研究x活用の状況 (4/4) ◼ ここからは以下の注目領域に絞って紹介を行う。 ◼ 研究x活用共に盛んな領域としてRisk Management ◼ 研究が先行している領域としてAsset Management Marketing Investment Risk Management Compliance Asset Management Classification Sentiment Analysis Clustering QA/Dialog Relation Extraction Event Extraction
  • 9. Copyright © TIS Inc. All rights reserved. 9 研究領域ピックアップ: Risk Management (1/6) Risk Managementの代表例は以下2点となる。 ◼ AML: Anti-Money Laundering ◼ 不正な取引の予防と検知。 ◼ 予防: フィルタリング ◼ サービス利用者の同一性(本人であるか)、信用性(暴力団とかじゃない か)を判定する。前者はKYC(Know Your Customer)/CDD(Customer Due Diligence)とも呼ばれる。 ◼ 検知: トランザクション・モニタリング ◼ 不正取引の傾向を見つけてアラートを行う。 ◼ Fraud Detectionと同種。最近Amazonがサービスを公開した。 ◼ Bankruptcy Prediction ◼ (取引先が)破産しないか予測する。
  • 10. Copyright © TIS Inc. All rights reserved. 10 研究領域ピックアップ: Risk Management (2/6) Risk Management系の研究は以下のようなものがある。 ◼ AML: Anti-Money Laundering ◼ 予防: フィルタリング ◼ NextGen AML: Distributed Deep Learning based Language Technologies to Augment Anti Money Laundering Investigation ◼ ACL2018 System Demonstrationに採択。 ◼ Are You for Real? Detecting Identity Fraud via Dialogue Interactions ◼ EMNLP2019採択。 ◼ 検知: トランザクション・モニタリング ◼ Detecting money laundering and terrorist financing via data mining ◼ KDD2019 Invited Talk。 ◼ Automatic Model Monitoring for Data Streams ◼ KDD2019 Poster。
  • 11. Copyright © TIS Inc. All rights reserved. 11 研究領域ピックアップ: Risk Management (3/6) NextGen AML: Distributed Deep Learning based Language Technologies to Augment Anti Money Laundering Investigation アンチマネーロンダリングでは基本的に False Positiveになるケースが多い(本当はシ ロだがクロと判定してしまう) 。 「不正取引を見逃してました」、「実は暴力 団関係者でした」という事態が許されないた め。 そのためクロ判定後の確認作業を支援するシ ステムを構築(支援している顧客の回答では、 30%ほど確認時間を削減できたとのこと)。 ニュースやツイートのセンチメント抽出、固 有表現/関係認識からのネットワーク構築を 行うことで情報探索を支援する。開発は Accenture Labsがメインのよう。
  • 12. Copyright © TIS Inc. All rights reserved. 12 研究領域ピックアップ: Risk Management (4/6) Are You for Real? Detecting Identity Fraud via Dialogue Interactions 本人確認を行う対話システムの提案。対話を通じて、本人かどうか(=別の人に成 りすましていないか)を検出する。既存の研究は、マルチモーダルな特徴(画像や 音声)を使うものが多い(Detecting Concealed Information in Text and Speech @ACL2019)。 Userをルートとしたグラフで個人情報を表現。地理的な情報(出身地や出身大学) に周辺地理情報を付与する。グラフのトリプル(筑波大/最寄り駅/つくば駅)から 質問を生成し、回答結果でグラフを更新。詐称を見抜けたかどうかを報酬として 強化学習で学習する。ローン審査のユーザーシミュレーターを作り検証。
  • 13. Copyright © TIS Inc. All rights reserved. 13 研究領域ピックアップ: Risk Management (5/6) Detecting money laundering and terrorist financing via data mining マネーロンダリングを検知するための基本的な仕組みの説明。 わかりやすいマネーロンダリングの仕組み(※やらないでください)。 Overvalueは安価なものを高く、Undervalueは高価なものを安価にやり取りする ことで国内から海外への送金を実現する。米国の輸出入データ(2001年)で上位/ 下位四分位点を超える/下回る単価を調べたところ、怪しい取引を検出できた ($4,000のトイレットペーパーとか$13のダイアモンドなど)。 国内 国外 overvalue 輸入 金額の過剰評価 支払 国内 国外 物品の購入 売却 輸出 請求/支払 undervalue お勧め 物品の購入 国内の汚いお 金がいったん 物品になるの でovervalueよ り安全! 金額の過少評価
  • 14. Copyright © TIS Inc. All rights reserved. 14 研究領域ピックアップ: Risk Management (6/6) Automatic Model Monitoring for Data Streams ストリームデータに対する予測を監視する手法。 ◼ 予測モデルは十分なデータが手に入るまで は精度が悪い(ヒット商品によるアクセス負 荷と不正試行によるアクセス負荷が区別で きない)。 ◼ 左図中段は初回の検出に失敗している (検出スコアが低い) ◼ しかし予測の挙動に変化が出るはずなので、 その変化をとらえることで検出のサポート を行う。 ◼ 左図最下段は、実際の予測値系列(T)と 異常がある場合の予測値系列(R)を比較 して異常検知を行う(教師なし)。 監視結果をレポートにし人間がチェックすると いう運用(その後モデル改良など対応を取る)。
  • 15. Copyright © TIS Inc. All rights reserved. 15 研究領域ピックアップ: Asset Management (1/5) Asset Managementは様々な文書からの情報抽出を行う。 MarketingやInvestment支援の基礎となる情報(企業同士の関係や市場動 向)を抽出したい。 研究は盛んだが、応用は今一歩進んでいない。「抽出できて、それからど うする」が不透明。 企業活動(営業/投資)の意思決定を上手く支援できるフローを作れれば応 用が進むかもしれない。 ◼ 営業活動支援 ◼ 販売先のリストアップ ◼ 調達先のリストアップ ◼ 投資活動支援 ◼ M&A/出資先のリストアップ
  • 16. Copyright © TIS Inc. All rights reserved. 16 研究領域ピックアップ: Asset Management (2/5) 企業文書からの情報抽出としては、以下のような研究がある。 ◼ Economic Causal-Chain Search using Text Mining Technology ◼ FinNLP2019 Best paper ◼ Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction ◼ EMNLP2019採択。 ◼ Extracting Complex Relations from Banking Documents ◼ EMNLP-ECONLP2019採択。
  • 17. Copyright © TIS Inc. All rights reserved. 17 研究領域ピックアップ: Asset Management (3/5) Economic Causal-Chain Search using Text Mining Technology 財務諸表のサマリやニュースから、 因果関係に関する記述を抽出した研 究(日本の文書を対象にしている)。 1. 因果関係に関する文の抽出 2. 関係を表す記述の抽出(~のため、 など) 3. 記述をもとにした関係(トリプル) 抽出 という3段階で処理を行っている。 抽出だけでなく、デモシステムも開 発している。結果/原因の探索双方が 可能。
  • 18. Copyright © TIS Inc. All rights reserved. 18 研究領域ピックアップ: Asset Management (4-1/5) Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction ドキュメントからイベントを抽出するタスクを提案した研究。 具体的には誰と/誰が/いつ/何をして/その結果は/、という情報をテーブル 形式にまとめる。イベントの記載は複数文にまたがるため、文単体でなく 文書全体からの抽出を行っている。中国の企業文書データセット (ChFinAnn)を対象に実験。
  • 19. Copyright © TIS Inc. All rights reserved. 19 研究領域ピックアップ: Asset Management (4-2/5) Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction 1. SentenceをTransformerに入れてEncode 2. CRFでEntityを認識 3. SentenceとEntityの潜在表現をconcat(サイズはMaxpoolでそろえる) 4. TransformerでEncode(ここでDocumentレベルの相関が考慮される) 5. レコード(Event)に相当するイベントが発生しているか判定 6. 5=TrueならRole(カラム)順に沿い探索を行っていく(レコードを作る) ① ② ③ ④ ⑤ ⑥
  • 20. Copyright © TIS Inc. All rights reserved. 20 研究領域ピックアップ: Asset Management (5/5) Extracting Complex Relations from Banking Documents 銀行に寄せられる文書をOCRし、そこから リクエストを抽出する研究。送金依頼に 絞って送金先や金額などを検出している。 ドキュメント上の文字は一列に並べた系列 として処理する。系列に対し固有表現認識 を行った後に関係抽出をしてグラフを構築。 このグラフから送金指示を抽出する。 グラフからの送金指示抽出には、最大ク リーク分解(maximal clique factorization=各頂点が互いに接続されて いるサブグラフを抽出する手法)が使用さ れている。
  • 21. Copyright © TIS Inc. All rights reserved. 21 現状と今後の発展 (1/2) 現状「金融文書解析といったらこれ」というスタンダードなタスクがない。 ものすごい基礎的か、ものすごい応用かかなり極端。 以下の整備が進んでくれば、分野として発展していくのではないかと考え られる。 ◼ タスクの整備 ◼ 金融文書に適したタグの提案と定着 ◼ 固有表現(会社名、勘定etc) ◼ 意味表現(Semantic Role, 買収、取引先etc) ◼ 実課題に結びついたタスク(リスト照合(ブラックリスト確認)等) ◼ データセットの整備 ◼ スタンダードなデータセットの登場 ◼ BERT/ELMoなどの事前学習に耐えられるボリュームのコーパス ◼ SciBERT/BioBERTなどと肩を並べるモデルが作れるか。
  • 22. Copyright © TIS Inc. All rights reserved. 22 現状と今後の発展 (2/2) タスク/データセットの整備には実務者とのコミュニケーションが不可欠。 ◼ タスクの精度向上→業務効率向上につながるとベスト 特にAsset Managementは、実務者のフィードバックが必要。 ◼ 「どういうことができるのか」を実務者に着信する ◼ 属人的/属会社的でない業務/意思決定プロセスの定義 ◼ ある人、ある会社の業務改善だけできても分野として発展しない ◼ 精度と業務上のKPIの関連定義 ◼ 応用寄りの研究なら、実務のどこで役立つかは意識したい。 実務者・研究開発者双方向のコミュニケーションを取っていくべく・・・