自然言語処理 BERTに関する論文紹介とまとめ

BERT 論文紹介
Sprint.16
2020/ 9 /23 中園啓佑

分野
自然言語処理 BERT(Bidirectional Encoder Representations from Transformers) に関する論文
選定理由
SNSやネット記事、有用な情報は文章などの非構造化データである事が多い。
自然言語処理の最先端技術の概況や動向を把握し、今後のビジネスへの転用・応用のアイデアに繋げたい
BERTとは
自然言語処理分野でブレイクスルーを起こした言語モデル。従来のCNNやRNNの複雑な構造を用いず、
文脈を双方向に学習し、且つ、シンプルな計算で単語・文章同士の関係性を学習できるようになった。
選定論文
①Attention Is All You Need（2017）
TransformerとAttentionと呼ばれる手法で言語モデルに低コスト、且つ、高性能を実現した。
②BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding（2018）
双方向的にTransformerを用い、画期的な性能を実現した。
③XLNet: Generalized Autoregressive Pretraining for Language Understanding（2019）
BERTの学習手法の問題点（Masked Language Model）を解決する手法が発表された
④BERTによる日本語構文解析の精度向上（2019）
⑤日本語BERTモデルを用いた経済テキストデータのセンチメント分析（2018）
日本語WikipediaでBERTによる事前学習を行ったモデルを用いたら従来と比較し大幅に精度改善された。

どのくらいすごいものだったのか
（出典：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding）
各タスクの説明
・MNLI ：含意関係の分類タスク
・QQP ：質問内容が同じであるかを分類するタスク
・QNLI ：質問と文が与えられ文が質問の答えになるか当てる分類タスク
・SST-2：映画のレビューに対する感情分析タスク
・CoLA ：文の文法性判断を行う分類タスク
・STS-B ：2文の類似度を5段階で評価する分類タスク
・MRPC ：ニュースに含まれる2文の意味が等しいかを当てる分類タスク
・RTE ：小規模な含意関係の分類タスク

BERTを理解するための３つのポイント
ポイント①：自然言語処理は「事前学習＋タスクに応じた出力層」が鉄板
・単語や文章間の関連性は言語が同じであれば同じ法則にもとづく
・１から学習するのは時間とデータ量が必要なので、既に学習済の一般的なモデル（言語モデル）を使おう
ポイント②：大前提となる「Transformer」というモデル
・従来のRNNやCNNの代わりにAttentionを用いることで、精度、計算コスト、汎用性すべてを改善
ポイント③：BERTにおける事前学習のタスク選択
・事前学習はラベルのない教師なし学習で行う。では、どのように単語・文章の関連性を学習するのか･･･
⑴ マスク単語の予測
文章中の単語を一定確率でマスキングして、マスクした単語を周囲の単語から予測する
⇒単語同士の修飾・被修飾の関係性を学習
⑵ 隣接文の予測
2つの文章をインプットとして与え、隣り合っている文章なのかをYes/Noで判定
⇒文脈の学習

・2017年6月に発表された論文「Attention Is All You Need」で論じられた
言語モデルTransformerとAttentionが従来のLSTMのような複雑な構造を用いず高性能を実現した。
精度が高い、計算コストが低い、並列計算が可能。3拍子そろった画期的な手法だった
・その後、2018年10月に発表された「BERT」は双方向的にTransformerを使ったことで
画期的な性能を示し自然言語処理分野におけるブレイクスルーとなった。
2019年10月25日にGoogleの検索エンジンにBERTを採用している。
※文脈を読めるようになったので「魚介じゃないラーメン」のような検索ができるようになったという
・2019年における自然言語処理の開発競争はBERTをベースにした言語モデルによって争われた。
その中の、XLNetはBERTの学習アルゴリズムのMasked Language Modelの弱みを克服し精度を改善した。
あまりに自然に文章生成ができることから、危険すぎるAIとして話題になった「GPT-2」
自然言語処理分野の近年動向
日本における動向
・2019年3月京都大学の黒橋・河原・村脇研究室が日本版BERTを作成し、その有用性を実証している
・また、同研究室は日本語における自然言語処理のフレームワークを公開している
・形態素解析器「JUMAN++」※Mecabよりも口語に対応している
・BERT日本語事前学習モデル（ http://nlp.ist.i.kyoto-u.ac.jp/）

近年のビジネス活用
小売
チャットボットの導入によりカスタマーサポートにおける自動応答
製品やサービスへのSNSレビューをセンチメント分析し、ユーザー情報と紐づけてマーケティング支援
医療
問診表のような医療データを自然言語処理によって細かく整理・分類し、
医師が過去の投薬効果や診断のデータを参照する際のデータベースの整理に役立っている
法務
法務契約書の内容を自動的にチェックするツールを提供
同ツールを使えば契約書に記載されるべき条項を自動的にチェックし条項の欠如や不適合の検出に応用
未来に向けた課題
・大規模な学習データおよび業界標準となるテストセットの整備
・ヒトの認知能力を考慮したAIの開発
…必ずしも合理的に判断を下すわけではないヒトの意思決定プロセスを考慮するAI
・悪用に対する対策
…フェイクニュースやなりすましAIへの対策
・マルチモーダルな言語活動への対応
…空気を読むことができるか。例えば「バカ」は、発語される状況や声のトーンで全く異なる意味を持つ

用語と補足
・Transformer
自然言語処理で多く使われるRNNやCNNを「Self-Attention Layer」に置き換えたモデル
近年、有名な自然言語モデルがすべてTransformerの仕組みで構築されているためその有効性は間違いない
・Self-Attention Layer
単語同士の関係を行列で表す方法。そのロジックは行列計算のためGPU計算＋並列計算が可能な構造
従来の自然言語処理モデル構造と比較して「並列計算可能」、且つ、「長文理解のための深いモデル構築不要」
・BERT
Fine-tuning用に事前学習させたモデル。予測モデルではない。
BERTはTransformerによるエンコーダの役割をして、エンコーディングしたデータを別途準備した
タスク別デコーダに送る事で自然言語処理を行う
BERT Learning Modelを用いて学習されたもの
・Mask language model ：ランダムに単語をマスクして、マスクされた単語を予測し単語ベクトルを決定
・Next sentence prediction：次の文章が正しいかどうかを予測し、文脈を学習する
・ファインチューニング
ファインチューニングは、学習済みモデルの層の重みを微調整する手法です。
学習済みモデルの重みを初期値とし、再度学習することによって微調整します。
・転移学習
転移学習は、学習済みモデルの重みは固定し、追加した層のみを使用して学習します。

どんなもの？
先行研究と比べて何がすごい？
技術の手法や肝は？
議論はある？
どうやって有効だと検証した？
次に読むべき論文は？
・BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding, Devlin, J. et al. (2018)
なし
WMT英仏データセットを用い、旧来の最新モデルと比較し、BLEU
スコアおよび計算コストの改善を証明することで有効性を証明し
た。
CNN・RNNを用いず、Attentionを手法として用いたこと。
逐次的な計算が必要を必要としないため、大幅に計算コストを削
減でき、且つ、系列データにおける広範囲の依存関係を損なうこ
とがなかった
・精度が高い
・訓練に必要な時間が大幅に短縮できる
・並列計算が可能なアルゴリズム
翻訳タスクにおいて、処理速度が速くて精度が高い画期的なモデ
ル。Attentionアルゴリズムを用いてRNN・CNNを用いないことに
より計算量も精度も改善した。
Attention Is All You Need（2017）Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan
N. Gomez, Lukasz Kaiser, Illia Polosukhin
https://arxiv.org/pdf/1706.03762.pdf
2020/9/18

どんなもの？
議論はある？
・BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding, Devlin, J. et al. (2018)
・学習に時間がかかる
・大きなメモリ量が必要（16個のTPUで4日）
NLPタスク11個でSoTAを達成し、大幅にスコアを塗り替えた
Transformerが下記2つの手法を同時に進行し学習を行う。
・Masked Language Model
⇒文章中の単語をランダムにマスキングして予測を繰り返す
・Next Sentence Prediction
⇒2文が隣り合っているかを学習
・文脈理解：双方向の学習を行うことにより文脈理解
・汎用性：様々なタスクに応用できる
・教師データの必要がない
TransformerのEncorderを使ったモデル。ブレイクスルー
出力層を付け加えるだけで容易にファインチューニングが可能
様々なタスクに応用ができる
BERT: Pre-training of Deep Bidirectional
Transformers for Language Understanding
https://arxiv.org/pdf/1810.04805
2020/9/18
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

どんなもの？
議論はある？
・Transformer-XL: Attentive Language Models Beyond a Fixed-Length
Context
なし
SQUAD2.0, MNLI, SST-2 など複数のタスクにおいて最も精度の高い
指標値を示した。
・自己回帰モデル
・transformer-XL
・Masked Language Modelを用いず単語同士の関係性をより明確に
学習できるようになった
・transformer-XLをもとにセグメントレベルの再帰によって任意の
入力長に対応した
XLNetはBERTの問題点の一つにMasked Language Modelを挙げている。Masked
LMでは、特殊トークンの[MASK]を用いて事前学習を行う。ただし、実際のタ
スクを解く場合には[MASK]は用いられないために、これがノイズとなってし
まうことが問題らしい。それを解決するために自己回帰モデルベースな問題
として定義し、モデルの精度を改善した。
XLNet: Generalized AutoregressivePretraining
for Language Understanding
https://arxiv.org/pdf/1906.08237.pdf
2020/9/18
Zhilin Yang Zihang Dai, Yiming Yang1,Jaime Carbonell

どんなもの？
議論はある？
なし
既存の構文解析器KNP,Cabocha、J.DepP、BiLSTMと比較して全てに
おいて大幅な制度向上を達成していることを示した
・BERT論文で公開されている多言語BERTモデルは日本語に適用で
きないため、日本語版Wikipedia（約1,800万文）を事前学習コーパ
スとして用いた
日本語においてもBERTモデルの有効性を示した
日本語構文において日本語BERTを用いた言語モデルの有効性を検
証した論文。
BERTによる日本語構文解析の精度向上
https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F2-4.pdf
2020/9/18
柴田知秀† 河原大輔黒橋禎夫京都大学

どんなもの？
議論はある？
・景気ウォッチャー調査の深層学習を用いた金融レポートの指数
化(2016)
なし
BERTモデルの学習データとして日本語版Wikipediaデータを使用。
セグメント分析用に内閣府が公表している景気ウォッチャー調査
のデータを基に、LSTMを用いた分析との性能値を比較して改善を
示した。
・英語圏の多言語BERTモデルは日本語に適用できないため、日本
語版Wikipediaを事前学習コーパスとして用いた点
全てのラベルにおいて適合率・再現率・F値が改善しており汎化性
能の高さを示している
日本語におけるBERTモデルの有効性を検証した論文
日本語BERTモデルを用いた
経済テキストデータのセンチメント分析
https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/F2-4.pdf
2020/9/18
柴田知秀† 河原大輔黒橋禎夫京都大学

自然言語処理 BERTに関する論文紹介とまとめ

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 自然言語処理 BERTに関する論文紹介とまとめ

Similar to 自然言語処理 BERTに関する論文紹介とまとめ (6)

自然言語処理 BERTに関する論文紹介とまとめ