2. 分野
自然言語処理 BERT(Bidirectional Encoder Representations from Transformers) に関する論文
選定理由
SNSやネット記事、有用な情報は文章などの非構造化データである事が多い。
自然言語処理の最先端技術の概況や動向を把握し、今後のビジネスへの転用・応用のアイデアに繋げたい
BERTとは
自然言語処理分野でブレイクスルーを起こした言語モデル。従来のCNNやRNNの複雑な構造を用いず、
文脈を双方向に学習し、且つ、シンプルな計算で単語・文章同士の関係性を学習できるようになった。
選定論文
①Attention Is All You Need(2017)
TransformerとAttentionと呼ばれる手法で言語モデルに低コスト、且つ、高性能を実現した。
②BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(2018)
双方向的にTransformerを用い、画期的な性能を実現した。
③XLNet: Generalized Autoregressive Pretraining for Language Understanding(2019)
BERTの学習手法の問題点(Masked Language Model)を解決する手法が発表された
④BERTによる日本語構文解析の精度向上(2019)
⑤日本語BERTモデルを用いた経済テキストデータのセンチメント分析(2018)
日本語WikipediaでBERTによる事前学習を行ったモデルを用いたら従来と比較し大幅に精度改善された。
3. どのくらいすごいものだったのか
(出典:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding)
各タスクの説明
・MNLI :含意関係の分類タスク
・QQP :質問内容が同じであるかを分類するタスク
・QNLI :質問と文が与えられ文が質問の答えになるか当てる分類タスク
・SST-2:映画のレビューに対する感情分析タスク
・CoLA :文の文法性判断を行う分類タスク
・STS-B :2文の類似度を5段階で評価する分類タスク
・MRPC :ニュースに含まれる2文の意味が等しいかを当てる分類タスク
・RTE :小規模な含意関係の分類タスク
8. どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
・BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding, Devlin, J. et al. (2018)
なし
WMT英仏データセットを用い、旧来の最新モデルと比較し、BLEU
スコアおよび計算コストの改善を証明することで有効性を証明し
た。
CNN・RNNを用いず、Attentionを手法として用いたこと。
逐次的な計算が必要を必要としないため、大幅に計算コストを削
減でき、且つ、系列データにおける広範囲の依存関係を損なうこ
とがなかった
・精度が高い
・訓練に必要な時間が大幅に短縮できる
・並列計算が可能なアルゴリズム
翻訳タスクにおいて、処理速度が速くて精度が高い画期的なモデ
ル。Attentionアルゴリズムを用いてRNN・CNNを用いないことに
より計算量も精度も改善した。
Attention Is All You Need(2017)Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan
N. Gomez, Lukasz Kaiser, Illia Polosukhin
https://arxiv.org/pdf/1706.03762.pdf
2020/9/18
9. どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
・BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding, Devlin, J. et al. (2018)
・学習に時間がかかる
・大きなメモリ量が必要(16個のTPUで4日)
NLPタスク11個でSoTAを達成し、大幅にスコアを塗り替えた
Transformerが下記2つの手法を同時に進行し学習を行う。
・Masked Language Model
⇒文章中の単語をランダムにマスキングして予測を繰り返す
・Next Sentence Prediction
⇒2文が隣り合っているかを学習
・文脈理解:双方向の学習を行うことにより文脈理解
・汎用性:様々なタスクに応用できる
・教師データの必要がない
TransformerのEncorderを使ったモデル。ブレイクスルー
出力層を付け加えるだけで容易にファインチューニングが可能
様々なタスクに応用ができる
BERT: Pre-training of Deep Bidirectional
Transformers for Language Understanding
https://arxiv.org/pdf/1810.04805
2020/9/18
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
10. どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
・Transformer-XL: Attentive Language Models Beyond a Fixed-Length
Context
なし
SQUAD2.0, MNLI, SST-2 など複数のタスクにおいて最も精度の高い
指標値を示した。
・自己回帰モデル
・transformer-XL
・Masked Language Modelを用いず単語同士の関係性をより明確に
学習できるようになった
・transformer-XLをもとにセグメントレベルの再帰によって任意の
入力長に対応した
XLNetはBERTの問題点の一つにMasked Language Modelを挙げている。Masked
LMでは、特殊トークンの[MASK]を用いて事前学習を行う。ただし、実際のタ
スクを解く場合には[MASK]は用いられないために、これがノイズとなってし
まうことが問題らしい。それを解決するために自己回帰モデルベースな問題
として定義し、モデルの精度を改善した。
XLNet: Generalized AutoregressivePretraining
for Language Understanding
https://arxiv.org/pdf/1906.08237.pdf
2020/9/18
Zhilin Yang Zihang Dai, Yiming Yang1,Jaime Carbonell