社内で定期開催している「自然言語処理勉強会」発表資料の公開版です。
Kaneko, Masahiro, et al. "Encoder-Decoder Models Can Benefit from Pre-trained Masked Language Models in Grammatical Error Correction." arXiv preprint arXiv:2005.00987 (2020).
https://arxiv.org/abs/2005.00987
【論文紹介】Encoder-Decoder Models Can Benefit from Pre-trained Masked Language Models in Grammatical Error Correction.
1. ⓒ2019 NTT DOCOMO, INC. All Rights Reserved.
論⽂紹介
村上
SI部 第1サービス開発担当
⾃然⾔語処理勉強会(2020/05/22)
※ACL2020に採択された論⽂(Short paper)
2. ⓒ2019 NTT DOCOMO, INC. All Rights Reserved.
⽂法誤り訂正(Grammatical Error Correction; GEC)とは
2
• ⽂法誤り訂正(GEC)とは、⽂法的な誤りを含む⽂を, 原⽂の意味を保ちつつ正しい⽂に変換するタスクである
• ⽂法誤り訂正を誤り⽂から訂正⽂を”翻訳”する⽣成タスクとして考える
2
I plays baseball yestarday . I played baseball yesterday .
Transformer
(誤り⽂ → 訂正⽂)
誤り⽂から訂正⽂を⽣成
3. ⓒ2019 NTT DOCOMO, INC. All Rights Reserved.
論⽂を3⾏でまとめると
• ⽂法誤り訂正(GEC)モデルの学習において、どのようにMasked Language Model(MLM)を使うと性能向
上に寄与するか検証した論⽂(MLMとしてBERTを採⽤)
• ⽂法誤り検出(GED)タスクでファインチューニングしたBERTの出⼒ベクトルを追加特徴量として⼊⼒する
Encoder-Decoderモデル(BERT-fuse GED)が最も精度向上に寄与した。
• 提案⼿法のうち最も精度が⾼いモデルが2つのベンチマーク(CoNLL2014, BEA2019)でSOTAを達成。
3
⽂法誤り訂正(GEC) ⽂法誤り検出(GED) Masked Language Model
⽂法誤りを訂正するタスク ⽂法誤りを検出するタスク
I go to school by bus.
I go to school at bus.
マスクされた単語を予測する
⾔語モデル。BERTの事前学
習タスクとして⽤いられる。
I go to school at bus .
0 0 0 0 1 0 0
マスクマスク
BERT論⽂より引⽤ https://arxiv.org/pdf/1810.04805.pdf
4. ⓒ2019 NTT DOCOMO, INC. All Rights Reserved.
提案⼿法︓事前学習済みMLM(BERT)の導⼊
• BERT-init
• Lample(2019)らに提案された事前学習済みBERTの重みパラメータを⽤いてTransformer-
based Encoder-Decoderモデルを初期化する⽅法。(詳細は割愛)
• BERT-fuse
• Zhu(2020)らに提案されたTransformer-based Encoder-Decoderモデルに事前学習済
みBERTの出⼒ベクトルに対するアテンションを導⼊する⼿法
• こちらの⼿法ほうが性能が良かった。詳細を次ページ以降で説明
4
5. ⓒ2019 NTT DOCOMO, INC. All Rights Reserved.
BERT-fused Model
• Zhu et al., “Incorporating BERT into Neural Machine Translation”, ICLR2020
• Neural Machine Translationモデルに効果的にBERTを導⼊する⼿法を提案した論⽂
5
BERT-Enc Attention
(Zhu et al., 2020より引⽤)
Self Attention
6. ⓒ2019 NTT DOCOMO, INC. All Rights Reserved.
Drop-Net trick (Zhu et al., 2020)
• モデル学習における正則化(過学習の回避)の⽬的で、Drop-Net Trickを導⼊
• 学習時には「BERT-Enc Attention」、「Self-Attention」、または、両⽅を使うか、をランダムに選択する
6
Drop-Netを⽤いない場合(p=0.0)、過学習に陥る
𝑈!は0〜1の連続値. ランダムに決定することで、Drop-Netを実現.
(Zhu et al., 2020より引⽤)
(Zhu et al., 2020より引⽤)
7. ⓒ2019 NTT DOCOMO, INC. All Rights Reserved.
提案⼿法︓導⼊するBERTのチューニング
• BERT-fuse mask
• ⽂法誤りを含むコーパスを⽤いてBERTを追加学習(MLM, NSPタスク)する⽅法
• BERT-fuse GED
• BERTを⽂法誤り検出モデルとしてファインチューニングする⽅法
• ※⽂法誤り検出
• ⼊⼒テキストの⽂法誤り箇所を検出する系列ラベリングタスク
7
BERTは正しい⽂(Wiki, BookCorpus)で
学習されているので、⽂法的誤りを認識で
きるように予めチューニングをしたほうが
良いのでは?
I go to school at bus .
0 0 0 0 1 0 0
⼊⼒テキスト
ラベル
仮説
(Zhu et al., 2020より引⽤)
8. ⓒ2019 NTT DOCOMO, INC. All Rights Reserved.
実験結果
• w/o BERT vs BERT → BERTの導⼊により、精度向上に寄与することが分かった
• BERT-init vs BERT-fuse → BERT-fuseの⽅が精度⾼い(Zhu et al, 2020でも同様の結果が出ている)
• BERT-fuse mask vs GED → ⽂法誤り検出(GED)でBERTをファインチューニングすると更に良くなった
8
• 疑似データを⽤いた事前学習(○)
• モデルアンサンブル(○)
• 疑似データを⽤いた事前学習(○)
• モデルアンサンブル(✕)
• 疑似データを⽤いた事前学習(✕)
• モデルアンサンブル(✕)
精度向上テクニック
論⽂より引⽤