【論文紹介】Encoder-Decoder Models Can Benefit from Pre-trained Masked Language Models in Grammatical Error Correction.

ⓒ2019 NTT DOCOMO, INC. All Rights Reserved.
論⽂紹介
村上
SI部第１サービス開発担当
⾃然⾔語処理勉強会（2020/05/22）
※ACL2020に採択された論⽂（Short paper）

⽂法誤り訂正(Grammatical Error Correction; GEC)とは
2
• ⽂法誤り訂正(GEC)とは、⽂法的な誤りを含む⽂を, 原⽂の意味を保ちつつ正しい⽂に変換するタスクである
• ⽂法誤り訂正を誤り⽂から訂正⽂を”翻訳”する⽣成タスクとして考える
2
I plays baseball yestarday . I played baseball yesterday .
Transformer
(誤り⽂ → 訂正⽂)
誤り⽂から訂正⽂を⽣成

論⽂を３⾏でまとめると
• ⽂法誤り訂正(GEC)モデルの学習において、どのようにMasked Language Model（MLM）を使うと性能向
上に寄与するか検証した論⽂（MLMとしてBERTを採⽤）
• ⽂法誤り検出(GED)タスクでファインチューニングしたBERTの出⼒ベクトルを追加特徴量として⼊⼒する
Encoder-Decoderモデル（BERT-fuse GED）が最も精度向上に寄与した。
• 提案⼿法のうち最も精度が⾼いモデルが２つのベンチマーク（CoNLL2014, BEA2019）でSOTAを達成。
3
⽂法誤り訂正(GEC) ⽂法誤り検出(GED) Masked Language Model
⽂法誤りを訂正するタスク⽂法誤りを検出するタスク
I go to school by bus.
I go to school at bus.
マスクされた単語を予測する
⾔語モデル。BERTの事前学
習タスクとして⽤いられる。
I go to school at bus .
0 0 0 0 1 0 0
マスクマスク
BERT論⽂より引⽤ https://arxiv.org/pdf/1810.04805.pdf

提案⼿法︓事前学習済みMLM（BERT）の導⼊
• BERT-init
• Lample（2019）らに提案された事前学習済みBERTの重みパラメータを⽤いてTransformer-
based Encoder-Decoderモデルを初期化する⽅法。（詳細は割愛）
• BERT-fuse
• Zhu（2020）らに提案されたTransformer-based Encoder-Decoderモデルに事前学習済
みBERTの出⼒ベクトルに対するアテンションを導⼊する⼿法
• こちらの⼿法ほうが性能が良かった。詳細を次ページ以降で説明
4

BERT-fused Model
• Zhu et al., “Incorporating BERT into Neural Machine Translation”, ICLR2020
• Neural Machine Translationモデルに効果的にBERTを導⼊する⼿法を提案した論⽂
5
BERT-Enc Attention
（Zhu et al., 2020より引⽤）
Self Attention

Drop-Net trick (Zhu et al., 2020)
• モデル学習における正則化（過学習の回避）の⽬的で、Drop-Net Trickを導⼊
• 学習時には「BERT-Enc Attention」、「Self-Attention」、または、両⽅を使うか、をランダムに選択する
6
Drop-Netを⽤いない場合（p=0.0）、過学習に陥る
𝑈!は0〜１の連続値. ランダムに決定することで、Drop-Netを実現.

提案⼿法︓導⼊するBERTのチューニング
• BERT-fuse mask
• ⽂法誤りを含むコーパスを⽤いてBERTを追加学習（MLM, NSPタスク）する⽅法
• BERT-fuse GED
• BERTを⽂法誤り検出モデルとしてファインチューニングする⽅法
• ※⽂法誤り検出
• ⼊⼒テキストの⽂法誤り箇所を検出する系列ラベリングタスク
7
BERTは正しい⽂（Wiki, BookCorpus）で
学習されているので、⽂法的誤りを認識で
きるように予めチューニングをしたほうが
良いのでは？
I go to school at bus .
0 0 0 0 1 0 0
⼊⼒テキスト
ラベル
仮説

実験結果
• w/o BERT vs BERT → BERTの導⼊により、精度向上に寄与することが分かった
• BERT-init vs BERT-fuse → BERT-fuseの⽅が精度⾼い（Zhu et al, 2020でも同様の結果が出ている）
• BERT-fuse mask vs GED → ⽂法誤り検出（GED）でBERTをファインチューニングすると更に良くなった
8
• 疑似データを⽤いた事前学習（○）
• モデルアンサンブル（○）
• 疑似データを⽤いた事前学習（○）
• モデルアンサンブル（✕）
• 疑似データを⽤いた事前学習（✕）
• モデルアンサンブル（✕）
精度向上テクニック
論⽂より引⽤

分析
• GEDでBERTをファインチューニングすることで精度は上がったが、はたしてBERTは⽂法誤りを
認識することができているのか︖
• 検証
• ８つの単語が正しくまたは間違って使われていることを区別できているかを確認
• “the”, “,”, “in”, “to”, “of”, “a”, “for”, “is”
• 結果
• ⽣BERTは正しい⽤法で使われた場合と間違いを区別できていないが、
• ファインチューニング済みBERTは正しいものと誤りのものを区別できている
9論⽂より引⽤

まとめ
10
• やったこと
• ⽂法誤り訂正(GEC)モデルの学習において、どのようにMasked Language Model（MLM）を使
うと性能向上に寄与するか検証した論⽂（MLMとしてBERTを採⽤）
• 貢献したこと
• ⽂法誤り検出(GED)タスクでファインチューニングしたBERTの出⼒ベクトルを追加特徴量として⼊⼒
するEncoder-Decoderモデル（BERT-fuse GED）が最も精度向上に寄与した。
• 提案⼿法のうち最も精度が⾼いモデルが２つのベンチマーク（CoNLL2014, BEA2019）でSOTA
を達成。
エラータイプごとの精度についても
精度向上していることを確認した
GEDタスクのファインチューニングにより
⽂法誤りの認識性能が向上することが分かった
論⽂より引⽤

【論文紹介】Encoder-Decoder Models Can Benefit from Pre-trained Masked Language Models in Grammatical Error Correction.

Recommended

Recommended

More Related Content

Recently uploaded

Recently uploaded (20)

Featured

Featured (20)

【論文紹介】Encoder-Decoder Models Can Benefit from Pre-trained Masked Language Models in Grammatical Error Correction.