Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

2014/11/22
EMNLP2014読み会@PFI
Learning Phrase Representations using
RNN Encoder-‐‑‒Decoder
for Statistical Machine Translation
菊池悠太

はじめに
Neural Network系技術を統計的機械翻訳(SMT)に
活かす研究は流行っている，ACL2014も多かった
（best paperもそうだった）
多くはphrase-based SMTの枠組みのどこかに活かす形
今回は
翻訳の枠組みがNeural Networkだけで完結する
Neural Machine Translation
....の(Bengio先生達にとっての)序章的論文
! 本稿ではまだphrase-based SMTの素性として使った時の報告
時間があれば触れる用におまけを用意したが絶対時間足りない

Agenda
- はじめに
- RNN Encoder-Decoder
!
!
出てくる技術
- RNN
- LSTM（のシンプル版）
- Maxout
!
- 実験・結果
!
出てくる技術
- phrase-based SMT
- Feed Forward Neural Network Language Model (FFNNLM)
- おまけたち
(Neural Machine Translation系の話題)

RNN Encoder-Decoder
２種類のRNN

RNN Encoder-Decoder
1. Encoder
現言語列の単語をひと
つずつ受け取り，隠れ
状態ベクトルcを作る
RNN

RNN Encoder-Decoder
2. Decoder
cから目的言語列を生
成するRNN

よく見るシンプルな
RNNの図
今回の図
ちなみに

よく見るシンプルな
RNNの図
つまり
- ◯は連続値ベクトル
- xはone-hotベクトル
今回の図
ちなみに

Encoder （LSTM-likeな活性化関数）

Encoder （LSTM-likeな活性化関数）
?

実際は…
X1 X2
reset gate:
どのくらい前回の
隠れ層が影響する
か
r

X1 X2
resetを考慮した
仮のhidden unit
r

z
X1 X2
今回の入力単語を
どのくらい使うか?
をupdate gate
が決定
r

z
r
X1 X2
実際には隠れ層(10０0次元)の各ユニットが独立した↑になってる
- reset gateが1になりやすいユニットは短い時間依存を担当
- update gateが1になりやすいユニットは長い時間依存を担当

RNN Encoder-DecoderのDecoder
隠れ層の活性化関数は
さっきのLSTM亜種
[点線部分]以外大体Encoderと一緒

RNN Encoder-DecoderのDecoder
出力層の活性化
関数はMaxout

Training
訓練後は
1. 目的言語列の生成
2. (原言語列-目的言語列)対
の翻訳確率
に使える

Training
訓練後は
1. 目的言語列の生成
2. (原言語列-目的言語列)対
の翻訳確率
に使える
今回は1.は定性評価のみ

実験
提案手法をphrased-base SMTの素性として使う
(Moses with default settings)

phrase-base SMTにおけるデコーダとしての対数線形モデル
の素性関数fn(f,e)に追加する
RNN:
- 提案手法による入力文のフレーズ対の翻訳確率(フレーズ対の数分足す)
- フレーズ対の数 (フレーズ対の数だけ翻訳確率の総和が発生するため，これで公平さを取る狙い)
CSLM[Schwenk2007] (基本的には[Bengio2003]のFFNNLMのこと):
- 目的言語列の生成確率
Word Penalty
- 出てきたUnknown wordの数

BLUE
RNN, CSLMどっちも貢献してる

Table 2
現言語phraseに対するtop-scoredな目的言語
phraseの実例(baselineと比較)
割愛
まぁ良い感じ
提案手法はphrase table上の出現頻度に寄らないとか
RNNencoderは短めのphraseを好むとか

さすがにアレかなと思ったので急遽貼りました
baseline翻訳モデル提案手法
Table 2の上半分

さすがにアレかなと思ったので急遽貼りました
baseline翻訳モデル提案手法
Table 2の下半分

Table 3: 提案手法が生成したphraseたち
phrase tableにないものも生成できている
→将来的に従来のphrase tableの代替に？

Figure 4: お約束，単語ベクトルの次元削減による可視化
青い部分を拡大
もっと大きな図は付録として最後についてます

Figure 5: cの次元圧縮による可視化
良い感じにphrase空間ができてる(論文をご参照下さい…)

Figure 5: cの次元圧縮による可視化
さすがにいっこ拡大してみる

Conclusion
RNN Encoder-Decoderというものを提案
encoder: 任意長の原言語列　→　中間表現
decoder: 中間表現　→　任意長の目的言語列
Large Potential
phrase tableの一部ないし全部を置き換える
RNNベースだしSpeech recognitionにも使えそう

おまけ
Neural Machine Translation

おまけ1, Bengio先生勢のNMT本編的論文

純粋にNNだけで翻訳生成（デコード時に幅10でビームサーチ）
この論文の提案手法(grConv) 今日のやつ(RNNenc)
次のおまけ
のやつ
文長・未知語数別のBLUEスコア

次のおまけ
のやつ
文の長さ，未知語の数で　かなり変わる
っていう論文がすでにarXivに….

おまけ２
話題になったこれとの関係

NMT的に生成したもののBLUEスコア

“おまけ1”で出てきた結果の表
見比べるべき条件は
このふたつ

“おまけ1”で出てきた結果の表
ハイパーパラメータが違ったり
この数値だけだと優劣分からない
モデルも一緒ではないので

単語の分散表現の学習について
有名なの今日の
バイリンガルで学習するとモノリンガルな
単語類似度評価セットも向上
!
“bilingual word embeddings”は以前からあったが
実際に有名な評価セットで優位性を報告したのは初？

新しい単語類似度
評価セット
!

これもNMT
しかもBLUEはRNNencより良いっぽい
!
!
!
!
!

全体まとめ
Neural Machine Translationやばそう
!
純粋にNNだけでちゃんと生成ができそうな報
告が溜まってきた？
!
先行者はBengio先生組やGoogle組

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

Similar to Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation (20)

Recently uploaded

Recently uploaded (8)

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation