1. .
.
. ..
.
.
レポート課題2
IBM Model 2
大岩 秀和
情報理工学系研究科 数理情報学専攻 修士 1 年
November 30, 2010
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 1 / 8
2. 機械翻訳
.
目的
..
.
. ..
.
.
フランス語の文 f が与えられたとき、良い翻訳結果となる一番最もら
しい英語の文 ˆe に翻訳する。これを P(e|f) を用いて式で書くと、
ˆe = arg max
e
P(e|f) (1)
(1) 式は Bayes の定理を用いて、以下の形に書き換えられる。
ˆe = arg max
e
P(e|f) = arg max
e
P(e)P(f|e)
英文そのものの最もらしさを表す P(e) は、英文のみのコーパスから
計算できるので…
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 2 / 8
3. 機械翻訳
.
目的
..
.
. ..
.
.
フランス語の文 f が与えられたとき、良い翻訳結果となる一番最もら
しい英語の文 ˆe に翻訳する。これを P(e|f) を用いて式で書くと、
ˆe = arg max
e
P(e|f) (1)
(1) 式は Bayes の定理を用いて、以下の形に書き換えられる。
ˆe = arg max
e
P(e|f) = arg max
e
P(e)P(f|e)
英文そのものの最もらしさを表す P(e) は、英文のみのコーパスから
計算できるので…
.
目的の書き換え
..
.
. ..
.
.
対訳コーパス {(f(1), e(1)), . . . , (f(S), e(S))} を用いて、十分良い翻訳
精度を示すような P(f|e) を探す。
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 2 / 8
4. .
IBM モデル 1 のアルゴリズム
..
.
. ..
.
.
...1 英単語 e がフランス語の単語 f に翻訳される確率 t(f |e) の初期
値を決める
...2 各 (f(s), e(s)) 1 ≤ s ≤ S において、ある英単語 e があるフラン
ス語の単語 f に対応する回数の期待値
c(f |e; f(s)
, e(s)
) =
t(f |e)
t(f |e0) + · · · + t(f |el )
m
∑
j=1
δ(f, f′
)
l
∑
i=0
δ(e, ei )
を計算する。
...3 t(f |e) を再推定する。
t(f |e) =
∑s C(f |e; f(s), e(s))
∑f ∑s C(f |e; f(s), e(s))
...4 収束するまで、ステップ 2 とステップ 3 を繰り返す
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 3 / 8
5. IBM モデル 2
IBM モデル 1 では、英語とフランス語の間には、単語の出現順
序の関係性はないという制約を課した。
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 4 / 8
6. IBM モデル 2
IBM モデル 1 では、英語とフランス語の間には、単語の出現順
序の関係性はないという制約を課した。
IBM モデル 2 はこの条件を緩和する。
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 4 / 8
7. IBM モデル 2
IBM モデル 1 では、英語とフランス語の間には、単語の出現順
序の関係性はないという制約を課した。
IBM モデル 2 はこの条件を緩和する。
フランス語の単語fj と接続する英語の単語の位置 aj は、以下の
変数に依存すると仮定する。
フランス語の単語の位置 j
英語の文の長さ l
フランス語の文の長さ m
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 4 / 8
8. IBM モデル 2
IBM モデル 1 では、英語とフランス語の間には、単語の出現順
序の関係性はないという制約を課した。
IBM モデル 2 はこの条件を緩和する。
フランス語の単語fj と接続する英語の単語の位置 aj は、以下の
変数に依存すると仮定する。
フランス語の単語の位置 j
英語の文の長さ l
フランス語の文の長さ m
すなわち、フランス語の単語 fj に接続する英語の単語の位置 aj
は、対応付け確率で表現されるとする。
.
Definition (対応付け確率 / alignment probability)
..
.
. ..
.
.
a(aj |j, m, l) = P(aj |a
j−1
1 , f
j−1
1 , m, e)
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 4 / 8
9. IBM モデル 2
対応付け確率を導入した P(f|e) は、以下の式で記述できる。
P(f|e) = ϵ
l
∑
a1=0
· · ·
l
∑
am=0
m
∏
j=1
t(fj |eaj
)a(aj |j, m, l)
= ϵ
m
∏
j=1
l
∑
aj =0
t(fj |eaj
)a(aj |j, m, l)
.
参考:モデル 1 の場合
..
.
. ..
.
.
P(f|e) =
ϵ
(l + 1)m
m
∏
j=1
l
∑
i=0
t(fj |ei )
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 5 / 8
10. 制約 ∑f t(f |e) = 1 と ∑l
i=0 a(i|j, m, l) = 1 を用いると、ラグラン
ジュ未定乗数法から、
単語 e が単語 f に接続する回数の期待値 C(f |e; f, e)
英語の単語位置 i がフランス語の単語位置 j に接続する回数の期
待値 C(i|j, m, l; f, e)
が導出できる。
.
.
. ..
.
.
C(f |e; f, e) =
m
∑
j=1
l
∑
i=0
t(f |e)a(i|j, m, l)δ(f, fj )δ(e, ei )
t(f |e0)a(0|j, m, l) + · · · + t(f |el )a(l|j, m, l)
.
.
. ..
.
.
C(i|j, m, l; f, e) =
t(fj |ei )a(i|j, m, l)
t(fj |e0)a(0|j, m, l) + · · · + t(fj |el )a(l|j, m, l)
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 6 / 8
11. 青色で書かれている部分が、IBM モデル 1 との違い。
.
IBM モデル 2 のアルゴリズム
..
.
. ..
.
.
...1 英単語 e がフランス語の単語 f に翻訳される確率 t(f |e) と、英
語の単語位置 i がフランス語の単語位置 j に接続する確率
a(i|j, m, l) の初期値を決める
...2 各 (f(s), e(s)) 1 ≤ s ≤ S において、単語 e が単語 f に接続する
回数の期待値 C(f |e; f, e) と、英語の単語位置 i がフランス語の
単語位置 j に接続する回数の期待値 C(i|j, m, l; f, e) を計算する。
...3 t(f |e) と a(i|j, m, l) を再推定する。
a(i|j, m, l) =
∑s C(i|j, m, l; f(s), e(s))
∑l
i=0 ∑s C(i|j, m, l; f(s), e(s))
...4 収束するまで、ステップ 2 とステップ 3 を繰り返す。
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 7 / 8
12. IBM モデル 2 まとめ
IBM モデル 2 は、IBM モデル 1 の英語とフランス語の間には、
単語の出現順序の関係性はないという制約を緩和したモデル
フランス語の単語に接続する英語の単語の位置を対応付け確
率で表現し、EM アルゴリズムで最尤解を導出
IBM モデル 1 は IBM モデル 2 の特殊系
a(i|j, m, l) = (l + 1)−1
に固定したものが IBM モデル 1
IBM モデル 1 を用いて単語間の関係を推定した後に、その結果
を IBM モデル 2 の初期値として対応付け確率を推定する方法が
よく取られる
IBM モデル 2 は局所解が複数存在し、局所解に陥りやすいため
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 8 / 8