SlideShare a Scribd company logo
1 of 12
Download to read offline
.
.
. ..
.
.
レポート課題2
IBM Model 2
大岩 秀和
情報理工学系研究科 数理情報学専攻 修士 1 年
November 30, 2010
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 1 / 8
機械翻訳
.
目的
..
.
. ..
.
.
フランス語の文 f が与えられたとき、良い翻訳結果となる一番最もら
しい英語の文 ˆe に翻訳する。これを P(e|f) を用いて式で書くと、
ˆe = arg max
e
P(e|f) (1)
(1) 式は Bayes の定理を用いて、以下の形に書き換えられる。
ˆe = arg max
e
P(e|f) = arg max
e
P(e)P(f|e)
英文そのものの最もらしさを表す P(e) は、英文のみのコーパスから
計算できるので…
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 2 / 8
機械翻訳
.
目的
..
.
. ..
.
.
フランス語の文 f が与えられたとき、良い翻訳結果となる一番最もら
しい英語の文 ˆe に翻訳する。これを P(e|f) を用いて式で書くと、
ˆe = arg max
e
P(e|f) (1)
(1) 式は Bayes の定理を用いて、以下の形に書き換えられる。
ˆe = arg max
e
P(e|f) = arg max
e
P(e)P(f|e)
英文そのものの最もらしさを表す P(e) は、英文のみのコーパスから
計算できるので…
.
目的の書き換え
..
.
. ..
.
.
対訳コーパス {(f(1), e(1)), . . . , (f(S), e(S))} を用いて、十分良い翻訳
精度を示すような P(f|e) を探す。
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 2 / 8
.
IBM モデル 1 のアルゴリズム
..
.
. ..
.
.
...1 英単語 e がフランス語の単語 f に翻訳される確率 t(f |e) の初期
値を決める
...2 各 (f(s), e(s)) 1 ≤ s ≤ S において、ある英単語 e があるフラン
ス語の単語 f に対応する回数の期待値
c(f |e; f(s)
, e(s)
) =
t(f |e)
t(f |e0) + · · · + t(f |el )
m
∑
j=1
δ(f, f′
)
l
∑
i=0
δ(e, ei )
を計算する。
...3 t(f |e) を再推定する。
t(f |e) =
∑s C(f |e; f(s), e(s))
∑f ∑s C(f |e; f(s), e(s))
...4 収束するまで、ステップ 2 とステップ 3 を繰り返す
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 3 / 8
IBM モデル 2
IBM モデル 1 では、英語とフランス語の間には、単語の出現順
序の関係性はないという制約を課した。
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 4 / 8
IBM モデル 2
IBM モデル 1 では、英語とフランス語の間には、単語の出現順
序の関係性はないという制約を課した。
IBM モデル 2 はこの条件を緩和する。
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 4 / 8
IBM モデル 2
IBM モデル 1 では、英語とフランス語の間には、単語の出現順
序の関係性はないという制約を課した。
IBM モデル 2 はこの条件を緩和する。
フランス語の単語fj と接続する英語の単語の位置 aj は、以下の
変数に依存すると仮定する。
フランス語の単語の位置 j
英語の文の長さ l
フランス語の文の長さ m
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 4 / 8
IBM モデル 2
IBM モデル 1 では、英語とフランス語の間には、単語の出現順
序の関係性はないという制約を課した。
IBM モデル 2 はこの条件を緩和する。
フランス語の単語fj と接続する英語の単語の位置 aj は、以下の
変数に依存すると仮定する。
フランス語の単語の位置 j
英語の文の長さ l
フランス語の文の長さ m
すなわち、フランス語の単語 fj に接続する英語の単語の位置 aj
は、対応付け確率で表現されるとする。
.
Definition (対応付け確率 / alignment probability)
..
.
. ..
.
.
a(aj |j, m, l) = P(aj |a
j−1
1 , f
j−1
1 , m, e)
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 4 / 8
IBM モデル 2
対応付け確率を導入した P(f|e) は、以下の式で記述できる。
P(f|e) = ϵ
l
∑
a1=0
· · ·
l
∑
am=0
m
∏
j=1
t(fj |eaj
)a(aj |j, m, l)
= ϵ
m
∏
j=1
l
∑
aj =0
t(fj |eaj
)a(aj |j, m, l)
.
参考:モデル 1 の場合
..
.
. ..
.
.
P(f|e) =
ϵ
(l + 1)m
m
∏
j=1
l
∑
i=0
t(fj |ei )
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 5 / 8
制約 ∑f t(f |e) = 1 と ∑l
i=0 a(i|j, m, l) = 1 を用いると、ラグラン
ジュ未定乗数法から、
単語 e が単語 f に接続する回数の期待値 C(f |e; f, e)
英語の単語位置 i がフランス語の単語位置 j に接続する回数の期
待値 C(i|j, m, l; f, e)
が導出できる。
.
.
. ..
.
.
C(f |e; f, e) =
m
∑
j=1
l
∑
i=0
t(f |e)a(i|j, m, l)δ(f, fj )δ(e, ei )
t(f |e0)a(0|j, m, l) + · · · + t(f |el )a(l|j, m, l)
.
.
. ..
.
.
C(i|j, m, l; f, e) =
t(fj |ei )a(i|j, m, l)
t(fj |e0)a(0|j, m, l) + · · · + t(fj |el )a(l|j, m, l)
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 6 / 8
青色で書かれている部分が、IBM モデル 1 との違い。
.
IBM モデル 2 のアルゴリズム
..
.
. ..
.
.
...1 英単語 e がフランス語の単語 f に翻訳される確率 t(f |e) と、英
語の単語位置 i がフランス語の単語位置 j に接続する確率
a(i|j, m, l) の初期値を決める
...2 各 (f(s), e(s)) 1 ≤ s ≤ S において、単語 e が単語 f に接続する
回数の期待値 C(f |e; f, e) と、英語の単語位置 i がフランス語の
単語位置 j に接続する回数の期待値 C(i|j, m, l; f, e) を計算する。
...3 t(f |e) と a(i|j, m, l) を再推定する。
a(i|j, m, l) =
∑s C(i|j, m, l; f(s), e(s))
∑l
i=0 ∑s C(i|j, m, l; f(s), e(s))
...4 収束するまで、ステップ 2 とステップ 3 を繰り返す。
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 7 / 8
IBM モデル 2 まとめ
IBM モデル 2 は、IBM モデル 1 の英語とフランス語の間には、
単語の出現順序の関係性はないという制約を緩和したモデル
フランス語の単語に接続する英語の単語の位置を対応付け確
率で表現し、EM アルゴリズムで最尤解を導出
IBM モデル 1 は IBM モデル 2 の特殊系
a(i|j, m, l) = (l + 1)−1
に固定したものが IBM モデル 1
IBM モデル 1 を用いて単語間の関係を推定した後に、その結果
を IBM モデル 2 の初期値として対応付け確率を推定する方法が
よく取られる
IBM モデル 2 は局所解が複数存在し、局所解に陥りやすいため
大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 8 / 8

More Related Content

What's hot

[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment
shima o
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani
 

What's hot (20)

Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 
[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
 
Gensim
GensimGensim
Gensim
 
TabNetの論文紹介
TabNetの論文紹介TabNetの論文紹介
TabNetの論文紹介
 
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
 
PubMedBERT: 生物医学NLPのための事前学習
PubMedBERT: 生物医学NLPのための事前学習PubMedBERT: 生物医学NLPのための事前学習
PubMedBERT: 生物医学NLPのための事前学習
 
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
画像をテキストで検索したい!(OpenAI CLIP) - VRC-LT #15
 
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
「機械学習:技術的負債の高利子クレジットカード」のまとめ
「機械学習:技術的負債の高利子クレジットカード」のまとめ「機械学習:技術的負債の高利子クレジットカード」のまとめ
「機械学習:技術的負債の高利子クレジットカード」のまとめ
 

More from Hidekazu Oiwa (12)

NIPS2014読み会 NIPS参加報告
NIPS2014読み会 NIPS参加報告NIPS2014読み会 NIPS参加報告
NIPS2014読み会 NIPS参加報告
 
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
 
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
ICML2013読み会 Large-Scale Learning with Less RAM via RandomizationICML2013読み会 Large-Scale Learning with Less RAM via Randomization
ICML2013読み会 Large-Scale Learning with Less RAM via Randomization
 
Incentive Compatible Regression Learning (Mathematical Informatics Reading)
Incentive Compatible Regression Learning (Mathematical Informatics Reading)Incentive Compatible Regression Learning (Mathematical Informatics Reading)
Incentive Compatible Regression Learning (Mathematical Informatics Reading)
 
PoisoningAttackSVM (ICMLreading2012)
PoisoningAttackSVM (ICMLreading2012)PoisoningAttackSVM (ICMLreading2012)
PoisoningAttackSVM (ICMLreading2012)
 
FOBOS
FOBOSFOBOS
FOBOS
 
OnlineClassifiers
OnlineClassifiersOnlineClassifiers
OnlineClassifiers
 
Prml9
Prml9Prml9
Prml9
 
Pfi last seminar
Pfi last seminarPfi last seminar
Pfi last seminar
 
NLPforml5
NLPforml5NLPforml5
NLPforml5
 
PRML5
PRML5PRML5
PRML5
 
Arow
ArowArow
Arow
 

Recently uploaded

Recently uploaded (11)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

IBMModel2

  • 1. . . . .. . . レポート課題2 IBM Model 2 大岩 秀和 情報理工学系研究科 数理情報学専攻 修士 1 年 November 30, 2010 大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 1 / 8
  • 2. 機械翻訳 . 目的 .. . . .. . . フランス語の文 f が与えられたとき、良い翻訳結果となる一番最もら しい英語の文 ˆe に翻訳する。これを P(e|f) を用いて式で書くと、 ˆe = arg max e P(e|f) (1) (1) 式は Bayes の定理を用いて、以下の形に書き換えられる。 ˆe = arg max e P(e|f) = arg max e P(e)P(f|e) 英文そのものの最もらしさを表す P(e) は、英文のみのコーパスから 計算できるので… 大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 2 / 8
  • 3. 機械翻訳 . 目的 .. . . .. . . フランス語の文 f が与えられたとき、良い翻訳結果となる一番最もら しい英語の文 ˆe に翻訳する。これを P(e|f) を用いて式で書くと、 ˆe = arg max e P(e|f) (1) (1) 式は Bayes の定理を用いて、以下の形に書き換えられる。 ˆe = arg max e P(e|f) = arg max e P(e)P(f|e) 英文そのものの最もらしさを表す P(e) は、英文のみのコーパスから 計算できるので… . 目的の書き換え .. . . .. . . 対訳コーパス {(f(1), e(1)), . . . , (f(S), e(S))} を用いて、十分良い翻訳 精度を示すような P(f|e) を探す。 大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 2 / 8
  • 4. . IBM モデル 1 のアルゴリズム .. . . .. . . ...1 英単語 e がフランス語の単語 f に翻訳される確率 t(f |e) の初期 値を決める ...2 各 (f(s), e(s)) 1 ≤ s ≤ S において、ある英単語 e があるフラン ス語の単語 f に対応する回数の期待値 c(f |e; f(s) , e(s) ) = t(f |e) t(f |e0) + · · · + t(f |el ) m ∑ j=1 δ(f, f′ ) l ∑ i=0 δ(e, ei ) を計算する。 ...3 t(f |e) を再推定する。 t(f |e) = ∑s C(f |e; f(s), e(s)) ∑f ∑s C(f |e; f(s), e(s)) ...4 収束するまで、ステップ 2 とステップ 3 を繰り返す 大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 3 / 8
  • 5. IBM モデル 2 IBM モデル 1 では、英語とフランス語の間には、単語の出現順 序の関係性はないという制約を課した。 大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 4 / 8
  • 6. IBM モデル 2 IBM モデル 1 では、英語とフランス語の間には、単語の出現順 序の関係性はないという制約を課した。 IBM モデル 2 はこの条件を緩和する。 大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 4 / 8
  • 7. IBM モデル 2 IBM モデル 1 では、英語とフランス語の間には、単語の出現順 序の関係性はないという制約を課した。 IBM モデル 2 はこの条件を緩和する。 フランス語の単語fj と接続する英語の単語の位置 aj は、以下の 変数に依存すると仮定する。 フランス語の単語の位置 j 英語の文の長さ l フランス語の文の長さ m 大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 4 / 8
  • 8. IBM モデル 2 IBM モデル 1 では、英語とフランス語の間には、単語の出現順 序の関係性はないという制約を課した。 IBM モデル 2 はこの条件を緩和する。 フランス語の単語fj と接続する英語の単語の位置 aj は、以下の 変数に依存すると仮定する。 フランス語の単語の位置 j 英語の文の長さ l フランス語の文の長さ m すなわち、フランス語の単語 fj に接続する英語の単語の位置 aj は、対応付け確率で表現されるとする。 . Definition (対応付け確率 / alignment probability) .. . . .. . . a(aj |j, m, l) = P(aj |a j−1 1 , f j−1 1 , m, e) 大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 4 / 8
  • 9. IBM モデル 2 対応付け確率を導入した P(f|e) は、以下の式で記述できる。 P(f|e) = ϵ l ∑ a1=0 · · · l ∑ am=0 m ∏ j=1 t(fj |eaj )a(aj |j, m, l) = ϵ m ∏ j=1 l ∑ aj =0 t(fj |eaj )a(aj |j, m, l) . 参考:モデル 1 の場合 .. . . .. . . P(f|e) = ϵ (l + 1)m m ∏ j=1 l ∑ i=0 t(fj |ei ) 大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 5 / 8
  • 10. 制約 ∑f t(f |e) = 1 と ∑l i=0 a(i|j, m, l) = 1 を用いると、ラグラン ジュ未定乗数法から、 単語 e が単語 f に接続する回数の期待値 C(f |e; f, e) 英語の単語位置 i がフランス語の単語位置 j に接続する回数の期 待値 C(i|j, m, l; f, e) が導出できる。 . . . .. . . C(f |e; f, e) = m ∑ j=1 l ∑ i=0 t(f |e)a(i|j, m, l)δ(f, fj )δ(e, ei ) t(f |e0)a(0|j, m, l) + · · · + t(f |el )a(l|j, m, l) . . . .. . . C(i|j, m, l; f, e) = t(fj |ei )a(i|j, m, l) t(fj |e0)a(0|j, m, l) + · · · + t(fj |el )a(l|j, m, l) 大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 6 / 8
  • 11. 青色で書かれている部分が、IBM モデル 1 との違い。 . IBM モデル 2 のアルゴリズム .. . . .. . . ...1 英単語 e がフランス語の単語 f に翻訳される確率 t(f |e) と、英 語の単語位置 i がフランス語の単語位置 j に接続する確率 a(i|j, m, l) の初期値を決める ...2 各 (f(s), e(s)) 1 ≤ s ≤ S において、単語 e が単語 f に接続する 回数の期待値 C(f |e; f, e) と、英語の単語位置 i がフランス語の 単語位置 j に接続する回数の期待値 C(i|j, m, l; f, e) を計算する。 ...3 t(f |e) と a(i|j, m, l) を再推定する。 a(i|j, m, l) = ∑s C(i|j, m, l; f(s), e(s)) ∑l i=0 ∑s C(i|j, m, l; f(s), e(s)) ...4 収束するまで、ステップ 2 とステップ 3 を繰り返す。 大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 7 / 8
  • 12. IBM モデル 2 まとめ IBM モデル 2 は、IBM モデル 1 の英語とフランス語の間には、 単語の出現順序の関係性はないという制約を緩和したモデル フランス語の単語に接続する英語の単語の位置を対応付け確 率で表現し、EM アルゴリズムで最尤解を導出 IBM モデル 1 は IBM モデル 2 の特殊系 a(i|j, m, l) = (l + 1)−1 に固定したものが IBM モデル 1 IBM モデル 1 を用いて単語間の関係を推定した後に、その結果 を IBM モデル 2 の初期値として対応付け確率を推定する方法が よく取られる IBM モデル 2 は局所解が複数存在し、局所解に陥りやすいため 大岩 秀和 (情理・数理) レポート課題2 IBM Model 2 November 30, 2010 8 / 8