日本語かな漢字変換における識別モデルの適用とその考察
- 2. 発表概要
●
かな漢字変換とは
●
既存手法の紹介
●
提案手法
●
実験結果
●
まとめ
日本語かな漢字変換における識別モデルの適用とその考察 2
- 3. かな漢字変換問題とは
●
入力となる文字列xに対し、漢字かな交じり列y
を提示する
●
変換結果yが正解y'と同じ、もしくは類似して
いるほど良い
「くろいひとみのおおきなおんなのこ」
↓
「黒い瞳の大きな女の子」
日本語かな漢字変換における識別モデルの適用とその考察 3
- 4. 典型的な解き方
●
全ての部分文字列に対して辞書引きにより変換
候補を求め、グラフを作る
●
ビタビアルゴリズムを用いてグラフの最短経路
を求める
●
問題:グラフのノード間の距離をどうやって決
めるか?
日本語かな漢字変換における識別モデルの適用とその考察 4
- 5. 1. グラフの構築
転 食う 野 城
BOS 点 空 の 死 ろ EOS
天空 四
日本語かな漢字変換における識別モデルの適用とその考察 5
- 6. 2. 前向きに辿る
●
BOSから辿って、一番低いコストを実現するパ
スと、その時のコストを記憶する
転 食う 野 城
BOS 点 空 の 死 ろ EOS
天空 四
日本語かな漢字変換における識別モデルの適用とその考察 6
- 7. 2. 前向きに辿る
●
BOSから辿って、一番低いコストを実現するパ
スと、その時のコストを記憶する
転 食う 野 城
BOS 点 空 の 死 ろ EOS
天空 四
日本語かな漢字変換における識別モデルの適用とその考察 7
- 8. 2. 前向きに辿る
●
BOSから辿って、一番低いコストを実現するパ
スと、その時のコストを記憶する
転 食う 野 城
BOS 点 空 の 死 ろ EOS
天空 四
日本語かな漢字変換における識別モデルの適用とその考察 8
- 9. 2. 前向きに辿る
●
BOSから辿って、一番低いコストを実現するパ
スと、その時のコストを記憶する
転 食う 野 城
BOS 点 空 の 死 ろ EOS
天空 四
日本語かな漢字変換における識別モデルの適用とその考察 9
- 10. 2. 前向きに辿る
●
BOSから辿って、一番低いコストを実現するパ
スと、その時のコストを記憶する
転 食う 野 城
BOS 点 空 の 死 ろ EOS
天空 四
日本語かな漢字変換における識別モデルの適用とその考察 10
- 11. 3. 後ろ向きに辿る
●
EOSから赤いところを辿ると最適解が求まる
転 食う 野 城
BOS 点 空 の 死 ろ EOS
天空 四
日本語かな漢字変換における識別モデルの適用とその考察 11
- 12. 3. 後ろ向きに辿る
●
EOSから赤いところを辿ると最適解が求まる
転 食う 野 城
BOS 点 空 の 死 ろ EOS
天空 四
日本語かな漢字変換における識別モデルの適用とその考察 12
- 13. 3. 後ろ向きに辿る
●
EOSから赤いところを辿ると最適解が求まる
転 食う 野 城
BOS 点 空 の 死 ろ EOS
天空 四
日本語かな漢字変換における識別モデルの適用とその考察 13
- 14. 3. 後ろ向きに辿る
●
EOSから赤いところを辿ると最適解が求まる
転 食う 野 城
BOS 点 空 の 死 ろ EOS
天空 四
日本語かな漢字変換における識別モデルの適用とその考察 14
- 15. 3. 後ろ向きに辿る
●
EOSから赤いところを辿ると最適解が求まる
転 食う 野 城
BOS 点 空 の 死 ろ EOS
天空 四
日本語かな漢字変換における識別モデルの適用とその考察 15
- 16. ノード間の距離の決め方は?
●
確率的言語モデルを用いる [森, 1999]
●
識別モデルを用いる(提案手法)
日本語かな漢字変換における識別モデルの適用とその考察 16
- 17. 確率的言語モデルによるかな漢字変換 (1/2)
●
入力xに対する出力yとして、確率値P(y|x)を最
大とするyを出力する
P(天空の城|てんくうのしろ) > P(点食うの死ろ
|てんくうのしろ) みたいにモデル化したい
日本語かな漢字変換における識別モデルの適用とその考察 17
- 18. 確率的言語モデルによるかな漢字変換 (2/2)
●
P(y|x) ∝ P(y) P(x|y)
●
P(x) を言語モデルと呼ぶ
●
P(x|y) をかな漢字モデルと呼ぶ
●
言語モデルは日本語として正しそうな文に大きなス
コアを与える
●
かな漢字モデルはP(げん|間) みたいな珍しい読み方
に対してペナルティを与える
日本語かな漢字変換における識別モデルの適用とその考察 18
- 19. 今回提案する手法
●
識別的な手法でパラメーターを調整する
●
形態素解析はCRFで解析精度が向上 [工藤, 2004]
今回は構造化SVMを利用した
日本語かな漢字変換における識別モデルの適用とその考察 19
- 20. 識別モデルの特徴
●
パラメーターに対する制約がゆるい
●
ベイズの定理を使う場合、確率分布であるという条
件を満たす必要がある箇所がある
●
制約がゆるい分パラメーター最適化は大変
●
閉じた形で最適解が求まらないので、勾配法を使っ
て最適化する
日本語かな漢字変換における識別モデルの適用とその考察 20
- 22. 構造化SVMの直感的な説明
●
現在のパラメーターで変換してみる
●
ただし、正解パスにはペナルティを与えておく
●
うまく変換できたらOK
●
できなかったら?
●
正解パスの距離を小さくする
●
不正解パスの距離を長くする
●
その後、正則化をかける
日本語かな漢字変換における識別モデルの適用とその考察 22
- 23. 実験の設定
● データ:京大コーパス
●
学習に約16000文、テストに約2000文
●
提案手法:構造化SVM
●
素性:クラスバイグラム, 単語バイグラム, 単語ユニグ
ラム, 単語とよみのペア
● 比較対象:確率的言語モデル
●
言語モデル:クラスバイグラム, 単語バイグラム, 単語
ユニグラムの線形和
●
仮名漢字モデル:単語とよみのペア
日本語かな漢字変換における識別モデルの適用とその考察 23
- 24. 評価指標
●
精度:|LCS| / |SYS|
●
再現率:|LCS| / |CPS|
|CPS|:正解の文字数
|SYS|:システムの出力した文字数
|LCS|:CPSとSYSの最長共通部分列の文字数
日本語かな漢字変換における識別モデルの適用とその考察 24
- 25. 実験結果
●
精度、再現率で提案手法は3%程度上回った
日本語かな漢字変換における識別モデルの適用とその考察 25
- 26. 間違い例
●
同音異義語
●
地球 集会 軌道(正解:地球 周回 軌道)
●
未知語
●
簿ー・晩・帰依と(正解:ボー・バン・キエト)
●
表記揺れ
●
一 歳年下の弟(正解:1 歳年下の弟)
日本語かな漢字変換における識別モデルの適用とその考察 26
- 27. 考察
●
識別的手法は形態素解析の場合と同様に、かな
漢字変換においても有効であった
●
間違い例の中には、未知語の場合を除き、単語
境界の検出間違いは見当たらなかった
●
間違いとした物の中には、実際には間違いとは
言えない物も多かった
日本語かな漢字変換における識別モデルの適用とその考察 27
- 28. 今後の課題
●
大規模データへの適用
●
今回の学習コーパスは今となっては小さい (18MB)
●
単語間の共起情報をもっと使いたい
●
仮名文字列を形態素解析した情報を素性に加える
●
オンライン学習によるユーザー適応が実用にな
るかを調査したい
●
まず実用レベルにまで仕上げる必要がある
日本語かな漢字変換における識別モデルの適用とその考察 28
- 29. コードはOSSで公開予定
●
公開予定地:http://code.google.com/p/bell/
日本語かな漢字変換における識別モデルの適用とその考察 29
- 30. まとめ
●
識別的手法(構造化SVM)を用いることで、実
験では3%程度の性能の向上が得られた
●
今後はユーザー適応の実験を行ないたい
●
コードはOSSで公開予定
日本語かな漢字変換における識別モデルの適用とその考察 30