9. 貢献2: 未知語の見出し語化のモデル
● 平文の語と表層語との間の編集 (レーベンシュタイン) 距離を計算
→ 距離が0より大きい語から, 最近傍の語を見出し語とする
● K個の見出し語候補を用意 → SVMを (候補, 表層語) に適用
→ 最良のスコアの語を見出し語する
– 正例・負例は辞書から導出
● 素性: 編集距離 + N-Gramアラインメント
Method 1. ルールベース (要: 平文)
Method 2. SVMを用いた手法 (要: 平文, 辞書)
p l a y e d
p l a y
pp-1p-2
10. t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
Method 3. ニューラルネットワークの手法 (要: 辞書)
p al y e d
p
文字
a
b
・
・
p
・
確率値
0.01
0.01
・
・
0.94
・
11. t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
p al y e d
p l
文字
a
b
・
・
l
・
確率値
0.01
0.01
・
・
0.91
・
Method 3. ニューラルネットワークの手法 (要: 辞書)
12. t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
p al y e d
p l
文字
a
b
・
・
p
・
確率値
0.88
0.01
・
・
0.01
・
a
Method 3. ニューラルネットワークの手法 (要: 辞書)
13. t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
p al y e d
p l
文字
a
b
・
・
y
・
確率値
0.01
0.01
・
・
0.79
・
a y
Method 3. ニューラルネットワークの手法 (要: 辞書)
14. t t+3t-3 ・・・ ・・・
貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
p al y e d
p l
文字
a
b
・
・
・
/s
確率値
0.01
0.01
・
・
・
0.62
a y /s
Method 3. ニューラルネットワークの手法 (要: 辞書)
注: “/s” は終了記号とする
15. 貢献2: 未知語の見出し語化のモデル
● 表層語から, 文字レベルで見出し語を生成する
● 時点 t の文字を生成する時, 時点 t 周辺の10文字から生成
ot = softmax(W o h + bo)
Output Layer:
ht = tanh (Wh x + bh)
Hidden Layer:
xt = concat(xt
s
, xt
l
)
Input Layer:
yal e dp yalp
/sa b ...
/s
Method 3. ニューラルネットワークの手法 (要: 辞書)
注: “/s” は終了記号とする