Gamglm
- 4. 単語の長さはガンマ分布
x:単語の長さ
a,b: ガンマ分布のパラメータ
こいつを回帰してやれば良い
実際には同一言語内でも,観測文字列毎に単語の長さは変化する
接尾辞が「株式会社」なら単語の最大文字列長は20とかになりそう
接尾辞が「が」や「を」,「に」なら単語の最大文字列長はだいたい1になる
- 8. MCMC
w, vを初期化
1. w, v どちらかの feature index を1つ選ぶ
w[id] ← w[id] + η*u; //
パラメータ変更前と変更後の尤度計算(Lik_1,Lik_2)
if (bernoulli(Lik2 - Lik1) { return accept; }else {return revert; }
1に戻る
尤度計算の式
- 10. 実験
特徴量
特徴 概要
w_i 位置 t - i の文字 (0 <= i <= 1)
t_i 位置 t - i の文字種 (0 <= i <= 4)
type 位置 t の文字種が直前で何文字続くか
c 位置 t から最大8文字前までで文字種の変化した回数
- 12. 予測精度
(累積分布関数の閾値0.95)
単語の長さ 日本語 中国語 タイ語
1 1.000 1.000 1.000
2 1.000 0.999 1.000
3 1.000 0.962 0.972
4 0.460 0.590 0.950
5 0.018 0.281 0.940
6 0.000 0.300 0.817
7 0.000 0.000 0.593
8 0.000 0.000 0.195
9 0.000 0.000 0.0645
10 0.000 0.000 0.250
予測した最大長に正しい単語の長さが含まれる場合を正解とする