More Related Content
Similar to かな漢字変換ソフト「Genji」をつくってみた (7)
More from Masahiko Hashimoto (11)
かな漢字変換ソフト「Genji」をつくってみた
- 9. 確率の計算方法 @ OSC東京
「文節の出現頻度 / 自立語の出現頻度
➗ / その自立語と同音異義語の出現頻度」
例)例) 「私の」 ※これは文節
– 「私」「の」 ←出現回数 5回 = 5 / 10 = 0.50
– 「私」「は」 ←出現回数 3回 = 3 / 10 = 0.30
– 「私」「を」 ←出現回数 1回 = 1 / 10 = 0.10
– 「渡し」「を」 ←出現回数 1回 = 1 / 10 = 0.10
↑これが追加されました
※これで「おおさか」→「大坂」にはなりにくいはず!!
1週間前
- 22. [新提案?] n-gram × コスト最小法
コスト算出方法: 2 − (n-gramの出現確率)
例) わたしのなまえはなかのです
– 「私の」(1.5) × 「名前は」(1.8) × 「中野です」(1.9)
= 5.13
– 「私の」×「名前は」×「中の」(1.8) ×「出」(1.5) ×「巣」(1)
= 7.29
→ 「コスト最小法」なのでコストが小さい方を選択
→ 「中野です」の出現頻度は低いのでコストは大きいが、
代わりに積算される数が減るので、結果的に選択されやすくなる
→ 勝った!!(何にだよ?)