17. エントロピーベースの記事カテゴリ抽出
Unsupervised Segmentation of Chinese Text by use of Branching Entropy
[Z. Jin and K. Takana-Ishii, 2006]
基本概念
Suffix(接尾辞)を見て、Prefix(接頭辞)にくる文字が予測できるか?
? ポーツ選手 スポーツ選手
? スポーツ選手 ?
Prefixの不確かさをエントロピーで計り、エントロピーが前のエ
ントロピーより大きくなるまで記事カテゴリの文字数を増やす
エントロピー:Prefixに来る単語の種類が豊富/出現確率が均等な
ほど値が大きくなる
次の文字に 単語の切れ
エントロピー
が高い 何が来るか 目である可
わからない 能性が高い 17