10. Search Engineでの位置づけ
Text
Browser
user interest
Text
Text Processing and Modeling
logical view logical view
MeCab
Query
NLTK etc. Indexing
user feedback Operations
Crawler
inverted index / Data
query WordNet Access
Searching Index
retrieved docs
Documents
(Web or DB)
Ranking
ranked docs
11. 類義語の抽出
• WordNetから類義語抽出手順(日→英の場合)
– MeCabで標準形と品詞を取得
– 名詞・副詞・動詞・形容詞のみ抽出
– SQLにてword→sense→関連sense→関連word
• select * from word where lemma=? and pos=?, (標準形,品詞)
• select * from sense where wordid=?, (word["wordid"],)
• select * from sense where synset=? and lang=?,
(sense["synset"], “en”)
• select * from word where wordid=? and pos=?,
(sense2["wordid"], 品詞)
• これでOK?
– 結論から言うと、そのままではまずかった
20. 単語の重みを考慮する
• 相関係数を2値からScalarに
– ある or なしだと 1か0かの2値表現
– 出現頻度を反映させてScalarに出来ないか?
Query document
Q A B C D E
{D, E}
term
0 1.0 0 1.5 0.4
term
1 1 0.8
2 0.1 2 0.4 1.2 0.2 {A, B, E}
3 3 1.5
4 4 0.5
5 5 1.6 2.5
6 6 0.2 1.0
1.5
21. tf - term frequency
• ある単語が各々の文章にどのくらい出現するか?
ni 単語iの出現頻度
tf i
k
nk 文書で出現する総単語数
• 問題点
– すべての単語が等しい重要度の場合
• 例:ツール,エラー,ファイル…
• 解決方法
– 頻繁に登場する語の影響力を薄める → そこでidf
22. idf - inverse document frequency
• ある単語がどのくらいの数の文書に出現するか?
総ドキュメント数
|D|
idf i log 単語iを含む
| {d : d ti } | ドキュメント数
レア語では高く
頻出語では低く
23. tf-idfによるスコアリング
• 以下の場合に高い
– 少数のドキュメントにtがたくさん出現する場合
• 以下の場合に低い
– ひとつのドキュメントに t が少なく出現する場合
– たくさんのドキュメントに t が出現する場合
38. 参考文献
• Christopher D. Manning, Prabhakar Raghavan, and Hinrich
Schütze, Introduction to Information Retrieval
• Michael McCandless, Erik Hatcher, and Otis Gospodnetid,
Lucene in Action, Second Edition
• Stephen Robertson, Hugo Zaragoza, SIGIR 2007 Tutorials -
The Probabilistic Relevance Model: BM25 and beyond.
• Donald Metzler, Victor Lavrenko, SIGIR 2009 Tutorials -
Probabilistic Models for Information Retrieval