6. 文書中の単語の共起関係をどのようにモデル化するか
6
潜在トピック
V種類の単語から成るM個の文書集合
文書
文書 d の i 番目の単語
入力
単語のインデックス
潜在トピックの数 K
文書中の各単語はある潜在トピックから出現すると仮定
→ トピックごとの単語の出現分布として、多項分布を設定
→ さらにこの多項分布のパラメタの事前分布として、ディリクレ分布を設定
各文書に複数のトピックが潜在していると仮定
→ 文書ごとの潜在トピックの出現分布として、多項分布を設定
→ さらにこの多項分布のパラメタの事前分布として、ディリクレ分布を設定
7. LDAにおける生成過程
7
潜在トピック
V種類の単語から成るM個の文書集合
文書
文書 d の i 番目の単語
入力
出力
文書 d での潜在トピック k の出現確率
文書 d の i 番目の単語が
どの潜在トピックから生成されたかを
示す潜在変数
潜在トピック k での単語 v の出現確率単語のインデックス
潜在トピックの数 K
各文書での潜在トピック出現確率
各トピックでの単語出現確率
各トピックでの単語出現確率
8. LDAのグラフィカルモデル
8
潜在トピック k での単語 v の出現確率
単語のインデックス(種類)
潜在トピック k での単語の出現分布のパラメタ
文書 d における潜在トピックの出現分布のパラメタ
文書 d の i 番目の単語
wd,i を生成した
潜在トピックを示す潜在変数
文書 d での潜在トピック k の出現確率
φk の超パラメタθd の超パラメタ
潜在トピック
文書
単語
9. 参考: トピックが文書内で共通の場合のグラフィカルモデ
ル
9
潜在トピック k での単語 v の出現確率
単語のインデックス(種類)
潜在トピック k での単語の出現分布のパラメタ
潜在トピックの出現分布のパラメタ
文書 d の i 番目の単語
wd,i を生成した
潜在トピックを示す潜在変数
文書 d での潜在トピック k の出現確率
φk の超パラメタθ の超パラメタ
潜在トピック
文書
単語