トピックモデル勉強会: 第2章 Latent Dirichlet Allocation

「トピックモデルによる統計的潜在意味解析」輪読会
第2章 Latent Dirichlet Allocation
尾崎遼
15/08/24

内容
この章の目的
統計的潜在意味解析で用いられる統計モデルの一つであるLatent Dirichlet
Allocation (LDA) について直感的な理解を得る
（学習アルゴリズムは3章で扱う）
目標
LDAが文章集合をどのようにモデル化しているか説明できる
LDAの幾何学的な解釈から名前の由来を説明できる
LDAの応用例を挙げることができる
2

準備: 多項分布
確率分布 π に従ってK個の値のいずれかをとる確率変数 x があるとき、
N回の独立な試行でそれぞれの値がでた回数が従う確率分布を多項分布という。
3
k番目の値が出た回数
１回の試行でk番目の値をとる確率
1回の試行の場合は以下のようにかける
N回の独立な試行の結果

準備: Dirichlet分布
Dirichlet分布
単体（座標の総和が1で定義される空間）上の確率分布
4
パラメタ（実数）
期待値
分散
ただし

準備: Dirichlet分布は多項分布の共役事前分布
Dirichlet分布は多項分布の事前分布として用いられる
多項分布のパラメタは単体上の点と解釈できる
多項分布の共役事前分布(conjugate prior)であるから
＝多項分布を尤度、Dirichlet分布を事前分布とすると、事後分布の形もDirichlet分布に
なる → 数学的な取り扱いが容易になる
5
事後分布事前分布尤度
nk+αk をパラメタとするDirichlet分布になる → 頻度 nk が加算されたイメージ
証明は式(2.7)

文書中の単語の共起関係をどのようにモデル化するか
6
潜在トピック
V種類の単語から成るM個の文書集合
文書
文書 d の i 番目の単語
入力
単語のインデックス
潜在トピックの数 K
文書中の各単語はある潜在トピックから出現すると仮定
→ トピックごとの単語の出現分布として、多項分布を設定
→ さらにこの多項分布のパラメタの事前分布として、ディリクレ分布を設定
各文書に複数のトピックが潜在していると仮定
→ 文書ごとの潜在トピックの出現分布として、多項分布を設定
→ さらにこの多項分布のパラメタの事前分布として、ディリクレ分布を設定

LDAにおける生成過程
7
潜在トピック
V種類の単語から成るM個の文書集合
文書
入力
出力
文書 d での潜在トピック k の出現確率
文書 d の i 番目の単語が
どの潜在トピックから生成されたかを
示す潜在変数
潜在トピック k での単語 v の出現確率単語のインデックス
潜在トピックの数 K
各文書での潜在トピック出現確率
各トピックでの単語出現確率
各トピックでの単語出現確率

LDAのグラフィカルモデル
8
潜在トピック k での単語 v の出現確率
単語のインデックス（種類）
潜在トピック k での単語の出現分布のパラメタ
文書 d における潜在トピックの出現分布のパラメタ
wd,i を生成した
潜在トピックを示す潜在変数
φk の超パラメタθd の超パラメタ
潜在トピック
文書
単語

参考: トピックが文書内で共通の場合のグラフィカルモデ
ル
9
潜在トピック k での単語 v の出現確率
単語のインデックス（種類）
潜在トピック k での単語の出現分布のパラメタ
潜在トピックの出現分布のパラメタ
wd,i を生成した
潜在トピックを示す潜在変数
φk の超パラメタθ の超パラメタ
潜在トピック
文書
単語

LDAの幾何学的解釈: 準備
単体 simplex
d次元空間において各成分の和が 1 になるような部分空間
多項分布のパラメタは単体上の点とみることができる
10

LDAの幾何学的解釈: 文書は単語座標単体上の点と見なせる
単語出現分布は単語座標単体上の点である
単語座標単体: 各単語の確率が1であるベクトルを基底ベクトルとする単体
文書は単語出現分布とみなせる
和が1になるように正規化すれば確率分布になる
よって、文書は単語座標単体上の点と解釈できる
11

単語出現分布は単語座標単体上の点である
潜在トピックは単語出現分布である
よって、潜在トピックは単語座標単体上の点と解釈できる
LDAの幾何学的解釈: 潜在トピックも単語座標単体上の点とみなせる
12

潜在トピック出現分布は潜在トピック座標単体上の点と解釈できる
潜在トピック座標単体: 潜在トピックを基底ベクトルとする単体
LDAでは各文書に潜在トピック出現分布が推定される
よって、文書は潜在トピック座標単体上の点と解釈できる
LDAの幾何学的解釈: 文書は潜在トピック座標単体上の点ともみなせる
13

LDAの幾何学的解釈: まとめ
Latent Dirichlet Allocation の名前の由来
文書を、Dirichlet分布に従って、潜在（latent）トピック座標単体上に配置（allocate）
しているから
14
文書→単語座標単体潜在トピック→単語座標単体文書→潜在トピック座標単体
LDAは文書を単語座標単体から潜在トピック座標単体へ射影している
単語座標単体よりも潜在トピック座標単体の方が低次元であるため
次元圧縮と捉えることもできる

LDAの応用 1
単語の予測分布を利用する
単語の予測分布
トピックを介しているので、実際に文章中で現れなかった単語でもよい
応用例: 単語入力予測、言い換えの提案、キーワードによる情報検索、購入履歴
に基づく推薦
15

LDAの応用 2
時系列分析
潜在変数から時間ごとにθk、 φk,v を推定する
応用例: トピックの時系列、バースト、トレンド解析
文書の次元圧縮
単語を潜在変数の値（潜在トピック）と入れ替える
応用例: 分類器の特徴量として利用
単語の潜在的意味
潜在変数の値（潜在トピック）を参照することで、同じ単語でも異なる意味だとわかる
応用例: 語義曖昧性の解決、機械翻訳
16

LDAの応用例: 3
他のデータ
Bag of XXX になればどんなデータにも適用できる
応用例: 画像処理、バイオインフォマティクス、人の行動解析、画像＋テキスト
、音楽＋歌詞
17

トピックモデル勉強会: 第2章 Latent Dirichlet Allocation

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

トピックモデル勉強会: 第2章 Latent Dirichlet Allocation