SlideShare a Scribd company logo
1 of 17
「トピックモデルによる統計的潜在意味解析」輪読会
第2章 Latent Dirichlet Allocation
尾崎 遼
15/08/24
内容
この章の目的
統計的潜在意味解析で用いられる統計モデルの一つであるLatent Dirichlet
Allocation (LDA) について直感的な理解を得る
(学習アルゴリズムは3章で扱う)
目標
LDAが文章集合をどのようにモデル化しているか説明できる
LDAの幾何学的な解釈から名前の由来を説明できる
LDAの応用例を挙げることができる
2
準備: 多項分布
確率分布 π に従ってK個の値のいずれかをとる確率変数 x があるとき、
N回の独立な試行でそれぞれの値がでた回数が従う確率分布を多項分布という。
3
k番目の値が出た回数
1回の試行でk番目の値をとる確率
1回の試行の場合は以下のようにかける
N回の独立な試行の結果
準備: Dirichlet分布
Dirichlet分布
単体(座標の総和が1で定義される空間)上の確率分布
4
パラメタ(実数)
期待値
分散
ただし
準備: Dirichlet分布は多項分布の共役事前分布
Dirichlet分布は多項分布の事前分布として用いられる
多項分布のパラメタは単体上の点と解釈できる
多項分布の共役事前分布(conjugate prior)であるから
=多項分布を尤度、Dirichlet分布を事前分布とすると、事後分布の形もDirichlet分布に
なる → 数学的な取り扱いが容易になる
5
事後分布 事前分布尤度
nk+αk をパラメタとするDirichlet分布になる → 頻度 nk が加算されたイメージ
証明は 式(2.7)
文書中の単語の共起関係をどのようにモデル化するか
6
潜在トピック
V種類の単語から成るM個の文書集合
文書
文書 d の i 番目の単語
入力
単語のインデックス
潜在トピックの数 K
文書中の各単語はある潜在トピックから出現すると仮定
→ トピックごとの単語の出現分布として、多項分布を設定
→ さらにこの多項分布のパラメタの事前分布として、ディリクレ分布を設定
各文書に複数のトピックが潜在していると仮定
→ 文書ごとの潜在トピックの出現分布として、多項分布を設定
→ さらにこの多項分布のパラメタの事前分布として、ディリクレ分布を設定
LDAにおける生成過程
7
潜在トピック
V種類の単語から成るM個の文書集合
文書
文書 d の i 番目の単語
入力
出力
文書 d での潜在トピック k の出現確率
文書 d の i 番目の単語が
どの潜在トピックから生成されたかを
示す潜在変数
潜在トピック k での単語 v の出現確率単語のインデックス
潜在トピックの数 K
各文書での潜在トピック出現確率
各トピックでの単語出現確率
各トピックでの単語出現確率
LDAのグラフィカルモデル
8
潜在トピック k での単語 v の出現確率
単語のインデックス(種類)
潜在トピック k での単語の出現分布のパラメタ
文書 d における潜在トピックの出現分布のパラメタ
文書 d の i 番目の単語
wd,i を生成した
潜在トピックを示す潜在変数
文書 d での潜在トピック k の出現確率
φk の超パラメタθd の超パラメタ
潜在トピック
文書
単語
参考: トピックが文書内で共通の場合のグラフィカルモデ
ル
9
潜在トピック k での単語 v の出現確率
単語のインデックス(種類)
潜在トピック k での単語の出現分布のパラメタ
潜在トピックの出現分布のパラメタ
文書 d の i 番目の単語
wd,i を生成した
潜在トピックを示す潜在変数
文書 d での潜在トピック k の出現確率
φk の超パラメタθ の超パラメタ
潜在トピック
文書
単語
LDAの幾何学的解釈: 準備
単体 simplex
d次元空間において各成分の和が 1 になるような部分空間
多項分布のパラメタは単体上の点とみることができる
10
LDAの幾何学的解釈: 文書は単語座標単体上の点と見なせる
単語出現分布は単語座標単体上の点である
単語座標単体: 各単語の確率が1であるベクトルを基底ベクトルとする単体
文書は単語出現分布とみなせる
和が1になるように正規化すれば確率分布になる
よって、文書は単語座標単体上の点と解釈できる
11
単語出現分布は単語座標単体上の点である
潜在トピックは単語出現分布である
よって、潜在トピックは単語座標単体上の点と解釈できる
LDAの幾何学的解釈: 潜在トピックも単語座標単体上の点とみなせる
12
潜在トピック出現分布は潜在トピック座標単体上の点と解釈できる
潜在トピック座標単体: 潜在トピックを基底ベクトルとする単体
LDAでは各文書に潜在トピック出現分布が推定される
よって、文書は潜在トピック座標単体上の点と解釈できる
LDAの幾何学的解釈: 文書は潜在トピック座標単体上の点ともみなせる
13
LDAの幾何学的解釈: まとめ
Latent Dirichlet Allocation の名前の由来
文書を、Dirichlet分布に従って、潜在(latent)トピック座標単体上に配置(allocate)
しているから
14
文書→単語座標単体 潜在トピック→単語座標単体 文書→潜在トピック座標単体
LDAは文書を単語座標単体から潜在トピック座標単体へ射影している
単語座標単体よりも潜在トピック座標単体の方が低次元であるため
次元圧縮と捉えることもできる
LDAの応用 1
単語の予測分布を利用する
単語の予測分布
トピックを介しているので、実際に文章中で現れなかった単語でもよい
応用例: 単語入力予測、言い換えの提案、キーワードによる情報検索、購入履歴
に基づく推薦
15
LDAの応用 2
時系列分析
潜在変数から時間ごとにθk、 φk,v を推定する
応用例: トピックの時系列、バースト、トレンド解析
文書の次元圧縮
単語を潜在変数の値(潜在トピック)と入れ替える
応用例: 分類器の特徴量として利用
単語の潜在的意味
潜在変数の値(潜在トピック)を参照することで、同じ単語でも異なる意味だとわかる
応用例: 語義曖昧性の解決、機械翻訳
16
LDAの応用例: 3
他のデータ
Bag of XXX になればどんなデータにも適用できる
応用例: 画像処理、バイオインフォマティクス、人の行動解析、画像+テキスト
、音楽+歌詞
17

More Related Content

What's hot

ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-sleepy_yoshi
 
マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法Masafumi Enomoto
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足Hiromasa Ohashi
 
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challengesDeep Learning JP
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布Junya Saito
 
第52回SWO研究会チュートリアル資料
第52回SWO研究会チュートリアル資料第52回SWO研究会チュートリアル資料
第52回SWO研究会チュートリアル資料Takanori Ugai
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用Tomonari Masada
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式Hiroshi Nakagawa
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリングmlm_kansai
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~Takuya Ono
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 

What's hot (20)

変分法
変分法変分法
変分法
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足
 
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
【DL輪読会】Generative models for molecular discovery: Recent advances and challenges
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
 
PRML4.3.3
PRML4.3.3PRML4.3.3
PRML4.3.3
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
lsh
lshlsh
lsh
 
第52回SWO研究会チュートリアル資料
第52回SWO研究会チュートリアル資料第52回SWO研究会チュートリアル資料
第52回SWO研究会チュートリアル資料
 
今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~
 
分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 

Viewers also liked

トピックモデルの話
トピックモデルの話トピックモデルの話
トピックモデルの話kogecoo
 
160817 ISMB2016読み会
160817 ISMB2016読み会160817 ISMB2016読み会
160817 ISMB2016読み会Haruka Ozaki
 
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)Haruka Ozaki
 
トピックモデルによる統計的潜在意味解析 2章後半
トピックモデルによる統計的潜在意味解析 2章後半トピックモデルによる統計的潜在意味解析 2章後半
トピックモデルによる統計的潜在意味解析 2章後半Shinya Akiba
 
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半koba cky
 
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類Kouhei Nakaji
 
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半koba cky
 
Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析Nobuyuki Kawagashira
 
トピックモデル(LDA)によるセグメンテーション
トピックモデル(LDA)によるセグメンテーショントピックモデル(LDA)によるセグメンテーション
トピックモデル(LDA)によるセグメンテーションbusinessanalytics
 
Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-Haruka Ozaki
 
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomesISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomesHaruka Ozaki
 
Rで塩基配列を扱う方法
Rで塩基配列を扱う方法Rで塩基配列を扱う方法
Rで塩基配列を扱う方法Haruka Ozaki
 
距離まとめられませんでした
距離まとめられませんでした距離まとめられませんでした
距離まとめられませんでしたHaruka Ozaki
 
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)Takao Yamanaka
 
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと 12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと Haruka Ozaki
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Haruka Ozaki
 

Viewers also liked (20)

トピックモデルの話
トピックモデルの話トピックモデルの話
トピックモデルの話
 
160817 ISMB2016読み会
160817 ISMB2016読み会160817 ISMB2016読み会
160817 ISMB2016読み会
 
LDA入門
LDA入門LDA入門
LDA入門
 
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
 
トピックモデルによる統計的潜在意味解析 2章後半
トピックモデルによる統計的潜在意味解析 2章後半トピックモデルによる統計的潜在意味解析 2章後半
トピックモデルによる統計的潜在意味解析 2章後半
 
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
 
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類
 
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
 
Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析
 
トピックモデル(LDA)によるセグメンテーション
トピックモデル(LDA)によるセグメンテーショントピックモデル(LDA)によるセグメンテーション
トピックモデル(LDA)によるセグメンテーション
 
Pfi last seminar
Pfi last seminarPfi last seminar
Pfi last seminar
 
Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-
 
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomesISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
 
Rで塩基配列を扱う方法
Rで塩基配列を扱う方法Rで塩基配列を扱う方法
Rで塩基配列を扱う方法
 
距離まとめられませんでした
距離まとめられませんでした距離まとめられませんでした
距離まとめられませんでした
 
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
 
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと 12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
 
20150625 cloudera
20150625 cloudera20150625 cloudera
20150625 cloudera
 
20151221 public
20151221 public20151221 public
20151221 public
 

トピックモデル勉強会: 第2章 Latent Dirichlet Allocation