SlideShare a Scribd company logo
1 of 76
Copyright©2015 NTT corp. All Rights Reserved.
[特別講演]
パターン認識研究者のための
トピックモデリング概観
○石黒 勝彦、木村 昭悟
NTT コミュニケーション科学基礎研究所
e-mail: ishiguro.katsuhiko@lab.ntt.co.jp
twitter: @k_ishiguro
2Copyright©2015 NTT corp. All Rights Reserved.
本サーベイの目的
対象:統計的パターン認識の研究者、同分野に関連し
た仕事をするエンジニア
目的:今後トピックモデルを研究・開発の一要素
(building block)として利用する際の指針を与える
手段:building blockとして使用する上でおさえておく
べき機能・応用例・実装技術の「入口」を整理・紹介
する
目指さないこと:網羅的 and/or 深いレベルまでの調査研究
3Copyright©2015 NTT corp. All Rights Reserved.
What トピックモデル?
一言でいうと:混合モデルの混合モデル
目的:
データの中の大雑把な意味のかたまり(トピック)を
教師なしで推定する(クラスタリング)
用途:
データ集合のクラスタリングと可視化、知識発見
巨大なデータの低ランク化による情報圧縮
4Copyright©2015 NTT corp. All Rights Reserved.
Why トピックモデル?
教師なしで良いクラスタリング性能
直観に合うクラスタ、精度の高いモデルが得られる
大量にデータを放り込んでもよく動く
シンプルなモデルで実装が容易、堅牢
多くの研究者が拡張や高速化を研究してくれて
いる
自分で開発しなくても、使えばよい
5Copyright©2015 NTT corp. All Rights Reserved.
研究対象としては枯れている?
関心は低下していない
タイトルに “LDA” or “Latent Dirichlet Allocation” or “topic”がある論文数(講演者調べ)
2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
NIPS 2 3 4 5 3 6 7 4 3 4
ICML 5 1 1 6 3 2 7 11 5 4
CVPR 2 1 2 2 2 2 2 3 2 0
ICCV - 3 - 1 - 0 - 3 - 0
ECCV 0 - 0 - 1 - 0 - 1 -
Google Trends, “topic models”, as of 2015/12/2
6Copyright©2015 NTT corp. All Rights Reserved.
本講演の目次
1.基本モデル(17分):トピックモデルとはどんなものか
2.拡張モデル(10分):機械学習分野でどのような拡張モデルが根付い
ているか
3.パターン認識応用(20分):種々のドメインでどんな研究に利用され
てきたか
4.推論法およびデータスケーラビリティ(5分):高精度を達成したり大
規模データへ応用するための手法
5.まとめ(3分):本講演のまとめと注目している最新の研究について
7Copyright©2015 NTT corp. All Rights Reserved.
1.基本モデル:トピックモデル
文書データ
ユニグラム混合モデル
トピックモデル
Latent Dirichlet Allocation(LDA)
Bag of Words (BoW)フォーマット
グラフィカルモデル(プレートノーテーション)
8Copyright©2015 NTT corp. All Rights Reserved.
データ:文書データ集合
本講演では観測データ=文書データ集合として
(そのアナロジーのもとで)話を進めます
文書データ集合 X = {xd} d = 1, …, D
例えば全国の新聞記事データセット
消費税 法案 否決 据え置き ・・・
総選挙 長期金利 影響 永田町 ・・・
文書 dを構成する単語集合
(文を分かち書きしたと思う)
文書dはNd個の単語の集合{xd,i}, i = 1, …, Nd
単語xd,iはV種の離散シンボル観測値
xd,i=v, v = 1, …, V
xd,2 = v = {法案}
xd,3 = v’ = {否決}
9Copyright©2015 NTT corp. All Rights Reserved.
目的:“話題=トピック”に基づく
文書データの自動意味解析
大量の文書データを教師なしで大体把握したい。
つまり、下記のような問いに答えたい
各文書は、大体どういう内容?
この文書データ集合の中には、
どんな「話題」がある?
トピックモデルのアプローチ:
「ある話題で出現しやすい単語集合」というクラスタ
(”トピック”)で文書を表現する
10
[Blei+, 2003]
トピック(話題):
ある「話題」のもとで
出現しやすい単語集合
各文書中の単語をトピックで色分け
 大体の内容の「話題」がわかる
[Blei+, 2003] Blei et al, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003.
11Copyright©2015 NTT corp. All Rights Reserved.
トピックとは?
新聞記事なら:国内政治、国際政治、経済、金融、ス
ポーツ、芸能、文化・・・などの「話題」
その話題のもとで出現しやすい単語、すなわち単語出
現確率によって各トピックを定義
「総選挙」 「音楽性」「アイドル」単語
トピック
投票
消費税
総選挙
.04
.04
.03
… …
アイドル
総選挙
ドラマ
.05
.02
.04
… …
音楽
展覧会
アニメ
.04
.02
.02
… …
国内政治 芸能 文化
12Copyright©2015 NTT corp. All Rights Reserved.
ユニグラム混合モデル:
1文書を1トピックだけで説明する
GMMと同じ複雑さの文書モデリング
ガウシアンコンポーネント=トピック
サンプル=文書
消費税 法案 否決 据え置き ・・・
総選挙 長期金利 影響 永田町 ・・・
アイドル グループ 総選挙 ・・・
経済効果 音楽 ドラマ CM ・・・
文書 dを構成する単語集合 xd
文書 d’を構成する単語集合 xd’
投票
消費税
総選挙
.04
.04
.03
… …
国内政治
アイドル
総選挙
ドラマ
.05
.02
.04
… …
芸能
13Copyright©2015 NTT corp. All Rights Reserved.
現実:1文書中に複数トピックが混在
する状況も自然に考えられる
一つの文書の中に複数のトピックが混在する、
という二段目の「混合」があったほうが良い
消費税 法案 否決 据え置き ・・・
総選挙 長期金利 影響 永田町 ・・・
アイドル グループ 総選挙 ・・・
経済効果 音楽 ドラマ CM ・・・
文書 dを構成する単語集合 xd
文書 d’を構成する単語集合 xd’
金融?
経済?
投票
消費税
総選挙
.04
.04
.03
… …
国内政治
アイドル
総選挙
ドラマ
.05
.02
.04
… …
芸能
14Copyright©2015 NTT corp. All Rights Reserved.
トピックモデル:混合モデルの混合モデル
2段階の混合モデルで文書データ集合を表現する
上位の混合:文書集合全体はトピックの混合モデル
下位の混合:各文書自体が固有の混合比をもつトピック混合
モデルで、各単語はいずれかのトピックで説明
投票
消費税
総選挙
.04
.04
.03
… …
国内政治
アイドル
総選挙
ドラマ
.05
.02
.04
… …
芸能
金利
緩和
中銀
.03
.02
.02
… …
金融
消費税 法案 否決 据え置き ・・・
総選挙 長期金利 影響 永田町 ・・・
トピック=混合コンポーネントで
文書集合をモデル化
文書=混合コンポーネントの混合モデル
文書dのトピック混合比
文書dの観測量(単語群)
各トピックの単語分布
15Copyright©2015 NTT corp. All Rights Reserved.
Latent Dirichlet Allocation (LDA)
[Blei+, 2003]
階層ベイズモデルによる
“デファクトスタンダード”
確率的生成モデル: 文書データが確率的にサ
ンプリング(生成)される過程を定義
pLSI(非ベイズモデル)[Hoffman, 1999]よりモデリング
精度、拡張性、学習の安定性の面で優れる
多様な最新のベイズ推論方法が使える
[Blei+, 2003] Blei et al, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003.
16Copyright©2015 NTT corp. All Rights Reserved.
LDAの確率的生成過程:
4つの登場要素に確率分布を仮定
d: 文書のインデックス d ∈ {1, …, D}
i: 単語のインデックス i ∈ {1, … Nd}
V: 観測される離散シンボルのインデックス v ∈ {1, …, V}
k: トピックのインデックス k ∈ {1, …, K}
𝑥 𝑑,𝑖 = 𝑣 ~ Discrete 𝜷 𝑧 𝑑,𝑖
𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑
𝜽 𝑑 ∈ ℝ+
𝐾
~Dirichlet 𝜶
𝜷 𝑘 ∈ ℝ+
𝑉
~Dirichlet 𝜷0
for トピック k = 1, 2, …, K
トピックkの単語分布
for 文書d = 1, 2, …, D
文書dのトピック混合比
for 単語i = 1, 2, …, Nd
単語(d,i)のトピック割り当て
単語の値(観測する文字列)
独立かつ一様に分布(サンプリング)
投票
消費税
総選挙
.04
.04
.03
… …
国内政治
ex) 政治欄の記事文書d, i番目の観測単語がv
番目のシンボル「総選挙」だった
トピック=「ある話題での単語の出やすさ分布」を生成
すなわち不均一なV面サイコロをK個つくります
ディリクレ(Dirichlet)分布:
すべて非負&足して1のベクトル≒「サイコロ」
を生成する確率分布
𝜷 𝑘 ∈ ℝ+
𝑉
~Dirichlet 𝜷0
for トピック k = 1, 2, …, K
投票
消費税
総選挙
.04
.04
.03
… …
k:国内政治
アイドル
総選挙
ドラマ
.05
.02
.04
… …
m:芸能
金利
緩和
中銀
.03
.02
.02
… …
l:金融
各トピックごとに
出やすい単語が違う
=「話題」が違うことを表現
単語の語彙数=V
トピックの総数=K
文書ごとの固有のトピック混合比を生成
すなわち不均一なK面サイコロをD個つくります
𝜽 𝑑 ∈ ℝ+
𝐾
~Dirichlet 𝜶for 文書d = 1, 2, …, D
政治欄の文書d: 𝜽 𝑑
芸能欄の文書d’: 𝜽 𝑑′
政治欄の記事なら
政治トピックが多めになると期待
ex) 政治欄の記事文書d, i番目の観測単語がv
番目のシンボル「総選挙」だった
𝜷 𝑘 ∈ ℝ+
𝑉
~Dirichlet 𝜷0
投票
消費税
総選挙
.04
.04
.03
… …
k:国内政治
アイドル
総選挙
ドラマ
.05
.02
.04
… …
m:芸能
金利
緩和
中銀
.03
.02
.02
… …
l:金融
トピックkの単語分布
トピックの総数=K
文書の総数=D
(1) (2) (3) (4) ・・・
(i) (i+1) (i+2) (i+3) ・・・
各文書dの単語iごとに、文書のトピック混合比に合わせて
i番目の単語を説明するトピックを割り当てます。
つまり混合比のK面サイコロを振ります。
for 文書d = 1, 2, …, D
𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑
for 単語i = 1, 2, …, Nd
離散分布(多項分布):与えられた「サイコロ」を振っ
て出目を返す確率分布
ex) 政治欄の記事文書d, i番目の観測単語がv
番目のシンボル「総選挙」だった
𝜽 𝑑 ∈ ℝ+
𝐾
~Dirichlet 𝜶
𝜷 𝑘 ∈ ℝ+
𝑉
~Dirichlet 𝜷0
投票
消費税
総選挙
.04
.04
.03
… …
k:国内政治
アイドル
総選挙
ドラマ
.05
.02
.04
… …
m:芸能
金利
緩和
中銀
.03
.02
.02
… …
l:金融
トピックkの単語分布
文書dのトピック混合比
i番目の単語について一番混合比が高い
トピックを選択した
消費税 法案 否決 据え置き ・・・
総選挙 長期金利 影響 永田町 ・・・
i番目の単語に割り当てられたトピックと、そのトピックのもつ単語分布に従って実
際の観測量(文字列)を生成します。
つまり指定されたトピックのV面サイコロを振ります
for 文書d = 1, 2, …, D
for 単語i = 1, 2, …, Nd
𝑥 𝑑,𝑖 = 𝑣 ~ Discrete 𝜷 𝑧 𝑑,𝑖
ex) 政治欄の記事文書d, i番目の観測単語がv
番目のシンボル「総選挙」だった 𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑
𝜽 𝑑 ∈ ℝ+
𝐾
~Dirichlet 𝜶
𝜷 𝑘 ∈ ℝ+
𝑉
~Dirichlet 𝜷0
投票
消費税
総選挙
.04
.04
.03
… …
k:国内政治
アイドル
総選挙
ドラマ
.05
.02
.04
… …
m:芸能
金利
緩和
中銀
.03
.02
.02
… …
l:金融
文書dの観測量(単語群)
トピックkの単語分布
文書dのトピック混合比
確率の高い「総選挙」が
サンプルされた
投票
消費税
総選挙
.04
.04
.03
… …
k:国内政治
アイドル
総選挙
ドラマ
.05
.02
.04
… …
m:芸能
金利
緩和
中銀
.03
.02
.02
… …
l:金融
消費税 法案 否決 据え置き ・・・
総選挙 長期金利 影響 永田町 ・・・
𝑥 𝑑,𝑖 = 𝑣 ~ Discrete 𝜷 𝑧 𝑑,𝑖
𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑
𝜽 𝑑 ∈ ℝ+
𝐾
~Dirichlet 𝜶
𝜷 𝑘 ∈ ℝ+
𝑉
~Dirichlet 𝜷0
for トピック k = 1, 2, …, K
トピックkの単語分布
for 文書d = 1, 2, …, D
文書dのトピック混合比
for 単語i = 1, 2, …, Nd
単語(d,i)のトピック割り当て
単語の値(観測する文字列)
文書dの観測量(単語群)
トピックkの単語分布
文書dのトピック混合比
このモデルに従って文書が確率的に生成されたと
「仮定して学習すると」トピック解析ができます
22
[Blei+, 2003]
bの推論結果=各トピックの頻出単語
 「話題」のクラスタがわかる
Zの推論結果=各文書中の単語をトピックで色分け
 文書の大体の内容の「話題」がわかる
[Blei+, 2003] Blei et al, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003.
23Copyright©2015 NTT corp. All Rights Reserved.
Bag-of-Words(BoW)表現
「単語の出現頻度」のみで文書をモデル化
LDAモデルは文書中の単語の順番 i を入れ替えても
確率が変化しないため(可換性)
法案:4
賛成:4
多数:4
国会:3
・・・・
総選挙:5
握手:4
売上:4
アイドル:2
・・・・
BoWはトピックモデルの限界を規定すると共に
実応用上の大きなメリットも提供する重要な性質です
24Copyright©2015 NTT corp. All Rights Reserved.
BoW表現のpros & cons
Pros:
文書データを簡易&省メモリなフォーマットで
表現可能
Cons:
観測量(単語)間に一切の依存関係・順序関係
を認めない
大量のデータを投入可能にすることで高いクラスタリング精度を見込める
 モデルの限界。文書の生成過程としてはかなり非現実的な仮定
(ただし意味のクラスタを抽出するにはこれで十分だった)
25Copyright©2015 NTT corp. All Rights Reserved.
プレートノーテーション
(グラフィカルモデル)
変数間の依存関係とインデックスの繰り返し部
分を図示する方法
様々なモデルを視覚的に比較可能
25
𝑧 𝑑,𝑖 𝑥 𝑑,𝑖
𝜷 𝑘
𝜽 𝑑𝜶
i=1, …, Nd
k=1, …, K
d=1, …, D
𝜷0
LDAのグラフィカルモデル
定数
(ハイパーパラメータ)
観測量
プレート:
変数の繰り返しと
インデックス範囲
確率変数
26Copyright©2015 NTT corp. All Rights Reserved.
プレートノーテーション
(グラフィカルモデル)
26
𝑧 𝑑,𝑖 𝑥 𝑑,𝑖
𝜷 𝑘
𝜽 𝑑𝜶
i=1, …, Nd
k=1, …, K
d=1, …, D
𝜷0
定数
(ハイパーパラメータ)
確率変数
観測量
プレート:
変数の繰り返しと
インデックス範囲
𝑥 𝑑,𝑖 = 𝑣 ~ Discrete 𝜷 𝑧 𝑑,𝑖
𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑
𝜽 𝑑 ∈ ℝ+
𝐾
~Dirichlet 𝜶
𝜷 𝑘 ∈ ℝ+
𝑉
~Dirichlet 𝜷0for トピック k = 1, 2, …, K
for 文書d = 1, 2, …, D
for 単語i = 1, 2, …, Nd
LDAのモデル
27Copyright©2015 NTT corp. All Rights Reserved.
2.拡張モデル
トピック間の関係モデリング
文書の時系列モデリング
教師情報・補助情報の利用
28Copyright©2015 NTT corp. All Rights Reserved.
本講演で調べる範囲
トピック間の関係モデリング
相関関係、順序・階層関係
時系列(タイムスタンプ文書)モデリング
どこにマルコフ性を入れるか
教師・補助情報の利用
評価スコア、クラス情報、関係データ
29Copyright©2015 NTT corp. All Rights Reserved.
トピック間の関係モデリング
LDAでは表現できない「トピックの関係」を実
現するための研究は多数ありあす
[Blei & Lafferty, 2007] Blei and Lafferty, “A Correlated Topic Model of Science”, The Annals of Applied Statistics, Vol. 1(1), pp. 17-35, 2007.
[Li&McCallum, 2006] Li and McCallum, “Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations”, in Proc. ICML, 2006.
トピック間の上位・下位関係
[Li & McCallum, 2006]
医療 経済
新薬開発地方医療 金融危機再生医療
トピックの相関関係 [Blei & Lafferty, 2007]
国際政治
日米関係
日本映画
貿易
30Copyright©2015 NTT corp. All Rights Reserved.
Correlated Topic Model (CTM)
[Blei & Lafferty, 2007]
トピック間の正負の相関をモデル化
30
𝜽 𝑑 ∈ ℝ+
𝐾
~Dirichlet 𝜶
LDA
文書dのトピック混合比
𝜽 𝑑 ∈ ℝ 𝐾
~Normal 𝐾 𝝁, 𝜮
CTM
文書dのトピック ``レスポンス’’
Soft-maxで
トピック混合比へ変換
𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑各単語iのトピック割り当て
𝜽 𝑑,𝑘 =
exp 𝜃 𝑑,𝑘
𝑘′ exp 𝜃 𝑑,𝑘′
∈ ℝ+
𝐾
𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑各単語iのトピック割り当て
Soft-maxによる変換を導入することで、任意のK次元ベクトルを
トピック ``レスポンス’’ として使えるようになる
Σの設計によって、トピックの相関(正負)を積極的にデザインできる
[Blei & Lafferty, 2007] Blei and Lafferty, “A Correlated Topic Model of Science”, The Annals of Applied Statistics, Vol. 1(1), pp. 17-35, 2007.
31Copyright©2015 NTT corp. All Rights Reserved.
Pachinko Allocation Model
[Li & McCallum, 2006]
単語を生成するtopicへの分岐を制御するsuper-topicを
最初に選択する階層モデル
医療super-topicを選ぶと医療関係のトピックを選択しやすく
なる
super-topicは 普通のトピックの重み付和として表現
・・・
super-topicノード s:
全トピックノードと接続
ルートノード
topicノード k
・・・
医療
経済
新薬開発
地方医療
貿易自由化
金融危機
再生医療
[Li&McCallum, 2006] Li and McCallum, “Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations”, in Proc. ICML, 2006.
32Copyright©2015 NTT corp. All Rights Reserved.
時系列データ
タイムスタンプのついた文書データ群に対する
時間依存性モデリングは多くの場面で必要です
2014 2015
購買履歴 [Iwata+, 2009]
科学論文・特許
[Blei & Lafferty, 2006]
動画像、音響信号
[Nakano+, 2011; Ishiguro+, 2012]
[Nakano+, 2011] Nakano et al., “Automatic Video Annotation via Hierarchical Topic Trajectory Model Considering Cross-modal Correlation”,
in Proc. ICASSP, 2011.
[Ishiguro+, 2012] Ishiguro et al., “Probabilistic Speaker Diarization with Bag-of-Words Representations of Speaker Angle Information”, IEEE
Trans. ASLP, 20(2), 447-460, 2012.
[Blei & Lafferty, 2006] Blei & Lafferty, “Dynamic Topic Models”, in Proc. ICML, 2006.
[Iwata+, 2009] Iwata et al, “Topic Tracking Model for Analyzing Consumer Purchase Behavior”, in Proc. IJCAI, 2009.
33Copyright©2015 NTT corp. All Rights Reserved.
(添え字d, i, kは省略)
time
𝑥𝑡−1 𝜷 𝑡−1𝜽 𝑡−1
i=1, …, Nt-1,d
d=1, …, Dt-1
𝑧𝑡 𝑥𝑡 𝜷 𝑡𝜽 𝑡
i=1, …, Nt,d
k=1, …, K
𝑧𝑡−1
d=1, …, Dt
𝜶 𝑡−1
𝜶 𝑡
各年度tの研究トピックの流行
(混合比の分布)が前年度に依存して変化
各研究トピックkの単語の選択確率が
前年度に依存して発展
年度 t-1
年度 t
GMM
Viola-Jones
SVM
.04
.04
.03
… …
パターン認識
SGD
カット
深層学習
.04
.04
.03
… …
[Blei & Lafferty, 2006] Blei & Lafferty, “Dynamic Topic Models”, in Proc. ICML, 2006.
Dynamic Topic Models (DTM)
[Blei & Lafferty, 2006]
論文誌データを年度ごとの時系列で解析
34Copyright©2015 NTT corp. All Rights Reserved.
Topic Tracking Model (TTM)
[Iwata+, 2009]
34[Iwata+, 2009] Iwata et al, “Topic Tracking Model for Analyzing Consumer Purchase Behavior”, in Proc. IJCAI, 2009.
購買履歴データからユーザの興味を時間解析して推薦
文書=ユーザ、トピック=興味、単語=購入商品
𝑥𝑡−1 𝜷 𝑡−1𝜽 𝑡−1
i=1, …, Nt-1,d
d=1, …, D
𝑧𝑡 𝑥𝑡 𝜷 𝑡𝜽 𝑡
i=1, …, Nt,d
k=1, …, K
𝑧𝑡−1
d=1, …, D
𝜶 𝑡−1
𝜶 𝑡
(添え字d, i, kは省略)
各ユーザ d の興味トピック混合比が
時刻tに応じて変化
興味トピック k ごとの
アイテム購買分布が時間変化
ガジェット
時刻 t-1
時刻 t
35Copyright©2015 NTT corp. All Rights Reserved.
教師情報・補助情報の利用
トピッククラスタリングのために教師信号やメタデー
タを利用する拡張モデルの研究例です
文書間の関係リンク [Chang & Blei, 2009]数値スコア(評点) [Blei & McAuliffe, 2008]
クラスラベル、タグ [Lacoste-Julien+, 2009; Ramge+, 2009]
4.3
“cool”
クラス1
クラス3“あとで読む”
[Blei & McAuliffe, 2008] Blei and McAuliffe, “Supervised Topic Models”, in Proc. NIPS, 2008.
[Lacoste-Julien+, 2009] Lacoste-Julien et al.., “DiscLDA: Discriminative Learning for Dimensionality Reductioin and Classification”, in Proc. NIPS, 2009.
[Ramage+, 2009] Ramage et al., “Labeled LDA: a supervised topic model for credit attribution in multi-labeled corpora”, in Proc. EMNLP, 2009.
[Chang & Blei, 2009] Chang and Blei, “Relational Topic Models for Document Networks”, in Proc. AISTATS, 2009.
36Copyright©2015 NTT corp. All Rights Reserved.
Supervised LDA (sLDA)
[Blei & McAuliffe, 2008]
BoW文書と補助情報(数値スコア)を同時に
トピック割当Zで制御
36
𝑧 𝑑,𝑖 𝑥 𝑑,𝑖
𝜷 𝑘
𝜽 𝑑𝜶
i=1, …, Nd
k=1, …, K
d=1, …, D
𝜷0
LDAのグラフィカルモデル
𝑧 𝑑,𝑖 𝑥 𝑑,𝑖
𝜷 𝑘
𝜽 𝑑𝜶
i=1, …, Nd
k=1, …, K
d=1, …, D
𝜷0
sLDAのグラフィカルモデル
𝑦 𝑑
評価スコア値𝜇
𝜎𝑧 𝑑,𝑘 =
1
𝑁𝑑
𝑖=1
𝑁 𝑑
𝛿 𝑘 𝒛 𝑑,𝑖 𝑦 𝑑| 𝒛 𝑑, 𝜼, 𝜎 ~N 𝜼 𝑇
𝒛 𝑑, 𝜎 𝟐
[Blei & McAuliffe, 2008] Blei and McAuliffe, “Supervised Topic Models”, in Proc. NIPS, 2008.
37Copyright©2015 NTT corp. All Rights Reserved.
離散ラベル・タグデータ:矢印が逆向き
教師(補助)データがトピック混合比や トピック
割り当てを制御する
[Lacoste-Julien+, 2009][Ramge+, 2009]
[Lacoste-Julien+, 2009] Lacoste-Julien et al.., “DiscLDA: Discriminative Learning for Dimensionality Reductioin and Classification”, in Proc. NIPS, 2009.
[Ramage+, 2009] Ramage et al., “Labeled LDA: a supervised topic model for credit attribution in multi-labeled corpora”, in Proc. EMNLP, 2009.
38Copyright©2015 NTT corp. All Rights Reserved.
3.各ドメインにおける応用研究
自然言語処理
ソーシャルサービスデータ解析
画像処理
音声・動画像(あまり数がありませんでした)
39Copyright©2015 NTT corp. All Rights Reserved.
自然言語処理(NLP)分野での応用
自然言語処理分野でのトピックモデル応用は多
岐にわたっています
講演者が今回調査した中で特に気になったのは
以下の項目です:
A) 文構造、オントロジー情報との融合
B) Sentiment analysisへの応用
C) オンラインレビュー記事の自動解析
40Copyright©2015 NTT corp. All Rights Reserved.
文構造、オントロジー情報
[Boyd-Graber & Blei, 2009] Boyd-Graber & Blei, “Syntactic Topic Models”, in Proc. NIPS, 2009.
[Boyd-Graber+, 2007] Boyd-Graber et al., “A topic model for word sense disambiguation”, in Proc. EMNLP, 2007.
文構造情報や、外部DBのオントロジーをトピッ
クモデルと融合する
構文木を補助情報として用いる [Boyd-Graber & Blei, 2009]
トピック=WordNetの同義語グラフ上の酔歩とし
てモデル化 [Boyd-Graber+, 2007]
41Copyright©2015 NTT corp. All Rights Reserved.
文構造、オントロジー情報
NLPでなくても木構造などのデータ構造を取り入れる際に参考
になる
[Gruber+, 2007] Gruber et al., “Hidden topic Markov models”, in Proc. AISTATS, 2007.
トピックが文単位のHMMで遷移 [Gruber+, 2007]
42Copyright©2015 NTT corp. All Rights Reserved.
Sentiment Analysisへの応用
Sentiment analysis (感情極性解析): ある単語(節,
文)がポジティブなのかネガティブなのかを推定
する技術
トピックモデルと組み合わせることで、「ト
ピックごとの」sentimentを推定できる
Mei+, 2007] Mei+, “Topic sentiment mixture: modeling facets and opinions in weblogs“, in Proc. WWW, 2007.
[Mei+, 2007]
43Copyright©2015 NTT corp. All Rights Reserved.
Sentiment Analysisへの応用
[Lin & He, 2009]
[Lin & He, 2009] Lin & He, “Joint Sentiment / Topic Model for Sentiment Analysis“, in Proc. CIKM, 2009.
Mei+, 2007] Mei+, “Topic sentiment mixture: modeling facets and opinions in weblogs“, in Proc. WWW, 2007.
Sentiment隠れ変数を導入、
トピックの選択に影響
[Mei+, 2007]
“Positive”トピック
と”Negative”トピックを
明示的にモデル化
44Copyright©2015 NTT corp. All Rights Reserved.
オンラインレビュー記事の自動解析
レビュー記事は、さまざまな観点(aspect)についての評
論が書かれています
立地・食事・アクセス・アメニティ・・・・
仮説:観点はレビュー記事内の「話題」に相当
トピックモデルで自動抽出できそう?
[Titov & McDonald, 2008ACL]
[Titov & McDonald, 2008ACL] Titov & McDonald, “A joint model of text and aspect ratings for sentiment summarization”, in Proc. ACL, 2008.
45Copyright©2015 NTT corp. All Rights Reserved.
オンラインレビュー記事の自動解析
トピックモデルでレビュー記事DBの利用価値向上
細かい観点をトピック的に学習  レビュー内の「関心事」
を自動抽出
観点ごとのsentiment analysisと併用  観点ごとの評価値や総
合評価値の予測
45
値段: A
性能: A
アフターサービス: C
使いやすさ: B
総合評価: 4
観点評価
[Titov & McDonald, 2008ACL; Brody, 2010]
[Titov & McDonald, 2008ACL] Titov & McDonald, “A joint model of text and aspect ratings for sentiment summarization”, in Proc. ACL, 2008.
[Titov & McDonald, 2008WWW] Titov & McDonald, “Modeling online reviews with multigrain topic models”, in Proc. WWW, 2008.
[Brody, 2010] Brody, “An Unsupervised Aspect-Sentiment Model for Online Reviews”, in Proc. NAACL, 2010
[Titov & McDonald, 2008WWW]
46Copyright©2015 NTT corp. All Rights Reserved.
ソーシャルサービスデータ解析分野で
の応用
ソーシャルサービスデータはトピックモデルに良
く適合します
主にテキストで情報交換される
さまざまな話題があるが、人手での整理は困難
社会インフラの側面もありモデル化価値が高い
ここでは特に以下の2点について報告します:
A) ツイッター[twitter.com]応用
B) Geo-Taggedデータ解析
47Copyright©2015 NTT corp. All Rights Reserved.
ツイッター[twitter.com]応用
好ましいデータ
多くのアクティブユーザ
無料でデータ取得可能
速報性・トレンド性
ツイッター独自の問題:
「ノイジーな短文データ」
140字制限
「無意味」なつぶやき
ユーザ本人の意図が反映された投稿か、
ノイジーな投稿かを推定
[Hong & Davidson, 2010] Hong & Davidson, “Empirical study of topic modeling in twitter”, in Proc. The First Workshop on Social Media
Analytics, 2010.
[Yan+, 2013] Yan et al., “A biterm topic model for short texts2, in Proc. WWW, 2013.
[Xu+, 2011] Xu et al., “Discovering User Interest on Twitter with a Modified Author-Topic Model”, In
Proc. IEEE/WIC/ACM Int. Conf. on Web Intelligence and Intelligent Agent Technology, 2011.
[Xu+, 2011]
ツイート=文書とするトピックモ
デルをあきらめ、bi-termごとにト
ピックを割り当てる
[Yan+, 2013]
まず当たるべき
比較研究論文
49Copyright©2015 NTT corp. All Rights Reserved.
Geo-Taggedデータ解析
位置情報つき(Geo-Tagged)ソーシャルデータは、特に実
世界における推薦サービスへの応用が見込めるため重
要な課題です
技術的には:位置情報によってトピックの分布や単語
の分布をどのように変化させるか?
Ex) 野球トピック
アメリカ東海岸:ヤンキースvs.レッドソックス
アメリカ西海岸:マリナースやドジャース?
50Copyright©2015 NTT corp. All Rights Reserved.
モデル化の例
単語wとロケーションlがトピックのもとで
条件付き独立 [Wang+, 2007]
位置の隠れ変数 r が単語 w とジオタグ観測 y を
支配する
単語分布は(トピックz, 位置r)でインデックスされる
[Eisenstein+, 2010]
[Wang+, 2007] Wang et al., “Mining Geographic Knowledge Using Location Aware Topic Model”, in Proc. GIR, 2007.
[Eisenstein+, 2010] Eisenstein et al., “A latent variable model for geographic lexical variation”, in Proc. EMNLP, 2010.
51Copyright©2015 NTT corp. All Rights Reserved.
画像処理分野での応用
コンピュータビジョンは古くから機械学習コ
ミュニティと距離が近く、トピックモデルも早
くから利用されています
ここで取り上げたい話題は以下の2点です
A) Bag-of-Visual Wordsと最初期の応用研究
B) セグメンテーションタスク
52Copyright©2015 NTT corp. All Rights Reserved.
Bag of Visual Words (BoVW):
画像データの「文書化」
RGB値や局所記述子のような画像特徴量は数値ベクト
ル  クラスタリングで離散シンボル化
52
K-meansなどによる量子化
Visual Words:
単語に相当
Bag of Visual Words:
文書に相当
SIFT, SURFなどの
数値(局所)特徴を抽出
v = 1
v = 2
v = 3
V次元のヒストグラム
・・・
K = V
Leung & Malik, “Representing and Recognizing the Visual Appearance of Materials using Three-dimensional Textons”, IJCV, 43(1):29–44, 2001.
Sivic &Zisserman, “Video Google: a text retrieval approach to object matching in videos”, In Proc. ICCV, 2003.
柏野 et al., “ヒストグラム特徴を用いた音響信号の高速探索法- 時系列アクティブ探索法-”. 電子情報通信学会論文誌, J82-D-II(9):1365–
1373, 1999.
53Copyright©2015 NTT corp. All Rights Reserved.
最初期の応用例:シーン認識
BoVW + トピックモデルを画像処理に使った最初期の例
シーンのクラスごとに、トピック混合比の傾向が異なること
を利用して学習・識別
[Fei-Fei & Perona, 2005] Fei-Fei and Perona., “A Bayesian hierarchical model for learning natural scene categories”, in Proc. CVPR, 2005.
[Fei-Fei & Perona, 2005]
54Copyright©2015 NTT corp. All Rights Reserved.
プレートノーテーションと
生成モデル
54
𝑧 𝑑,𝑖 𝑥 𝑑,𝑖
𝜷 𝑘
𝝅 𝑑
𝜼
i=1, …, Nd
k=1, …, K
d=1, …, D
c=1, …, C
𝐶 𝑑
画像dのトピック混合比 𝝅 𝑑~Dirichlet 𝜽 𝑐 𝑑
Key point (d,i)のトピック割り当て 𝑧 𝑑,𝑖~Discrete 𝝅 𝑑
Key pointの観測量(visual words) 𝑥 𝑑,𝑖~Discrete 𝜷 𝑧 𝑑,𝑖
画像dのシーンクラス 𝑐 𝑑~Discrete 𝜼
𝜽 𝑐
シーンクラスc固有の
混合比ハイパーパラメータ(平均)
文書dのクラスの
ハイパーパラメータを
平均にする
55Copyright©2015 NTT corp. All Rights Reserved.
認識問題ではあまり使われませんでした
理由は2つあると考えています
1.LDAは教師なしの生成モデル
認識問題は教師有り識別タスク
  SVMなどの識別モデルを使ったほうが性能が高い
のは自然
2.BoVWの表現能力不足
研究の方向はFisher Vector, GMM SuperVectorのように表
現力の高い連続数値特徴量の開発に向かった
  離散シンボル化した観測量では識別能力に限界が
ある
56Copyright©2015 NTT corp. All Rights Reserved.
トピックモデルの応用先:
セグメンテーション
セグメンテーションもクラスタリングタスクなので
アプローチ:
画像をsuper pixel (小部分領域)に過剰分割
各super pixelに一つのトピックを割り当てて同じトピック領域を結合
[Cao & Fei-Fei, 2007]
Super pixelに過剰分割
 LDAでトピック割当(色塗り)
[Cao & Fei-Fei, 2007] Fei-Fei and Perona., “Spatially Coherent Latent Topic Model for Concurrent Segmentation and Classification
of Objects and Scenes”, in Proc. ICCV, 2007
[Niu+, 2012] Niu et al., “Context aware topic model for scene recognition”, in Proc. CVPR, 2012.
オブジェクトの切りだし:
簡単な画像ならトピック = オブジェクト
複雑な画像なら教師情報つきLDAに拡張[Cao & Fei-Fei, 2007, Niu+, 2012]]
簡単な場合は
トピックモデルだけで切り出せる
複数のレベルでsuper pixelを作ってよいものを選ぶ[Russel+, 2006]
画像のシーン認識+セグメンテーション。
シーンラベルとトピックによって
super pixelの空間配置も評価される
[Niu+, 2012]
[Russel+, 2006] Russell et al., “Using Multiple Segmentations to Discover Objects and their Extent in Image Collections”, in Proc, CVPR,
2006.
[Niu+, 2012] Niu et al., “Context aware topic model for scene recognition”, in Proc. CVPR, 2012.
58Copyright©2015 NTT corp. All Rights Reserved.
音声・音響分野での応用:あまり数が
ありません
音は非線形かつ時間連続性をもつ信号のため、
離散シンボルでモデル化する妥当性が低い?
観測量の分布を連続量の確率分布(正規分布な
ど)に変更する例がいくつかある
音楽推薦のためにボーカルの特徴量を使用[Yoshii & Goto,
2009]
音源位置推定のために音源到達位相差(時間差)を
使用[Ishiguro+, 2012]
[Yoshii & Goto, 2009] Yoshii and Goto, “Continuous PLSI and Smoothing Techniques for Hybrid Music Recommendation”, in Proc. ISMIR, 2009.
[Ishiguro+, 2012] Ishiguro et al., “Probabilistic Speaker Diarization With Bag-of-Words Representations of Speaker Angle Information”,
IEEE Trans. ASLP, 20(2):447–460, 2012.
59Copyright©2015 NTT corp. All Rights Reserved.
動画像処理での応用:あまり数があり
ません
時系列モデルであるため、そもそものモデル化のハー
ドルが高い?
時空間interest pointsを使った動作認識[Niebles+, 2008]
動きパターンのクラスタリング[Hospedales+,2012]
トラッキング[Rodriguez+, 2009]
[Niebles+, 2008] Niebles et al., “Unsupervised learning of human action categories using spatial-temporal words”, IJCV, 79(3):299–318, 2008.
[Hospedales+, 2012] Hospedales et al., “Video Behaviour Mining Using a Dynamic Topic Model”, IJCV, 98(3):303–323, 2012.
[Rodriguez+, 2009] Rodriguez et al., “Tracking in unstructured crowded scenes”, in Proc. ICCV, 2009.
[Hospedales+, 2012]
[Rodruguez+, 2009]
60Copyright©2015 NTT corp. All Rights Reserved.
4.推論法およびデータスケーラビリティ
ベイズ推論法
確率的最適化
オンライン学習・並列学習
61Copyright©2015 NTT corp. All Rights Reserved.
LDAの推定方法: ベイズ事後分布推定
変分ベイズ(VB)法: 近似解へ収束保証、高速計算が容易
周辺化ギブスサンプリング(CGS)法: 厳密解、 qd, bkの推定が不要
周辺化変分ベイズ(Collapsed Variational Bayes, CVB)法:
VBより良い近似、 qd, bkの推定が不要 、実験的に最高精度
[Asuncion+, 2009; Sato&Nakagawa, 2012]
周辺化: 確率変数を定義域全体で積分することでその変数の影響を全て織り込んでおくこと
手法 q, bの
推定
実験的な
推定精度
厳密解へ
漸近収束
停留点
で収束
収束判定 実際的な
計算コスト
近似計算・並列
化による高速化
VB 要 普通 × ○ 容易 低い 容易
CGS 不要 高い ○ - 困難 高い 可能
CVB 不要 最高 × × 困難 高い 可能?
[Asuncion+, 2009] Asuncion et al., “On Smoothing and Inference for topic models”, in Proc. UAI, 2009.
[Sato & Nakagawa, 2012] Sato & Nakagawa, “Rethinking Collapsed Variational Bayes Inference For LDA”, in Proc. ICML, 2012.
New
62Copyright©2015 NTT corp. All Rights Reserved.
CVB法のアルゴリズム
アイデア:VBの変分下限よりもよりタイトな近
似であるCVB下限を最大化する
ただし、下限を正しく最大化するq(Z)は計算が
困難なので、テイラー近似解を利用
「CGSのような計算式に基づく」
「VB(EM)のような決定的繰り返し計算」
が導出される [Asuncion+, 2009]
[Asuncion+, 2009] Asuncion et al., “On Smoothing and Inference for topic models”, in Proc. UAI, 2009.
63Copyright©2015 NTT corp. All Rights Reserved.
CVB法の理論
VB法:周辺化尤度(evidence)の下限近似を最大化する変
分事後分布q(Z), q(q), q(b)を求める
CVB法: パラメータを周辺化したうえで、周辺化尤度の
下限近似を最大化するq(Z)を求める
変分近似された事後分布がq(z)だけになるので、VB下
限よりも必ず良い近似となる
Also check my blog post:
http://dr-kayai.hatenablog.com/entry/2013/12/22/003011
64Copyright©2015 NTT corp. All Rights Reserved.
推論手法の比較
[Asuncion+, 2009] Asuncion et al., “On Smoothing and Inference for topic models”, in Proc. UAI, 2009.
[Asuncion+, 2009]
better
better
better
65Copyright©2015 NTT corp. All Rights Reserved.
global parameterと
local parameter
LDAの未知変数はglobal parameterと
local parameterの2種類からなる
global parameter: トピックの単語分布bk
local parameter: トピック割り当てzd, 混合比qd
問題点:global param. bkの推定(更新)は全文書のス
キャンが必要繰り返し計算が厳しい
𝑧 𝑑,𝑖 𝑥 𝑑,𝑖 𝜷 𝑘𝜽 𝑑𝜶
i=1, …, Nd k=1, …, K
d=1, …, D
local: 文書dに
閉じている
global: 文書の
プレート全体に影響
𝜷0
66Copyright©2015 NTT corp. All Rights Reserved.
Stochastic Variational Inference (SVI)
[Hoffman+, 2013]
変分下限の勾配を、乱拓したミニバッチ(文書
サブセット)のデータで近似
トピック単語分布bkの変分事後分布をO(S) (<<
O(D))で高速に最適化
[Hoffman+, 2013] Hoffman et al., “Stochastic Variational inference”, Journal of Machine Learning Research, No. 14, 1304-1347, 2013.
乱拓したminibatch (S=2)
全文書 D
変分事後分布の更新
Noisy estimate
67Copyright©2015 NTT corp. All Rights Reserved.
SVI + オンライン学習 [Hoffman+, 2010]
SVIによるglobal parameter推定
+ Local parameterをオンラインで推定=何度も繰り返し
演算しない!
最初のほうに見た文書のトピック推定は悪いはずだが、数を
こなせば全体としては良い推定が可能
[Hoffman+, 2010] Hoffman et al., “Online Learning for Latent Dirichlet Allocation”, in Proc. NIPS, 2010.
68Copyright©2015 NTT corp. All Rights Reserved.
並列学習
global/local param.の構造をうまく使います
MR.LDA[Zhai+, 2012]: Map-ReduceでLDA学習
16ノードのHadoop構成で360K文書/時間を処理
Yahoo!LDA[Smola & Narayanamurthy, 2010]: multi-core, multi-CPU計
算機でのLDA学習
8コアCPUの計算機1台で75K文書/時間を処理
multi-CPU環境では1台あたり42K 文書/時間
[Zhai+, 2012] Zhai et al., “Mr. LDA”, in Proc. WWW, 2012.
[Smola & Narayanamurthy, 2010] Smola & Narayanamurthy, “An Architecture for Parallel Topic Models”, in Proc. VLDB, 2010.
69Copyright©2015 NTT corp. All Rights Reserved.
Mr. LDA [Zhai+, 2012]
分散計算が容易なVB推論をMapReduce分散系に
実装した mapper: local paramの統計量を
計算
reducer: global paramの統計
量を計算
driver: globalな
ハイパーパラメータを
更新
[Zhai+, 2012] Zhai et al., “Mr. LDA”, in Proc. WWW, 2012.
70Copyright©2015 NTT corp. All Rights Reserved.
Yahoo!LDA [Smola & Narayanamurthy, 2010]
CGS推論において、メンテナンスが必要な隠れ変数と
十分統計量を精査すると、
(A) 各文書で独立に保持できる量
と
(B) 文書全体で共有(通信が発生)されるが、頻繁に更
新しなくても良い量
が存在する点に着目
(A)を各コアで並列計算する間(B)を「定数」とみなすこ
とで通信とlockされる時間を削減
zdi および
n(d, k) = Σi I(zdi = k)
n(k, v) = Σd Σi I(zdi = k)I(xdi = v)
および
n(k) = Σd Σi I(zdi = k)
[Smola & Narayanamurthy, 2010] Smola & Narayanamurthy, “An Architecture for Parallel Topic Models”, in Proc. VLDB, 2010.
71Copyright©2015 NTT corp. All Rights Reserved.
5.まとめ
本講演のまとめ
講演者が注目している最新手法と今後の方向性
参考図書の選び方
72Copyright©2015 NTT corp. All Rights Reserved.
本講演のまとめ
トピックモデルの現在のstatus
技術としては「枯れて」いるが注目度は高い
トピックモデル(LDA)とは
混合モデルの混合モデル, プレートノーテーション
各種拡張モデルについて
相関、時間依存、教師情報の利用
さまざまなパターン認識ドメイン応用について
今後活用していただく際の「入口」の紹介
推論手法とスケーラビリティ
CVB、確率的最適化、並列計算
73Copyright©2015 NTT corp. All Rights Reserved.
最新の研究例: The Bayesian case model
[Kim+, 2014]
各トピックの「重要単語」と「典型例」を明示的にモデ
ル化・推定
[Kim+, 2014] Kim et al., “The Bayesian Case Model: A Generative Approach for Case-Based Reasoning and Prototype Classification”, in Proc.
NIPS, 2014.
LDA: 各トピックの
頻出単語リストを人が解釈
提案法: 各トピックの
典型的な観測値と
重要な単語を自動で提示
74Copyright©2015 NTT corp. All Rights Reserved.
今後の方向性について
1.「人にわかりやすく」クラスタリングを見
せる技術
2.さらに高精度・高速・高スループットな推
論・計算フレームワーク
3.各種パターン認識課題への応用
75Copyright©2015 NTT corp. All Rights Reserved.
参考図書の選び方(講演者の独断と偏見による)
佐藤一誠, “トピックモデルによる統計的潜在意味解析”,
自然言語処理シリーズ8, コロナ社, 2015.
トピックモデル(LDA)のすべてを詳細に議論
各種推論法の非常に詳しい導出と背景となる数理的知識もカバー
トピックモデルを本格的に理解して、
研究開発上の武器にしたい方は必読
岩田具治, “トピックモデル”,
機械学習プロフェッショナルシリーズ, 講談社, 2015.
本サーベイよりもう一段深い、実用を指向した説明
特に拡張モデルの記述が豊富
とりあえず使ってみる・作ってみる際の理解を深めるのに好適
76Copyright©2015 NTT corp. All Rights Reserved.
IEICE技報の誤植訂正
お手数をおかけいたしますが、下記の修正をお願いいたします。
もしほかにお気づきの方がいらっしゃれば、ご指摘いただける
と助かります。
p.20 左コラム12行目
誤:[83] のように1 ツイート内に…
正:[82] のように1 ツイート内に…
p.24 右コラム、[73]の出版年
誤:2007年
正:2008年

More Related Content

What's hot

What's hot (20)

強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
深層強化学習入門
深層強化学習入門深層強化学習入門
深層強化学習入門
 
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
 
ICRA 2019 速報
ICRA 2019 速報ICRA 2019 速報
ICRA 2019 速報
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
CVPR 2018 速報
CVPR 2018 速報CVPR 2018 速報
CVPR 2018 速報
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
 
Inverse Reward Design の紹介
Inverse Reward Design の紹介Inverse Reward Design の紹介
Inverse Reward Design の紹介
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
ECCV2020 Oral論文 完全読破(1/2)
ECCV2020 Oral論文 完全読破(1/2)ECCV2020 Oral論文 完全読破(1/2)
ECCV2020 Oral論文 完全読破(1/2)
 
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈	BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
 
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
 
自然言語処理向け データアノテーションとそのユースケース
自然言語処理向け データアノテーションとそのユースケース自然言語処理向け データアノテーションとそのユースケース
自然言語処理向け データアノテーションとそのユースケース
 
[Track4-3] AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた
[Track4-3] AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた[Track4-3] AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた
[Track4-3] AI・ディープラーニングを駆使して、「G検定合格者アンケートのフリーコメント欄」を分析してみた
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
 
CVPR 2020報告
CVPR 2020報告CVPR 2020報告
CVPR 2020報告
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 
データサイエンティストのつくり方
データサイエンティストのつくり方データサイエンティストのつくり方
データサイエンティストのつくり方
 
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
20180305_ppl2018_演繹から帰納へ~新しいシステム開発パラダイム~
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 

Similar to 20151221 public

企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
Yuya Unno
 
『伝達したい情報を構造化し表現する技術』教育の実践
『伝達したい情報を構造化し表現する技術』教育の実践『伝達したい情報を構造化し表現する技術』教育の実践
『伝達したい情報を構造化し表現する技術』教育の実践
Kazuo Kashima
 

Similar to 20151221 public (20)

潜在ディリクレ配分法
潜在ディリクレ配分法潜在ディリクレ配分法
潜在ディリクレ配分法
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
mlabforum2012_okanohara
mlabforum2012_okanoharamlabforum2012_okanohara
mlabforum2012_okanohara
 
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
 
法政大学 MBA 中小企業向けITとの付き合うコツ
法政大学 MBA 中小企業向けITとの付き合うコツ法政大学 MBA 中小企業向けITとの付き合うコツ
法政大学 MBA 中小企業向けITとの付き合うコツ
 
デジタルフィールドリサーチ
デジタルフィールドリサーチデジタルフィールドリサーチ
デジタルフィールドリサーチ
 
SQiPシンポジウムアブストラクト作成のポイント
SQiPシンポジウムアブストラクト作成のポイントSQiPシンポジウムアブストラクト作成のポイント
SQiPシンポジウムアブストラクト作成のポイント
 
【東京大学i.school 人間中心イノベーション概論】3限目:理解② 技術・事例調査の目的と方法
【東京大学i.school 人間中心イノベーション概論】3限目:理解② 技術・事例調査の目的と方法【東京大学i.school 人間中心イノベーション概論】3限目:理解② 技術・事例調査の目的と方法
【東京大学i.school 人間中心イノベーション概論】3限目:理解② 技術・事例調査の目的と方法
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
NLPソリューション開発の最前線_DLLAB_自然言語処理ナイト_200702
 
bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
 
ハンドノート T字形ERモデル セミナー資料 (Author; S.Toriyabe SYSTEMS DESIGN Co.,Ltd. Japan)
ハンドノート T字形ERモデル セミナー資料 (Author; S.Toriyabe  SYSTEMS DESIGN Co.,Ltd. Japan) ハンドノート T字形ERモデル セミナー資料 (Author; S.Toriyabe  SYSTEMS DESIGN Co.,Ltd. Japan)
ハンドノート T字形ERモデル セミナー資料 (Author; S.Toriyabe SYSTEMS DESIGN Co.,Ltd. Japan)
 
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
良い原稿を作る3つの要素、読み易い文章を作る5つのコツ、SQiPシンポジウムアブストラクト作成のポイント
 
データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要
 
初心者向けNotes/Dominoの開発テクニック
初心者向けNotes/Dominoの開発テクニック初心者向けNotes/Dominoの開発テクニック
初心者向けNotes/Dominoの開発テクニック
 
『伝達したい情報を構造化し表現する技術』教育の実践
『伝達したい情報を構造化し表現する技術』教育の実践『伝達したい情報を構造化し表現する技術』教育の実践
『伝達したい情報を構造化し表現する技術』教育の実践
 
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
 
おそらく 世界一コンパクトで実用的なAI入門
おそらく世界一コンパクトで実用的なAI入門おそらく世界一コンパクトで実用的なAI入門
おそらく 世界一コンパクトで実用的なAI入門
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」
 
機械学習型サービス運用時の課題と実践的手法
機械学習型サービス運用時の課題と実践的手法機械学習型サービス運用時の課題と実践的手法
機械学習型サービス運用時の課題と実践的手法
 

20151221 public

  • 1. Copyright©2015 NTT corp. All Rights Reserved. [特別講演] パターン認識研究者のための トピックモデリング概観 ○石黒 勝彦、木村 昭悟 NTT コミュニケーション科学基礎研究所 e-mail: ishiguro.katsuhiko@lab.ntt.co.jp twitter: @k_ishiguro
  • 2. 2Copyright©2015 NTT corp. All Rights Reserved. 本サーベイの目的 対象:統計的パターン認識の研究者、同分野に関連し た仕事をするエンジニア 目的:今後トピックモデルを研究・開発の一要素 (building block)として利用する際の指針を与える 手段:building blockとして使用する上でおさえておく べき機能・応用例・実装技術の「入口」を整理・紹介 する 目指さないこと:網羅的 and/or 深いレベルまでの調査研究
  • 3. 3Copyright©2015 NTT corp. All Rights Reserved. What トピックモデル? 一言でいうと:混合モデルの混合モデル 目的: データの中の大雑把な意味のかたまり(トピック)を 教師なしで推定する(クラスタリング) 用途: データ集合のクラスタリングと可視化、知識発見 巨大なデータの低ランク化による情報圧縮
  • 4. 4Copyright©2015 NTT corp. All Rights Reserved. Why トピックモデル? 教師なしで良いクラスタリング性能 直観に合うクラスタ、精度の高いモデルが得られる 大量にデータを放り込んでもよく動く シンプルなモデルで実装が容易、堅牢 多くの研究者が拡張や高速化を研究してくれて いる 自分で開発しなくても、使えばよい
  • 5. 5Copyright©2015 NTT corp. All Rights Reserved. 研究対象としては枯れている? 関心は低下していない タイトルに “LDA” or “Latent Dirichlet Allocation” or “topic”がある論文数(講演者調べ) 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 NIPS 2 3 4 5 3 6 7 4 3 4 ICML 5 1 1 6 3 2 7 11 5 4 CVPR 2 1 2 2 2 2 2 3 2 0 ICCV - 3 - 1 - 0 - 3 - 0 ECCV 0 - 0 - 1 - 0 - 1 - Google Trends, “topic models”, as of 2015/12/2
  • 6. 6Copyright©2015 NTT corp. All Rights Reserved. 本講演の目次 1.基本モデル(17分):トピックモデルとはどんなものか 2.拡張モデル(10分):機械学習分野でどのような拡張モデルが根付い ているか 3.パターン認識応用(20分):種々のドメインでどんな研究に利用され てきたか 4.推論法およびデータスケーラビリティ(5分):高精度を達成したり大 規模データへ応用するための手法 5.まとめ(3分):本講演のまとめと注目している最新の研究について
  • 7. 7Copyright©2015 NTT corp. All Rights Reserved. 1.基本モデル:トピックモデル 文書データ ユニグラム混合モデル トピックモデル Latent Dirichlet Allocation(LDA) Bag of Words (BoW)フォーマット グラフィカルモデル(プレートノーテーション)
  • 8. 8Copyright©2015 NTT corp. All Rights Reserved. データ:文書データ集合 本講演では観測データ=文書データ集合として (そのアナロジーのもとで)話を進めます 文書データ集合 X = {xd} d = 1, …, D 例えば全国の新聞記事データセット 消費税 法案 否決 据え置き ・・・ 総選挙 長期金利 影響 永田町 ・・・ 文書 dを構成する単語集合 (文を分かち書きしたと思う) 文書dはNd個の単語の集合{xd,i}, i = 1, …, Nd 単語xd,iはV種の離散シンボル観測値 xd,i=v, v = 1, …, V xd,2 = v = {法案} xd,3 = v’ = {否決}
  • 9. 9Copyright©2015 NTT corp. All Rights Reserved. 目的:“話題=トピック”に基づく 文書データの自動意味解析 大量の文書データを教師なしで大体把握したい。 つまり、下記のような問いに答えたい 各文書は、大体どういう内容? この文書データ集合の中には、 どんな「話題」がある? トピックモデルのアプローチ: 「ある話題で出現しやすい単語集合」というクラスタ (”トピック”)で文書を表現する
  • 11. 11Copyright©2015 NTT corp. All Rights Reserved. トピックとは? 新聞記事なら:国内政治、国際政治、経済、金融、ス ポーツ、芸能、文化・・・などの「話題」 その話題のもとで出現しやすい単語、すなわち単語出 現確率によって各トピックを定義 「総選挙」 「音楽性」「アイドル」単語 トピック 投票 消費税 総選挙 .04 .04 .03 … … アイドル 総選挙 ドラマ .05 .02 .04 … … 音楽 展覧会 アニメ .04 .02 .02 … … 国内政治 芸能 文化
  • 12. 12Copyright©2015 NTT corp. All Rights Reserved. ユニグラム混合モデル: 1文書を1トピックだけで説明する GMMと同じ複雑さの文書モデリング ガウシアンコンポーネント=トピック サンプル=文書 消費税 法案 否決 据え置き ・・・ 総選挙 長期金利 影響 永田町 ・・・ アイドル グループ 総選挙 ・・・ 経済効果 音楽 ドラマ CM ・・・ 文書 dを構成する単語集合 xd 文書 d’を構成する単語集合 xd’ 投票 消費税 総選挙 .04 .04 .03 … … 国内政治 アイドル 総選挙 ドラマ .05 .02 .04 … … 芸能
  • 13. 13Copyright©2015 NTT corp. All Rights Reserved. 現実:1文書中に複数トピックが混在 する状況も自然に考えられる 一つの文書の中に複数のトピックが混在する、 という二段目の「混合」があったほうが良い 消費税 法案 否決 据え置き ・・・ 総選挙 長期金利 影響 永田町 ・・・ アイドル グループ 総選挙 ・・・ 経済効果 音楽 ドラマ CM ・・・ 文書 dを構成する単語集合 xd 文書 d’を構成する単語集合 xd’ 金融? 経済? 投票 消費税 総選挙 .04 .04 .03 … … 国内政治 アイドル 総選挙 ドラマ .05 .02 .04 … … 芸能
  • 14. 14Copyright©2015 NTT corp. All Rights Reserved. トピックモデル:混合モデルの混合モデル 2段階の混合モデルで文書データ集合を表現する 上位の混合:文書集合全体はトピックの混合モデル 下位の混合:各文書自体が固有の混合比をもつトピック混合 モデルで、各単語はいずれかのトピックで説明 投票 消費税 総選挙 .04 .04 .03 … … 国内政治 アイドル 総選挙 ドラマ .05 .02 .04 … … 芸能 金利 緩和 中銀 .03 .02 .02 … … 金融 消費税 法案 否決 据え置き ・・・ 総選挙 長期金利 影響 永田町 ・・・ トピック=混合コンポーネントで 文書集合をモデル化 文書=混合コンポーネントの混合モデル 文書dのトピック混合比 文書dの観測量(単語群) 各トピックの単語分布
  • 15. 15Copyright©2015 NTT corp. All Rights Reserved. Latent Dirichlet Allocation (LDA) [Blei+, 2003] 階層ベイズモデルによる “デファクトスタンダード” 確率的生成モデル: 文書データが確率的にサ ンプリング(生成)される過程を定義 pLSI(非ベイズモデル)[Hoffman, 1999]よりモデリング 精度、拡張性、学習の安定性の面で優れる 多様な最新のベイズ推論方法が使える [Blei+, 2003] Blei et al, “Latent Dirichlet Allocation”, Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003.
  • 16. 16Copyright©2015 NTT corp. All Rights Reserved. LDAの確率的生成過程: 4つの登場要素に確率分布を仮定 d: 文書のインデックス d ∈ {1, …, D} i: 単語のインデックス i ∈ {1, … Nd} V: 観測される離散シンボルのインデックス v ∈ {1, …, V} k: トピックのインデックス k ∈ {1, …, K} 𝑥 𝑑,𝑖 = 𝑣 ~ Discrete 𝜷 𝑧 𝑑,𝑖 𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑 𝜽 𝑑 ∈ ℝ+ 𝐾 ~Dirichlet 𝜶 𝜷 𝑘 ∈ ℝ+ 𝑉 ~Dirichlet 𝜷0 for トピック k = 1, 2, …, K トピックkの単語分布 for 文書d = 1, 2, …, D 文書dのトピック混合比 for 単語i = 1, 2, …, Nd 単語(d,i)のトピック割り当て 単語の値(観測する文字列) 独立かつ一様に分布(サンプリング) 投票 消費税 総選挙 .04 .04 .03 … … 国内政治
  • 17. ex) 政治欄の記事文書d, i番目の観測単語がv 番目のシンボル「総選挙」だった トピック=「ある話題での単語の出やすさ分布」を生成 すなわち不均一なV面サイコロをK個つくります ディリクレ(Dirichlet)分布: すべて非負&足して1のベクトル≒「サイコロ」 を生成する確率分布 𝜷 𝑘 ∈ ℝ+ 𝑉 ~Dirichlet 𝜷0 for トピック k = 1, 2, …, K 投票 消費税 総選挙 .04 .04 .03 … … k:国内政治 アイドル 総選挙 ドラマ .05 .02 .04 … … m:芸能 金利 緩和 中銀 .03 .02 .02 … … l:金融 各トピックごとに 出やすい単語が違う =「話題」が違うことを表現 単語の語彙数=V トピックの総数=K
  • 18. 文書ごとの固有のトピック混合比を生成 すなわち不均一なK面サイコロをD個つくります 𝜽 𝑑 ∈ ℝ+ 𝐾 ~Dirichlet 𝜶for 文書d = 1, 2, …, D 政治欄の文書d: 𝜽 𝑑 芸能欄の文書d’: 𝜽 𝑑′ 政治欄の記事なら 政治トピックが多めになると期待 ex) 政治欄の記事文書d, i番目の観測単語がv 番目のシンボル「総選挙」だった 𝜷 𝑘 ∈ ℝ+ 𝑉 ~Dirichlet 𝜷0 投票 消費税 総選挙 .04 .04 .03 … … k:国内政治 アイドル 総選挙 ドラマ .05 .02 .04 … … m:芸能 金利 緩和 中銀 .03 .02 .02 … … l:金融 トピックkの単語分布 トピックの総数=K 文書の総数=D
  • 19. (1) (2) (3) (4) ・・・ (i) (i+1) (i+2) (i+3) ・・・ 各文書dの単語iごとに、文書のトピック混合比に合わせて i番目の単語を説明するトピックを割り当てます。 つまり混合比のK面サイコロを振ります。 for 文書d = 1, 2, …, D 𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑 for 単語i = 1, 2, …, Nd 離散分布(多項分布):与えられた「サイコロ」を振っ て出目を返す確率分布 ex) 政治欄の記事文書d, i番目の観測単語がv 番目のシンボル「総選挙」だった 𝜽 𝑑 ∈ ℝ+ 𝐾 ~Dirichlet 𝜶 𝜷 𝑘 ∈ ℝ+ 𝑉 ~Dirichlet 𝜷0 投票 消費税 総選挙 .04 .04 .03 … … k:国内政治 アイドル 総選挙 ドラマ .05 .02 .04 … … m:芸能 金利 緩和 中銀 .03 .02 .02 … … l:金融 トピックkの単語分布 文書dのトピック混合比 i番目の単語について一番混合比が高い トピックを選択した
  • 20. 消費税 法案 否決 据え置き ・・・ 総選挙 長期金利 影響 永田町 ・・・ i番目の単語に割り当てられたトピックと、そのトピックのもつ単語分布に従って実 際の観測量(文字列)を生成します。 つまり指定されたトピックのV面サイコロを振ります for 文書d = 1, 2, …, D for 単語i = 1, 2, …, Nd 𝑥 𝑑,𝑖 = 𝑣 ~ Discrete 𝜷 𝑧 𝑑,𝑖 ex) 政治欄の記事文書d, i番目の観測単語がv 番目のシンボル「総選挙」だった 𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑 𝜽 𝑑 ∈ ℝ+ 𝐾 ~Dirichlet 𝜶 𝜷 𝑘 ∈ ℝ+ 𝑉 ~Dirichlet 𝜷0 投票 消費税 総選挙 .04 .04 .03 … … k:国内政治 アイドル 総選挙 ドラマ .05 .02 .04 … … m:芸能 金利 緩和 中銀 .03 .02 .02 … … l:金融 文書dの観測量(単語群) トピックkの単語分布 文書dのトピック混合比 確率の高い「総選挙」が サンプルされた
  • 21. 投票 消費税 総選挙 .04 .04 .03 … … k:国内政治 アイドル 総選挙 ドラマ .05 .02 .04 … … m:芸能 金利 緩和 中銀 .03 .02 .02 … … l:金融 消費税 法案 否決 据え置き ・・・ 総選挙 長期金利 影響 永田町 ・・・ 𝑥 𝑑,𝑖 = 𝑣 ~ Discrete 𝜷 𝑧 𝑑,𝑖 𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑 𝜽 𝑑 ∈ ℝ+ 𝐾 ~Dirichlet 𝜶 𝜷 𝑘 ∈ ℝ+ 𝑉 ~Dirichlet 𝜷0 for トピック k = 1, 2, …, K トピックkの単語分布 for 文書d = 1, 2, …, D 文書dのトピック混合比 for 単語i = 1, 2, …, Nd 単語(d,i)のトピック割り当て 単語の値(観測する文字列) 文書dの観測量(単語群) トピックkの単語分布 文書dのトピック混合比
  • 23. 23Copyright©2015 NTT corp. All Rights Reserved. Bag-of-Words(BoW)表現 「単語の出現頻度」のみで文書をモデル化 LDAモデルは文書中の単語の順番 i を入れ替えても 確率が変化しないため(可換性) 法案:4 賛成:4 多数:4 国会:3 ・・・・ 総選挙:5 握手:4 売上:4 アイドル:2 ・・・・ BoWはトピックモデルの限界を規定すると共に 実応用上の大きなメリットも提供する重要な性質です
  • 24. 24Copyright©2015 NTT corp. All Rights Reserved. BoW表現のpros & cons Pros: 文書データを簡易&省メモリなフォーマットで 表現可能 Cons: 観測量(単語)間に一切の依存関係・順序関係 を認めない 大量のデータを投入可能にすることで高いクラスタリング精度を見込める  モデルの限界。文書の生成過程としてはかなり非現実的な仮定 (ただし意味のクラスタを抽出するにはこれで十分だった)
  • 25. 25Copyright©2015 NTT corp. All Rights Reserved. プレートノーテーション (グラフィカルモデル) 変数間の依存関係とインデックスの繰り返し部 分を図示する方法 様々なモデルを視覚的に比較可能 25 𝑧 𝑑,𝑖 𝑥 𝑑,𝑖 𝜷 𝑘 𝜽 𝑑𝜶 i=1, …, Nd k=1, …, K d=1, …, D 𝜷0 LDAのグラフィカルモデル 定数 (ハイパーパラメータ) 観測量 プレート: 変数の繰り返しと インデックス範囲 確率変数
  • 26. 26Copyright©2015 NTT corp. All Rights Reserved. プレートノーテーション (グラフィカルモデル) 26 𝑧 𝑑,𝑖 𝑥 𝑑,𝑖 𝜷 𝑘 𝜽 𝑑𝜶 i=1, …, Nd k=1, …, K d=1, …, D 𝜷0 定数 (ハイパーパラメータ) 確率変数 観測量 プレート: 変数の繰り返しと インデックス範囲 𝑥 𝑑,𝑖 = 𝑣 ~ Discrete 𝜷 𝑧 𝑑,𝑖 𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑 𝜽 𝑑 ∈ ℝ+ 𝐾 ~Dirichlet 𝜶 𝜷 𝑘 ∈ ℝ+ 𝑉 ~Dirichlet 𝜷0for トピック k = 1, 2, …, K for 文書d = 1, 2, …, D for 単語i = 1, 2, …, Nd LDAのモデル
  • 27. 27Copyright©2015 NTT corp. All Rights Reserved. 2.拡張モデル トピック間の関係モデリング 文書の時系列モデリング 教師情報・補助情報の利用
  • 28. 28Copyright©2015 NTT corp. All Rights Reserved. 本講演で調べる範囲 トピック間の関係モデリング 相関関係、順序・階層関係 時系列(タイムスタンプ文書)モデリング どこにマルコフ性を入れるか 教師・補助情報の利用 評価スコア、クラス情報、関係データ
  • 29. 29Copyright©2015 NTT corp. All Rights Reserved. トピック間の関係モデリング LDAでは表現できない「トピックの関係」を実 現するための研究は多数ありあす [Blei & Lafferty, 2007] Blei and Lafferty, “A Correlated Topic Model of Science”, The Annals of Applied Statistics, Vol. 1(1), pp. 17-35, 2007. [Li&McCallum, 2006] Li and McCallum, “Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations”, in Proc. ICML, 2006. トピック間の上位・下位関係 [Li & McCallum, 2006] 医療 経済 新薬開発地方医療 金融危機再生医療 トピックの相関関係 [Blei & Lafferty, 2007] 国際政治 日米関係 日本映画 貿易
  • 30. 30Copyright©2015 NTT corp. All Rights Reserved. Correlated Topic Model (CTM) [Blei & Lafferty, 2007] トピック間の正負の相関をモデル化 30 𝜽 𝑑 ∈ ℝ+ 𝐾 ~Dirichlet 𝜶 LDA 文書dのトピック混合比 𝜽 𝑑 ∈ ℝ 𝐾 ~Normal 𝐾 𝝁, 𝜮 CTM 文書dのトピック ``レスポンス’’ Soft-maxで トピック混合比へ変換 𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑各単語iのトピック割り当て 𝜽 𝑑,𝑘 = exp 𝜃 𝑑,𝑘 𝑘′ exp 𝜃 𝑑,𝑘′ ∈ ℝ+ 𝐾 𝑧 𝑑,𝑖 = 𝑘 ~ Discrete 𝜽 𝑑各単語iのトピック割り当て Soft-maxによる変換を導入することで、任意のK次元ベクトルを トピック ``レスポンス’’ として使えるようになる Σの設計によって、トピックの相関(正負)を積極的にデザインできる [Blei & Lafferty, 2007] Blei and Lafferty, “A Correlated Topic Model of Science”, The Annals of Applied Statistics, Vol. 1(1), pp. 17-35, 2007.
  • 31. 31Copyright©2015 NTT corp. All Rights Reserved. Pachinko Allocation Model [Li & McCallum, 2006] 単語を生成するtopicへの分岐を制御するsuper-topicを 最初に選択する階層モデル 医療super-topicを選ぶと医療関係のトピックを選択しやすく なる super-topicは 普通のトピックの重み付和として表現 ・・・ super-topicノード s: 全トピックノードと接続 ルートノード topicノード k ・・・ 医療 経済 新薬開発 地方医療 貿易自由化 金融危機 再生医療 [Li&McCallum, 2006] Li and McCallum, “Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations”, in Proc. ICML, 2006.
  • 32. 32Copyright©2015 NTT corp. All Rights Reserved. 時系列データ タイムスタンプのついた文書データ群に対する 時間依存性モデリングは多くの場面で必要です 2014 2015 購買履歴 [Iwata+, 2009] 科学論文・特許 [Blei & Lafferty, 2006] 動画像、音響信号 [Nakano+, 2011; Ishiguro+, 2012] [Nakano+, 2011] Nakano et al., “Automatic Video Annotation via Hierarchical Topic Trajectory Model Considering Cross-modal Correlation”, in Proc. ICASSP, 2011. [Ishiguro+, 2012] Ishiguro et al., “Probabilistic Speaker Diarization with Bag-of-Words Representations of Speaker Angle Information”, IEEE Trans. ASLP, 20(2), 447-460, 2012. [Blei & Lafferty, 2006] Blei & Lafferty, “Dynamic Topic Models”, in Proc. ICML, 2006. [Iwata+, 2009] Iwata et al, “Topic Tracking Model for Analyzing Consumer Purchase Behavior”, in Proc. IJCAI, 2009.
  • 33. 33Copyright©2015 NTT corp. All Rights Reserved. (添え字d, i, kは省略) time 𝑥𝑡−1 𝜷 𝑡−1𝜽 𝑡−1 i=1, …, Nt-1,d d=1, …, Dt-1 𝑧𝑡 𝑥𝑡 𝜷 𝑡𝜽 𝑡 i=1, …, Nt,d k=1, …, K 𝑧𝑡−1 d=1, …, Dt 𝜶 𝑡−1 𝜶 𝑡 各年度tの研究トピックの流行 (混合比の分布)が前年度に依存して変化 各研究トピックkの単語の選択確率が 前年度に依存して発展 年度 t-1 年度 t GMM Viola-Jones SVM .04 .04 .03 … … パターン認識 SGD カット 深層学習 .04 .04 .03 … … [Blei & Lafferty, 2006] Blei & Lafferty, “Dynamic Topic Models”, in Proc. ICML, 2006. Dynamic Topic Models (DTM) [Blei & Lafferty, 2006] 論文誌データを年度ごとの時系列で解析
  • 34. 34Copyright©2015 NTT corp. All Rights Reserved. Topic Tracking Model (TTM) [Iwata+, 2009] 34[Iwata+, 2009] Iwata et al, “Topic Tracking Model for Analyzing Consumer Purchase Behavior”, in Proc. IJCAI, 2009. 購買履歴データからユーザの興味を時間解析して推薦 文書=ユーザ、トピック=興味、単語=購入商品 𝑥𝑡−1 𝜷 𝑡−1𝜽 𝑡−1 i=1, …, Nt-1,d d=1, …, D 𝑧𝑡 𝑥𝑡 𝜷 𝑡𝜽 𝑡 i=1, …, Nt,d k=1, …, K 𝑧𝑡−1 d=1, …, D 𝜶 𝑡−1 𝜶 𝑡 (添え字d, i, kは省略) 各ユーザ d の興味トピック混合比が 時刻tに応じて変化 興味トピック k ごとの アイテム購買分布が時間変化 ガジェット 時刻 t-1 時刻 t
  • 35. 35Copyright©2015 NTT corp. All Rights Reserved. 教師情報・補助情報の利用 トピッククラスタリングのために教師信号やメタデー タを利用する拡張モデルの研究例です 文書間の関係リンク [Chang & Blei, 2009]数値スコア(評点) [Blei & McAuliffe, 2008] クラスラベル、タグ [Lacoste-Julien+, 2009; Ramge+, 2009] 4.3 “cool” クラス1 クラス3“あとで読む” [Blei & McAuliffe, 2008] Blei and McAuliffe, “Supervised Topic Models”, in Proc. NIPS, 2008. [Lacoste-Julien+, 2009] Lacoste-Julien et al.., “DiscLDA: Discriminative Learning for Dimensionality Reductioin and Classification”, in Proc. NIPS, 2009. [Ramage+, 2009] Ramage et al., “Labeled LDA: a supervised topic model for credit attribution in multi-labeled corpora”, in Proc. EMNLP, 2009. [Chang & Blei, 2009] Chang and Blei, “Relational Topic Models for Document Networks”, in Proc. AISTATS, 2009.
  • 36. 36Copyright©2015 NTT corp. All Rights Reserved. Supervised LDA (sLDA) [Blei & McAuliffe, 2008] BoW文書と補助情報(数値スコア)を同時に トピック割当Zで制御 36 𝑧 𝑑,𝑖 𝑥 𝑑,𝑖 𝜷 𝑘 𝜽 𝑑𝜶 i=1, …, Nd k=1, …, K d=1, …, D 𝜷0 LDAのグラフィカルモデル 𝑧 𝑑,𝑖 𝑥 𝑑,𝑖 𝜷 𝑘 𝜽 𝑑𝜶 i=1, …, Nd k=1, …, K d=1, …, D 𝜷0 sLDAのグラフィカルモデル 𝑦 𝑑 評価スコア値𝜇 𝜎𝑧 𝑑,𝑘 = 1 𝑁𝑑 𝑖=1 𝑁 𝑑 𝛿 𝑘 𝒛 𝑑,𝑖 𝑦 𝑑| 𝒛 𝑑, 𝜼, 𝜎 ~N 𝜼 𝑇 𝒛 𝑑, 𝜎 𝟐 [Blei & McAuliffe, 2008] Blei and McAuliffe, “Supervised Topic Models”, in Proc. NIPS, 2008.
  • 37. 37Copyright©2015 NTT corp. All Rights Reserved. 離散ラベル・タグデータ:矢印が逆向き 教師(補助)データがトピック混合比や トピック 割り当てを制御する [Lacoste-Julien+, 2009][Ramge+, 2009] [Lacoste-Julien+, 2009] Lacoste-Julien et al.., “DiscLDA: Discriminative Learning for Dimensionality Reductioin and Classification”, in Proc. NIPS, 2009. [Ramage+, 2009] Ramage et al., “Labeled LDA: a supervised topic model for credit attribution in multi-labeled corpora”, in Proc. EMNLP, 2009.
  • 38. 38Copyright©2015 NTT corp. All Rights Reserved. 3.各ドメインにおける応用研究 自然言語処理 ソーシャルサービスデータ解析 画像処理 音声・動画像(あまり数がありませんでした)
  • 39. 39Copyright©2015 NTT corp. All Rights Reserved. 自然言語処理(NLP)分野での応用 自然言語処理分野でのトピックモデル応用は多 岐にわたっています 講演者が今回調査した中で特に気になったのは 以下の項目です: A) 文構造、オントロジー情報との融合 B) Sentiment analysisへの応用 C) オンラインレビュー記事の自動解析
  • 40. 40Copyright©2015 NTT corp. All Rights Reserved. 文構造、オントロジー情報 [Boyd-Graber & Blei, 2009] Boyd-Graber & Blei, “Syntactic Topic Models”, in Proc. NIPS, 2009. [Boyd-Graber+, 2007] Boyd-Graber et al., “A topic model for word sense disambiguation”, in Proc. EMNLP, 2007. 文構造情報や、外部DBのオントロジーをトピッ クモデルと融合する 構文木を補助情報として用いる [Boyd-Graber & Blei, 2009] トピック=WordNetの同義語グラフ上の酔歩とし てモデル化 [Boyd-Graber+, 2007]
  • 41. 41Copyright©2015 NTT corp. All Rights Reserved. 文構造、オントロジー情報 NLPでなくても木構造などのデータ構造を取り入れる際に参考 になる [Gruber+, 2007] Gruber et al., “Hidden topic Markov models”, in Proc. AISTATS, 2007. トピックが文単位のHMMで遷移 [Gruber+, 2007]
  • 42. 42Copyright©2015 NTT corp. All Rights Reserved. Sentiment Analysisへの応用 Sentiment analysis (感情極性解析): ある単語(節, 文)がポジティブなのかネガティブなのかを推定 する技術 トピックモデルと組み合わせることで、「ト ピックごとの」sentimentを推定できる Mei+, 2007] Mei+, “Topic sentiment mixture: modeling facets and opinions in weblogs“, in Proc. WWW, 2007. [Mei+, 2007]
  • 43. 43Copyright©2015 NTT corp. All Rights Reserved. Sentiment Analysisへの応用 [Lin & He, 2009] [Lin & He, 2009] Lin & He, “Joint Sentiment / Topic Model for Sentiment Analysis“, in Proc. CIKM, 2009. Mei+, 2007] Mei+, “Topic sentiment mixture: modeling facets and opinions in weblogs“, in Proc. WWW, 2007. Sentiment隠れ変数を導入、 トピックの選択に影響 [Mei+, 2007] “Positive”トピック と”Negative”トピックを 明示的にモデル化
  • 44. 44Copyright©2015 NTT corp. All Rights Reserved. オンラインレビュー記事の自動解析 レビュー記事は、さまざまな観点(aspect)についての評 論が書かれています 立地・食事・アクセス・アメニティ・・・・ 仮説:観点はレビュー記事内の「話題」に相当 トピックモデルで自動抽出できそう? [Titov & McDonald, 2008ACL] [Titov & McDonald, 2008ACL] Titov & McDonald, “A joint model of text and aspect ratings for sentiment summarization”, in Proc. ACL, 2008.
  • 45. 45Copyright©2015 NTT corp. All Rights Reserved. オンラインレビュー記事の自動解析 トピックモデルでレビュー記事DBの利用価値向上 細かい観点をトピック的に学習  レビュー内の「関心事」 を自動抽出 観点ごとのsentiment analysisと併用  観点ごとの評価値や総 合評価値の予測 45 値段: A 性能: A アフターサービス: C 使いやすさ: B 総合評価: 4 観点評価 [Titov & McDonald, 2008ACL; Brody, 2010] [Titov & McDonald, 2008ACL] Titov & McDonald, “A joint model of text and aspect ratings for sentiment summarization”, in Proc. ACL, 2008. [Titov & McDonald, 2008WWW] Titov & McDonald, “Modeling online reviews with multigrain topic models”, in Proc. WWW, 2008. [Brody, 2010] Brody, “An Unsupervised Aspect-Sentiment Model for Online Reviews”, in Proc. NAACL, 2010 [Titov & McDonald, 2008WWW]
  • 46. 46Copyright©2015 NTT corp. All Rights Reserved. ソーシャルサービスデータ解析分野で の応用 ソーシャルサービスデータはトピックモデルに良 く適合します 主にテキストで情報交換される さまざまな話題があるが、人手での整理は困難 社会インフラの側面もありモデル化価値が高い ここでは特に以下の2点について報告します: A) ツイッター[twitter.com]応用 B) Geo-Taggedデータ解析
  • 47. 47Copyright©2015 NTT corp. All Rights Reserved. ツイッター[twitter.com]応用 好ましいデータ 多くのアクティブユーザ 無料でデータ取得可能 速報性・トレンド性 ツイッター独自の問題: 「ノイジーな短文データ」 140字制限 「無意味」なつぶやき
  • 48. ユーザ本人の意図が反映された投稿か、 ノイジーな投稿かを推定 [Hong & Davidson, 2010] Hong & Davidson, “Empirical study of topic modeling in twitter”, in Proc. The First Workshop on Social Media Analytics, 2010. [Yan+, 2013] Yan et al., “A biterm topic model for short texts2, in Proc. WWW, 2013. [Xu+, 2011] Xu et al., “Discovering User Interest on Twitter with a Modified Author-Topic Model”, In Proc. IEEE/WIC/ACM Int. Conf. on Web Intelligence and Intelligent Agent Technology, 2011. [Xu+, 2011] ツイート=文書とするトピックモ デルをあきらめ、bi-termごとにト ピックを割り当てる [Yan+, 2013] まず当たるべき 比較研究論文
  • 49. 49Copyright©2015 NTT corp. All Rights Reserved. Geo-Taggedデータ解析 位置情報つき(Geo-Tagged)ソーシャルデータは、特に実 世界における推薦サービスへの応用が見込めるため重 要な課題です 技術的には:位置情報によってトピックの分布や単語 の分布をどのように変化させるか? Ex) 野球トピック アメリカ東海岸:ヤンキースvs.レッドソックス アメリカ西海岸:マリナースやドジャース?
  • 50. 50Copyright©2015 NTT corp. All Rights Reserved. モデル化の例 単語wとロケーションlがトピックのもとで 条件付き独立 [Wang+, 2007] 位置の隠れ変数 r が単語 w とジオタグ観測 y を 支配する 単語分布は(トピックz, 位置r)でインデックスされる [Eisenstein+, 2010] [Wang+, 2007] Wang et al., “Mining Geographic Knowledge Using Location Aware Topic Model”, in Proc. GIR, 2007. [Eisenstein+, 2010] Eisenstein et al., “A latent variable model for geographic lexical variation”, in Proc. EMNLP, 2010.
  • 51. 51Copyright©2015 NTT corp. All Rights Reserved. 画像処理分野での応用 コンピュータビジョンは古くから機械学習コ ミュニティと距離が近く、トピックモデルも早 くから利用されています ここで取り上げたい話題は以下の2点です A) Bag-of-Visual Wordsと最初期の応用研究 B) セグメンテーションタスク
  • 52. 52Copyright©2015 NTT corp. All Rights Reserved. Bag of Visual Words (BoVW): 画像データの「文書化」 RGB値や局所記述子のような画像特徴量は数値ベクト ル  クラスタリングで離散シンボル化 52 K-meansなどによる量子化 Visual Words: 単語に相当 Bag of Visual Words: 文書に相当 SIFT, SURFなどの 数値(局所)特徴を抽出 v = 1 v = 2 v = 3 V次元のヒストグラム ・・・ K = V Leung & Malik, “Representing and Recognizing the Visual Appearance of Materials using Three-dimensional Textons”, IJCV, 43(1):29–44, 2001. Sivic &Zisserman, “Video Google: a text retrieval approach to object matching in videos”, In Proc. ICCV, 2003. 柏野 et al., “ヒストグラム特徴を用いた音響信号の高速探索法- 時系列アクティブ探索法-”. 電子情報通信学会論文誌, J82-D-II(9):1365– 1373, 1999.
  • 53. 53Copyright©2015 NTT corp. All Rights Reserved. 最初期の応用例:シーン認識 BoVW + トピックモデルを画像処理に使った最初期の例 シーンのクラスごとに、トピック混合比の傾向が異なること を利用して学習・識別 [Fei-Fei & Perona, 2005] Fei-Fei and Perona., “A Bayesian hierarchical model for learning natural scene categories”, in Proc. CVPR, 2005. [Fei-Fei & Perona, 2005]
  • 54. 54Copyright©2015 NTT corp. All Rights Reserved. プレートノーテーションと 生成モデル 54 𝑧 𝑑,𝑖 𝑥 𝑑,𝑖 𝜷 𝑘 𝝅 𝑑 𝜼 i=1, …, Nd k=1, …, K d=1, …, D c=1, …, C 𝐶 𝑑 画像dのトピック混合比 𝝅 𝑑~Dirichlet 𝜽 𝑐 𝑑 Key point (d,i)のトピック割り当て 𝑧 𝑑,𝑖~Discrete 𝝅 𝑑 Key pointの観測量(visual words) 𝑥 𝑑,𝑖~Discrete 𝜷 𝑧 𝑑,𝑖 画像dのシーンクラス 𝑐 𝑑~Discrete 𝜼 𝜽 𝑐 シーンクラスc固有の 混合比ハイパーパラメータ(平均) 文書dのクラスの ハイパーパラメータを 平均にする
  • 55. 55Copyright©2015 NTT corp. All Rights Reserved. 認識問題ではあまり使われませんでした 理由は2つあると考えています 1.LDAは教師なしの生成モデル 認識問題は教師有り識別タスク   SVMなどの識別モデルを使ったほうが性能が高い のは自然 2.BoVWの表現能力不足 研究の方向はFisher Vector, GMM SuperVectorのように表 現力の高い連続数値特徴量の開発に向かった   離散シンボル化した観測量では識別能力に限界が ある
  • 56. 56Copyright©2015 NTT corp. All Rights Reserved. トピックモデルの応用先: セグメンテーション セグメンテーションもクラスタリングタスクなので アプローチ: 画像をsuper pixel (小部分領域)に過剰分割 各super pixelに一つのトピックを割り当てて同じトピック領域を結合 [Cao & Fei-Fei, 2007] Super pixelに過剰分割  LDAでトピック割当(色塗り) [Cao & Fei-Fei, 2007] Fei-Fei and Perona., “Spatially Coherent Latent Topic Model for Concurrent Segmentation and Classification of Objects and Scenes”, in Proc. ICCV, 2007 [Niu+, 2012] Niu et al., “Context aware topic model for scene recognition”, in Proc. CVPR, 2012. オブジェクトの切りだし: 簡単な画像ならトピック = オブジェクト 複雑な画像なら教師情報つきLDAに拡張[Cao & Fei-Fei, 2007, Niu+, 2012]] 簡単な場合は トピックモデルだけで切り出せる
  • 57. 複数のレベルでsuper pixelを作ってよいものを選ぶ[Russel+, 2006] 画像のシーン認識+セグメンテーション。 シーンラベルとトピックによって super pixelの空間配置も評価される [Niu+, 2012] [Russel+, 2006] Russell et al., “Using Multiple Segmentations to Discover Objects and their Extent in Image Collections”, in Proc, CVPR, 2006. [Niu+, 2012] Niu et al., “Context aware topic model for scene recognition”, in Proc. CVPR, 2012.
  • 58. 58Copyright©2015 NTT corp. All Rights Reserved. 音声・音響分野での応用:あまり数が ありません 音は非線形かつ時間連続性をもつ信号のため、 離散シンボルでモデル化する妥当性が低い? 観測量の分布を連続量の確率分布(正規分布な ど)に変更する例がいくつかある 音楽推薦のためにボーカルの特徴量を使用[Yoshii & Goto, 2009] 音源位置推定のために音源到達位相差(時間差)を 使用[Ishiguro+, 2012] [Yoshii & Goto, 2009] Yoshii and Goto, “Continuous PLSI and Smoothing Techniques for Hybrid Music Recommendation”, in Proc. ISMIR, 2009. [Ishiguro+, 2012] Ishiguro et al., “Probabilistic Speaker Diarization With Bag-of-Words Representations of Speaker Angle Information”, IEEE Trans. ASLP, 20(2):447–460, 2012.
  • 59. 59Copyright©2015 NTT corp. All Rights Reserved. 動画像処理での応用:あまり数があり ません 時系列モデルであるため、そもそものモデル化のハー ドルが高い? 時空間interest pointsを使った動作認識[Niebles+, 2008] 動きパターンのクラスタリング[Hospedales+,2012] トラッキング[Rodriguez+, 2009] [Niebles+, 2008] Niebles et al., “Unsupervised learning of human action categories using spatial-temporal words”, IJCV, 79(3):299–318, 2008. [Hospedales+, 2012] Hospedales et al., “Video Behaviour Mining Using a Dynamic Topic Model”, IJCV, 98(3):303–323, 2012. [Rodriguez+, 2009] Rodriguez et al., “Tracking in unstructured crowded scenes”, in Proc. ICCV, 2009. [Hospedales+, 2012] [Rodruguez+, 2009]
  • 60. 60Copyright©2015 NTT corp. All Rights Reserved. 4.推論法およびデータスケーラビリティ ベイズ推論法 確率的最適化 オンライン学習・並列学習
  • 61. 61Copyright©2015 NTT corp. All Rights Reserved. LDAの推定方法: ベイズ事後分布推定 変分ベイズ(VB)法: 近似解へ収束保証、高速計算が容易 周辺化ギブスサンプリング(CGS)法: 厳密解、 qd, bkの推定が不要 周辺化変分ベイズ(Collapsed Variational Bayes, CVB)法: VBより良い近似、 qd, bkの推定が不要 、実験的に最高精度 [Asuncion+, 2009; Sato&Nakagawa, 2012] 周辺化: 確率変数を定義域全体で積分することでその変数の影響を全て織り込んでおくこと 手法 q, bの 推定 実験的な 推定精度 厳密解へ 漸近収束 停留点 で収束 収束判定 実際的な 計算コスト 近似計算・並列 化による高速化 VB 要 普通 × ○ 容易 低い 容易 CGS 不要 高い ○ - 困難 高い 可能 CVB 不要 最高 × × 困難 高い 可能? [Asuncion+, 2009] Asuncion et al., “On Smoothing and Inference for topic models”, in Proc. UAI, 2009. [Sato & Nakagawa, 2012] Sato & Nakagawa, “Rethinking Collapsed Variational Bayes Inference For LDA”, in Proc. ICML, 2012. New
  • 62. 62Copyright©2015 NTT corp. All Rights Reserved. CVB法のアルゴリズム アイデア:VBの変分下限よりもよりタイトな近 似であるCVB下限を最大化する ただし、下限を正しく最大化するq(Z)は計算が 困難なので、テイラー近似解を利用 「CGSのような計算式に基づく」 「VB(EM)のような決定的繰り返し計算」 が導出される [Asuncion+, 2009] [Asuncion+, 2009] Asuncion et al., “On Smoothing and Inference for topic models”, in Proc. UAI, 2009.
  • 63. 63Copyright©2015 NTT corp. All Rights Reserved. CVB法の理論 VB法:周辺化尤度(evidence)の下限近似を最大化する変 分事後分布q(Z), q(q), q(b)を求める CVB法: パラメータを周辺化したうえで、周辺化尤度の 下限近似を最大化するq(Z)を求める 変分近似された事後分布がq(z)だけになるので、VB下 限よりも必ず良い近似となる Also check my blog post: http://dr-kayai.hatenablog.com/entry/2013/12/22/003011
  • 64. 64Copyright©2015 NTT corp. All Rights Reserved. 推論手法の比較 [Asuncion+, 2009] Asuncion et al., “On Smoothing and Inference for topic models”, in Proc. UAI, 2009. [Asuncion+, 2009] better better better
  • 65. 65Copyright©2015 NTT corp. All Rights Reserved. global parameterと local parameter LDAの未知変数はglobal parameterと local parameterの2種類からなる global parameter: トピックの単語分布bk local parameter: トピック割り当てzd, 混合比qd 問題点:global param. bkの推定(更新)は全文書のス キャンが必要繰り返し計算が厳しい 𝑧 𝑑,𝑖 𝑥 𝑑,𝑖 𝜷 𝑘𝜽 𝑑𝜶 i=1, …, Nd k=1, …, K d=1, …, D local: 文書dに 閉じている global: 文書の プレート全体に影響 𝜷0
  • 66. 66Copyright©2015 NTT corp. All Rights Reserved. Stochastic Variational Inference (SVI) [Hoffman+, 2013] 変分下限の勾配を、乱拓したミニバッチ(文書 サブセット)のデータで近似 トピック単語分布bkの変分事後分布をO(S) (<< O(D))で高速に最適化 [Hoffman+, 2013] Hoffman et al., “Stochastic Variational inference”, Journal of Machine Learning Research, No. 14, 1304-1347, 2013. 乱拓したminibatch (S=2) 全文書 D 変分事後分布の更新 Noisy estimate
  • 67. 67Copyright©2015 NTT corp. All Rights Reserved. SVI + オンライン学習 [Hoffman+, 2010] SVIによるglobal parameter推定 + Local parameterをオンラインで推定=何度も繰り返し 演算しない! 最初のほうに見た文書のトピック推定は悪いはずだが、数を こなせば全体としては良い推定が可能 [Hoffman+, 2010] Hoffman et al., “Online Learning for Latent Dirichlet Allocation”, in Proc. NIPS, 2010.
  • 68. 68Copyright©2015 NTT corp. All Rights Reserved. 並列学習 global/local param.の構造をうまく使います MR.LDA[Zhai+, 2012]: Map-ReduceでLDA学習 16ノードのHadoop構成で360K文書/時間を処理 Yahoo!LDA[Smola & Narayanamurthy, 2010]: multi-core, multi-CPU計 算機でのLDA学習 8コアCPUの計算機1台で75K文書/時間を処理 multi-CPU環境では1台あたり42K 文書/時間 [Zhai+, 2012] Zhai et al., “Mr. LDA”, in Proc. WWW, 2012. [Smola & Narayanamurthy, 2010] Smola & Narayanamurthy, “An Architecture for Parallel Topic Models”, in Proc. VLDB, 2010.
  • 69. 69Copyright©2015 NTT corp. All Rights Reserved. Mr. LDA [Zhai+, 2012] 分散計算が容易なVB推論をMapReduce分散系に 実装した mapper: local paramの統計量を 計算 reducer: global paramの統計 量を計算 driver: globalな ハイパーパラメータを 更新 [Zhai+, 2012] Zhai et al., “Mr. LDA”, in Proc. WWW, 2012.
  • 70. 70Copyright©2015 NTT corp. All Rights Reserved. Yahoo!LDA [Smola & Narayanamurthy, 2010] CGS推論において、メンテナンスが必要な隠れ変数と 十分統計量を精査すると、 (A) 各文書で独立に保持できる量 と (B) 文書全体で共有(通信が発生)されるが、頻繁に更 新しなくても良い量 が存在する点に着目 (A)を各コアで並列計算する間(B)を「定数」とみなすこ とで通信とlockされる時間を削減 zdi および n(d, k) = Σi I(zdi = k) n(k, v) = Σd Σi I(zdi = k)I(xdi = v) および n(k) = Σd Σi I(zdi = k) [Smola & Narayanamurthy, 2010] Smola & Narayanamurthy, “An Architecture for Parallel Topic Models”, in Proc. VLDB, 2010.
  • 71. 71Copyright©2015 NTT corp. All Rights Reserved. 5.まとめ 本講演のまとめ 講演者が注目している最新手法と今後の方向性 参考図書の選び方
  • 72. 72Copyright©2015 NTT corp. All Rights Reserved. 本講演のまとめ トピックモデルの現在のstatus 技術としては「枯れて」いるが注目度は高い トピックモデル(LDA)とは 混合モデルの混合モデル, プレートノーテーション 各種拡張モデルについて 相関、時間依存、教師情報の利用 さまざまなパターン認識ドメイン応用について 今後活用していただく際の「入口」の紹介 推論手法とスケーラビリティ CVB、確率的最適化、並列計算
  • 73. 73Copyright©2015 NTT corp. All Rights Reserved. 最新の研究例: The Bayesian case model [Kim+, 2014] 各トピックの「重要単語」と「典型例」を明示的にモデ ル化・推定 [Kim+, 2014] Kim et al., “The Bayesian Case Model: A Generative Approach for Case-Based Reasoning and Prototype Classification”, in Proc. NIPS, 2014. LDA: 各トピックの 頻出単語リストを人が解釈 提案法: 各トピックの 典型的な観測値と 重要な単語を自動で提示
  • 74. 74Copyright©2015 NTT corp. All Rights Reserved. 今後の方向性について 1.「人にわかりやすく」クラスタリングを見 せる技術 2.さらに高精度・高速・高スループットな推 論・計算フレームワーク 3.各種パターン認識課題への応用
  • 75. 75Copyright©2015 NTT corp. All Rights Reserved. 参考図書の選び方(講演者の独断と偏見による) 佐藤一誠, “トピックモデルによる統計的潜在意味解析”, 自然言語処理シリーズ8, コロナ社, 2015. トピックモデル(LDA)のすべてを詳細に議論 各種推論法の非常に詳しい導出と背景となる数理的知識もカバー トピックモデルを本格的に理解して、 研究開発上の武器にしたい方は必読 岩田具治, “トピックモデル”, 機械学習プロフェッショナルシリーズ, 講談社, 2015. 本サーベイよりもう一段深い、実用を指向した説明 特に拡張モデルの記述が豊富 とりあえず使ってみる・作ってみる際の理解を深めるのに好適
  • 76. 76Copyright©2015 NTT corp. All Rights Reserved. IEICE技報の誤植訂正 お手数をおかけいたしますが、下記の修正をお願いいたします。 もしほかにお気づきの方がいらっしゃれば、ご指摘いただける と助かります。 p.20 左コラム12行目 誤:[83] のように1 ツイート内に… 正:[82] のように1 ツイート内に… p.24 右コラム、[73]の出版年 誤:2007年 正:2008年