More Related Content More from utsuro_lab (19) 時系列トピックのバーストを同定するシステムの紹介 (専門家向け)2. 概要
本研究は,
DTM ( Dynamic Topic Model ) [Blei06] を
用いて推定したトピックに対して,
Kleinbergのバースト解析 [Kleinberg02] の
手法を適用することで,
トピック単位のバーストが検出可能であることを
示したものです
2
3. 概要
一日の記事集合中の
キーワードの平均出現確率 キーワードの
バースト状態/非バースト状態
バースト解析
[Kleinberg02]
ニュース記事ストリーム 2状態のストリームを出力
上の図が,
Kleinbergのバースト解析手法の基本的な流れになります
3
4. 概要
一日の記事集合中の
キーワードの平均出現確率 キーワードの
バースト状態/非バースト状態
バースト解析
[Kleinberg02]
ニュース記事ストリーム 2状態のストリームを出力
この手法ではまず,
ニュース記事ストリームを入力とし,
各日におけるニュース記事集合中の
各キーワードの平均出現確率を算出します
4
5. 概要
一日の記事集合中の
キーワードの平均出現確率 キーワードの
バースト状態/非バースト状態
バースト解析
[Kleinberg02]
ニュース記事ストリーム 2状態のストリームを出力
そして,
その平均出現確率をもとに,
各キーワードの,
バースト状態・非バースト状態の2状態系列を求めます
これが,一般的なKleinbergのバースト解析手法です 5
6. 概要
一日の記事集合中の
キーワードの平均出現確率 キーワードの
バースト状態/非バースト状態
バースト解析
[Kleinberg02]
ニュース記事ストリーム 2状態のストリームを出力
では,実際に,
キーワードのバースト解析結果を見てみましょう
6
7. キーワードのバースト解析結果
2010年3月1日~3月7日(一週間)
くない
0.06
色々なキーワードのバースト系列が重なってしまっているので, はたち
アイリス
パターンごとに何キーワードあるかを見ていきます. アパート
イスラム教
ウル
オイル
バースト 0.05 カフェ
キャンプ場
状態 クロマグロ
コミック
サンティアゴ国際空港
シリコンウエハー
スカイライン
0.04
スパイ
ソルトレーク
チェンジアップ
デジタル一眼レフカメラ
ドォーモ
ノミ
0.03 バラン
パレスチナ自治政府
フィリップ
ブレザー
ベアリング
ポー
ミカ
0.02
モーグル
ラッパ
その日に
リンク
ロシア
おける
安全装置
0.01
キーワードの
遺作
右腕
出現確率
益子修
岡崎
加奈子
貨物車
海水浴
非バースト 0
格安航空会社
葛藤
状態 2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7
監査役
7
※線グラフは「バーストの有無」,棒グラフは「出現確率」を表す
8. キーワードのバースト解析結果
2010年3月1日~3月7日(一週間)
くない
0.06
1391 キーワード
はたち
アイリス
アパート
イスラム教
ウル
オイル
バースト 0.05 カフェ
キャンプ場
状態 クロマグロ
コミック
サンティアゴ国際空港
シリコンウエハー
スカイライン
0.04
スパイ
ソルトレーク
チェンジアップ
335 キーワード
デジタル一眼レフカメラ
ドォーモ
ノミ
0.03 バラン
パレスチナ自治政府
フィリップ
ブレザー
ベアリング
ポー
ミカ
0.02
モーグル
ラッパ
その日に
リンク
ロシア
おける
安全装置
0.01
キーワードの
遺作
右腕
出現確率
益子修
岡崎
加奈子
貨物車
海水浴
非バースト 0
格安航空会社
葛藤
状態 2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7
監査役
8
※線グラフは「バーストの有無」,棒グラフは「出現確率」を表す
9. キーワードのバースト解析結果
2010年3月1日~3月7日(一週間)
0.06
267 キーワード くない
1391 キーワード
はたち
329 キーワード アイリス
アパート
イスラム教
ウル
オイル
バースト 0.05 カフェ
キャンプ場
状態 クロマグロ
コミック
サンティアゴ国際空港
シリコンウエハー
スカイライン
0.04
スパイ
ソルトレーク
チェンジアップ
335 キーワード
デジタル一眼レフカメラ
ドォーモ
ノミ
0.03 バラン
パレスチナ自治政府
フィリップ
ブレザー
216 キーワード 230 キーワード ベアリング
ポー
ミカ
0.02
モーグル
ラッパ
その日に
リンク
ロシア
おける
安全装置
0.01
キーワードの
遺作
右腕
出現確率
益子修
岡崎
215 キーワード 加奈子
貨物車
海水浴
非バースト 0
格安航空会社
葛藤
状態 2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7
監査役
9
※線グラフは「バーストの有無」,棒グラフは「出現確率」を表す
10. キーワードのバースト解析結果
2010年3月1日~3月7日(一週間)
0.06
267 キーワード くない
1391 キーワード
はたち
329 キーワード アイリス
アパート
イスラム教
ウル
オイル
バースト 0.05 カフェ
キャンプ場
状態 クロマグロ
コミック
サンティアゴ国際空港
シリコンウエハー
スカイライン
0.04
スパイ
ソルトレーク
チェンジアップ
220キーワード 335 キーワード
デジタル一眼レフカメラ
ドォーモ
0.03
正直,色々あって見きれませんね? ノミ
バラン
それもそのはずです・・・・・・
パレスチナ自治政府
フィリップ
ブレザー
216 キーワード 230 キーワード ベアリング
ポー
ミカ
0.02
モーグル
ラッパ
その日に
リンク
ロシア
おける
安全装置
0.01
キーワードの
遺作
右腕
出現確率
益子修
岡崎
215 キーワード 加奈子
貨物車
海水浴
非バースト 0
格安航空会社
葛藤
状態 2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7
監査役
10
※線グラフは「バーストの有無」,棒グラフは「出現確率」を表す
11. キーワードのバースト解析結果
2010年3月1日~3月7日(一週間)
0.06
267 キーワード くない
1391 キーワード
はたち
329 キーワード アイリス
アパート
イスラム教
ウル
オイル
バースト 0.05 カフェ
キャンプ場
状態 クロマグロ
コミック
サンティアゴ国際空港
シリコンウエハー
スカイライン
0.04
スパイ
ソルトレーク
チェンジアップ
220キーワード 335 キーワード デジタル一眼レフカメラ
この期間,バーストしているキーワードの数
ドォーモ
ノミ
0.03 バラン
4,700 キーワード
パレスチナ自治政府
フィリップ
ブレザー
216 キーワード (※全130,000 キーワード中)
230 キーワード ベアリング
ポー
ミカ
0.02
モーグル
ラッパ
その日に
リンク
ロシア
おける
安全装置
0.01
キーワードの
遺作
右腕
出現確率
益子修
岡崎
215 キーワード 加奈子
貨物車
海水浴
非バースト 0
格安航空会社
葛藤
状態 2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7
監査役
11
※線グラフは「バーストの有無」,棒グラフは「出現確率」を表す
13. 概要
対して,本研究では,
LDAに代表されるトピックモデルの一種である
トピック DTMを用いて,
DTM 各日のニュース記事集合中のトピックを
[Blei06] 推定します 13
14. 概要
一日の記事集合中の
トピックの平均出現確率 トピックの
バースト状態/非バースト状態
バースト解析
[Kleinberg02]
ニュース記事ストリーム 2状態のストリームを出力
そして,
各日のトピックの平均出現確率を算出することで,
トピック キーワードと同じ枠組みで,
DTM トピックのバースト解析を行います
[Blei06]
14
15. 概要
一日の記事集合中の
トピックの平均出現確率 トピックの
バースト状態/非バースト状態
バースト解析
[Kleinberg02]
ニュース記事ストリーム 2状態のストリームを出力
では,実際に,
トピックのバースト解析結果を見てみましょう
トピック
DTM
[Blei06]
15
16. トピックのバースト
2010年3月1日~3月7日(一週間)
この期間,バーストしているトピックの数
0.25
7 トピック 経済
社会
海外の政治
※ 全トピック数は20として実験 小沢一郎違法献金疑惑
学校,コラ ム
経済
バースト
0.2
企業の業績
企業
状態 交通
裁判
トヨタリコール事件
スポーツ ,製品情報
バン クーバー五輪
普天間問題
芸能
0.15 刑事事件
地域
国内の政治
社会
医療
自然現象
地方の行政
海外の政治
0.1 小沢一郎違法献金疑惑
学校,コラ ム
企業の業績
企業
交通
裁判
トヨタリコール事件
スポーツ ,製品情報
0.05 バン クーバー五輪
普天間問題
芸能
刑事事件
地域
国内の政治
医療
自然現象
0 地方の行政
2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7
16
17. トピックのバースト
2010年3月1日~3月7日(一週間)
この期間,バーストしているトピックの数
0.25
7 トピック 経済
社会
海外の政治
※ 全トピック数は20として実験 小沢一郎違法献金疑惑
学校,コラ ム
経済
バースト
0.2
企業の業績
企業
状態 交通
裁判
トヨタリコール事件
スポーツ ,製品情報
トピックのバースト解析結果は, バン クーバー五輪
普天間問題
右下の,キーワードのバースト解析結果と比較しても
芸能
0.15 刑事事件
地域
だいぶスッキリしたことがわかります.
国内の政治
社会
医療
自然現象
地方の行政
海外の政治
0.1 小沢一郎違法献金疑惑
学校,コラ ム
企業の業績
企業
交通
裁判
トヨタリコール事件
スポーツ ,製品情報
0.05 バン クーバー五輪
普天間問題
芸能
刑事事件
地域
国内の政治
医療
自然現象
0 地方の行政
2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7
17
4800 キーワード
18. トピックのバースト
2010年3月1日~3月7日(一週間)
この期間,バーストしているトピックの数
0.25
7 トピック 経済
社会
海外の政治
※ 全トピック数は20として実験 小沢一郎違法献金疑惑
学校,コラ ム
経済
バースト
0.2
企業の業績
企業
状態 交通
裁判
トヨタリコール事件
スポーツ ,製品情報
バン クーバー五輪
普天間問題
芸能
では,どんなトピックがバーストしているか,
0.15 刑事事件
地域
国内の政治
実際に見てみましょう.
社会
医療
自然現象
地方の行政
海外の政治
0.1 小沢一郎違法献金疑惑
学校,コラ ム
企業の業績
企業
交通
裁判
トヨタリコール事件
スポーツ ,製品情報
0.05 バン クーバー五輪
普天間問題
芸能
刑事事件
地域
国内の政治
医療
自然現象
0 地方の行政
2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7
18
19. トピックのバースト
2010年3月1日~3月7日(一週間)
1
0.25
~3月1日
「トピック:自然現象」
バースト
0.2
状態 がバースト
→チリ地震によるもの
0.15
0.1
0.05
0
2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7 19
20. トピックのバースト
2010年3月1日~3月7日(一週間)
0.25
2010年3月2日~3日 2
「トピック:トヨタリコール事件」
バースト
0.2
がバースト
状態
→米国で公聴会が開かれた
0.15
0.1
0.05
0
2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7 20
21. トピックのバースト
2010年3月1日~3月7日(一週間)
0.25
2010年3月5日~
「トピック:普天間問題」
3
がバースト
バースト
0.2 → 官房長官と駐日米大使が
状態
対談。県内移設が濃厚に。
0.15
0.1
0.05
0
2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7 21
22. トピックのバースト
2010年3月1日~3月7日(一週間)
0.25
~3月1日 4
バースト
「トピック:バンクーバー五輪」
がバースト
5
6
0.2
状態
→閉会式が行われた
0.15
2010年3月7日~
「トピック:海外の政治」
7
がバースト
→ 中国の全国人民代表大会、
イスラエルとパレスチナの和平
0.1
3月6日~7日 交渉の成立など
「トピック:学校,コラム」
「トピック:スポーツ,製品情報」
0.05
がバースト
→ 雑多な話題を含むトピックなので
偶然バーストしてしまったもの
0
2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7
22
23. トピックのバースト
2010年3月1日~3月7日(一週間)
この期間,バーストしているトピックの数
0.25
7 トピック 経済
社会
海外の政治
※ 全トピック数は20として実験 小沢一郎違法献金疑惑
学校,コラ ム
経済
企業の業績
バースト
0.2 企業
状態 交通
裁判
トヨタリコール事件
スポーツ ,製品情報
バン クーバー五輪
普天間問題
芸能
これなら簡単に,
0.15 刑事事件
地域
国内の政治
一週間の出来事を知ることができそうではないでしょうか.
社会
医療
自然現象
地方の行政
海外の政治
0.1 小沢一郎違法献金疑惑
学校,コラ ム
企業の業績
企業
交通
裁判
トヨタリコール事件
スポーツ ,製品情報
0.05 バン クーバー五輪
普天間問題
芸能
刑事事件
地域
国内の政治
医療
自然現象
0 地方の行政
2010/3/1 2010/3/2 2010/3/3 2010/3/4 2010/3/5 2010/3/6 2010/3/7
23
25. 手法説明
そこで,まずは
1.Kleinbergのバースト解析の仕組み
(キーワードのバースト解析)
について説明し,
次に
2.トピックのバースト解析をするには?
について説明していきます
25
27. キーワードの出現確率
Kleinbergのバースト解析では,各日におけるキーワードの出現確率を求めます.
文書集合におけるキーワードw の出現確率rt /dt は,
一日の文書数dt と,
そのキーワードw を含む文書の数rt から求めることができます
t における
rt /dt 文書集合
w w w w
rt 10
=
d t = 33 w w w w
w w
時間
t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365 27 27
28. バースト解析[Kleinberg02]
(直観的理解)
すると,解析したい期間におけるキーワードの平均出現確率p0が求まります
そして,
期間内平均出現確率 p0 をどれだけ上回るかにより,
バースト状態・非バースト状態を識別することになります
rt /dt
例
∑r t バースト
p0 = t
= 0 . 050 例
状態
∑d
t
t
閾値 = 0.072
p0
時間
t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365
非バースト
状態 28
28
29. バースト解析[Kleinberg02]
直観的には先程の説明で問題ありませんが,厳密には,
各日の出現確率 rt /dt から,バースト状態・非バースト状態を
遷移する系列q のコストを計算して最小コスト系列を求めたものが解になります
⎛ m −1 ⎞ ⎛ m ⎞
c(q | rt , d t ) = ⎜ ∑τ (it | it +1 ) ⎟ + ⎜ ∑ σ (it , rt , d t ) ⎟
⎝ t =0 ⎠ ⎝ t =1 ⎠
バースト
状態 q1
時間
非バースト
状態 q0
t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365 29 29
30. 手法説明
以上で,
1.Kleinbergのバースト解析の仕組み
(キーワードのバースト解析)
についての説明は終わります
30
31. 手法説明
1.Kleinbergのバースト解析の仕組み
(キーワードのバースト解析)
次は2番について説明します
2.トピックのバースト解析をするには?
31
32. キーワードの出現確率
さきほどの説明を振り返ってみると
Kleinbergのバースト解析では,
各日におけるキーワードw の出現確率rt /dt が必要でした
ということは・・・
t における
rt /dt 文書集合
w w w w
rt 10
=
dt 33 w w w w
w w
時間
t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365 32
33. トピックの出現確率
同様に,
文書集合におけるトピックz の出現確率rt /dt を求めるため,
一日の文書数dt と,そのトピックz の文書の数rt を得ることができれば
トピックをバースト解析できると考えられます
t における
文書集合
rt /dt
z z z z
rt 12
= z z z z
dt 33
z z z z
時間
t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365 33 33
34. トピックの出現確率
では,どのようにしてトピックz の出現確率rt /dt の分子である
トピックz の文書の数rt を求めるかですが,
ここで先に説明した 「トピックモデル」 を使います
t における
文書集合
rt /dt
z z z z
rt 12
= z z z z
dt 33
z z z z
時間
t1 t2 t3 t4 t5 t6 t7 t8 t9 ………. t365 34 34
35. トピックの出現確率 rt /dt の算出方法
(トピックの関連記事数 rt の算出方法)
具体的には,
トピックモデルによって推定されるp( zn | b )の値を用います
…………
p(z2|b) p(z3|b)
…………
= 0.10 =0.05
…………
p(z1|b)
文書b …………
= 0.85
…………
トピックz1について 0.85記事 書かれていると見なす
これは,
「文書b が,どれくらいの割合,どれくらいのトピックについて書かれているか」
を表したものでした
そこで,その条件付き確率の値を,そのまま記事数rt に用いることにします
35
36. トピックの出現確率 rt /dt の算出方法
(トピックの関連記事数 rt の算出方法)
具体的には, p( zn | b ) の値を,その日の文書集合で足し合わせることで,
その日における各トピックの関連文書数rtn とします
p(z2|b)
…………
= 0.10 ………… p(z3|b)
=0.05
…………
p(z1|b)
文書b …………
= 0.85
…………
0.85記事
…… ……
……
……
……
… … …… ……
…… ……
…… ……
……
……
…… …… ……
…… ……
……
……
……
… … …… ……
ある日t の 36
文書集合
37. トピックの出現確率 rt /dt の算出方法
(トピックの関連記事数 rt の算出方法)
具体的には, p( zn | b ) の値を,その日の文書集合で足し合わせることで,
その日における各トピックの関連文書数rtn とします
p(z2|b)
…………
p(z3|b) ∑ p( z3 | b) ≈ rt3
= 0.10 ………… =0.05 b
…………
p(z1|b)
文書b …………
= 0.85
…………
b
∑ p( z2 | b) ≈ rt2
0.85記事
…… ……
……
……
……
… … …… ……
…… ……
……
∑ p( z
…… ……
……
……
…… …… 1 | b) ≈ rt1
b
…… ……
……
……
……
… … …… ……
ある日t の 37
文書集合
38. トピックの出現確率 rt /dt の算出方法
(トピックの関連記事数 rt の算出方法)
具体的には, p( zn | b ) の値を,その日の文書集合で足し合わせることで,
その日における各トピックの関連文書数rtn とします
p(z2|b)
…………
p(z3|b) ∑ p( z3 | b) ≈ rt3
= 0.10 ………… =0.05 b rt3
…………
p(z1|b)
文書b …………
= 0.85
…………
∑ p( z2 | b) ≈ rt 2 rt 2
b
0.85記事
…… …… ……
∑r = d
rt
t t
……
……
… … …… ……
……
……
……
rt1
∑ p( z
…… ……
……
……
…… …… 1 | b) ≈ rt1
b
…… ……
……
……
……
… … …… ……
ある日t の 38
文書集合 t
40. おわり
以上で,
手法,および,全体の説明を終わりにします
ありがとうございました
40