Submit Search
Upload
トピックモデルの話
•
64 likes
•
28,406 views
K
kogecoo
Follow
Talk about Topic Modeling @cookpad
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 31
Download now
Download to read offline
Recommended
潜在ディリクレ配分法
潜在ディリクレ配分法
y-uti
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
トピックモデルの基礎と応用
トピックモデルの基礎と応用
Tomonari Masada
最適輸送の解き方
最適輸送の解き方
joisino
LDA等のトピックモデル
LDA等のトピックモデル
Mathieu Bertin
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
LDA入門
LDA入門
正志 坪坂
Recommended
潜在ディリクレ配分法
潜在ディリクレ配分法
y-uti
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
hoxo_m
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
トピックモデルの基礎と応用
トピックモデルの基礎と応用
Tomonari Masada
最適輸送の解き方
最適輸送の解き方
joisino
LDA等のトピックモデル
LDA等のトピックモデル
Mathieu Bertin
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
LDA入門
LDA入門
正志 坪坂
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
Shuyo Nakatani
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
Hiroyuki Muto
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
Topic model
Topic model
saireya _
トピックモデル
トピックモデル
貴之 八木
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
Masanori Kado
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
Shushi Namba
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
研究効率化Tips Ver.2
研究効率化Tips Ver.2
cvpaper. challenge
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
Deep Learning JP
yans2022_hackathon.pdf
yans2022_hackathon.pdf
Kosuke Yamada
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
Yoichi Ochiai
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
Beta distribution and Dirichlet distribution (ベータ分布とディリクレ分布)
Beta distribution and Dirichlet distribution (ベータ分布とディリクレ分布)
Taro Tezuka
トピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみた
Hirofumi Tsuruta
More Related Content
What's hot
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
Shuyo Nakatani
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
Hiroyuki Muto
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
Topic model
Topic model
saireya _
トピックモデル
トピックモデル
貴之 八木
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
Masanori Kado
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
Shushi Namba
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
研究効率化Tips Ver.2
研究効率化Tips Ver.2
cvpaper. challenge
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
Deep Learning JP
yans2022_hackathon.pdf
yans2022_hackathon.pdf
Kosuke Yamada
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
joisino
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
Yoichi Ochiai
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
What's hot
(20)
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
Topic model
Topic model
トピックモデル
トピックモデル
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
「世界モデル」と関連研究について
「世界モデル」と関連研究について
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
Triplet Loss 徹底解説
Triplet Loss 徹底解説
研究効率化Tips Ver.2
研究効率化Tips Ver.2
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
yans2022_hackathon.pdf
yans2022_hackathon.pdf
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
全力解説!Transformer
全力解説!Transformer
Viewers also liked
Beta distribution and Dirichlet distribution (ベータ分布とディリクレ分布)
Beta distribution and Dirichlet distribution (ベータ分布とディリクレ分布)
Taro Tezuka
トピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみた
Hirofumi Tsuruta
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
Yusuke Fukasawa
DeNAの報告書を可視化して雰囲気をつかむ
DeNAの報告書を可視化して雰囲気をつかむ
Yusuke Fukasawa
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
Yusuke Fukasawa
料理レシピサービスにおける検索語の意味変化に関する分析
料理レシピサービスにおける検索語の意味変化に関する分析
Yusuke Fukasawa
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
Yusuke Fukasawa
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
Yusuke Fukasawa
コミュニケーション
コミュニケーション
saireya _
メディア・リテラシー
メディア・リテラシー
saireya _
暗号
暗号
saireya _
BADUIからユニバーサルデザインへ展開するデザイン教育実践
BADUIからユニバーサルデザインへ展開するデザイン教育実践
saireya _
著作権
著作権
saireya _
システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践
saireya _
メディア・リテラシー実習
メディア・リテラシー実習
saireya _
セル結合を含む表のデータモデル
セル結合を含む表のデータモデル
saireya _
What is "design"?
What is "design"?
saireya _
知的財産
知的財産
saireya _
Extending Relational Data Model with Merged Cells(セル結合を考慮した関係データモデルの拡張)
Extending Relational Data Model with Merged Cells(セル結合を考慮した関係データモデルの拡張)
saireya _
情報とは
情報とは
saireya _
Viewers also liked
(20)
Beta distribution and Dirichlet distribution (ベータ分布とディリクレ分布)
Beta distribution and Dirichlet distribution (ベータ分布とディリクレ分布)
トピックモデルでテキストをクラスタリングしてみた
トピックモデルでテキストをクラスタリングしてみた
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
経済的寄与度を重視した橋梁管理手法の有効性に関するマルチエージェントシミュレーションによる分析
DeNAの報告書を可視化して雰囲気をつかむ
DeNAの報告書を可視化して雰囲気をつかむ
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
動画タグネットワーク分析を用いた ニコニコ動画における萌芽文化発見の試み ~”ゆっくり関連タグ”を例として~
料理レシピサービスにおける検索語の意味変化に関する分析
料理レシピサービスにおける検索語の意味変化に関する分析
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
【ニコニコ動画】"マリオメーカー問題"のもたらした影響をネットワーク分析してみた
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
ニコニコ動画における関連動画情報を用いたカテゴリ特徴の把握
コミュニケーション
コミュニケーション
メディア・リテラシー
メディア・リテラシー
暗号
暗号
BADUIからユニバーサルデザインへ展開するデザイン教育実践
BADUIからユニバーサルデザインへ展開するデザイン教育実践
著作権
著作権
システム論に基づく情報教育の授業計画と教育実践
システム論に基づく情報教育の授業計画と教育実践
メディア・リテラシー実習
メディア・リテラシー実習
セル結合を含む表のデータモデル
セル結合を含む表のデータモデル
What is "design"?
What is "design"?
知的財産
知的財産
Extending Relational Data Model with Merged Cells(セル結合を考慮した関係データモデルの拡張)
Extending Relational Data Model with Merged Cells(セル結合を考慮した関係データモデルの拡張)
情報とは
情報とは
Similar to トピックモデルの話
質問応答システム入門
質問応答システム入門
Hiroyoshi Komatsu
Twitterテキストのトピック分析
Twitterテキストのトピック分析
Nobuyuki Kawagashira
100816 nlpml sec2
100816 nlpml sec2
shirakia
入門トピックモデル + Google colab で試せる実装
入門トピックモデル + Google colab で試せる実装
pon get
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
antibayesian 俺がS式だ
情報科学演習 09
情報科学演習 09
libryukyu
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
Koji Matsuda
言語資源と付き合う
言語資源と付き合う
Yuya Unno
Rm20130619 9key
Rm20130619 9key
youwatari
テキストマイニング講義資料
テキストマイニング講義資料
Kosuke Sato
Rm20140423 2key
Rm20140423 2key
youwatari
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
Yuki Arase
つながるデータShare
つながるデータShare
Seiji Koide
シー・ビブリオ
シー・ビブリオ
genroku
情報科学演習 09
情報科学演習 09
libryukyu
Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み...
Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み...
Hiroki Takanashi
Chainer with natural language processing hands on
Chainer with natural language processing hands on
Ogushi Masaya
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
akikom0819
opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2
Takuya Nishimoto
Similar to トピックモデルの話
(20)
質問応答システム入門
質問応答システム入門
Twitterテキストのトピック分析
Twitterテキストのトピック分析
100816 nlpml sec2
100816 nlpml sec2
入門トピックモデル + Google colab で試せる実装
入門トピックモデル + Google colab で試せる実装
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
情報科学演習 09
情報科学演習 09
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
言語資源と付き合う
言語資源と付き合う
Rm20130619 9key
Rm20130619 9key
テキストマイニング講義資料
テキストマイニング講義資料
Rm20140423 2key
Rm20140423 2key
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
つながるデータShare
つながるデータShare
シー・ビブリオ
シー・ビブリオ
情報科学演習 09
情報科学演習 09
Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み...
Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み...
Chainer with natural language processing hands on
Chainer with natural language processing hands on
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2
トピックモデルの話
1.
トピックモデルの話 cookpad 勉強会? 2015/04/27 Mon. twitterID:
@kogecoo
2.
自己紹介 • @kogecoo • background:
自然言語処理/機械学習 • 構文解析/ノンパラベイズ • 推薦アルゴリズムを主に(と言いたい)、わりと何でも
3.
はじめに • いきなりトピックモデル本2冊出た • 少し前までは書籍で勉強とはいかなかった •
→ 敷居がだいぶ下がった(twitter調べ) • イケてる本なので両方買いましょう • PRMLでベイズに挫折した人にもオススメ そういう人はついでに これも買いましょう
4.
はじめに • トピックモデルとは • データの背後にある隠れた「トピック」を推定する •
自然言語処理で潜在意味解析という文脈で発展 • ここでのデータは「文書」 • トピック/潜在意味? • → 話題や分野と考えると理解しやすいかも
5.
はじめに • 豊富な応用先 • 文書 •
画像 • 音楽 • etc • 研究だけでなく、実応用も…
6.
大人の事情で割愛
7.
大人の事情で割愛
8.
もくじ • はじめに • Latent
Semantic Indexing (LSI) • Probabilistic LSI (PLSI) • Latent Dirichlet Allocation (LDA) • おわりに
9.
Latent Semantic Indexing •
検索分野で登場 (Deerwester+, 1988) • のでIndexing(Analysisとも) • 同義語の検索を可能にする目的 • car/automobileともに同じ検索結果を得たい • (地味にpatentが取られていた; expired)
10.
Latent Semantic Indexing 文書ベクトル1 dog automobile car 1
0 catwheel rabbit … 1 0 0 0 … 文書ベクトル2 1 1 0 0 0 0 … 文書ベクトル3 0 1 1 0 0 0 … 文書ベクトル4 0 0 0 1 1 0 … 文書ベクトル5 0 0 0 0 1 1 … 文書ベクトル6 0 0 0 0 1 0 … • 文書-語彙の共起行列 • 語の使われ方でなんとなくグルーピングできそう…
11.
• 特異値分解 • からの
低ランク近似 • Sの特異値の小さいものを削る Latent Semantic Indexing X = U S V 文書 語 文書 トピック トピック 語 X = U S V (対角行列) S
12.
• 低ランク近似 • Sの特異値の小さいものを削る •
文書を特徴づけ易い重要な次元が生き残る • ノイズ削減 • 重要な次元 → トピック、重要な次元の数 → トピック数 Latent Semantic Indexing X = U S V 文書 語 文書 トピック トピック 語 S
13.
Latent Semantic Indexing •
LSIの困った所 • U 、V に現れる値の意味付けが困難 • 負の値も取りうる • トピックの軸は直交するよう選ばれる • 頻度分布としてガウス分布を仮定 • etc…
14.
もくじ • はじめに • Latent
Semantic Indexing (LSI) • Probabilistic LSI (PLSI) • Latent Dirichlet Allocation (LDA) • おわりに
15.
Probabilistic LSI • LSIを確率生成モデルとして考え直す(Hoffmann,
1999) • 文書-単語共起行列がどのような経過をたどって作られ たのか? X = U S V 文書 語 文書 トピック トピック 語 S
16.
• PSLIの文書生成 • 文書-単語共起確率 •
文書dが生成 • トピックzが生成 • 単語wが生成 Probabilistic LSI
17.
Probabilistic LSI • ある文書dがあり、その中にある単語wに注目する •
この文書のトピックがあるトピックzである確率 • dの中の単語wについて • トピックzにおける出現のしやすさ • dの出現のしやすさ
18.
Probabilistic LSI • 文書dの出現しやすさp(d)とかよくわからない •
のでベイズの公式を使って消してしまう • 学習データの尤度を最大化する上記3パラメータをEMで推定
19.
Probabilistic LSI • 性質 •
文書ごとに複数のトピックを持ちうる • (トピック数は与える必要がある) • トピックごとに異なる単語生成確率の分布を持ちうる
20.
Probabilistic LSI • PLSIの問題点 •
dは学習コーパス内の文書実体 • 新規文書を自然に扱えない • 推定すべきパラメータ数が多すぎる • 文書数 トピック数 • 過学習し易い
21.
もくじ • はじめに • Latent
Semantic Indexing (LSI) • Probabilistic LSI (PLSI) • Latent Dirichlet Allocation (LDA) • おわりに
22.
Latent Dirichlet Allocation •
PLSIのベイズ化 (Blei+, 2003) • そうすると何が嬉しいか? • dに直接依存しないトピックの確率分布を得られる • 新規文書も扱える この確率分布を生成する確率分布を考える 事前分布を導入 という言い方をする αはトピック数次元の ベクトル
23.
Latent Dirichlet Allocation •
PLSIのベイズ化 • さらに単語分布にスムージングを入れる • ※[Blei+, 2003]で書かれているLDAにはこの拡張が無いもの • Smoothed LDAという名前で同論文で導入 • 多くの参考文書でこちらがLDAとして扱われているので… この確率分布を生成する確率分布を考える βは語彙数次元の ベクトル トピック数分 トピックzにの時の 単語分布のパラメータ
24.
Latent Dirichlet Allocation •
PLSIのベイズ化 • ちなみにこのモデルでは • 文書dのことは完全に忘れる • d中の単語集合w=w1, w2…wNで文書を代表させる
25.
Latent Dirichlet Allocation •
LDAの文書生成 • トピック数Kは与える • 各トピックごとに単語分布を生成 • 各文書ごとにトピック分布を生成 • 単語のトピックを生成 • 上記単語のトピックに該当する単語分布を選び、単語を生成 • たったこれだけ!
26.
もくじ • はじめに • Latent
Semantic Indexing (LSI) • Probabilistic LSI (PLSI) • Latent Dirichlet Allocation (LDA) • おわりに
27.
おわりに • LDAの初出(Blei+; 2003) •
10年以上前 • これを原典として拡張が多く提案されている
28.
おわりに • 著者も一緒にモデリング • トピック間の独立仮定を外す •
トピック間の階層構造を導入 • トピック数Kの自動推定 • 教師あり • etc…
29.
おわりに • LDAはベイズモデルの中ではかなりシンプル • のため、拡張の余地が大きかった •
かつ性能が良い • のため、広く使われるようになった • (と想像 • ベイズワールド初学者にも最適 • しかも本もある。やるなら今!
30.
まとめ • LSI • 特異値分解を利用した次元縮約 •
PSLI • LSIの確率モデル化 • LDA • PLSIのベイズモデル化 • LDAは比較的シンプルだから勉強に良いという話 • 最近出た2冊の本の宣伝
31.
おことわり • 本資料は • 以下の書籍、 •
2013年の統計数理公開講座資料 • 2014年のIBISのチュートリアル • を元に作成されています。問題があればご報告ください。
Download now