SlideShare a Scribd company logo
1 of 12
Download to read offline
LDAを使った教師なし単語分類
概要
LDAについて
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
LDAの構造
- 文章中の各単語がそれぞれ背景
にトピックを持つ
- 各文章は様々なトピックが混合
されている 20% 20%60%文章:
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
3.以下の確率で選んだ単語wのトピ
ックを変更する
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
単語分類の手順
( ­ は「選んだ単語を除く」という意味)
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
3.以下の確率で選んだ単語wのトピ
ックを変更する
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
( ­ は「選んだ単語を除く」という意味)
1.各単語の背景トピックの初期値
を割り振る
トピック1 トピック2 トピック3
2.文章を任意に選び、更にその中
の単語を任意に選ぶ
3.以下の確率で選んだ単語wのトピ
ックを変更する
4. 2と3の繰り返し(収束するまで)
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
全文書中で背景トピックtを持つ単語の総数
全文書中で背景トピックtを持つ単語wの総数
選んだ文章mの中で背景トピックtを持つ単語の総数
( ­ は「選んだ単語を除く」という意味)
5.各背景トピックを持つ単語を
 数え上げる
トピック1 トピック2 トピック3
発祥の地であるロンドンで開かれた
パラリンピックが、幕を閉じた。大
会は変質を遂げ、世界記録が連日更
新されて競技性の高さに注目が集ま
った。各国の報道も力が入り、4年
後のリオデジャネイロ大会に期待す
る声が早くも上がった。
単語分類の手順
大リーグは9日、各地であり、ブル
ワーズの青木はカージナルス戦に1
番右翼で出場し、9回に同点の2点
本塁打を放つなど5打数2安打だっ
た。
トピック1
同点:1
競技性:1
トピック2
大リーグ:1
青木:1
カージナルス:1
本塁打:1
報道:1
トピック3
発祥:1
ロンドン:1
パラリンピック:1
世界記録:1
リオデジャネイロ:1
ニュース記事に適用してみる
セットアップ
単語の抽出: 30万語登録したキーワード辞書による
データ: スポーツの記事 2000 件
トピック数: 15
, : 全て 0.01
結果:
男子:85
大会:64
選手:63
メートル:61
女子:59
メダル:56
日本:54
金メダル:49
車いす:45
ロンドンパラリンピック:45
ゴルフ:129
ツアー:110
ヤード:94
オープン:91
女子:86
国内:85
大会:85
スタート:85
ホール:70
男子:63
試合:333
安打:205
監督:205
阪神:202
選手:178
広島:164
投手:156
連続:136
巨人:131
野球:122
選手:220
試合:212
Goa:152
監督:133
クラブ:122
大会:100
スペイン:97
世界:93
ワールドカップ:81
時間:76
オートスポーツ:54
レース:52
F1:40
イタリア:33
マシン:32
ドライバー:26
時間:15
タイム:15
ステージ:15
試合:246
日本:187
アジア最終予選:174
監督:168
日本代表:162
選手:160
イラク:136
サッカー:118
ブラジル:114
自分:113
大相撲:63
秋場所:62
大関:51
場所:48
両国国技館:44
東京:37
横綱:35
琴奨菊:35
日馬富士:35
初日:34
王者:54
東京:46
大会:33
カード:28
イベント:26
トーナメント:25
試合:24
王座:20
ジム:19
世界:17
女子:29
スポニチ:26
東京:25
大会:23
関係者:23
五輪:22
来年:20
ロンドン五輪:20
指導:16
東京都:15
15回以上登場した単語のみ表示
残り6トピック中には,
15回以上登場した単語が0
だったので表示していない
数字は各トピックに属する単語
の数
スポーツの各トピックごとに単語が分類できた
1つ1つが
トピックに対応

More Related Content

What's hot

最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリングmlm_kansai
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)Tatsuya Yokota
 
学振特別研究員になるために~2020年度申請版
学振特別研究員になるために~2020年度申請版学振特別研究員になるために~2020年度申請版
学振特別研究員になるために~2020年度申請版Masahito Ohue
 
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~Takuya Ono
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正弘毅 露崎
 
車両運行管理システムのためのデータ整備と機械学習の活用
車両運行管理システムのためのデータ整備と機械学習の活用車両運行管理システムのためのデータ整備と機械学習の活用
車両運行管理システムのためのデータ整備と機械学習の活用Eiji Sekiya
 
トピックモデルの話
トピックモデルの話トピックモデルの話
トピックモデルの話kogecoo
 
DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactDID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactYusuke Kaneko
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)Taiji Suzuki
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...harmonylab
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理Taiji Suzuki
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocationトピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet AllocationHaruka Ozaki
 
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法Shunji Umetani
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 

What's hot (20)

最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 
学振特別研究員になるために~2020年度申請版
学振特別研究員になるために~2020年度申請版学振特別研究員になるために~2020年度申請版
学振特別研究員になるために~2020年度申請版
 
NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~NLPにおけるAttention~Seq2Seq から BERTまで~
NLPにおけるAttention~Seq2Seq から BERTまで~
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
 
車両運行管理システムのためのデータ整備と機械学習の活用
車両運行管理システムのためのデータ整備と機械学習の活用車両運行管理システムのためのデータ整備と機械学習の活用
車両運行管理システムのためのデータ整備と機械学習の活用
 
トピックモデルの話
トピックモデルの話トピックモデルの話
トピックモデルの話
 
DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactDID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpact
 
主成分分析
主成分分析主成分分析
主成分分析
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 
Tesseract ocr
Tesseract ocrTesseract ocr
Tesseract ocr
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocationトピックモデル勉強会: 第2章 Latent Dirichlet Allocation
トピックモデル勉強会: 第2章 Latent Dirichlet Allocation
 
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディング
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 

Viewers also liked

Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析Nobuyuki Kawagashira
 
Machine Learning Bootstrap
Machine Learning BootstrapMachine Learning Bootstrap
Machine Learning BootstrapTakahiro Kubo
 
スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習hagino 3000
 
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDAMasayuki Isobe
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデルMathieu Bertin
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践智之 村上
 

Viewers also liked (7)

LDA入門
LDA入門LDA入門
LDA入門
 
Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析
 
Machine Learning Bootstrap
Machine Learning BootstrapMachine Learning Bootstrap
Machine Learning Bootstrap
 
スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習スパース性に基づく機械学習 2章 データからの学習
スパース性に基づく機械学習 2章 データからの学習
 
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデル
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 

Recently uploaded

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 

Recently uploaded (9)

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 

LDAを用いた教師なし単語分類