SlideShare a Scribd company logo
1 of 25
Download to read offline
“Distributed Representation
of Sentences and
Documents”の解説
西尾泰和
14年6月6日金曜日
前回までのあらすじ
http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf
14年6月6日金曜日
文章は?
可変長↑
14年6月6日金曜日
Bag-of-Words(BoW)
14年6月6日金曜日
(追記)
• BoWはVocab次元
• 順序の情報がなくなる
• A is better than B と B is better than Aは同じ
• この種の区別ができなくなる高次脳機能障
害がある。
14年6月6日金曜日
文章のベクトル化
• BoWは単語の1-of-K表現の和
• じゃあ単語の分散表現の和でいい?
14年6月6日金曜日
BoW
WordVectorの
和(平均)
提案手法はもっと性能がよい!
文章からそれが肯定的か否定的か判断する実験
14年6月6日金曜日
提案手法
• PV-DM: Distributed Memory Model
• PV-DBOW: Distributed Bag of Words
の2つの組み合わせ
PV-DMだけでもかなり良いが
PV-DBOWを組み合わせると更に良い
14年6月6日金曜日
↑Vocab次元1-of-K
PV-DM
Para次元1-of-K→
予測問題を解かせることで分散表現を作る
このコンセプトはCBOWと同じ
14年6月6日金曜日
PV-DM
• 予測問題を解かせることで分散表現を作る
• このコンセプトはCBOWと同じ
• だけどsumやaverageではなくconcatenateな
ので、語順の情報が保たれている
• IntroでBoWは語順が失われると批判してる
• 図ではaverageも含めてるが、実験結果は
concatのものだけ
14年6月6日金曜日
PV-DM
✕
Averageのことは無視しよう
14年6月6日金曜日
(追記)
14年6月6日金曜日
PV-DM
• Paragraph IDから隠れ層への投影(行列D)
は予測性能を上げるために、文脈だけでは
表現できない情報を表現する役割を担う
• 学習データになかった新しいParagraphに関
しては、WordVectors等を固定して学習
14年6月6日金曜日
PV-DBOW
「その段落での各単語の出現頻度」を
Vocab次元の数十万から400次元へ落としたもの
14年6月6日金曜日
実験1
• 映画のレビュー文章を見て、ポジティブ
なのかネガティブなのか判定する
14年6月6日金曜日
Positive? Negative?
• It starts out like a very serious social commentary which
quickly makes one think of other Clark movies like Kids,
Bully, etc. But then just as quickly, it unravels into a
direction-less mess.Who is the main character? Is this a
serious film or some Gregg Araki-esquire over the top
goofy film? Is this a skate documentary with moments of
dialog inserted? I have no clue. I found myself watching
the clock and wonder when this turd was going to end. I
kept thinking there would be some big shocker
culmination which never came. I cut a good 20 minutes
out of the movie by fast forwarding through the pointless
skate scenes.Yes, it illustrates the changing landscape
14年6月6日金曜日
Positive? Negative?
• It starts out like a very serious social commentary which
quickly makes one think of other Clark movies like Kids,
Bully, etc. But then just as quickly, it unravels into a
direction-less mess. Who is the main character? Is
this a serious film or some Gregg Araki-esquire over the
top goofy film? Is this a skate documentary with
moments of dialog inserted? I have no clue. I found myself
watching the clock and wonder when this turd was going
to end. I kept thinking there would be some big shocker
culmination which never came. I cut a good 20 minutes
out of the movie by fast forwarding through the pointless
skate scenes.Yes, it illustrates the changing landscape
14年6月6日金曜日
順序の重要さ
• 「Who is the main character?」は人間が見
ればネガティブだとすぐわかる
• でも「main character」だけではネガティ
ブじゃないし、その他のis, the, who, ?もそ
れ単体ではネガティブな意味を持たない
• (あえて言えば ? は少しネガティブ)
14年6月6日金曜日
Protocol
入力は1文、学習データのパラグラフは8544個
「8544→800はあんまり次元削減してなくない?」
14年6月6日金曜日
BoW
提案手法は性能がよいし、構文解析も要らない!
構文解析を
必要とする
手法
14年6月6日金曜日
実験2
• 映画のレビュー文章を見て、ポジティブ
なのかネガティブなのか判定する
• 実験1は入力が1文、こちらは複数文
14年6月6日金曜日
Protocol
間にNNが挟まっているのは線形のLogRegより
非線形にしたほうが性能が良かったから
「800次元もあって線形分離で性能が出ないの?」
「NNの出力の次数は?」
14年6月6日金曜日
RBM
Naive Bayes
+ SVM
PV-DM only: 7.63
PV-DM sum: 8.06
↑PV-DM + PV-DBOW
window size 5~12の範囲で0.7%変化する
→cross validationで選ぶべき
14年6月6日金曜日
時間コスト
• 「can be expensiveだけどテストは並列化可能、
16コアで25000段落平均230単語が30分」
• でもテストの前の学習フェーズは単純に考えて
データ量が3倍、5~12のwindowサイズ探しで8倍
• テストフェーズではWordVector等を固定してる
からその部分の学習コストは含まれてない
→全部入りにすると結構掛かるんじゃないか?
14年6月6日金曜日
むしろBigram NaiveBayes系の優秀さが際立つ?
(追記)
NaiveBayes+SVM, bigram→
14年6月6日金曜日

More Related Content

Viewers also liked

Facebookに慣れた人のためのkintone移行Tips
Facebookに慣れた人のためのkintone移行TipsFacebookに慣れた人のためのkintone移行Tips
Facebookに慣れた人のためのkintone移行Tipsnishio
 
クリーンスペース体験記
クリーンスペース体験記クリーンスペース体験記
クリーンスペース体験記nishio
 
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?nishio
 
機械学習キャンバス0.1
機械学習キャンバス0.1機械学習キャンバス0.1
機械学習キャンバス0.1nishio
 
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?nishio
 
PDCAサイクルとU曲線の関係
PDCAサイクルとU曲線の関係PDCAサイクルとU曲線の関係
PDCAサイクルとU曲線の関係nishio
 
Deep learning for natural language embeddings
Deep learning for natural language embeddingsDeep learning for natural language embeddings
Deep learning for natural language embeddingsRoelof Pieters
 
意味表現の学習
意味表現の学習意味表現の学習
意味表現の学習nozyh
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習Naoaki Okazaki
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Yuya Unno
 
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)nishio
 
強化学習その4
強化学習その4強化学習その4
強化学習その4nishio
 
ESP8266EXで位置推定
ESP8266EXで位置推定ESP8266EXで位置推定
ESP8266EXで位置推定nishio
 
マイコンのIOピンはなぜ入出力の両方に使えるのか?
マイコンのIOピンはなぜ入出力の両方に使えるのか?マイコンのIOピンはなぜ入出力の両方に使えるのか?
マイコンのIOピンはなぜ入出力の両方に使えるのか?nishio
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習Hidekazu Tanaka
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?nishio
 
強化学習その2
強化学習その2強化学習その2
強化学習その2nishio
 
エンジニアのための学ぶ技術
エンジニアのための学ぶ技術エンジニアのための学ぶ技術
エンジニアのための学ぶ技術nishio
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作るnishio
 

Viewers also liked (20)

Facebookに慣れた人のためのkintone移行Tips
Facebookに慣れた人のためのkintone移行TipsFacebookに慣れた人のためのkintone移行Tips
Facebookに慣れた人のためのkintone移行Tips
 
クリーンスペース体験記
クリーンスペース体験記クリーンスペース体験記
クリーンスペース体験記
 
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
 
機械学習キャンバス0.1
機械学習キャンバス0.1機械学習キャンバス0.1
機械学習キャンバス0.1
 
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?
 
PDCAサイクルとU曲線の関係
PDCAサイクルとU曲線の関係PDCAサイクルとU曲線の関係
PDCAサイクルとU曲線の関係
 
Deep learning for natural language embeddings
Deep learning for natural language embeddingsDeep learning for natural language embeddings
Deep learning for natural language embeddings
 
意味表現の学習
意味表現の学習意味表現の学習
意味表現の学習
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
 
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
 
強化学習その4
強化学習その4強化学習その4
強化学習その4
 
ESP8266EXで位置推定
ESP8266EXで位置推定ESP8266EXで位置推定
ESP8266EXで位置推定
 
マイコンのIOピンはなぜ入出力の両方に使えるのか?
マイコンのIOピンはなぜ入出力の両方に使えるのか?マイコンのIOピンはなぜ入出力の両方に使えるのか?
マイコンのIOピンはなぜ入出力の両方に使えるのか?
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
エンジニアのための学ぶ技術
エンジニアのための学ぶ技術エンジニアのための学ぶ技術
エンジニアのための学ぶ技術
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作る
 

More from nishio

量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミングnishio
 
夏プロ報告
夏プロ報告夏プロ報告
夏プロ報告nishio
 
ITと経営
ITと経営ITと経営
ITと経営nishio
 
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAInishio
 
交渉力について
交渉力について交渉力について
交渉力についてnishio
 
If文から機械学習への道
If文から機械学習への道If文から機械学習への道
If文から機械学習への道nishio
 
組織横断型研究室構想
組織横断型研究室構想組織横断型研究室構想
組織横断型研究室構想nishio
 
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義nishio
 
強化学習その5
強化学習その5強化学習その5
強化学習その5nishio
 
良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法nishio
 
強化学習その1
強化学習その1強化学習その1
強化学習その1nishio
 
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分nishio
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズムnishio
 
Wifiで位置推定
Wifiで位置推定Wifiで位置推定
Wifiで位置推定nishio
 
未踏社団でのkintoneの活用
未踏社団でのkintoneの活用未踏社団でのkintoneの活用
未踏社団でのkintoneの活用nishio
 
創造的人材のための知財LT
創造的人材のための知財LT創造的人材のための知財LT
創造的人材のための知財LTnishio
 
コミュニティによる生産性向上のすすめ
コミュニティによる生産性向上のすすめコミュニティによる生産性向上のすすめ
コミュニティによる生産性向上のすすめnishio
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用nishio
 

More from nishio (18)

量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
 
夏プロ報告
夏プロ報告夏プロ報告
夏プロ報告
 
ITと経営
ITと経営ITと経営
ITと経営
 
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
 
交渉力について
交渉力について交渉力について
交渉力について
 
If文から機械学習への道
If文から機械学習への道If文から機械学習への道
If文から機械学習への道
 
組織横断型研究室構想
組織横断型研究室構想組織横断型研究室構想
組織横断型研究室構想
 
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
 
強化学習その5
強化学習その5強化学習その5
強化学習その5
 
良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
 
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
Wifiで位置推定
Wifiで位置推定Wifiで位置推定
Wifiで位置推定
 
未踏社団でのkintoneの活用
未踏社団でのkintoneの活用未踏社団でのkintoneの活用
未踏社団でのkintoneの活用
 
創造的人材のための知財LT
創造的人材のための知財LT創造的人材のための知財LT
創造的人材のための知財LT
 
コミュニティによる生産性向上のすすめ
コミュニティによる生産性向上のすすめコミュニティによる生産性向上のすすめ
コミュニティによる生産性向上のすすめ
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
 

Recently uploaded

ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ssusere0a682
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024koheioishi1
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ssusere0a682
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2Tokyo Institute of Technology
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationYukiTerazawa
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料Takayuki Itoh
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptyuitoakatsukijp
 

Recently uploaded (7)

ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
 
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
 
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習106 -価格の交渉ゲーム-#ゲーム理論 #gametheory #数学
 
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
東京工業大学 環境・社会理工学院 建築学系 大学院入学入試・進学説明会2024_v2
 
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentationTokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
 
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
生成AIの回答内容の修正を課題としたレポートについて:お茶の水女子大学「授業・研究における生成系AIの活用事例」での講演資料
 
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScriptUniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
 

"Distributed representation of sentences and documents"の解説