SlideShare a Scribd company logo
1 of 60
Download to read offline
単語・句の分散表現の学習
東北大学大学院情報科学研究科
岡崎 直観(okazaki@ecei.tohoku.ac.jp)
http://www.chokkan.org/
@chokkanorg
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 1
辞書で単語の意味を記述
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 2
辞書にも限界がある: 固有名詞
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 3
会社の「Apple」の意味は収録されない
辞書にも限界がある: 新語・新語義
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 4
辞書にも限界がある: 句の意味
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 5
“apple tea”, ”apple production”, “apple shape”
(腹部肥満) などは辞書に収録されていない
分散表現 (Hinton+ 1986)
• 局所表現(local representation)
• 各概念に1つの計算要素 (記号, ニューロン, 次元) を割り当て
• 分散表現(distributed representation)
• 各概念は複数の計算要素で表現される
• 各計算要素は複数の概念の表現に関与する
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 6
バス 萌えバス
… …
#2948
… …
#19023840334
バス 萌えバス萌えトラック
ニューロンの
興奮パターン
≒ベクトル表現
http://ja.wikipedia.org/wiki/富士急山梨バス http://saori223.web.fc2.com/
分散表現の効果: NNへの埋め込み
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 7
http://devblogs.nvidia.com/parallelforall/introduction-neural-machine-translation-gpus-part-2/
翻訳元言語の各
単語をベクトル
に変換する部分
(ニューラルネットワークに基づく機械翻訳の例)
概要
•イントロダクション(5分)
•単語の分散表現の学習(20分)
• 単語の意味をよく反映する分散表現の学習法
•句の分散表現の学習(10分)
• 単語の分散表現から句や文の分散表現へ
•我々の取り組み(5分)
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 8
単語の分散表現の学習
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 9
分布仮説 (Harris 1954; Firth 1957)
You shall know a word by the company it keeps
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 10
… packed with people drinking beer or wine. Many restaurants …
into alcoholic drinks such as beer or hard liquor and derive …
… in miles per hour, pints of beer, and inches for clothes. M…
…ns and for pints for draught beer, cider, and milk sales. The
carbonated beverages such as beer and soft drinks in non-ref…
…g of a few young people to a beer blast or fancy formal part…
…c and alcoholic drinks, like beer and mead, contributed to a…
People are depicted drinking beer, listening to music, flirt…
… and for the pint of draught beer sold in pubs (see Metricat…
beer
beer
beer
beer
beer
beer
beer
beer
beer
… ith people drinking beer or wine. Many restaurants can be f…
…gan to drink regularly, host wine parties and consume prepar…
principal grapes for the red wines are the grenache, mourved…
… four or more glasses of red wine per week had a 50 percent …
…e would drink two bottles of wine in an evening. According t…
…. Teran is the principal red wine grape in these regions. In…
…a beneficial compound in red wine that other types of alcohol
… Colorino and even the white wine grapes like Trebbiano and …
In Shakesperean theatre, red wine was used in a glass contai…
wine
wine
wines
wine
wine
wine
wine
wine
wine
単語文脈行列
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 11
beer
wine
car
ride
have
new
drink
bottle
train
book
speed
read
36
108
578
291
841
14
14
284
94
201
72
92
3
3
0
57
86
2
0
0
3
0
37
72
2
0
1
44
43
1
1
2
3
2
338
単
語
文
脈
コ
ー
パ
ス
中
の
単
語
(例)単語の前後ℎ語に出現する単語
𝑛𝑛列
𝑚𝑚
行
𝑚𝑚𝑖𝑖,𝑗𝑗 = #(𝑖𝑖, 𝑗𝑗): 単語𝑖𝑖と文脈𝑗𝑗の共起頻度
(例: trainとdrinkは3回共起) “beer”の意味を表すベクトル
(𝑀𝑀𝑖𝑖で表す)
単語の類似度
• 単語の意味ベクトル𝑀𝑀𝑖𝑖, 𝑀𝑀𝑗𝑗のコサイン類似度
cos 𝜃𝜃 =
𝑀𝑀𝑖𝑖�𝑀𝑀𝑗𝑗
𝑀𝑀𝑖𝑖 𝑀𝑀𝑗𝑗
(𝜃𝜃: 𝑀𝑀𝑖𝑖と𝑀𝑀𝑗𝑗のなす角)
• beerとwine
•
𝑀𝑀beer�𝑀𝑀wine
𝑀𝑀beer 𝑀𝑀wine
= 0.941
• beerとtrain
•
𝑀𝑀beer�𝑀𝑀train
𝑀𝑀beer 𝑀𝑀train
= 0.387
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 12
beer
wine
car
ride
have
new
drink
bottle
train
book
speed
read
36
108
578
291
841
14
14
284
94
201
72
92
3
3
0
57
86
2
0
0
3
0
37
72
2
0
1
44
43
1
1
2
3
2
338
単
語
文
脈
正の相互情報量 (PPMI) (Bullinaria+ 2007)
𝑚𝑚𝑖𝑖,𝑗𝑗 = max 0, log
𝑃𝑃(𝑖𝑖, 𝑗𝑗)
𝑃𝑃 𝑖𝑖 𝑃𝑃(𝑗𝑗)
= max 0, log #(𝑖𝑖, 𝑗𝑗) + log #(∗,∗) − log #(∗, 𝑗𝑗) − log #(𝑖𝑖,∗)
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 13
beer
wine
car
ride
have
new
drink
bottle
train
book
speed
read
0
0
0.09
0.03
0.09
0
0
0.49
0.02
0
2.04
1.78
0
0
0
1.97
1.87
0
0
0
0
0
0.13
1.43
0
0
0
0.55
1.16
0
0
0
0
0
0.85
単
語
文
脈
頻出する単語・文脈の影響を軽減
𝑃𝑃 𝑖𝑖, 𝑗𝑗 = #(𝑖𝑖, 𝑗𝑗)/#(∗,∗), 𝑃𝑃 𝑖𝑖 = #(𝑖𝑖,∗)/#(∗,∗), 𝑃𝑃(𝑗𝑗) = #(∗, 𝑗𝑗)/#(∗,∗)
#(𝑖𝑖,∗) = ∑𝑗𝑗 #𝑖𝑖,𝑗𝑗 ,#(∗, 𝑗𝑗) = ∑𝑖𝑖 #𝑖𝑖,𝑗𝑗 ,#(∗,∗) = ∑𝑖𝑖,𝑗𝑗 #𝑖𝑖,𝑗𝑗
cos(beer,wine)
= 0.99
cos(beer,train)
= 0.00
潜在意味解析 (LSA) (Deerwester, 1990)
• 単語文脈行列𝑀𝑀を特異値分解 (SVD)
𝑀𝑀 = 𝑈𝑈 Σ 𝑉𝑉T
• 𝑑𝑑(< 𝑟𝑟)個の特異値でΣを近似(𝑟𝑟: 𝑀𝑀のランク)
𝑀𝑀𝑑𝑑 = 𝑈𝑈 Σ𝑑𝑑 𝑉𝑉T (低ランク近似)
(ランク𝑑𝑑の行列の中で 𝑀𝑀 − 𝑀𝑀𝑑𝑑 が最小のもの)
• 𝑈𝑈Σ𝑑𝑑を𝑑𝑑次元単語ベクトルとして用いる
𝑀𝑀𝑑𝑑 𝑀𝑀𝑑𝑑
𝑇𝑇
= 𝑈𝑈Σ𝑑𝑑 𝑉𝑉T 𝑈𝑈Σ𝑑𝑑 𝑉𝑉T T
= 𝑈𝑈Σ𝑑𝑑 𝑈𝑈Σ𝑑𝑑
T
𝑀𝑀𝑑𝑑の類似度(内積)は𝑈𝑈Σ𝑑𝑑の内積に等しい
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 14
(𝑚𝑚 × 𝑛𝑛) (𝑚𝑚 × 𝑚𝑚)(𝑚𝑚 × 𝑛𝑛)(𝑛𝑛 × 𝑛𝑛)
𝑈𝑈: ユニタリ行列
Σ: 特異値を対角成分とする対角行列
𝑉𝑉T
: ユニタリ行列
SVDによる次元圧縮の実行例
(単語文脈行列𝑀𝑀を特異値分解し, 𝑑𝑑 = 3で低ランク近似)
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 15
3個の特異値
で打ち切る
計算に関与するのは
3列目まで
計算に関与する
のは3行目まで
(元の行列を特異値分解) (元の行列の3ランク近似)
beer
wine
car
train
book
• 実際には行列𝑀𝑀の上位𝑑𝑑個の特異値を効率よく求める手法を用いる(Truncated SVD)
• redsvd: https://code.google.com/p/redsvd/
cos(beer,wine)
= 0.96
cos(beer,train)
= 0.37
Skip-gram with Negative Sampling (SGNS)
(Mikolov+ 2013)
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 16
draughtofferpubs beer, cider, and wine
last
use
place
people
make
city
full
know
build
time
group
have
new
game
rather
age
show
take
take
team
season
say
個
の
単
語
を
ユ
ニ
グ
ラ
ム
分
布
か
ら
サ
ン
プ
リ
ン
グ
し
,
こ
れ
ら
が
予
測
さ
れ
な
い
よ
う
に
更
新
(
負
例
)
個
の
文
脈
語
を
予
測
す
る
よ
う
に
更
新
同じ単語がサン
プルされること
もあり得る
単語ベクトル𝒗𝒗𝑤𝑤 (𝑑𝑑次元)
文脈ベクトル�𝒗𝒗𝑐𝑐 (𝑑𝑑次元)
: 内積 → +∞ へ
: 内積 → −∞ へ
ベクトルの更新方針
コーパス
(文脈幅ℎ = 2, 負例サンプル数𝑘𝑘 = 1の場合の例)
ベクトルの更新方法(確率的勾配降下法)
• 初期化:
• 𝑡𝑡 ← 0
• 単語ベクトル( ): [0,1]の乱数で初期化
• 文脈ベクトル( ): 0で初期化
• 学習データの先頭から末尾の単語まで…
• 𝑡𝑡 ← 𝑡𝑡 + 1
• 学習率𝛼𝛼 = 𝛼𝛼0 1 −
𝑡𝑡
𝑇𝑇+1
を計算
• その単語 と または で結ばれる に関して
•
•
•
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 17
𝑔𝑔 =
1 − 𝜎𝜎 ⋅ 内積 → +∞にしたい とき
𝜎𝜎 ⋅ 内積 → −∞にしたい とき
← + 𝛼𝛼𝑔𝑔
← + 𝛼𝛼𝑔𝑔
𝛼𝛼0: 初期学習率(例えば0.025)
𝑇𝑇: 単語の総出現回数
(Mikolov+ 2013)
SGNSの目的関数
• 目的関数(対数尤度最大化)
• 𝑃𝑃(𝑐𝑐|𝑤𝑤)はlog-bilinearモデル
• 𝑃𝑃(𝑐𝑐|𝑤𝑤)をロジスティック回帰でモデル化
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 18
𝐽𝐽 = − �
𝑤𝑤∈𝐷𝐷
�
𝑐𝑐∈𝐶𝐶𝑤𝑤
log 𝑃𝑃(𝑐𝑐|𝑤𝑤)
𝑃𝑃 𝑐𝑐 𝑤𝑤 =
exp 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐
∑𝑐𝑐′ exp(𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐′)
log 𝑃𝑃 𝑐𝑐 𝑤𝑤 ≈ log 𝜎𝜎 𝒗𝒗𝑤𝑤 ⋅ �𝒗𝒗𝑐𝑐 + 𝑘𝑘 � Ε
𝑟𝑟∼𝑃𝑃𝑛𝑛
log 𝜎𝜎 −𝒗𝒗𝑤𝑤 ⋅ �𝒗𝒗𝑟𝑟
ユニグラム分布𝑃𝑃𝑛𝑛から単語𝑟𝑟を𝑘𝑘回サンプリング
𝐷𝐷: コーパス(単語列)
𝐶𝐶𝑤𝑤: 単語𝑤𝑤の前後±ℎの範囲に出現する語
コーパス中の全文脈𝑐𝑐′
に関する
内積のexp和で正規化したいが,
計算が重たすぎる
単語𝑤𝑤から周辺の語𝑐𝑐 ∈ 𝐶𝐶𝑤𝑤を予測する確率
(Mikolov+ 2013)
アナロジータスクでの評価
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 19
Mikolov+ (2013)
Semanticの例: Athens Greece Tokyo Japan
Syntacticの例: cool cooler deep deeper
(Mikolov+ 2013)
SGNSで学習した分散表現は加法構成性を持つ?
• 有名な例: king − man + woman ≈ queen
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 20
(Mikolov+ 2013)
国名と首都名が同じ向きに並ぶ
(Mikolov+ 2013)
SGNSはShifted PMIと等価 (Levy+ 2014)
• SGNSは以下の共起行列をモデル化
𝑚𝑚𝑤𝑤,𝑐𝑐 = PMI 𝑤𝑤, 𝑐𝑐 − log 𝑘𝑘 ≈ 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐
• 単語と文脈の共起をPMIで計測して,単語埋め
込み(低次元ベクトル)を構成するのに近い
• 加法構成性はSGNS以前でも,PMIを用いた
従来手法で実現できていた!
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 21
PMIを負の方向へシフトする項
Shifted PMIの導出
コーパス中の共起回数#(𝑤𝑤, 𝑐𝑐)や出現頻度#(𝑤𝑤)を用いてSGNSの目的関数を変形すると,
𝐽𝐽 = − �
𝑤𝑤∈𝐷𝐷
�
𝑐𝑐∈𝐶𝐶𝑤𝑤
log 𝜎𝜎 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐 − 𝑘𝑘 � Ε
𝑟𝑟∼𝑃𝑃𝑛𝑛
log 𝜎𝜎 −𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑟𝑟 =
= − �
𝑤𝑤∈𝑉𝑉𝑤𝑤
�
𝑐𝑐∈𝑉𝑉𝑐𝑐
#(𝑤𝑤, 𝑐𝑐) log 𝜎𝜎 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐 − �
𝑤𝑤∈𝑉𝑉𝑤𝑤
#(𝑤𝑤) ⋅ 𝑘𝑘 � Ε
𝑟𝑟∼𝑃𝑃𝑛𝑛
log 𝜎𝜎 −𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑟𝑟
期待値の部分を明示的に計算すると,
Ε
𝑟𝑟∼𝑃𝑃𝑛𝑛
log 𝜎𝜎 −𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑟𝑟 = �
𝑟𝑟∈𝑉𝑉𝑐𝑐
#(𝑟𝑟)
|𝐷𝐷|
log 𝜎𝜎 −𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑟𝑟 =
#(𝑐𝑐)
|𝐷𝐷|
log 𝜎𝜎 −𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐 + �
𝑟𝑟∈𝑉𝑉𝑐𝑐∖{𝑐𝑐}
#(𝑟𝑟)
|𝐷𝐷|
log 𝜎𝜎 −𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑟𝑟
目的関数のうち,𝑤𝑤と𝑐𝑐に関する部分だけを取り出すと,
𝑙𝑙 𝑤𝑤, 𝑐𝑐 = −#(𝑤𝑤, 𝑐𝑐) log 𝜎𝜎 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐 − # 𝑤𝑤 ⋅ 𝑘𝑘 ⋅
#(𝑐𝑐)
|𝐷𝐷|
log 𝜎𝜎 −𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐
𝑥𝑥 = 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐として,𝑙𝑙 𝑤𝑤, 𝑐𝑐 を𝑥𝑥で偏微分して0とおくと,
𝜕𝜕𝑙𝑙( 𝑤𝑤, 𝑐𝑐)
𝜕𝜕𝑥𝑥
= −#(𝑤𝑤, 𝑐𝑐)𝜎𝜎 −𝑥𝑥 + 𝑘𝑘# 𝑤𝑤
#(𝑐𝑐)
𝐷𝐷
𝜎𝜎 𝑥𝑥 = # 𝑤𝑤, 𝑐𝑐 𝜎𝜎 𝑥𝑥 − 1 + 𝑘𝑘# 𝑤𝑤
#(𝑐𝑐)
𝐷𝐷
𝜎𝜎 𝑥𝑥 = 0
等式を整理すると,
1 +
𝑘𝑘#(𝑤𝑤)#(𝑐𝑐)
𝐷𝐷 #(𝑤𝑤, 𝑐𝑐)
𝜎𝜎 𝑥𝑥 = 1 ⇔ exp −𝑥𝑥 =
𝑘𝑘#(𝑤𝑤)#(𝑐𝑐)
𝐷𝐷 #(𝑤𝑤, 𝑐𝑐)
したがって,
𝑥𝑥 = 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐 = log
𝐷𝐷 #(𝑤𝑤, 𝑐𝑐)
𝑘𝑘#(𝑤𝑤)#(𝑐𝑐)
= log
𝐷𝐷 #(𝑤𝑤, 𝑐𝑐)
#(𝑤𝑤)#(𝑐𝑐)
− log 𝑘𝑘 = PMI 𝑤𝑤, 𝑐𝑐 − log 𝑘𝑘
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 22
(Levy+ 2014)
GloVe (Pennington+ 2014)
(最小二乗法による単語ベクトルの学習)
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 23
𝐽𝐽 = �
𝑖𝑖,𝑗𝑗=1
𝑉𝑉
𝑓𝑓(𝑚𝑚𝑖𝑖,𝑗𝑗) (𝒗𝒗𝑖𝑖
𝑇𝑇
�𝒗𝒗𝑗𝑗 + 𝑏𝑏𝑖𝑖 + �𝑏𝑏𝑗𝑗 − log 𝑚𝑚𝑖𝑖,𝑗𝑗)2
目的関数:
𝑓𝑓 𝑥𝑥 =
(𝑥𝑥/𝑥𝑥max)𝛼𝛼 (if 𝑥𝑥 < 𝑥𝑥max)
1 (otherwise)
単語𝑖𝑖と単語𝑗𝑗の共起頻度単語の総数
単語𝑖𝑖のベクトル
文脈𝑗𝑗のベクトル‘
単語𝑖𝑖のバイアス項
単語𝑗𝑗のバイアス項’
1系統
2系統
※各単語に対してパラメタが2系統あるのは
SGNSと同様.本研究は単語𝑖𝑖のベクトルを
最終的に(𝒗𝒗𝑖𝑖 + �𝒗𝒗𝑖𝑖)とする(精度が向上する)
𝑥𝑥 𝑚𝑚𝑚𝑚𝑚𝑚 = 100, α = 0.75 の場合 →
AdaGrad
(SGD)で学習
正準相関分析による学習 (Stratos+ 2015)
• 確率変数(ベクトル)𝑋𝑋, 𝑌𝑌を次のように定義
• 𝑋𝑋 ∈ ℝ𝑛𝑛: 単語の出現を表すone-hotベクトル
• 𝑌𝑌 ∈ ℝ𝑛𝑛′
: 文脈の出現を表すone-hotベクトル
• 𝑋𝑋, 𝑌𝑌 のサンプルの作成例(文脈幅ℎ = 2の場合)
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 24
Teran is the principal red wine grape in the Slovenian Littoral wine region.
wineの文脈語
𝑥𝑥(𝑖𝑖)
, 𝑦𝑦(𝑖𝑖)
𝑖𝑖=1
4
=
0
⋮
1
⋮
⋮
⋮
⋮
⋮
⋮
0
,
0
⋮
⋮
⋮
⋮
⋮
1
⋮
⋮
0
,
0
⋮
1
⋮
⋮
⋮
⋮
⋮
⋮
0
,
0
⋮
⋮
1
⋮
⋮
⋮
⋮
⋮
0
,
0
⋮
1
⋮
⋮
⋮
⋮
⋮
⋮
0
,
0
⋮
⋮
⋮
⋮
⋮
⋮
⋮
1
0
,
0
⋮
1
⋮
⋮
⋮
⋮
⋮
⋮
0
,
0
⋮
⋮
⋮
1
⋮
⋮
⋮
⋮
0
Wineの次元
redの次元
inの次元
principalの次元
grapeの次元
単語=wineのとき(wine以外
の単語にも繰り返し適用する)
正準相関分析 Canonical Correlation Analysis (CCA)
• 入力: 確率変数(ベクトル)𝑋𝑋 ∈ ℝ𝑛𝑛
, 𝑌𝑌 ∈ ℝ𝑛𝑛′
• 出力: 射影ベクトル 𝑎𝑎1, … , 𝑎𝑎 𝑚𝑚 ∈ ℝ𝑛𝑛
, 𝑏𝑏1, … , 𝑏𝑏𝑚𝑚 ∈ ℝ𝑛𝑛′
• ただし,𝑚𝑚 ≤ min(𝑛𝑛, 𝑛𝑛′
) とする
• 𝑖𝑖 = 1, … , 𝑚𝑚に関して𝑎𝑎𝑖𝑖, 𝑏𝑏𝑖𝑖は以下の条件を満たす
𝑎𝑎𝑖𝑖, 𝑏𝑏𝑖𝑖 = argmax
𝑎𝑎∈ℝ𝑛𝑛,𝑏𝑏∈ℝ𝑛𝑛′
Cor(𝑎𝑎T 𝑋𝑋, 𝑏𝑏T 𝑌𝑌)
Cor 𝑎𝑎𝑖𝑖
T
𝑋𝑋, 𝑎𝑎𝑗𝑗
T
𝑋𝑋 = 0 (∀𝑗𝑗 < 𝑖𝑖)
Cor 𝑏𝑏𝑖𝑖
T
𝑌𝑌, 𝑏𝑏𝑗𝑗
T
𝑌𝑌 = 0 (∀𝑗𝑗 < 𝑖𝑖)
• Corはピアソン相関係数
Cor 𝐿𝐿, 𝑅𝑅 ≡
𝔼𝔼 𝐿𝐿𝐿𝐿 −𝔼𝔼 𝐿𝐿 𝔼𝔼 𝑅𝑅
𝔼𝔼 𝐿𝐿2 −𝔼𝔼 𝐿𝐿 2 𝔼𝔼 𝑅𝑅2 −𝔼𝔼 𝑅𝑅 2
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 25
𝑎𝑎𝑖𝑖と𝑏𝑏𝑖𝑖で射影後の確率変数の相関を最大化
以前の射影とは無相関な射影を求める
−1 (逆相関) … 0 (無相関) … 1 (正相関)
相関係数の値は[−1,1]
(Stratos+ 2015)
正準相関分析による次元圧縮
• 𝑚𝑚個の射影ベクトルで𝑋𝑋と𝑌𝑌を求める
𝑋𝑋 = 𝑎𝑎1, … , 𝑎𝑎 𝑚𝑚
T 𝑋𝑋
𝑌𝑌 = 𝑏𝑏1, … , 𝑏𝑏𝑚𝑚
T 𝑌𝑌
• 𝑋𝑋と𝑌𝑌を相関係数が最大になるように,それぞれ
を共通の空間(𝑚𝑚次元ベクトル)に写像する
• 𝑚𝑚 ≪ min(𝑛𝑛, 𝑛𝑛′)と設定すれば次元を大幅に削減
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 26
(Stratos+ 2015)
正準相関分析による次元圧縮のイメージ
(Cohen+ 2013)
• ナイーブベイズによる生成モデル
𝑃𝑃 𝑋𝑋 = 𝑥𝑥, 𝑌𝑌 = 𝑦𝑦 = �
ℎ=1
𝑚𝑚
𝑃𝑃 ℎ 𝑃𝑃 𝑥𝑥 ℎ 𝑃𝑃(𝑦𝑦|ℎ)
𝑀𝑀𝑖𝑖𝑖𝑖 ≈ �
ℎ=1
𝑚𝑚
𝜎𝜎ℎ 𝑈𝑈𝑖𝑖 𝑖 𝑉𝑉𝑗𝑗𝑗
T
• 隠れ変数ℎの次元を𝑚𝑚とする
• 𝑋𝑋と𝑌𝑌をCCAで𝑚𝑚次元に射影する(𝑋𝑋と𝑌𝑌を得る)
• 定理 (Foster+ 09): 隠れ変数ℎの推定に関して,
射影された𝑋𝑋と𝑌𝑌は,元々のサンプル𝑋𝑋と𝑌𝑌と同
じ能力を持つ
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 27
(Stratos+ 2015)
ℎ
𝑥𝑥 𝑦𝑦
(特異値分解に
似ている!)
結局は特異値分解になる
• CCAは以下の行列�Ω 𝑤𝑤,𝑐𝑐の特異値分解に帰着される
�Ω𝑤𝑤,𝑐𝑐 =
#(𝑤𝑤, 𝑐𝑐)1/2
#(𝑤𝑤,∗)1/2#(∗, 𝑐𝑐)1/2
• 正準相関分析とBrownのモデルから行列�Ω 𝑤𝑤,𝑐𝑐を導出
• 経験則だった1/2乗を分散安定化の観点から説明
• 頻度カウントの変換法と単語文脈行列の計算法の
組み合わせで既存手法をテンプレート化
• SGNSやGloVeと比較して同程度の性能を報告
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 28
(Stratos+ 2015)
分散表現学習のトリック (Levy+ 15)
説明 実験に用いた値 PPMI SVD SGNS GloVe
win 文脈長(ℎ) ℎ ∈ {2, 5, 10}    
dyn 重み付き文脈 with(𝑙𝑙/ℎ), none     *1
sub サブサンプリング with, none    
del 低頻度語の削除 with, none    
neg 負例サンプル数 𝑘𝑘 ∈ {1, 5, 15}  *2  *2 
cds 文脈分布の補正 α ∈ {1, 0.75}  *3  *3 
w+c ベクトルの和 𝒗𝒗 𝑤𝑤, (𝒗𝒗𝑤𝑤 + �𝒗𝒗 𝑤𝑤)   
eig 特異値の重み付け 𝑝𝑝 ∈ {0, 0.5, 1.0} 
nrm 正規化 *4
both, col, row, none    
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 29
*1: word2vec方式の重み付けを採用
*2: Shifted PPMIとして設定
*3: PMIの分母を改変することで対応
*4: 単語ベクトル毎に正規化するのが最も良かった
前処理のパラメータ 関連度計算のパラメータ 後処理のパラメータ
分散表現学習の「通説」を検証
• Count-basedよりPrediction-basedの方がよい?
• 違う(オールラウンドな勝者はない)
• GloVeはSGNSよりもよい?
• 違う(実験結果から)
• おそらくw+c,評価データ,学習コーパスに依存していた
• アナロジーにおいてPPMIとSGNSの性能は同じ?
• 違う(実験ではSGNSがPPMIを上回っていた)
• おそらくsyntactic analogyにおいて,機能語が重要な役割を果た
していて,PPMIが機能語の文脈情報を削り過ぎるから?
• 3CosMulは3CosAddよりもよい?
• そのようだ
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 30
(Levy+ 15)
分散表現学習のtips
• 常に文脈分布の補正(cds=0.75)を使え
• SVDでは対称性を確保せよ(eig=0 or 0.5)
• Shifted PPMIでneg > 1は効果がない
• SGNSは頑健なベースライン手法
• どのタスクでも大負けはしない
• 学習がエコ(高速・メモリを消費しない)
• SGNSでは負例サンプル数negは多い方がよい
• SGNSとGloVeではw+cを試す価値はある
• 性能が劇的に向上するが,悪くなるケースもある
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 31
(Levy+ 15)
分散表現の評価を検証 (Schnabel+ 15)
• 手法の優劣は評価設定でばらつく
• 手法の優劣はタスクでもばらつく
• タスクを解くことがゴールなら,そのタスクに
特化して分散表現をチューニングすべき
• 単語の分散表現は頻度情報を保持している
• 分散表現から出現頻度を予測できる!
• 頻度の順位と近傍の順位には相関がある!
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 32
(Schnabel+ 15)
評価設定による優劣のばらつき
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 33
(Schnabel+ 15)
順位が入
れ替わる
タスク:
クエリ単語に
対して各手法
が出力した類
似単語をワー
カーに見せ,
最も似ている
単語を選ぶ
タスクによる優劣のばらつき
• タスクによって分散表現の優劣が異なる
• 全てのタスクに対して最良な分散表現は無い
• タスクの性能が必要であれば,タスクに従って
分散表現をチューニングすべき
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 34
(Schnabel+ 15)
分散表現は頻度をエンコードしている
• (正規化済の)単語ベクトルを素性とする線形識別器で
単語の頻度が閾値以上かどうか予測できる (Figure 3)
• 𝑘𝑘近傍単語と頻度のランキングに相関がある(Figure 4)
• 評価サンプルのコーパス中の出現頻度が実験結果に影響を与える
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 35
(Schnabel+ 15)
単語の分散表現学習のまとめ
• Mikolov (2013) 以降,研究が急増
• 理論的な解析が進む
• 2015年も数多くの手法が提案されている
• NNの単語埋め込みとして有用
• 教師なし学習で単語の分散表現を学習できる
• ある程度の優劣はあるが,全てのタスクに
おいて最良な分散表現は存在しない
• タスクに応じてチューニングする必要がある
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 36
句ベクトルの学習
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 37
句や文の分散表現の学習
• 単語の分散表現の学習は分布仮説に基づく
• 周辺文脈の分布で単語の意味を表現
• 句や文の分散表現も分布仮説で学習できる?
• 仮説そのものは通用するはず
• コーパス中で同じ句や文が出現することは稀
• データ疎問題により学習効率が著しく低下
• 句や文の分散表現を構成性の原理で計算
• 句や文の意味は,その構成要素の意味とその合成
手続きから計算できる
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 38
句ベクトルの合成 (Mitchell+ 2010)
• 構成性の原理に基づき一般的な式を導入
𝒑𝒑 = 𝑓𝑓(𝒖𝒖, 𝒗𝒗, 𝑅𝑅, 𝐾𝐾)
• 𝒖𝒖, 𝒗𝒗: 2つの単語に対応するベクトル
• 𝑓𝑓: ベクトルから句ベクトルを合成する関数
• 𝑅𝑅: 𝒖𝒖と𝒗𝒗の間の文法的な関係 (Partee 1995)
• 𝐾𝐾: 合成に必要な背景知識 (Lakoff 1977)
• ※ 実際に実験した式の一般性はかなり狭い
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 39
句ベクトルの正解データ
• BNCコーパスから抽出された句のペア
• 対象: 形容詞-名詞,名詞-名詞,動詞-目的語
• 108ペアに18人の類似性判定が付与されている
• 句のペアの類似性の判定基準
• 6-7点: 類似性が高いもの
• professional advise - expert opinion
• 3-5点: 違うものではあるが関連はあるもの
• human behavior – social activity
• 1-2点: 無関係のもの
• Increasing taxation – public protest
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 40
(Mitchell+ 2010)
句ベクトル合成の実験結果
(スピアマンの順位相関係数; 単語ベクトルはlogを取らないPMI)
Model Function JJ-NN NN-NN VB-NN
Additive 𝑝𝑝𝑖𝑖 = 𝑢𝑢𝑖𝑖 + 𝑣𝑣𝑖𝑖 .36 .39 .30
Kintsch 𝑝𝑝𝑖𝑖 = 𝑢𝑢𝑖𝑖 + 𝑣𝑣𝑖𝑖 + 𝑛𝑛𝑖𝑖 .32 .22 .29
Multiplicative 𝑝𝑝𝑖𝑖 = 𝑢𝑢𝑖𝑖 ⋅ 𝑣𝑣𝑖𝑖 .46 .49 .37
Tensor product 𝑝𝑝𝑖𝑖,𝑗𝑗 = 𝑢𝑢𝑖𝑖 ⋅ 𝑣𝑣𝑖𝑖 .41 .36 .33
Circular convolution 𝑝𝑝𝑖𝑖 = ∑𝑗𝑗 𝑢𝑢𝑖𝑖 ⋅ 𝑣𝑣 𝑖𝑖−𝑗𝑗 mod 𝑛𝑛 .09 .05 .10
Weighted additive 𝑝𝑝𝑖𝑖 = 𝛼𝛼𝑢𝑢𝑖𝑖 + 𝛽𝛽𝑣𝑣𝑖𝑖 .44 .41 .34
Dilation 𝑝𝑝𝑖𝑖 = 𝑣𝑣𝑖𝑖 ∑𝑗𝑗 𝑢𝑢𝑗𝑗 𝑢𝑢𝑗𝑗 + (𝜆𝜆 − 1)𝑢𝑢𝑖𝑖 ∑𝑗𝑗 𝑢𝑢𝑗𝑗 𝑣𝑣𝑗𝑗 .44 .41 .38
Head only 𝑝𝑝𝑖𝑖 = 𝑣𝑣𝑖𝑖 .43 .34 .29
Target unit 𝑝𝑝𝑖𝑖 = 𝑣𝑣𝑖𝑖(𝑡𝑡1 𝑡𝑡2) .43 .17 .24
Human .52 .49 .55
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 41
• dilation, multiplicative, (weighted) additiveあたりがよい性能
(Mitchell+ 2010)
線形変換による句ベクトル合成 (Baroni+ 2010)
• 加法構成性で良さそうな合成
• red plastic: red + plastic
• 加法構成性ではまずそうな合成
• fake gun (←これはgunではない)
• 形容詞+名詞の合成において,名詞をベク
トル,形容詞を線形変換行列で表現する
𝒑𝒑 = 𝐵𝐵𝒗𝒗
• 行列𝐵𝐵は形容詞ごとに用意
• 形容詞+名詞の句ベクトルをコーパスから求め,
そのベクトルを構成出来るように行列𝐵𝐵を学習
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 42
Recursive Neural Network (RNN)
(Socher+ 2011)
• 句ベクトルを次式で合成
𝒑𝒑 = 𝑓𝑓 𝒖𝒖, 𝒗𝒗 = 𝑔𝑔 𝑊𝑊
𝒖𝒖
𝒗𝒗
• 𝑊𝑊: ℝ2𝑑𝑑
→ ℝ𝑑𝑑
の変換行列 (𝑑𝑑 × 2𝑑𝑑)
• 𝑔𝑔: 活性化関数 (𝜎𝜎やtanh)
• 文の句構造に従って再帰的に
句(文)ベクトルを計算
• 𝑊𝑊はオートエンコーダーやタ
スクでの誤差を用いて学習
• 単語ベクトルも同時に学習
• ニューラル言語モデル
(Collobert+ 2008) 等で初期化
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 43
moviegoodvery
𝑊𝑊 (𝑑𝑑 × 2𝑑𝑑)
・
・
very good
very good
movie
𝑊𝑊 (𝑑𝑑 × 2𝑑𝑑)
Matrix-Vector Recursive Neural Network (MV-RNN)
(Socher+ 2012)
• 句のベクトル𝒑𝒑と行列𝑃𝑃を再帰的に合成していく
𝒑𝒑 = 𝑓𝑓𝐴𝐴,𝐵𝐵 𝒂𝒂, 𝒃𝒃 = 𝑓𝑓 𝐵𝐵𝒂𝒂, 𝐴𝐴𝒃𝒃 = 𝑔𝑔 𝑊𝑊
𝐵𝐵𝒂𝒂
𝐴𝐴𝒃𝒃
𝑃𝑃 = 𝑓𝑓𝑀𝑀 𝐴𝐴, 𝐵𝐵 = 𝑊𝑊𝑀𝑀
𝐴𝐴
𝐵𝐵
• 句の評価極性や関係ラベルを教師信号として学習
𝒚𝒚𝑝𝑝 = softmax 𝑊𝑊label 𝒑𝒑
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 44
• Baroni+ (2010) の
行列による線形変
換の考え方をRNN
に統合
• 各単語をベクトル
と行列で表現
Recursive Neural Tensor Network
(Socher+ 2013)
• MV-RNNは全ての単語が行列を持つので,学習す
るパラメータが多すぎる
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 45
• テンソルで単語ベクト
ルを行列に変換してか
ら,単語ベクトルとの
積を計算
Recurrent Neural Network (RNN)
(Sutskever+ 2011)
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 46
very good movie
𝑥𝑥𝑡𝑡
𝑊𝑊(𝑥𝑥𝑥)
ℎ𝑡𝑡
𝑊𝑊(ℎ𝑦𝑦)
𝑊𝑊(ℎℎ)
𝑊𝑊(ℎℎ)
𝑦𝑦𝑡𝑡
潜在変数: ℎ𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑥𝑥𝑥)
𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎℎ)
ℎ𝑡𝑡−1 + 𝑏𝑏ℎ
出力: 𝑦𝑦𝑡𝑡 = 𝜎𝜎 𝑊𝑊(ℎ𝑦𝑦)ℎ𝑡𝑡 + 𝑏𝑏𝑦𝑦
Input vector
Hidden vector
(memory)
Output vector:
Long Short-Term Memory (LSTM)
(Graves 2013) (単純化したもの)
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 47
very good movie
𝑥𝑥𝑡𝑡
𝑐𝑐𝑡𝑡
𝑦𝑦𝑡𝑡
Input gate
Output gate
Forget gate Forget gate
• 各ゲートはマスクの役割を担う(ベクトルの要素ごとの積)
• 各ゲートのマスクパターンを入力𝑥𝑥𝑡𝑡,記憶ℎ𝑡𝑡−1,出力𝑦𝑦𝑡𝑡−1などで制御する
• 長い系列での誤差逆伝搬時の勾配消失をゲートで防止する(→長期依存の保存)
• PFN得居さんの資料: http://www.slideshare.net/beam2d/pfi-seminar-20141030rnn
LSTMもNNの一種
Input gate: 𝑖𝑖𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑥𝑥𝑥𝑥)
𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎ𝑖𝑖)
ℎ𝑡𝑡−1 + 𝑊𝑊(𝑐𝑐𝑖𝑖)
𝑐𝑐𝑡𝑡−1 + 𝑏𝑏𝑖𝑖
Forget gate: 𝑓𝑓𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑥𝑥𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎ𝑓𝑓)ℎ𝑡𝑡−1 + 𝑊𝑊(𝑐𝑐𝑐𝑐) 𝑐𝑐𝑡𝑡−1 + 𝑏𝑏𝑓𝑓
Cell: 𝑐𝑐𝑡𝑡 = 𝑓𝑓𝑡𝑡 ⊙ 𝑐𝑐𝑡𝑡−1 + 𝑖𝑖𝑡𝑡 ⊙ tanh 𝑊𝑊(𝑥𝑥𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎ𝑐𝑐)ℎ𝑡𝑡−1 + 𝑏𝑏𝑐𝑐
Output gate: 𝑜𝑜𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑥𝑥𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎ𝑜𝑜)ℎ𝑡𝑡−1 + 𝑊𝑊(𝑐𝑐𝑐𝑐) 𝑐𝑐𝑡𝑡 + 𝑏𝑏𝑜𝑜
Hidden variable: ℎ𝑡𝑡 = 𝑜𝑜𝑡𝑡 ⊙ tanh 𝑐𝑐𝑡𝑡
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 48
Graves (2013)
⊗(数式中は⊙)は
要素ごとの積
Tree-structured LSTM (Tai+ 2015)
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 49
http://kaishengtai.github.io/static/slides/treelstm-acl2015.pdf
Stanford Sentiment Treebankでの評価
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 50
Tai+ (2015)
(Tai+ 15)
我々の取り組み
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 51
統語的な関係を考慮した線形変換
(Muraoka+ 2014)
• Mitchell+ (2010) の句ベクトル構成
𝒑𝒑 = 𝑓𝑓(𝒖𝒖, 𝒗𝒗, 𝑅𝑅, 𝐾𝐾)
• 実際には,統語的な関係𝑅𝑅は使われない
• RNNの行列を統語関係𝑅𝑅ごとに学習(𝑊𝑊𝑅𝑅)
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 52
関係パタンのデータ疎問題
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 53
cause
lead to
increase the risk of
associate with
increase the likelihood of
cause an increase in
10回以上,100回未
満出現するフレーズ:
2,041,133件
100回以上出現するフレーズ: 326,810
件
ukWaCコーパス中に出現する名詞句・動詞句の出現頻度とその順位
関係パタンの認定基準(例
えば頻度のしきい値)を設
定するのが難しい
SGNSとRNNの統合 (高瀬+ 2015)
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 54
prevent the initial growth of bacteriasoaps
+
x
内容語の意味
ベクトルの平均
機能語の
意味変換行列
構成性に基いて計算した
句の意味ベクトル
句(単語の連接)に対してベクトルを割り当てる
機能語(動詞の一部)に行列,内容語(名詞)にベクトルを割り当てる
予測 予測
予測予測
従来手法
提案手法
疎データ問題により,句の意味ベクトルの質が低下する
学習時に存在しなかった句の意味ベクトルを計算できない
動詞による意味の変性をモデル化できる(promote, preventなど)
学習時に存在しなかった句の意味を構成的に計算できる
平均による句ベクトル近似の理論解析 (田+ 2015)
• 単語ベクトルの一般形として次式を考える
𝑚𝑚 𝑤𝑤,𝑐𝑐 = 𝛾𝛾 ⋅ 𝐹𝐹 𝑃𝑃 𝑐𝑐 𝑤𝑤 − 𝛼𝛼 𝑐𝑐 − 𝛽𝛽(𝑤𝑤)
• PPMI, Skip-gram, GloVeはこの形で表される
• 句𝑡𝑡1 𝑡𝑡2のベクトルは単語𝑡𝑡1, 𝑡𝑡2のベクトル平均で近似
1
2
𝒗𝒗𝑡𝑡1
+ 𝒗𝒗𝑡𝑡2
• 句ベクトル近似の誤差のバウンドは,
𝒗𝒗𝑡𝑡1 𝑡𝑡2
−
1
2
𝒗𝒗𝑡𝑡1
+ 𝒗𝒗𝑡𝑡2
≤
1
2
(𝜋𝜋1∖2
2
+ 𝜋𝜋2∖1
2
+ 𝜋𝜋1∖2 𝜋𝜋2∖1)
• ただし,関数𝐹𝐹(𝑝𝑝)が満たすべき条件がつく
• log 𝑝𝑝や 𝑝𝑝はOKだが, 𝑝𝑝や𝑝𝑝 log 𝑝𝑝では成り立たない
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 55
𝑡𝑡1が出現した後,
𝑡𝑡2が続かない確率
𝑡𝑡2が出現した前に
𝑡𝑡1が現れない確率
関数𝐹𝐹(𝑝𝑝)による近似誤差の違い(田+ 2015)
• 横軸: 句を構成す
る単語𝑡𝑡1, 𝑡𝑡2のコロ
ケーションの弱さ
1
2
(𝜋𝜋1∖2
2
+ 𝜋𝜋2∖1
2
+ 𝜋𝜋1∖2 𝜋𝜋2∖1)
• 縦軸: 実際にコー
パスから求めた句
ベクトルとの誤差
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 56
まとめ
• SGNSで単語の分散表現の研究が活性化
• 新手法や理論解析の研究が進む
• タスクや実験設定に応じたチューニングが必要
• 単語の分散表現だけでの改善は終焉に向かう?
• 構成性原理に基づく句の分散表現学習
• 色々なアーキテクチャが提案・検討される
• 翻訳,対話,文生成などにLSTMが応用される
• 今後の課題
• 様々なタスクでNNを使いこなす
• 研究サイクルの加速
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 57
さらに詳しく知りたい方は(宣伝)…
• 岩波データサイエンス vol. 2『自然言語処
理』(統数研・持橋さん,サイボウズ・ラ
ボ・中谷さん監修)(来年発刊予定)
• 人工知能2016年3月号 特集『ニューラル
ネットワーク研究の最前線(仮)』
• 画像処理,言語処理,音声処理,ロボット,実
装など6件の特集記事を予定
• PFN・得居さんのChainer解説も!
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 58
参考文献 (1/2)
• M Baroni and R Zamparelli. 2010. Nouns are vectors, adjectives are matrices: representing adjective-noun constructions
in semantic space. In EMNLP 2010, pp. 1183-1193.
• J Bullinaria and J Levy. 2007. Extracting semantic representations from word co-occurrence statistics: A computational
study. Behavior Research Methods, 39:510–526.
• S Cohen, M Collins, D Foster, K Stratos, L Ungar. 2013. Spectral Learning Algorithms for Natural Language Processing. In
NAACL 2013 tutorial.
• S Deerwester, S Dumais, G Furnas, T Landauer, R Harshman. 1990. Indexing by latent semantic analysis. Journal of the
American Society for Information Science, 41(6):391-407.
• J Firth. 1957. A synopsis of linguistic theory 1930-1955. In Studies in Linguistic Analysis, pp. 1-32.
• D Foster, R Johnson, S Kakade, T Zhang. 2009. Multi-View Dimensionality Reduction via Canonical Correlation Analysis.
Tech Report.
• A Graves. 2013. Generating Sequences with Recurrent Neural Networks. arXiv.org.
• Z Harris. 1954. Distributional structure. Word, 10(23):146-162.
• G Hinton, J McClelland, and D Rumelhart. 1986. Distributed representations. In Parallel distributed processing:
Explorations in the microstructure of cognition, Volume I. Chapter 3, pp. 77-109, Cambridge, MA: MIT Press.
• O Levy and Y Goldberg. 2014. Neural word embedding as implicit matrix factorization. NIPS 2014, pp. 2177–2185.
• O Levy, Y Goldberg, and I Dagan. 2015. Improving distributional similarity with lessons learned from word embeddings.
TACL, 3:211-225.
• T Mikolov, K Chen, G Corrado, and J Dean. 2013. Efficient estimation of word representations in vector space. In
Proceedings of Workshop at ICLR, 2013.
• T Mikolov, I Sutskever, K Chen, G Corrado, and J Dean. 2013. Distributed representations of words and phrases and their
compositionality. In NIPS 2013, pp. 3111–3119.
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 59
参考文献 (2/2)
• J Mitchell and M Lapata. 2010. Composition in distributional models of semantics. Cognitive Science, 34:1388–1429.
• M Muraoka, S Shimaoka, K Yamamoto, Y Watanabe, N Okazaki, K Inui. 2014. Finding The Best Model Among
Representative Compositional Models. In PACLIC 28, pp. 65-74.
• J Pennington, R Socher, and C Manning. 2014. Glove: Global vectors for word representation. In EMNLP 2014, pp.
1532–1543.
• T Schnabel, I Labutov, D Mimno, T Joachims. Evaluation methods for unsupervised word embeddings. In EMNLP 2015,
pp. 298-307.
• R Socher, J Pennington, E Huang, A Ng, and C Manning. 2011. Semi-supervised recursive autoencoders for predicting
sentiment distributions. EMNLP 2011, pp. 151-161.
• R Socher, B Huval, C Manning and A Ng. 2012. Semantic compositionality through recursive matrix-vector spaces.
EMNLP 2012, pp. 1201-1211.
• R Socher, A Perelygin, J Wu, J Chuang, C Manning, A Ng and C Potts. Recursive deep models for semantic
compositionality over a sentiment treebank. EMNLP 2013, pp. 1631-1642.
• K Stratos, M Collins, D Hsu. 2015. Model-based Word Embeddings from Decompositions of Count Matrices. In ACL-
IJCNLP 2015, pp. 1282-1291.
• I Sutskever, J Martens, G Hinton. 2011. Generating text with recurrent
• neural networks. In ICML 2011, pp. 1017-1024.
• K Tai, R Socher, C Manning. 2015. Improved Semantic Representations From Tree-Structured Long Short-Term
Memory Networks. In ACL-IJCNLP 2015, pp. 1556-1566.
• 高瀬, 岡崎, 乾. 2015. 構成性に基づく関係パタンの意味計算. 言語処理学会第21回年次大会, pp.640-643.
• 田, 岡崎, 乾. 2015. 対数的共起ベクトルの加法構成性. 情報処理学会研究報告, 2015-SLP-106(14), pp. 1-12.
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 60

More Related Content

What's hot

リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介Recruit Technologies
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Yoshitaka Ushiku
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Yusuke Fujimoto
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
「知識」のDeep Learning
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep LearningYuya Unno
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習Yuki Noguchi
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイするTakayuki Itoh
 
Word2vecの理論背景
Word2vecの理論背景Word2vecの理論背景
Word2vecの理論背景Masato Nakai
 
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」Ken'ichi Matsui
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3までYahoo!デベロッパーネットワーク
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習Preferred Networks
 
『自由エネルギー原理入門』勉強会1章&2章前半
『自由エネルギー原理入門』勉強会1章&2章前半『自由エネルギー原理入門』勉強会1章&2章前半
『自由エネルギー原理入門』勉強会1章&2章前半大地 紺野
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜Megagon Labs
 

What's hot (20)

リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 
Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
「知識」のDeep Learning
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep Learning
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
Word2vecの理論背景
Word2vecの理論背景Word2vecの理論背景
Word2vecの理論背景
 
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
『自由エネルギー原理入門』勉強会1章&2章前半
『自由エネルギー原理入門』勉強会1章&2章前半『自由エネルギー原理入門』勉強会1章&2章前半
『自由エネルギー原理入門』勉強会1章&2章前半
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
 

Similar to 単語・句の分散表現の学習

言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)Shirou Maruyama
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理Preferred Networks
 
大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化奈良先端大 情報科学研究科
 
R による文書分類入門
R による文書分類入門R による文書分類入門
R による文書分類入門Takeshi Arabiki
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentationRoy Ray
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用Yuya Unno
 
トピックモデル
トピックモデルトピックモデル
トピックモデル貴之 八木
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来Preferred Networks
 
スペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronamaスペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronamaHiroyoshi Komatsu
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptxBERT分類ワークショップ.pptx
BERT分類ワークショップ.pptxKouta Nakayama
 
MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出JAVA DM
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスShintaro Takemura
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...禎晃 山崎
 

Similar to 単語・句の分散表現の学習 (20)

4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
 
大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化大規模な単語活用辞書を用いた英単語の見出し語化
大規模な単語活用辞書を用いた英単語の見出し語化
 
Word2vec alpha
Word2vec alphaWord2vec alpha
Word2vec alpha
 
R による文書分類入門
R による文書分類入門R による文書分類入門
R による文書分類入門
 
Nl237 presentation
Nl237 presentationNl237 presentation
Nl237 presentation
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
 
トピックモデル
トピックモデルトピックモデル
トピックモデル
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
 
スペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronamaスペル修正プログラムの作り方 #pronama
スペル修正プログラムの作り方 #pronama
 
Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptxBERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
 
MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
 

More from Naoaki Okazaki

自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニングNaoaki Okazaki
 
Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Naoaki Okazaki
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPNaoaki Okazaki
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論Naoaki Okazaki
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有Naoaki Okazaki
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Naoaki Okazaki
 
Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...Naoaki Okazaki
 
Learning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsLearning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsNaoaki Okazaki
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Naoaki Okazaki
 

More from Naoaki Okazaki (10)

無限
無限無限
無限
 
自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニング
 
Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLP
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
 
Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...
 
Learning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsLearning to automatically solve algebra word problems
Learning to automatically solve algebra word problems
 
Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善Word2vecの並列実行時の学習速度の改善
Word2vecの並列実行時の学習速度の改善
 

Recently uploaded

新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 

Recently uploaded (7)

新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 

単語・句の分散表現の学習

  • 2. 辞書で単語の意味を記述 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 2
  • 3. 辞書にも限界がある: 固有名詞 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 3 会社の「Apple」の意味は収録されない
  • 4. 辞書にも限界がある: 新語・新語義 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 4
  • 5. 辞書にも限界がある: 句の意味 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 5 “apple tea”, ”apple production”, “apple shape” (腹部肥満) などは辞書に収録されていない
  • 6. 分散表現 (Hinton+ 1986) • 局所表現(local representation) • 各概念に1つの計算要素 (記号, ニューロン, 次元) を割り当て • 分散表現(distributed representation) • 各概念は複数の計算要素で表現される • 各計算要素は複数の概念の表現に関与する 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 6 バス 萌えバス … … #2948 … … #19023840334 バス 萌えバス萌えトラック ニューロンの 興奮パターン ≒ベクトル表現 http://ja.wikipedia.org/wiki/富士急山梨バス http://saori223.web.fc2.com/
  • 7. 分散表現の効果: NNへの埋め込み 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 7 http://devblogs.nvidia.com/parallelforall/introduction-neural-machine-translation-gpus-part-2/ 翻訳元言語の各 単語をベクトル に変換する部分 (ニューラルネットワークに基づく機械翻訳の例)
  • 9. 単語の分散表現の学習 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 9
  • 10. 分布仮説 (Harris 1954; Firth 1957) You shall know a word by the company it keeps 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 10 … packed with people drinking beer or wine. Many restaurants … into alcoholic drinks such as beer or hard liquor and derive … … in miles per hour, pints of beer, and inches for clothes. M… …ns and for pints for draught beer, cider, and milk sales. The carbonated beverages such as beer and soft drinks in non-ref… …g of a few young people to a beer blast or fancy formal part… …c and alcoholic drinks, like beer and mead, contributed to a… People are depicted drinking beer, listening to music, flirt… … and for the pint of draught beer sold in pubs (see Metricat… beer beer beer beer beer beer beer beer beer … ith people drinking beer or wine. Many restaurants can be f… …gan to drink regularly, host wine parties and consume prepar… principal grapes for the red wines are the grenache, mourved… … four or more glasses of red wine per week had a 50 percent … …e would drink two bottles of wine in an evening. According t… …. Teran is the principal red wine grape in these regions. In… …a beneficial compound in red wine that other types of alcohol … Colorino and even the white wine grapes like Trebbiano and … In Shakesperean theatre, red wine was used in a glass contai… wine wine wines wine wine wine wine wine wine
  • 11. 単語文脈行列 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 11 beer wine car ride have new drink bottle train book speed read 36 108 578 291 841 14 14 284 94 201 72 92 3 3 0 57 86 2 0 0 3 0 37 72 2 0 1 44 43 1 1 2 3 2 338 単 語 文 脈 コ ー パ ス 中 の 単 語 (例)単語の前後ℎ語に出現する単語 𝑛𝑛列 𝑚𝑚 行 𝑚𝑚𝑖𝑖,𝑗𝑗 = #(𝑖𝑖, 𝑗𝑗): 単語𝑖𝑖と文脈𝑗𝑗の共起頻度 (例: trainとdrinkは3回共起) “beer”の意味を表すベクトル (𝑀𝑀𝑖𝑖で表す)
  • 12. 単語の類似度 • 単語の意味ベクトル𝑀𝑀𝑖𝑖, 𝑀𝑀𝑗𝑗のコサイン類似度 cos 𝜃𝜃 = 𝑀𝑀𝑖𝑖�𝑀𝑀𝑗𝑗 𝑀𝑀𝑖𝑖 𝑀𝑀𝑗𝑗 (𝜃𝜃: 𝑀𝑀𝑖𝑖と𝑀𝑀𝑗𝑗のなす角) • beerとwine • 𝑀𝑀beer�𝑀𝑀wine 𝑀𝑀beer 𝑀𝑀wine = 0.941 • beerとtrain • 𝑀𝑀beer�𝑀𝑀train 𝑀𝑀beer 𝑀𝑀train = 0.387 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 12 beer wine car ride have new drink bottle train book speed read 36 108 578 291 841 14 14 284 94 201 72 92 3 3 0 57 86 2 0 0 3 0 37 72 2 0 1 44 43 1 1 2 3 2 338 単 語 文 脈
  • 13. 正の相互情報量 (PPMI) (Bullinaria+ 2007) 𝑚𝑚𝑖𝑖,𝑗𝑗 = max 0, log 𝑃𝑃(𝑖𝑖, 𝑗𝑗) 𝑃𝑃 𝑖𝑖 𝑃𝑃(𝑗𝑗) = max 0, log #(𝑖𝑖, 𝑗𝑗) + log #(∗,∗) − log #(∗, 𝑗𝑗) − log #(𝑖𝑖,∗) 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 13 beer wine car ride have new drink bottle train book speed read 0 0 0.09 0.03 0.09 0 0 0.49 0.02 0 2.04 1.78 0 0 0 1.97 1.87 0 0 0 0 0 0.13 1.43 0 0 0 0.55 1.16 0 0 0 0 0 0.85 単 語 文 脈 頻出する単語・文脈の影響を軽減 𝑃𝑃 𝑖𝑖, 𝑗𝑗 = #(𝑖𝑖, 𝑗𝑗)/#(∗,∗), 𝑃𝑃 𝑖𝑖 = #(𝑖𝑖,∗)/#(∗,∗), 𝑃𝑃(𝑗𝑗) = #(∗, 𝑗𝑗)/#(∗,∗) #(𝑖𝑖,∗) = ∑𝑗𝑗 #𝑖𝑖,𝑗𝑗 ,#(∗, 𝑗𝑗) = ∑𝑖𝑖 #𝑖𝑖,𝑗𝑗 ,#(∗,∗) = ∑𝑖𝑖,𝑗𝑗 #𝑖𝑖,𝑗𝑗 cos(beer,wine) = 0.99 cos(beer,train) = 0.00
  • 14. 潜在意味解析 (LSA) (Deerwester, 1990) • 単語文脈行列𝑀𝑀を特異値分解 (SVD) 𝑀𝑀 = 𝑈𝑈 Σ 𝑉𝑉T • 𝑑𝑑(< 𝑟𝑟)個の特異値でΣを近似(𝑟𝑟: 𝑀𝑀のランク) 𝑀𝑀𝑑𝑑 = 𝑈𝑈 Σ𝑑𝑑 𝑉𝑉T (低ランク近似) (ランク𝑑𝑑の行列の中で 𝑀𝑀 − 𝑀𝑀𝑑𝑑 が最小のもの) • 𝑈𝑈Σ𝑑𝑑を𝑑𝑑次元単語ベクトルとして用いる 𝑀𝑀𝑑𝑑 𝑀𝑀𝑑𝑑 𝑇𝑇 = 𝑈𝑈Σ𝑑𝑑 𝑉𝑉T 𝑈𝑈Σ𝑑𝑑 𝑉𝑉T T = 𝑈𝑈Σ𝑑𝑑 𝑈𝑈Σ𝑑𝑑 T 𝑀𝑀𝑑𝑑の類似度(内積)は𝑈𝑈Σ𝑑𝑑の内積に等しい 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 14 (𝑚𝑚 × 𝑛𝑛) (𝑚𝑚 × 𝑚𝑚)(𝑚𝑚 × 𝑛𝑛)(𝑛𝑛 × 𝑛𝑛) 𝑈𝑈: ユニタリ行列 Σ: 特異値を対角成分とする対角行列 𝑉𝑉T : ユニタリ行列
  • 15. SVDによる次元圧縮の実行例 (単語文脈行列𝑀𝑀を特異値分解し, 𝑑𝑑 = 3で低ランク近似) 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 15 3個の特異値 で打ち切る 計算に関与するのは 3列目まで 計算に関与する のは3行目まで (元の行列を特異値分解) (元の行列の3ランク近似) beer wine car train book • 実際には行列𝑀𝑀の上位𝑑𝑑個の特異値を効率よく求める手法を用いる(Truncated SVD) • redsvd: https://code.google.com/p/redsvd/ cos(beer,wine) = 0.96 cos(beer,train) = 0.37
  • 16. Skip-gram with Negative Sampling (SGNS) (Mikolov+ 2013) 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 16 draughtofferpubs beer, cider, and wine last use place people make city full know build time group have new game rather age show take take team season say 個 の 単 語 を ユ ニ グ ラ ム 分 布 か ら サ ン プ リ ン グ し , こ れ ら が 予 測 さ れ な い よ う に 更 新 ( 負 例 ) 個 の 文 脈 語 を 予 測 す る よ う に 更 新 同じ単語がサン プルされること もあり得る 単語ベクトル𝒗𝒗𝑤𝑤 (𝑑𝑑次元) 文脈ベクトル�𝒗𝒗𝑐𝑐 (𝑑𝑑次元) : 内積 → +∞ へ : 内積 → −∞ へ ベクトルの更新方針 コーパス (文脈幅ℎ = 2, 負例サンプル数𝑘𝑘 = 1の場合の例)
  • 17. ベクトルの更新方法(確率的勾配降下法) • 初期化: • 𝑡𝑡 ← 0 • 単語ベクトル( ): [0,1]の乱数で初期化 • 文脈ベクトル( ): 0で初期化 • 学習データの先頭から末尾の単語まで… • 𝑡𝑡 ← 𝑡𝑡 + 1 • 学習率𝛼𝛼 = 𝛼𝛼0 1 − 𝑡𝑡 𝑇𝑇+1 を計算 • その単語 と または で結ばれる に関して • • • 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 17 𝑔𝑔 = 1 − 𝜎𝜎 ⋅ 内積 → +∞にしたい とき 𝜎𝜎 ⋅ 内積 → −∞にしたい とき ← + 𝛼𝛼𝑔𝑔 ← + 𝛼𝛼𝑔𝑔 𝛼𝛼0: 初期学習率(例えば0.025) 𝑇𝑇: 単語の総出現回数 (Mikolov+ 2013)
  • 18. SGNSの目的関数 • 目的関数(対数尤度最大化) • 𝑃𝑃(𝑐𝑐|𝑤𝑤)はlog-bilinearモデル • 𝑃𝑃(𝑐𝑐|𝑤𝑤)をロジスティック回帰でモデル化 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 18 𝐽𝐽 = − � 𝑤𝑤∈𝐷𝐷 � 𝑐𝑐∈𝐶𝐶𝑤𝑤 log 𝑃𝑃(𝑐𝑐|𝑤𝑤) 𝑃𝑃 𝑐𝑐 𝑤𝑤 = exp 𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑐𝑐 ∑𝑐𝑐′ exp(𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑐𝑐′) log 𝑃𝑃 𝑐𝑐 𝑤𝑤 ≈ log 𝜎𝜎 𝒗𝒗𝑤𝑤 ⋅ �𝒗𝒗𝑐𝑐 + 𝑘𝑘 � Ε 𝑟𝑟∼𝑃𝑃𝑛𝑛 log 𝜎𝜎 −𝒗𝒗𝑤𝑤 ⋅ �𝒗𝒗𝑟𝑟 ユニグラム分布𝑃𝑃𝑛𝑛から単語𝑟𝑟を𝑘𝑘回サンプリング 𝐷𝐷: コーパス(単語列) 𝐶𝐶𝑤𝑤: 単語𝑤𝑤の前後±ℎの範囲に出現する語 コーパス中の全文脈𝑐𝑐′ に関する 内積のexp和で正規化したいが, 計算が重たすぎる 単語𝑤𝑤から周辺の語𝑐𝑐 ∈ 𝐶𝐶𝑤𝑤を予測する確率 (Mikolov+ 2013)
  • 19. アナロジータスクでの評価 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 19 Mikolov+ (2013) Semanticの例: Athens Greece Tokyo Japan Syntacticの例: cool cooler deep deeper (Mikolov+ 2013)
  • 20. SGNSで学習した分散表現は加法構成性を持つ? • 有名な例: king − man + woman ≈ queen 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 20 (Mikolov+ 2013) 国名と首都名が同じ向きに並ぶ (Mikolov+ 2013)
  • 21. SGNSはShifted PMIと等価 (Levy+ 2014) • SGNSは以下の共起行列をモデル化 𝑚𝑚𝑤𝑤,𝑐𝑐 = PMI 𝑤𝑤, 𝑐𝑐 − log 𝑘𝑘 ≈ 𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑐𝑐 • 単語と文脈の共起をPMIで計測して,単語埋め 込み(低次元ベクトル)を構成するのに近い • 加法構成性はSGNS以前でも,PMIを用いた 従来手法で実現できていた! 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 21 PMIを負の方向へシフトする項
  • 22. Shifted PMIの導出 コーパス中の共起回数#(𝑤𝑤, 𝑐𝑐)や出現頻度#(𝑤𝑤)を用いてSGNSの目的関数を変形すると, 𝐽𝐽 = − � 𝑤𝑤∈𝐷𝐷 � 𝑐𝑐∈𝐶𝐶𝑤𝑤 log 𝜎𝜎 𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑐𝑐 − 𝑘𝑘 � Ε 𝑟𝑟∼𝑃𝑃𝑛𝑛 log 𝜎𝜎 −𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑟𝑟 = = − � 𝑤𝑤∈𝑉𝑉𝑤𝑤 � 𝑐𝑐∈𝑉𝑉𝑐𝑐 #(𝑤𝑤, 𝑐𝑐) log 𝜎𝜎 𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑐𝑐 − � 𝑤𝑤∈𝑉𝑉𝑤𝑤 #(𝑤𝑤) ⋅ 𝑘𝑘 � Ε 𝑟𝑟∼𝑃𝑃𝑛𝑛 log 𝜎𝜎 −𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑟𝑟 期待値の部分を明示的に計算すると, Ε 𝑟𝑟∼𝑃𝑃𝑛𝑛 log 𝜎𝜎 −𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑟𝑟 = � 𝑟𝑟∈𝑉𝑉𝑐𝑐 #(𝑟𝑟) |𝐷𝐷| log 𝜎𝜎 −𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑟𝑟 = #(𝑐𝑐) |𝐷𝐷| log 𝜎𝜎 −𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑐𝑐 + � 𝑟𝑟∈𝑉𝑉𝑐𝑐∖{𝑐𝑐} #(𝑟𝑟) |𝐷𝐷| log 𝜎𝜎 −𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑟𝑟 目的関数のうち,𝑤𝑤と𝑐𝑐に関する部分だけを取り出すと, 𝑙𝑙 𝑤𝑤, 𝑐𝑐 = −#(𝑤𝑤, 𝑐𝑐) log 𝜎𝜎 𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑐𝑐 − # 𝑤𝑤 ⋅ 𝑘𝑘 ⋅ #(𝑐𝑐) |𝐷𝐷| log 𝜎𝜎 −𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑐𝑐 𝑥𝑥 = 𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑐𝑐として,𝑙𝑙 𝑤𝑤, 𝑐𝑐 を𝑥𝑥で偏微分して0とおくと, 𝜕𝜕𝑙𝑙( 𝑤𝑤, 𝑐𝑐) 𝜕𝜕𝑥𝑥 = −#(𝑤𝑤, 𝑐𝑐)𝜎𝜎 −𝑥𝑥 + 𝑘𝑘# 𝑤𝑤 #(𝑐𝑐) 𝐷𝐷 𝜎𝜎 𝑥𝑥 = # 𝑤𝑤, 𝑐𝑐 𝜎𝜎 𝑥𝑥 − 1 + 𝑘𝑘# 𝑤𝑤 #(𝑐𝑐) 𝐷𝐷 𝜎𝜎 𝑥𝑥 = 0 等式を整理すると, 1 + 𝑘𝑘#(𝑤𝑤)#(𝑐𝑐) 𝐷𝐷 #(𝑤𝑤, 𝑐𝑐) 𝜎𝜎 𝑥𝑥 = 1 ⇔ exp −𝑥𝑥 = 𝑘𝑘#(𝑤𝑤)#(𝑐𝑐) 𝐷𝐷 #(𝑤𝑤, 𝑐𝑐) したがって, 𝑥𝑥 = 𝒗𝒗𝑤𝑤 𝑇𝑇 �𝒗𝒗𝑐𝑐 = log 𝐷𝐷 #(𝑤𝑤, 𝑐𝑐) 𝑘𝑘#(𝑤𝑤)#(𝑐𝑐) = log 𝐷𝐷 #(𝑤𝑤, 𝑐𝑐) #(𝑤𝑤)#(𝑐𝑐) − log 𝑘𝑘 = PMI 𝑤𝑤, 𝑐𝑐 − log 𝑘𝑘 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 22 (Levy+ 2014)
  • 23. GloVe (Pennington+ 2014) (最小二乗法による単語ベクトルの学習) 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 23 𝐽𝐽 = � 𝑖𝑖,𝑗𝑗=1 𝑉𝑉 𝑓𝑓(𝑚𝑚𝑖𝑖,𝑗𝑗) (𝒗𝒗𝑖𝑖 𝑇𝑇 �𝒗𝒗𝑗𝑗 + 𝑏𝑏𝑖𝑖 + �𝑏𝑏𝑗𝑗 − log 𝑚𝑚𝑖𝑖,𝑗𝑗)2 目的関数: 𝑓𝑓 𝑥𝑥 = (𝑥𝑥/𝑥𝑥max)𝛼𝛼 (if 𝑥𝑥 < 𝑥𝑥max) 1 (otherwise) 単語𝑖𝑖と単語𝑗𝑗の共起頻度単語の総数 単語𝑖𝑖のベクトル 文脈𝑗𝑗のベクトル‘ 単語𝑖𝑖のバイアス項 単語𝑗𝑗のバイアス項’ 1系統 2系統 ※各単語に対してパラメタが2系統あるのは SGNSと同様.本研究は単語𝑖𝑖のベクトルを 最終的に(𝒗𝒗𝑖𝑖 + �𝒗𝒗𝑖𝑖)とする(精度が向上する) 𝑥𝑥 𝑚𝑚𝑚𝑚𝑚𝑚 = 100, α = 0.75 の場合 → AdaGrad (SGD)で学習
  • 24. 正準相関分析による学習 (Stratos+ 2015) • 確率変数(ベクトル)𝑋𝑋, 𝑌𝑌を次のように定義 • 𝑋𝑋 ∈ ℝ𝑛𝑛: 単語の出現を表すone-hotベクトル • 𝑌𝑌 ∈ ℝ𝑛𝑛′ : 文脈の出現を表すone-hotベクトル • 𝑋𝑋, 𝑌𝑌 のサンプルの作成例(文脈幅ℎ = 2の場合) 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 24 Teran is the principal red wine grape in the Slovenian Littoral wine region. wineの文脈語 𝑥𝑥(𝑖𝑖) , 𝑦𝑦(𝑖𝑖) 𝑖𝑖=1 4 = 0 ⋮ 1 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 0 , 0 ⋮ ⋮ ⋮ ⋮ ⋮ 1 ⋮ ⋮ 0 , 0 ⋮ 1 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 0 , 0 ⋮ ⋮ 1 ⋮ ⋮ ⋮ ⋮ ⋮ 0 , 0 ⋮ 1 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 0 , 0 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 1 0 , 0 ⋮ 1 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 0 , 0 ⋮ ⋮ ⋮ 1 ⋮ ⋮ ⋮ ⋮ 0 Wineの次元 redの次元 inの次元 principalの次元 grapeの次元 単語=wineのとき(wine以外 の単語にも繰り返し適用する)
  • 25. 正準相関分析 Canonical Correlation Analysis (CCA) • 入力: 確率変数(ベクトル)𝑋𝑋 ∈ ℝ𝑛𝑛 , 𝑌𝑌 ∈ ℝ𝑛𝑛′ • 出力: 射影ベクトル 𝑎𝑎1, … , 𝑎𝑎 𝑚𝑚 ∈ ℝ𝑛𝑛 , 𝑏𝑏1, … , 𝑏𝑏𝑚𝑚 ∈ ℝ𝑛𝑛′ • ただし,𝑚𝑚 ≤ min(𝑛𝑛, 𝑛𝑛′ ) とする • 𝑖𝑖 = 1, … , 𝑚𝑚に関して𝑎𝑎𝑖𝑖, 𝑏𝑏𝑖𝑖は以下の条件を満たす 𝑎𝑎𝑖𝑖, 𝑏𝑏𝑖𝑖 = argmax 𝑎𝑎∈ℝ𝑛𝑛,𝑏𝑏∈ℝ𝑛𝑛′ Cor(𝑎𝑎T 𝑋𝑋, 𝑏𝑏T 𝑌𝑌) Cor 𝑎𝑎𝑖𝑖 T 𝑋𝑋, 𝑎𝑎𝑗𝑗 T 𝑋𝑋 = 0 (∀𝑗𝑗 < 𝑖𝑖) Cor 𝑏𝑏𝑖𝑖 T 𝑌𝑌, 𝑏𝑏𝑗𝑗 T 𝑌𝑌 = 0 (∀𝑗𝑗 < 𝑖𝑖) • Corはピアソン相関係数 Cor 𝐿𝐿, 𝑅𝑅 ≡ 𝔼𝔼 𝐿𝐿𝐿𝐿 −𝔼𝔼 𝐿𝐿 𝔼𝔼 𝑅𝑅 𝔼𝔼 𝐿𝐿2 −𝔼𝔼 𝐿𝐿 2 𝔼𝔼 𝑅𝑅2 −𝔼𝔼 𝑅𝑅 2 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 25 𝑎𝑎𝑖𝑖と𝑏𝑏𝑖𝑖で射影後の確率変数の相関を最大化 以前の射影とは無相関な射影を求める −1 (逆相関) … 0 (無相関) … 1 (正相関) 相関係数の値は[−1,1] (Stratos+ 2015)
  • 26. 正準相関分析による次元圧縮 • 𝑚𝑚個の射影ベクトルで𝑋𝑋と𝑌𝑌を求める 𝑋𝑋 = 𝑎𝑎1, … , 𝑎𝑎 𝑚𝑚 T 𝑋𝑋 𝑌𝑌 = 𝑏𝑏1, … , 𝑏𝑏𝑚𝑚 T 𝑌𝑌 • 𝑋𝑋と𝑌𝑌を相関係数が最大になるように,それぞれ を共通の空間(𝑚𝑚次元ベクトル)に写像する • 𝑚𝑚 ≪ min(𝑛𝑛, 𝑛𝑛′)と設定すれば次元を大幅に削減 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 26 (Stratos+ 2015)
  • 27. 正準相関分析による次元圧縮のイメージ (Cohen+ 2013) • ナイーブベイズによる生成モデル 𝑃𝑃 𝑋𝑋 = 𝑥𝑥, 𝑌𝑌 = 𝑦𝑦 = � ℎ=1 𝑚𝑚 𝑃𝑃 ℎ 𝑃𝑃 𝑥𝑥 ℎ 𝑃𝑃(𝑦𝑦|ℎ) 𝑀𝑀𝑖𝑖𝑖𝑖 ≈ � ℎ=1 𝑚𝑚 𝜎𝜎ℎ 𝑈𝑈𝑖𝑖 𝑖 𝑉𝑉𝑗𝑗𝑗 T • 隠れ変数ℎの次元を𝑚𝑚とする • 𝑋𝑋と𝑌𝑌をCCAで𝑚𝑚次元に射影する(𝑋𝑋と𝑌𝑌を得る) • 定理 (Foster+ 09): 隠れ変数ℎの推定に関して, 射影された𝑋𝑋と𝑌𝑌は,元々のサンプル𝑋𝑋と𝑌𝑌と同 じ能力を持つ 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 27 (Stratos+ 2015) ℎ 𝑥𝑥 𝑦𝑦 (特異値分解に 似ている!)
  • 28. 結局は特異値分解になる • CCAは以下の行列�Ω 𝑤𝑤,𝑐𝑐の特異値分解に帰着される �Ω𝑤𝑤,𝑐𝑐 = #(𝑤𝑤, 𝑐𝑐)1/2 #(𝑤𝑤,∗)1/2#(∗, 𝑐𝑐)1/2 • 正準相関分析とBrownのモデルから行列�Ω 𝑤𝑤,𝑐𝑐を導出 • 経験則だった1/2乗を分散安定化の観点から説明 • 頻度カウントの変換法と単語文脈行列の計算法の 組み合わせで既存手法をテンプレート化 • SGNSやGloVeと比較して同程度の性能を報告 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 28 (Stratos+ 2015)
  • 29. 分散表現学習のトリック (Levy+ 15) 説明 実験に用いた値 PPMI SVD SGNS GloVe win 文脈長(ℎ) ℎ ∈ {2, 5, 10}     dyn 重み付き文脈 with(𝑙𝑙/ℎ), none     *1 sub サブサンプリング with, none     del 低頻度語の削除 with, none     neg 負例サンプル数 𝑘𝑘 ∈ {1, 5, 15}  *2  *2  cds 文脈分布の補正 α ∈ {1, 0.75}  *3  *3  w+c ベクトルの和 𝒗𝒗 𝑤𝑤, (𝒗𝒗𝑤𝑤 + �𝒗𝒗 𝑤𝑤)    eig 特異値の重み付け 𝑝𝑝 ∈ {0, 0.5, 1.0}  nrm 正規化 *4 both, col, row, none     2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 29 *1: word2vec方式の重み付けを採用 *2: Shifted PPMIとして設定 *3: PMIの分母を改変することで対応 *4: 単語ベクトル毎に正規化するのが最も良かった 前処理のパラメータ 関連度計算のパラメータ 後処理のパラメータ
  • 30. 分散表現学習の「通説」を検証 • Count-basedよりPrediction-basedの方がよい? • 違う(オールラウンドな勝者はない) • GloVeはSGNSよりもよい? • 違う(実験結果から) • おそらくw+c,評価データ,学習コーパスに依存していた • アナロジーにおいてPPMIとSGNSの性能は同じ? • 違う(実験ではSGNSがPPMIを上回っていた) • おそらくsyntactic analogyにおいて,機能語が重要な役割を果た していて,PPMIが機能語の文脈情報を削り過ぎるから? • 3CosMulは3CosAddよりもよい? • そのようだ 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 30 (Levy+ 15)
  • 31. 分散表現学習のtips • 常に文脈分布の補正(cds=0.75)を使え • SVDでは対称性を確保せよ(eig=0 or 0.5) • Shifted PPMIでneg > 1は効果がない • SGNSは頑健なベースライン手法 • どのタスクでも大負けはしない • 学習がエコ(高速・メモリを消費しない) • SGNSでは負例サンプル数negは多い方がよい • SGNSとGloVeではw+cを試す価値はある • 性能が劇的に向上するが,悪くなるケースもある 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 31 (Levy+ 15)
  • 32. 分散表現の評価を検証 (Schnabel+ 15) • 手法の優劣は評価設定でばらつく • 手法の優劣はタスクでもばらつく • タスクを解くことがゴールなら,そのタスクに 特化して分散表現をチューニングすべき • 単語の分散表現は頻度情報を保持している • 分散表現から出現頻度を予測できる! • 頻度の順位と近傍の順位には相関がある! 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 32 (Schnabel+ 15)
  • 33. 評価設定による優劣のばらつき 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 33 (Schnabel+ 15) 順位が入 れ替わる タスク: クエリ単語に 対して各手法 が出力した類 似単語をワー カーに見せ, 最も似ている 単語を選ぶ
  • 34. タスクによる優劣のばらつき • タスクによって分散表現の優劣が異なる • 全てのタスクに対して最良な分散表現は無い • タスクの性能が必要であれば,タスクに従って 分散表現をチューニングすべき 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 34 (Schnabel+ 15)
  • 35. 分散表現は頻度をエンコードしている • (正規化済の)単語ベクトルを素性とする線形識別器で 単語の頻度が閾値以上かどうか予測できる (Figure 3) • 𝑘𝑘近傍単語と頻度のランキングに相関がある(Figure 4) • 評価サンプルのコーパス中の出現頻度が実験結果に影響を与える 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 35 (Schnabel+ 15)
  • 36. 単語の分散表現学習のまとめ • Mikolov (2013) 以降,研究が急増 • 理論的な解析が進む • 2015年も数多くの手法が提案されている • NNの単語埋め込みとして有用 • 教師なし学習で単語の分散表現を学習できる • ある程度の優劣はあるが,全てのタスクに おいて最良な分散表現は存在しない • タスクに応じてチューニングする必要がある 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 36
  • 37. 句ベクトルの学習 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 37
  • 38. 句や文の分散表現の学習 • 単語の分散表現の学習は分布仮説に基づく • 周辺文脈の分布で単語の意味を表現 • 句や文の分散表現も分布仮説で学習できる? • 仮説そのものは通用するはず • コーパス中で同じ句や文が出現することは稀 • データ疎問題により学習効率が著しく低下 • 句や文の分散表現を構成性の原理で計算 • 句や文の意味は,その構成要素の意味とその合成 手続きから計算できる 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 38
  • 39. 句ベクトルの合成 (Mitchell+ 2010) • 構成性の原理に基づき一般的な式を導入 𝒑𝒑 = 𝑓𝑓(𝒖𝒖, 𝒗𝒗, 𝑅𝑅, 𝐾𝐾) • 𝒖𝒖, 𝒗𝒗: 2つの単語に対応するベクトル • 𝑓𝑓: ベクトルから句ベクトルを合成する関数 • 𝑅𝑅: 𝒖𝒖と𝒗𝒗の間の文法的な関係 (Partee 1995) • 𝐾𝐾: 合成に必要な背景知識 (Lakoff 1977) • ※ 実際に実験した式の一般性はかなり狭い 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 39
  • 40. 句ベクトルの正解データ • BNCコーパスから抽出された句のペア • 対象: 形容詞-名詞,名詞-名詞,動詞-目的語 • 108ペアに18人の類似性判定が付与されている • 句のペアの類似性の判定基準 • 6-7点: 類似性が高いもの • professional advise - expert opinion • 3-5点: 違うものではあるが関連はあるもの • human behavior – social activity • 1-2点: 無関係のもの • Increasing taxation – public protest 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 40 (Mitchell+ 2010)
  • 41. 句ベクトル合成の実験結果 (スピアマンの順位相関係数; 単語ベクトルはlogを取らないPMI) Model Function JJ-NN NN-NN VB-NN Additive 𝑝𝑝𝑖𝑖 = 𝑢𝑢𝑖𝑖 + 𝑣𝑣𝑖𝑖 .36 .39 .30 Kintsch 𝑝𝑝𝑖𝑖 = 𝑢𝑢𝑖𝑖 + 𝑣𝑣𝑖𝑖 + 𝑛𝑛𝑖𝑖 .32 .22 .29 Multiplicative 𝑝𝑝𝑖𝑖 = 𝑢𝑢𝑖𝑖 ⋅ 𝑣𝑣𝑖𝑖 .46 .49 .37 Tensor product 𝑝𝑝𝑖𝑖,𝑗𝑗 = 𝑢𝑢𝑖𝑖 ⋅ 𝑣𝑣𝑖𝑖 .41 .36 .33 Circular convolution 𝑝𝑝𝑖𝑖 = ∑𝑗𝑗 𝑢𝑢𝑖𝑖 ⋅ 𝑣𝑣 𝑖𝑖−𝑗𝑗 mod 𝑛𝑛 .09 .05 .10 Weighted additive 𝑝𝑝𝑖𝑖 = 𝛼𝛼𝑢𝑢𝑖𝑖 + 𝛽𝛽𝑣𝑣𝑖𝑖 .44 .41 .34 Dilation 𝑝𝑝𝑖𝑖 = 𝑣𝑣𝑖𝑖 ∑𝑗𝑗 𝑢𝑢𝑗𝑗 𝑢𝑢𝑗𝑗 + (𝜆𝜆 − 1)𝑢𝑢𝑖𝑖 ∑𝑗𝑗 𝑢𝑢𝑗𝑗 𝑣𝑣𝑗𝑗 .44 .41 .38 Head only 𝑝𝑝𝑖𝑖 = 𝑣𝑣𝑖𝑖 .43 .34 .29 Target unit 𝑝𝑝𝑖𝑖 = 𝑣𝑣𝑖𝑖(𝑡𝑡1 𝑡𝑡2) .43 .17 .24 Human .52 .49 .55 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 41 • dilation, multiplicative, (weighted) additiveあたりがよい性能 (Mitchell+ 2010)
  • 42. 線形変換による句ベクトル合成 (Baroni+ 2010) • 加法構成性で良さそうな合成 • red plastic: red + plastic • 加法構成性ではまずそうな合成 • fake gun (←これはgunではない) • 形容詞+名詞の合成において,名詞をベク トル,形容詞を線形変換行列で表現する 𝒑𝒑 = 𝐵𝐵𝒗𝒗 • 行列𝐵𝐵は形容詞ごとに用意 • 形容詞+名詞の句ベクトルをコーパスから求め, そのベクトルを構成出来るように行列𝐵𝐵を学習 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 42
  • 43. Recursive Neural Network (RNN) (Socher+ 2011) • 句ベクトルを次式で合成 𝒑𝒑 = 𝑓𝑓 𝒖𝒖, 𝒗𝒗 = 𝑔𝑔 𝑊𝑊 𝒖𝒖 𝒗𝒗 • 𝑊𝑊: ℝ2𝑑𝑑 → ℝ𝑑𝑑 の変換行列 (𝑑𝑑 × 2𝑑𝑑) • 𝑔𝑔: 活性化関数 (𝜎𝜎やtanh) • 文の句構造に従って再帰的に 句(文)ベクトルを計算 • 𝑊𝑊はオートエンコーダーやタ スクでの誤差を用いて学習 • 単語ベクトルも同時に学習 • ニューラル言語モデル (Collobert+ 2008) 等で初期化 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 43 moviegoodvery 𝑊𝑊 (𝑑𝑑 × 2𝑑𝑑) ・ ・ very good very good movie 𝑊𝑊 (𝑑𝑑 × 2𝑑𝑑)
  • 44. Matrix-Vector Recursive Neural Network (MV-RNN) (Socher+ 2012) • 句のベクトル𝒑𝒑と行列𝑃𝑃を再帰的に合成していく 𝒑𝒑 = 𝑓𝑓𝐴𝐴,𝐵𝐵 𝒂𝒂, 𝒃𝒃 = 𝑓𝑓 𝐵𝐵𝒂𝒂, 𝐴𝐴𝒃𝒃 = 𝑔𝑔 𝑊𝑊 𝐵𝐵𝒂𝒂 𝐴𝐴𝒃𝒃 𝑃𝑃 = 𝑓𝑓𝑀𝑀 𝐴𝐴, 𝐵𝐵 = 𝑊𝑊𝑀𝑀 𝐴𝐴 𝐵𝐵 • 句の評価極性や関係ラベルを教師信号として学習 𝒚𝒚𝑝𝑝 = softmax 𝑊𝑊label 𝒑𝒑 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 44 • Baroni+ (2010) の 行列による線形変 換の考え方をRNN に統合 • 各単語をベクトル と行列で表現
  • 45. Recursive Neural Tensor Network (Socher+ 2013) • MV-RNNは全ての単語が行列を持つので,学習す るパラメータが多すぎる 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 45 • テンソルで単語ベクト ルを行列に変換してか ら,単語ベクトルとの 積を計算
  • 46. Recurrent Neural Network (RNN) (Sutskever+ 2011) 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 46 very good movie 𝑥𝑥𝑡𝑡 𝑊𝑊(𝑥𝑥𝑥) ℎ𝑡𝑡 𝑊𝑊(ℎ𝑦𝑦) 𝑊𝑊(ℎℎ) 𝑊𝑊(ℎℎ) 𝑦𝑦𝑡𝑡 潜在変数: ℎ𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑥𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎℎ) ℎ𝑡𝑡−1 + 𝑏𝑏ℎ 出力: 𝑦𝑦𝑡𝑡 = 𝜎𝜎 𝑊𝑊(ℎ𝑦𝑦)ℎ𝑡𝑡 + 𝑏𝑏𝑦𝑦 Input vector Hidden vector (memory) Output vector:
  • 47. Long Short-Term Memory (LSTM) (Graves 2013) (単純化したもの) 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 47 very good movie 𝑥𝑥𝑡𝑡 𝑐𝑐𝑡𝑡 𝑦𝑦𝑡𝑡 Input gate Output gate Forget gate Forget gate • 各ゲートはマスクの役割を担う(ベクトルの要素ごとの積) • 各ゲートのマスクパターンを入力𝑥𝑥𝑡𝑡,記憶ℎ𝑡𝑡−1,出力𝑦𝑦𝑡𝑡−1などで制御する • 長い系列での誤差逆伝搬時の勾配消失をゲートで防止する(→長期依存の保存) • PFN得居さんの資料: http://www.slideshare.net/beam2d/pfi-seminar-20141030rnn
  • 48. LSTMもNNの一種 Input gate: 𝑖𝑖𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑥𝑥𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎ𝑖𝑖) ℎ𝑡𝑡−1 + 𝑊𝑊(𝑐𝑐𝑖𝑖) 𝑐𝑐𝑡𝑡−1 + 𝑏𝑏𝑖𝑖 Forget gate: 𝑓𝑓𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑥𝑥𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎ𝑓𝑓)ℎ𝑡𝑡−1 + 𝑊𝑊(𝑐𝑐𝑐𝑐) 𝑐𝑐𝑡𝑡−1 + 𝑏𝑏𝑓𝑓 Cell: 𝑐𝑐𝑡𝑡 = 𝑓𝑓𝑡𝑡 ⊙ 𝑐𝑐𝑡𝑡−1 + 𝑖𝑖𝑡𝑡 ⊙ tanh 𝑊𝑊(𝑥𝑥𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎ𝑐𝑐)ℎ𝑡𝑡−1 + 𝑏𝑏𝑐𝑐 Output gate: 𝑜𝑜𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑥𝑥𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎ𝑜𝑜)ℎ𝑡𝑡−1 + 𝑊𝑊(𝑐𝑐𝑐𝑐) 𝑐𝑐𝑡𝑡 + 𝑏𝑏𝑜𝑜 Hidden variable: ℎ𝑡𝑡 = 𝑜𝑜𝑡𝑡 ⊙ tanh 𝑐𝑐𝑡𝑡 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 48 Graves (2013) ⊗(数式中は⊙)は 要素ごとの積
  • 49. Tree-structured LSTM (Tai+ 2015) 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 49 http://kaishengtai.github.io/static/slides/treelstm-acl2015.pdf
  • 50. Stanford Sentiment Treebankでの評価 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 50 Tai+ (2015) (Tai+ 15)
  • 51. 我々の取り組み 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 51
  • 52. 統語的な関係を考慮した線形変換 (Muraoka+ 2014) • Mitchell+ (2010) の句ベクトル構成 𝒑𝒑 = 𝑓𝑓(𝒖𝒖, 𝒗𝒗, 𝑅𝑅, 𝐾𝐾) • 実際には,統語的な関係𝑅𝑅は使われない • RNNの行列を統語関係𝑅𝑅ごとに学習(𝑊𝑊𝑅𝑅) 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 52
  • 53. 関係パタンのデータ疎問題 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 53 cause lead to increase the risk of associate with increase the likelihood of cause an increase in 10回以上,100回未 満出現するフレーズ: 2,041,133件 100回以上出現するフレーズ: 326,810 件 ukWaCコーパス中に出現する名詞句・動詞句の出現頻度とその順位 関係パタンの認定基準(例 えば頻度のしきい値)を設 定するのが難しい
  • 54. SGNSとRNNの統合 (高瀬+ 2015) 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 54 prevent the initial growth of bacteriasoaps + x 内容語の意味 ベクトルの平均 機能語の 意味変換行列 構成性に基いて計算した 句の意味ベクトル 句(単語の連接)に対してベクトルを割り当てる 機能語(動詞の一部)に行列,内容語(名詞)にベクトルを割り当てる 予測 予測 予測予測 従来手法 提案手法 疎データ問題により,句の意味ベクトルの質が低下する 学習時に存在しなかった句の意味ベクトルを計算できない 動詞による意味の変性をモデル化できる(promote, preventなど) 学習時に存在しなかった句の意味を構成的に計算できる
  • 55. 平均による句ベクトル近似の理論解析 (田+ 2015) • 単語ベクトルの一般形として次式を考える 𝑚𝑚 𝑤𝑤,𝑐𝑐 = 𝛾𝛾 ⋅ 𝐹𝐹 𝑃𝑃 𝑐𝑐 𝑤𝑤 − 𝛼𝛼 𝑐𝑐 − 𝛽𝛽(𝑤𝑤) • PPMI, Skip-gram, GloVeはこの形で表される • 句𝑡𝑡1 𝑡𝑡2のベクトルは単語𝑡𝑡1, 𝑡𝑡2のベクトル平均で近似 1 2 𝒗𝒗𝑡𝑡1 + 𝒗𝒗𝑡𝑡2 • 句ベクトル近似の誤差のバウンドは, 𝒗𝒗𝑡𝑡1 𝑡𝑡2 − 1 2 𝒗𝒗𝑡𝑡1 + 𝒗𝒗𝑡𝑡2 ≤ 1 2 (𝜋𝜋1∖2 2 + 𝜋𝜋2∖1 2 + 𝜋𝜋1∖2 𝜋𝜋2∖1) • ただし,関数𝐹𝐹(𝑝𝑝)が満たすべき条件がつく • log 𝑝𝑝や 𝑝𝑝はOKだが, 𝑝𝑝や𝑝𝑝 log 𝑝𝑝では成り立たない 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 55 𝑡𝑡1が出現した後, 𝑡𝑡2が続かない確率 𝑡𝑡2が出現した前に 𝑡𝑡1が現れない確率
  • 56. 関数𝐹𝐹(𝑝𝑝)による近似誤差の違い(田+ 2015) • 横軸: 句を構成す る単語𝑡𝑡1, 𝑡𝑡2のコロ ケーションの弱さ 1 2 (𝜋𝜋1∖2 2 + 𝜋𝜋2∖1 2 + 𝜋𝜋1∖2 𝜋𝜋2∖1) • 縦軸: 実際にコー パスから求めた句 ベクトルとの誤差 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 56
  • 57. まとめ • SGNSで単語の分散表現の研究が活性化 • 新手法や理論解析の研究が進む • タスクや実験設定に応じたチューニングが必要 • 単語の分散表現だけでの改善は終焉に向かう? • 構成性原理に基づく句の分散表現学習 • 色々なアーキテクチャが提案・検討される • 翻訳,対話,文生成などにLSTMが応用される • 今後の課題 • 様々なタスクでNNを使いこなす • 研究サイクルの加速 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 57
  • 58. さらに詳しく知りたい方は(宣伝)… • 岩波データサイエンス vol. 2『自然言語処 理』(統数研・持橋さん,サイボウズ・ラ ボ・中谷さん監修)(来年発刊予定) • 人工知能2016年3月号 特集『ニューラル ネットワーク研究の最前線(仮)』 • 画像処理,言語処理,音声処理,ロボット,実 装など6件の特集記事を予定 • PFN・得居さんのChainer解説も! 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 58
  • 59. 参考文献 (1/2) • M Baroni and R Zamparelli. 2010. Nouns are vectors, adjectives are matrices: representing adjective-noun constructions in semantic space. In EMNLP 2010, pp. 1183-1193. • J Bullinaria and J Levy. 2007. Extracting semantic representations from word co-occurrence statistics: A computational study. Behavior Research Methods, 39:510–526. • S Cohen, M Collins, D Foster, K Stratos, L Ungar. 2013. Spectral Learning Algorithms for Natural Language Processing. In NAACL 2013 tutorial. • S Deerwester, S Dumais, G Furnas, T Landauer, R Harshman. 1990. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6):391-407. • J Firth. 1957. A synopsis of linguistic theory 1930-1955. In Studies in Linguistic Analysis, pp. 1-32. • D Foster, R Johnson, S Kakade, T Zhang. 2009. Multi-View Dimensionality Reduction via Canonical Correlation Analysis. Tech Report. • A Graves. 2013. Generating Sequences with Recurrent Neural Networks. arXiv.org. • Z Harris. 1954. Distributional structure. Word, 10(23):146-162. • G Hinton, J McClelland, and D Rumelhart. 1986. Distributed representations. In Parallel distributed processing: Explorations in the microstructure of cognition, Volume I. Chapter 3, pp. 77-109, Cambridge, MA: MIT Press. • O Levy and Y Goldberg. 2014. Neural word embedding as implicit matrix factorization. NIPS 2014, pp. 2177–2185. • O Levy, Y Goldberg, and I Dagan. 2015. Improving distributional similarity with lessons learned from word embeddings. TACL, 3:211-225. • T Mikolov, K Chen, G Corrado, and J Dean. 2013. Efficient estimation of word representations in vector space. In Proceedings of Workshop at ICLR, 2013. • T Mikolov, I Sutskever, K Chen, G Corrado, and J Dean. 2013. Distributed representations of words and phrases and their compositionality. In NIPS 2013, pp. 3111–3119. 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 59
  • 60. 参考文献 (2/2) • J Mitchell and M Lapata. 2010. Composition in distributional models of semantics. Cognitive Science, 34:1388–1429. • M Muraoka, S Shimaoka, K Yamamoto, Y Watanabe, N Okazaki, K Inui. 2014. Finding The Best Model Among Representative Compositional Models. In PACLIC 28, pp. 65-74. • J Pennington, R Socher, and C Manning. 2014. Glove: Global vectors for word representation. In EMNLP 2014, pp. 1532–1543. • T Schnabel, I Labutov, D Mimno, T Joachims. Evaluation methods for unsupervised word embeddings. In EMNLP 2015, pp. 298-307. • R Socher, J Pennington, E Huang, A Ng, and C Manning. 2011. Semi-supervised recursive autoencoders for predicting sentiment distributions. EMNLP 2011, pp. 151-161. • R Socher, B Huval, C Manning and A Ng. 2012. Semantic compositionality through recursive matrix-vector spaces. EMNLP 2012, pp. 1201-1211. • R Socher, A Perelygin, J Wu, J Chuang, C Manning, A Ng and C Potts. Recursive deep models for semantic compositionality over a sentiment treebank. EMNLP 2013, pp. 1631-1642. • K Stratos, M Collins, D Hsu. 2015. Model-based Word Embeddings from Decompositions of Count Matrices. In ACL- IJCNLP 2015, pp. 1282-1291. • I Sutskever, J Martens, G Hinton. 2011. Generating text with recurrent • neural networks. In ICML 2011, pp. 1017-1024. • K Tai, R Socher, C Manning. 2015. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. In ACL-IJCNLP 2015, pp. 1556-1566. • 高瀬, 岡崎, 乾. 2015. 構成性に基づく関係パタンの意味計算. 言語処理学会第21回年次大会, pp.640-643. • 田, 岡崎, 乾. 2015. 対数的共起ベクトルの加法構成性. 情報処理学会研究報告, 2015-SLP-106(14), pp. 1-12. 2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッション と自然言語処理 60