単語・句の分散表現の学習

単語・句の分散表現の学習
東北大学大学院情報科学研究科
岡崎直観（okazaki@ecei.tohoku.ac.jp）
http://www.chokkan.org/
@chokkanorg
2015-11-25 WebDB Forum 2015 3: Deep Learning特別セッションと自然言語処理 1

辞書で単語の意味を記述

辞書にも限界がある: 固有名詞
会社の「Apple」の意味は収録されない

辞書にも限界がある: 新語・新語義

辞書にも限界がある: 句の意味
“apple tea”, ”apple production”, “apple shape”
(腹部肥満) などは辞書に収録されていない

分散表現 (Hinton+ 1986)
• 局所表現（local representation）
• 各概念に１つの計算要素 (記号, ニューロン, 次元) を割り当て
• 分散表現（distributed representation）
• 各概念は複数の計算要素で表現される
• 各計算要素は複数の概念の表現に関与する
バス萌えバス
… …
#2948
… …
#19023840334
バス萌えバス萌えトラック
ニューロンの
興奮パターン
≒ベクトル表現
http://ja.wikipedia.org/wiki/富士急山梨バス http://saori223.web.fc2.com/

分散表現の効果: NNへの埋め込み
http://devblogs.nvidia.com/parallelforall/introduction-neural-machine-translation-gpus-part-2/
翻訳元言語の各
単語をベクトル
に変換する部分
（ニューラルネットワークに基づく機械翻訳の例）

概要
•イントロダクション（5分）
•単語の分散表現の学習（20分）
• 単語の意味をよく反映する分散表現の学習法
•句の分散表現の学習（10分）
• 単語の分散表現から句や文の分散表現へ
•我々の取り組み（5分）

単語の分散表現の学習

分布仮説 (Harris 1954; Firth 1957)
You shall know a word by the company it keeps
… packed with people drinking beer or wine. Many restaurants …
into alcoholic drinks such as beer or hard liquor and derive …
… in miles per hour, pints of beer, and inches for clothes. M…
…ns and for pints for draught beer, cider, and milk sales. The
carbonated beverages such as beer and soft drinks in non-ref…
…g of a few young people to a beer blast or fancy formal part…
…c and alcoholic drinks, like beer and mead, contributed to a…
People are depicted drinking beer, listening to music, flirt…
… and for the pint of draught beer sold in pubs (see Metricat…
beer
beer
beer
beer
beer
beer
beer
beer
beer
… ith people drinking beer or wine. Many restaurants can be f…
…gan to drink regularly, host wine parties and consume prepar…
principal grapes for the red wines are the grenache, mourved…
… four or more glasses of red wine per week had a 50 percent …
…e would drink two bottles of wine in an evening. According t…
…. Teran is the principal red wine grape in these regions. In…
…a beneficial compound in red wine that other types of alcohol
… Colorino and even the white wine grapes like Trebbiano and …
In Shakesperean theatre, red wine was used in a glass contai…
wine
wine
wines
wine
wine
wine
wine
wine
wine

単語文脈行列
beer
wine
car
ride
have
new
drink
bottle
train
book
speed
read
36
108
578
291
841
14
14
284
94
201
72
92
3
3
0
57
86
2
0
0
3
0
37
72
2
0
1
44
43
1
1
2
3
2
338
単
語
文
脈
コ
ー
パ
ス
中
の
単
語
（例）単語の前後ℎ語に出現する単語
𝑛𝑛列
𝑚𝑚
行
𝑚𝑚𝑖𝑖,𝑗𝑗 = #(𝑖𝑖, 𝑗𝑗): 単語𝑖𝑖と文脈𝑗𝑗の共起頻度
（例: trainとdrinkは3回共起） “beer”の意味を表すベクトル
（𝑀𝑀𝑖𝑖で表す）

単語の類似度
• 単語の意味ベクトル𝑀𝑀𝑖𝑖, 𝑀𝑀𝑗𝑗のコサイン類似度
cos 𝜃𝜃 =
𝑀𝑀𝑖𝑖�𝑀𝑀𝑗𝑗
𝑀𝑀𝑖𝑖 𝑀𝑀𝑗𝑗
（𝜃𝜃: 𝑀𝑀𝑖𝑖と𝑀𝑀𝑗𝑗のなす角）
• beerとwine
•
𝑀𝑀beer�𝑀𝑀wine
𝑀𝑀beer 𝑀𝑀wine
= 0.941
• beerとtrain
•
𝑀𝑀beer�𝑀𝑀train
𝑀𝑀beer 𝑀𝑀train
= 0.387
beer
wine
car
ride
have
new
drink
bottle
train
book
speed
read
36
108
578
291
841
14
14
284
94
201
72
92
3
3
0
57
86
2
0
0
3
0
37
72
2
0
1
44
43
1
1
2
3
2
338
単
語
文
脈

正の相互情報量 (PPMI) (Bullinaria+ 2007)
𝑚𝑚𝑖𝑖,𝑗𝑗 = max 0, log
𝑃𝑃(𝑖𝑖, 𝑗𝑗)
𝑃𝑃 𝑖𝑖 𝑃𝑃(𝑗𝑗)
= max 0, log #(𝑖𝑖, 𝑗𝑗) + log #(∗,∗) − log #(∗, 𝑗𝑗) − log #(𝑖𝑖,∗)
beer
wine
car
ride
have
new
drink
bottle
train
book
speed
read
0
0
0.09
0.03
0.09
0
0
0.49
0.02
0
2.04
1.78
0
0
0
1.97
1.87
0
0
0
0
0
0.13
1.43
0
0
0
0.55
1.16
0
0
0
0
0
0.85
単
語
文
脈
頻出する単語・文脈の影響を軽減
𝑃𝑃 𝑖𝑖, 𝑗𝑗 = #(𝑖𝑖, 𝑗𝑗)/#(∗,∗), 𝑃𝑃 𝑖𝑖 = #(𝑖𝑖,∗)/#(∗,∗), 𝑃𝑃(𝑗𝑗) = #(∗, 𝑗𝑗)/#(∗,∗)
#(𝑖𝑖,∗) = ∑𝑗𝑗 #𝑖𝑖,𝑗𝑗 ,#(∗, 𝑗𝑗) = ∑𝑖𝑖 #𝑖𝑖,𝑗𝑗 ,#(∗,∗) = ∑𝑖𝑖,𝑗𝑗 #𝑖𝑖,𝑗𝑗
cos(beer,wine)
= 0.99
cos(beer,train)
= 0.00

潜在意味解析 (LSA) (Deerwester, 1990)
• 単語文脈行列𝑀𝑀を特異値分解 (SVD)
𝑀𝑀 = 𝑈𝑈 Σ 𝑉𝑉T
• 𝑑𝑑(< 𝑟𝑟)個の特異値でΣを近似（𝑟𝑟: 𝑀𝑀のランク）
𝑀𝑀𝑑𝑑 = 𝑈𝑈 Σ𝑑𝑑 𝑉𝑉T （低ランク近似）
（ランク𝑑𝑑の行列の中で 𝑀𝑀 − 𝑀𝑀𝑑𝑑 が最小のもの）
• 𝑈𝑈Σ𝑑𝑑を𝑑𝑑次元単語ベクトルとして用いる
𝑀𝑀𝑑𝑑 𝑀𝑀𝑑𝑑
𝑇𝑇
= 𝑈𝑈Σ𝑑𝑑 𝑉𝑉T 𝑈𝑈Σ𝑑𝑑 𝑉𝑉T T
= 𝑈𝑈Σ𝑑𝑑 𝑈𝑈Σ𝑑𝑑
T
𝑀𝑀𝑑𝑑の類似度（内積）は𝑈𝑈Σ𝑑𝑑の内積に等しい
(𝑚𝑚 × 𝑛𝑛) (𝑚𝑚 × 𝑚𝑚)(𝑚𝑚 × 𝑛𝑛)(𝑛𝑛 × 𝑛𝑛)
𝑈𝑈: ユニタリ行列
Σ: 特異値を対角成分とする対角行列
𝑉𝑉T
: ユニタリ行列

SVDによる次元圧縮の実行例
(単語文脈行列𝑀𝑀を特異値分解し, 𝑑𝑑 = 3で低ランク近似)
3個の特異値
で打ち切る
計算に関与するのは
3列目まで
計算に関与する
のは3行目まで
（元の行列を特異値分解）（元の行列の3ランク近似）
beer
wine
car
train
book
• 実際には行列𝑀𝑀の上位𝑑𝑑個の特異値を効率よく求める手法を用いる（Truncated SVD）
• redsvd: https://code.google.com/p/redsvd/
cos(beer,wine)
= 0.96
cos(beer,train)
= 0.37

Skip-gram with Negative Sampling (SGNS)
(Mikolov+ 2013)
draughtofferpubs beer, cider, and wine
last
use
place
people
make
city
full
know
build
time
group
have
new
game
rather
age
show
take
take
team
season
say
個
の
単
語
を
ユ
ニ
グ
ラ
ム
分
布
か
ら
サ
ン
プ
リ
ン
グ
し
，
こ
れ
ら
が
予
測
さ
れ
な
い
よ
う
に
更
新
（
負
例
）
個
の
文
脈
語
を
予
測
す
る
よ
う
に
更
新
同じ単語がサン
プルされること
もあり得る
単語ベクトル𝒗𝒗𝑤𝑤 (𝑑𝑑次元)
文脈ベクトル�𝒗𝒗𝑐𝑐 (𝑑𝑑次元)
: 内積 → +∞ へ
: 内積 → −∞ へ
ベクトルの更新方針
コーパス
（文脈幅ℎ = 2, 負例サンプル数𝑘𝑘 = 1の場合の例）

ベクトルの更新方法（確率的勾配降下法）
• 初期化:
• 𝑡𝑡 ← 0
• 単語ベクトル（）: [0,1]の乱数で初期化
• 文脈ベクトル（）: 0で初期化
• 学習データの先頭から末尾の単語まで…
• 𝑡𝑡 ← 𝑡𝑡 + 1
• 学習率𝛼𝛼 = 𝛼𝛼0 1 −
𝑡𝑡
𝑇𝑇+1
を計算
• その単語とまたはで結ばれるに関して
•
•
•
𝑔𝑔 =
1 − 𝜎𝜎 ⋅ 内積 → +∞にしたいとき
𝜎𝜎 ⋅ 内積 → −∞にしたいとき
← + 𝛼𝛼𝑔𝑔
← + 𝛼𝛼𝑔𝑔
𝛼𝛼0: 初期学習率（例えば0.025）
𝑇𝑇: 単語の総出現回数
(Mikolov+ 2013)

SGNSの目的関数
• 目的関数（対数尤度最大化）
• 𝑃𝑃(𝑐𝑐|𝑤𝑤)はlog-bilinearモデル
• 𝑃𝑃(𝑐𝑐|𝑤𝑤)をロジスティック回帰でモデル化
𝐽𝐽 = − �
𝑤𝑤∈𝐷𝐷
�
𝑐𝑐∈𝐶𝐶𝑤𝑤
log 𝑃𝑃(𝑐𝑐|𝑤𝑤)
𝑃𝑃 𝑐𝑐 𝑤𝑤 =
exp 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐
∑𝑐𝑐′ exp(𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐′)
log 𝑃𝑃 𝑐𝑐 𝑤𝑤 ≈ log 𝜎𝜎 𝒗𝒗𝑤𝑤 ⋅ �𝒗𝒗𝑐𝑐 + 𝑘𝑘 � Ε
𝑟𝑟∼𝑃𝑃𝑛𝑛
log 𝜎𝜎 −𝒗𝒗𝑤𝑤 ⋅ �𝒗𝒗𝑟𝑟
ユニグラム分布𝑃𝑃𝑛𝑛から単語𝑟𝑟を𝑘𝑘回サンプリング
𝐷𝐷: コーパス（単語列）
𝐶𝐶𝑤𝑤: 単語𝑤𝑤の前後±ℎの範囲に出現する語
コーパス中の全文脈𝑐𝑐′
に関する
内積のexp和で正規化したいが，
計算が重たすぎる
単語𝑤𝑤から周辺の語𝑐𝑐 ∈ 𝐶𝐶𝑤𝑤を予測する確率
(Mikolov+ 2013)

アナロジータスクでの評価
Mikolov+ (2013)
Semanticの例: Athens Greece Tokyo Japan
Syntacticの例: cool cooler deep deeper
(Mikolov+ 2013)

SGNSで学習した分散表現は加法構成性を持つ？
• 有名な例: king − man + woman ≈ queen
(Mikolov+ 2013)
国名と首都名が同じ向きに並ぶ
(Mikolov+ 2013)

SGNSはShifted PMIと等価 (Levy+ 2014)
• SGNSは以下の共起行列をモデル化
𝑚𝑚𝑤𝑤,𝑐𝑐 = PMI 𝑤𝑤, 𝑐𝑐 − log 𝑘𝑘 ≈ 𝒗𝒗𝑤𝑤
• 単語と文脈の共起をPMIで計測して，単語埋め
込み（低次元ベクトル）を構成するのに近い
• 加法構成性はSGNS以前でも，PMIを用いた
従来手法で実現できていた！
PMIを負の方向へシフトする項

Shifted PMIの導出
コーパス中の共起回数#(𝑤𝑤, 𝑐𝑐)や出現頻度#(𝑤𝑤)を用いてSGNSの目的関数を変形すると，
𝐽𝐽 = − �
𝑤𝑤∈𝐷𝐷
�
𝑐𝑐∈𝐶𝐶𝑤𝑤
log 𝜎𝜎 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐 − 𝑘𝑘 � Ε
log 𝜎𝜎 −𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑟𝑟 =
= − �
𝑤𝑤∈𝑉𝑉𝑤𝑤
�
𝑐𝑐∈𝑉𝑉𝑐𝑐
#(𝑤𝑤, 𝑐𝑐) log 𝜎𝜎 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐 − �
𝑤𝑤∈𝑉𝑉𝑤𝑤
#(𝑤𝑤) ⋅ 𝑘𝑘 � Ε
𝑇𝑇 �𝒗𝒗𝑟𝑟
期待値の部分を明示的に計算すると，
Ε
𝑇𝑇 �𝒗𝒗𝑟𝑟 = �
𝑟𝑟∈𝑉𝑉𝑐𝑐
#(𝑟𝑟)
|𝐷𝐷|
𝑇𝑇 �𝒗𝒗𝑟𝑟 =
#(𝑐𝑐)
|𝐷𝐷|
𝑇𝑇 �𝒗𝒗𝑐𝑐 + �
𝑟𝑟∈𝑉𝑉𝑐𝑐∖{𝑐𝑐}
#(𝑟𝑟)
|𝐷𝐷|
𝑇𝑇 �𝒗𝒗𝑟𝑟
目的関数のうち，𝑤𝑤と𝑐𝑐に関する部分だけを取り出すと，
𝑙𝑙 𝑤𝑤, 𝑐𝑐 = −#(𝑤𝑤, 𝑐𝑐) log 𝜎𝜎 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐 − # 𝑤𝑤 ⋅ 𝑘𝑘 ⋅
#(𝑐𝑐)
|𝐷𝐷|
𝑥𝑥 = 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐として，𝑙𝑙 𝑤𝑤, 𝑐𝑐 を𝑥𝑥で偏微分して0とおくと，
𝜕𝜕𝑙𝑙( 𝑤𝑤, 𝑐𝑐)
𝜕𝜕𝑥𝑥
= −#(𝑤𝑤, 𝑐𝑐)𝜎𝜎 −𝑥𝑥 + 𝑘𝑘# 𝑤𝑤
#(𝑐𝑐)
𝐷𝐷
𝜎𝜎 𝑥𝑥 = # 𝑤𝑤, 𝑐𝑐 𝜎𝜎 𝑥𝑥 − 1 + 𝑘𝑘# 𝑤𝑤
#(𝑐𝑐)
𝐷𝐷
𝜎𝜎 𝑥𝑥 = 0
等式を整理すると，
1 +
𝑘𝑘#(𝑤𝑤)#(𝑐𝑐)
𝐷𝐷 #(𝑤𝑤, 𝑐𝑐)
𝜎𝜎 𝑥𝑥 = 1 ⇔ exp −𝑥𝑥 =
したがって，
𝑥𝑥 = 𝒗𝒗𝑤𝑤
𝑇𝑇 �𝒗𝒗𝑐𝑐 = log
= log
#(𝑤𝑤)#(𝑐𝑐)
− log 𝑘𝑘 = PMI 𝑤𝑤, 𝑐𝑐 − log 𝑘𝑘
(Levy+ 2014)

GloVe (Pennington+ 2014)
(最小二乗法による単語ベクトルの学習)
𝐽𝐽 = �
𝑖𝑖,𝑗𝑗=1
𝑉𝑉
𝑓𝑓(𝑚𝑚𝑖𝑖,𝑗𝑗) (𝒗𝒗𝑖𝑖
𝑇𝑇
�𝒗𝒗𝑗𝑗 + 𝑏𝑏𝑖𝑖 + �𝑏𝑏𝑗𝑗 − log 𝑚𝑚𝑖𝑖,𝑗𝑗)2
目的関数:
𝑓𝑓 𝑥𝑥 =
(𝑥𝑥/𝑥𝑥max)𝛼𝛼 (if 𝑥𝑥 < 𝑥𝑥max)
1 (otherwise)
単語𝑖𝑖と単語𝑗𝑗の共起頻度単語の総数
単語𝑖𝑖のベクトル
文脈𝑗𝑗のベクトル‘
単語𝑖𝑖のバイアス項
単語𝑗𝑗のバイアス項’
1系統
2系統
※各単語に対してパラメタが2系統あるのは
SGNSと同様．本研究は単語𝑖𝑖のベクトルを
最終的に(𝒗𝒗𝑖𝑖 + �𝒗𝒗𝑖𝑖)とする（精度が向上する）
𝑥𝑥 𝑚𝑚𝑚𝑚𝑚𝑚 = 100, α = 0.75 の場合 →
AdaGrad
(SGD)で学習

正準相関分析による学習 (Stratos+ 2015)
• 確率変数（ベクトル）𝑋𝑋, 𝑌𝑌を次のように定義
• 𝑋𝑋 ∈ ℝ𝑛𝑛: 単語の出現を表すone-hotベクトル
• 𝑌𝑌 ∈ ℝ𝑛𝑛′
: 文脈の出現を表すone-hotベクトル
• 𝑋𝑋, 𝑌𝑌 のサンプルの作成例（文脈幅ℎ = 2の場合）
Teran is the principal red wine grape in the Slovenian Littoral wine region.
wineの文脈語
𝑥𝑥(𝑖𝑖)
, 𝑦𝑦(𝑖𝑖)
𝑖𝑖=1
4
=
0
⋮
1
⋮
⋮
⋮
⋮
⋮
⋮
0
,
0
⋮
⋮
⋮
⋮
⋮
1
⋮
⋮
0
,
0
⋮
1
⋮
⋮
⋮
⋮
⋮
⋮
0
,
0
⋮
⋮
1
⋮
⋮
⋮
⋮
⋮
0
,
0
⋮
1
⋮
⋮
⋮
⋮
⋮
⋮
0
,
0
⋮
⋮
⋮
⋮
⋮
⋮
⋮
1
0
,
0
⋮
1
⋮
⋮
⋮
⋮
⋮
⋮
0
,
0
⋮
⋮
⋮
1
⋮
⋮
⋮
⋮
0
Wineの次元
redの次元
inの次元
principalの次元
grapeの次元
単語=wineのとき（wine以外
の単語にも繰り返し適用する）

正準相関分析 Canonical Correlation Analysis (CCA)
• 入力: 確率変数（ベクトル）𝑋𝑋 ∈ ℝ𝑛𝑛
, 𝑌𝑌 ∈ ℝ𝑛𝑛′
• 出力: 射影ベクトル 𝑎𝑎1, … , 𝑎𝑎 𝑚𝑚 ∈ ℝ𝑛𝑛
, 𝑏𝑏1, … , 𝑏𝑏𝑚𝑚 ∈ ℝ𝑛𝑛′
• ただし，𝑚𝑚 ≤ min(𝑛𝑛, 𝑛𝑛′
) とする
• 𝑖𝑖 = 1, … , 𝑚𝑚に関して𝑎𝑎𝑖𝑖, 𝑏𝑏𝑖𝑖は以下の条件を満たす
𝑎𝑎𝑖𝑖, 𝑏𝑏𝑖𝑖 = argmax
𝑎𝑎∈ℝ𝑛𝑛,𝑏𝑏∈ℝ𝑛𝑛′
Cor(𝑎𝑎T 𝑋𝑋, 𝑏𝑏T 𝑌𝑌)
Cor 𝑎𝑎𝑖𝑖
T
𝑋𝑋, 𝑎𝑎𝑗𝑗
T
𝑋𝑋 = 0 (∀𝑗𝑗 < 𝑖𝑖)
Cor 𝑏𝑏𝑖𝑖
T
𝑌𝑌, 𝑏𝑏𝑗𝑗
T
𝑌𝑌 = 0 (∀𝑗𝑗 < 𝑖𝑖)
• Corはピアソン相関係数
Cor 𝐿𝐿, 𝑅𝑅 ≡
𝔼𝔼 𝐿𝐿𝐿𝐿 −𝔼𝔼 𝐿𝐿 𝔼𝔼 𝑅𝑅
𝔼𝔼 𝐿𝐿2 −𝔼𝔼 𝐿𝐿 2 𝔼𝔼 𝑅𝑅2 −𝔼𝔼 𝑅𝑅 2
𝑎𝑎𝑖𝑖と𝑏𝑏𝑖𝑖で射影後の確率変数の相関を最大化
以前の射影とは無相関な射影を求める
−1 (逆相関) … 0 (無相関) … 1 (正相関)
相関係数の値は[−1,1]
(Stratos+ 2015)

正準相関分析による次元圧縮
• 𝑚𝑚個の射影ベクトルで𝑋𝑋と𝑌𝑌を求める
𝑋𝑋 = 𝑎𝑎1, … , 𝑎𝑎 𝑚𝑚
T 𝑋𝑋
𝑌𝑌 = 𝑏𝑏1, … , 𝑏𝑏𝑚𝑚
T 𝑌𝑌
• 𝑋𝑋と𝑌𝑌を相関係数が最大になるように，それぞれ
を共通の空間（𝑚𝑚次元ベクトル）に写像する
• 𝑚𝑚 ≪ min(𝑛𝑛, 𝑛𝑛′)と設定すれば次元を大幅に削減
(Stratos+ 2015)

正準相関分析による次元圧縮のイメージ
(Cohen+ 2013)
• ナイーブベイズによる生成モデル
𝑃𝑃 𝑋𝑋 = 𝑥𝑥, 𝑌𝑌 = 𝑦𝑦 = �
ℎ=1
𝑚𝑚
𝑃𝑃 ℎ 𝑃𝑃 𝑥𝑥 ℎ 𝑃𝑃(𝑦𝑦|ℎ)
𝑀𝑀𝑖𝑖𝑖𝑖 ≈ �
ℎ=1
𝑚𝑚
𝜎𝜎ℎ 𝑈𝑈𝑖𝑖 𝑖 𝑉𝑉𝑗𝑗𝑗
T
• 隠れ変数ℎの次元を𝑚𝑚とする
• 𝑋𝑋と𝑌𝑌をCCAで𝑚𝑚次元に射影する（𝑋𝑋と𝑌𝑌を得る）
• 定理 (Foster+ 09): 隠れ変数ℎの推定に関して，
射影された𝑋𝑋と𝑌𝑌は，元々のサンプル𝑋𝑋と𝑌𝑌と同
じ能力を持つ
(Stratos+ 2015)
ℎ
𝑥𝑥 𝑦𝑦
（特異値分解に
似ている！）

結局は特異値分解になる
• CCAは以下の行列�Ω 𝑤𝑤,𝑐𝑐の特異値分解に帰着される
�Ω𝑤𝑤,𝑐𝑐 =
#(𝑤𝑤, 𝑐𝑐)1/2
#(𝑤𝑤,∗)1/2#(∗, 𝑐𝑐)1/2
• 正準相関分析とBrownのモデルから行列�Ω 𝑤𝑤,𝑐𝑐を導出
• 経験則だった1/2乗を分散安定化の観点から説明
• 頻度カウントの変換法と単語文脈行列の計算法の
組み合わせで既存手法をテンプレート化
• SGNSやGloVeと比較して同程度の性能を報告
(Stratos+ 2015)

分散表現学習のトリック (Levy+ 15)
説明実験に用いた値 PPMI SVD SGNS GloVe
win 文脈長（ℎ） ℎ ∈ {2, 5, 10}    
dyn 重み付き文脈 with(𝑙𝑙/ℎ), none     *1
sub サブサンプリング with, none    
del 低頻度語の削除 with, none    
neg 負例サンプル数 𝑘𝑘 ∈ {1, 5, 15}  *2  *2 
cds 文脈分布の補正 α ∈ {1, 0.75}  *3  *3 
w+c ベクトルの和 𝒗𝒗 𝑤𝑤, (𝒗𝒗𝑤𝑤 + �𝒗𝒗 𝑤𝑤)   
eig 特異値の重み付け 𝑝𝑝 ∈ {0, 0.5, 1.0} 
nrm 正規化 *4
both, col, row, none    
*1: word2vec方式の重み付けを採用
*2: Shifted PPMIとして設定
*3: PMIの分母を改変することで対応
*4: 単語ベクトル毎に正規化するのが最も良かった
前処理のパラメータ関連度計算のパラメータ後処理のパラメータ

分散表現学習の「通説」を検証
• Count-basedよりPrediction-basedの方がよい？
• 違う（オールラウンドな勝者はない）
• GloVeはSGNSよりもよい？
• 違う（実験結果から）
• おそらくw+c，評価データ，学習コーパスに依存していた
• アナロジーにおいてPPMIとSGNSの性能は同じ？
• 違う（実験ではSGNSがPPMIを上回っていた）
• おそらくsyntactic analogyにおいて，機能語が重要な役割を果た
していて，PPMIが機能語の文脈情報を削り過ぎるから？
• 3CosMulは3CosAddよりもよい？
• そのようだ
(Levy+ 15)

分散表現学習のtips
• 常に文脈分布の補正（cds=0.75）を使え
• SVDでは対称性を確保せよ（eig=0 or 0.5）
• Shifted PPMIでneg > 1は効果がない
• SGNSは頑健なベースライン手法
• どのタスクでも大負けはしない
• 学習がエコ（高速・メモリを消費しない）
• SGNSでは負例サンプル数negは多い方がよい
• SGNSとGloVeではw+cを試す価値はある
• 性能が劇的に向上するが，悪くなるケースもある
(Levy+ 15)

分散表現の評価を検証 (Schnabel+ 15)
• 手法の優劣は評価設定でばらつく
• 手法の優劣はタスクでもばらつく
• タスクを解くことがゴールなら，そのタスクに
特化して分散表現をチューニングすべき
• 単語の分散表現は頻度情報を保持している
• 分散表現から出現頻度を予測できる！
• 頻度の順位と近傍の順位には相関がある！
(Schnabel+ 15)

評価設定による優劣のばらつき
(Schnabel+ 15)
順位が入
れ替わる
タスク:
クエリ単語に
対して各手法
が出力した類
似単語をワー
カーに見せ，
最も似ている
単語を選ぶ

タスクによる優劣のばらつき
• タスクによって分散表現の優劣が異なる
• 全てのタスクに対して最良な分散表現は無い
• タスクの性能が必要であれば，タスクに従って
分散表現をチューニングすべき
(Schnabel+ 15)

分散表現は頻度をエンコードしている
• （正規化済の）単語ベクトルを素性とする線形識別器で
単語の頻度が閾値以上かどうか予測できる (Figure 3)
• 𝑘𝑘近傍単語と頻度のランキングに相関がある（Figure 4）
• 評価サンプルのコーパス中の出現頻度が実験結果に影響を与える
(Schnabel+ 15)

単語の分散表現学習のまとめ
• Mikolov (2013) 以降，研究が急増
• 理論的な解析が進む
• 2015年も数多くの手法が提案されている
• NNの単語埋め込みとして有用
• 教師なし学習で単語の分散表現を学習できる
• ある程度の優劣はあるが，全てのタスクに
おいて最良な分散表現は存在しない
• タスクに応じてチューニングする必要がある

句ベクトルの学習

句や文の分散表現の学習
• 単語の分散表現の学習は分布仮説に基づく
• 周辺文脈の分布で単語の意味を表現
• 句や文の分散表現も分布仮説で学習できる？
• 仮説そのものは通用するはず
• コーパス中で同じ句や文が出現することは稀
• データ疎問題により学習効率が著しく低下
• 句や文の分散表現を構成性の原理で計算
• 句や文の意味は，その構成要素の意味とその合成
手続きから計算できる

句ベクトルの合成 (Mitchell+ 2010)
• 構成性の原理に基づき一般的な式を導入
𝒑𝒑 = 𝑓𝑓(𝒖𝒖, 𝒗𝒗, 𝑅𝑅, 𝐾𝐾)
• 𝒖𝒖, 𝒗𝒗: ２つの単語に対応するベクトル
• 𝑓𝑓: ベクトルから句ベクトルを合成する関数
• 𝑅𝑅: 𝒖𝒖と𝒗𝒗の間の文法的な関係 (Partee 1995)
• 𝐾𝐾: 合成に必要な背景知識 (Lakoff 1977)
• ※ 実際に実験した式の一般性はかなり狭い

句ベクトルの正解データ
• BNCコーパスから抽出された句のペア
• 対象: 形容詞-名詞，名詞-名詞，動詞-目的語
• 108ペアに18人の類似性判定が付与されている
• 句のペアの類似性の判定基準
• 6-7点: 類似性が高いもの
• professional advise - expert opinion
• 3-5点: 違うものではあるが関連はあるもの
• human behavior – social activity
• 1-2点: 無関係のもの
• Increasing taxation – public protest
(Mitchell+ 2010)

句ベクトル合成の実験結果
（スピアマンの順位相関係数; 単語ベクトルはlogを取らないPMI）
Model Function JJ-NN NN-NN VB-NN
Additive 𝑝𝑝𝑖𝑖 = 𝑢𝑢𝑖𝑖 + 𝑣𝑣𝑖𝑖 .36 .39 .30
Kintsch 𝑝𝑝𝑖𝑖 = 𝑢𝑢𝑖𝑖 + 𝑣𝑣𝑖𝑖 + 𝑛𝑛𝑖𝑖 .32 .22 .29
Multiplicative 𝑝𝑝𝑖𝑖 = 𝑢𝑢𝑖𝑖 ⋅ 𝑣𝑣𝑖𝑖 .46 .49 .37
Tensor product 𝑝𝑝𝑖𝑖,𝑗𝑗 = 𝑢𝑢𝑖𝑖 ⋅ 𝑣𝑣𝑖𝑖 .41 .36 .33
Circular convolution 𝑝𝑝𝑖𝑖 = ∑𝑗𝑗 𝑢𝑢𝑖𝑖 ⋅ 𝑣𝑣 𝑖𝑖−𝑗𝑗 mod 𝑛𝑛 .09 .05 .10
Weighted additive 𝑝𝑝𝑖𝑖 = 𝛼𝛼𝑢𝑢𝑖𝑖 + 𝛽𝛽𝑣𝑣𝑖𝑖 .44 .41 .34
Dilation 𝑝𝑝𝑖𝑖 = 𝑣𝑣𝑖𝑖 ∑𝑗𝑗 𝑢𝑢𝑗𝑗 𝑢𝑢𝑗𝑗 + (𝜆𝜆 − 1)𝑢𝑢𝑖𝑖 ∑𝑗𝑗 𝑢𝑢𝑗𝑗 𝑣𝑣𝑗𝑗 .44 .41 .38
Head only 𝑝𝑝𝑖𝑖 = 𝑣𝑣𝑖𝑖 .43 .34 .29
Target unit 𝑝𝑝𝑖𝑖 = 𝑣𝑣𝑖𝑖(𝑡𝑡1 𝑡𝑡2) .43 .17 .24
Human .52 .49 .55
• dilation, multiplicative, (weighted) additiveあたりがよい性能
(Mitchell+ 2010)

線形変換による句ベクトル合成 (Baroni+ 2010)
• 加法構成性で良さそうな合成
• red plastic: red + plastic
• 加法構成性ではまずそうな合成
• fake gun (←これはgunではない)
• 形容詞+名詞の合成において，名詞をベク
トル，形容詞を線形変換行列で表現する
𝒑𝒑 = 𝐵𝐵𝒗𝒗
• 行列𝐵𝐵は形容詞ごとに用意
• 形容詞+名詞の句ベクトルをコーパスから求め，
そのベクトルを構成出来るように行列𝐵𝐵を学習

Recursive Neural Network (RNN)
(Socher+ 2011)
• 句ベクトルを次式で合成
𝒑𝒑 = 𝑓𝑓 𝒖𝒖, 𝒗𝒗 = 𝑔𝑔 𝑊𝑊
𝒖𝒖
𝒗𝒗
• 𝑊𝑊: ℝ2𝑑𝑑
→ ℝ𝑑𝑑
の変換行列 (𝑑𝑑 × 2𝑑𝑑)
• 𝑔𝑔: 活性化関数 (𝜎𝜎やtanh)
• 文の句構造に従って再帰的に
句（文）ベクトルを計算
• 𝑊𝑊はオートエンコーダーやタ
スクでの誤差を用いて学習
• 単語ベクトルも同時に学習
• ニューラル言語モデル
(Collobert+ 2008) 等で初期化
moviegoodvery
𝑊𝑊 (𝑑𝑑 × 2𝑑𝑑)
・
・
very good
very good
movie
𝑊𝑊 (𝑑𝑑 × 2𝑑𝑑)

Matrix-Vector Recursive Neural Network (MV-RNN)
(Socher+ 2012)
• 句のベクトル𝒑𝒑と行列𝑃𝑃を再帰的に合成していく
𝒑𝒑 = 𝑓𝑓𝐴𝐴,𝐵𝐵 𝒂𝒂, 𝒃𝒃 = 𝑓𝑓 𝐵𝐵𝒂𝒂, 𝐴𝐴𝒃𝒃 = 𝑔𝑔 𝑊𝑊
𝐵𝐵𝒂𝒂
𝐴𝐴𝒃𝒃
𝑃𝑃 = 𝑓𝑓𝑀𝑀 𝐴𝐴, 𝐵𝐵 = 𝑊𝑊𝑀𝑀
𝐴𝐴
𝐵𝐵
• 句の評価極性や関係ラベルを教師信号として学習
𝒚𝒚𝑝𝑝 = softmax 𝑊𝑊label 𝒑𝒑
• Baroni+ (2010) の
行列による線形変
換の考え方をRNN
に統合
• 各単語をベクトル
と行列で表現

Recursive Neural Tensor Network
(Socher+ 2013)
• MV-RNNは全ての単語が行列を持つので，学習す
るパラメータが多すぎる
• テンソルで単語ベクト
ルを行列に変換してか
ら，単語ベクトルとの
積を計算

Recurrent Neural Network (RNN)
(Sutskever+ 2011)
very good movie
𝑥𝑥𝑡𝑡
𝑊𝑊(𝑥𝑥𝑥)
ℎ𝑡𝑡
𝑊𝑊(ℎ𝑦𝑦)
𝑊𝑊(ℎℎ)
𝑊𝑊(ℎℎ)
𝑦𝑦𝑡𝑡
潜在変数: ℎ𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑥𝑥𝑥)
𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎℎ)
ℎ𝑡𝑡−1 + 𝑏𝑏ℎ
出力: 𝑦𝑦𝑡𝑡 = 𝜎𝜎 𝑊𝑊(ℎ𝑦𝑦)ℎ𝑡𝑡 + 𝑏𝑏𝑦𝑦
Input vector
Hidden vector
(memory)
Output vector:

Long Short-Term Memory (LSTM)
(Graves 2013) (単純化したもの)
very good movie
𝑥𝑥𝑡𝑡
𝑐𝑐𝑡𝑡
𝑦𝑦𝑡𝑡
Input gate
Output gate
Forget gate Forget gate
• 各ゲートはマスクの役割を担う（ベクトルの要素ごとの積）
• 各ゲートのマスクパターンを入力𝑥𝑥𝑡𝑡，記憶ℎ𝑡𝑡−1，出力𝑦𝑦𝑡𝑡−1などで制御する
• 長い系列での誤差逆伝搬時の勾配消失をゲートで防止する（→長期依存の保存）
• PFN得居さんの資料: http://www.slideshare.net/beam2d/pfi-seminar-20141030rnn

LSTMもNNの一種
Input gate: 𝑖𝑖𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑥𝑥𝑥𝑥)
𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎ𝑖𝑖)
ℎ𝑡𝑡−1 + 𝑊𝑊(𝑐𝑐𝑖𝑖)
𝑐𝑐𝑡𝑡−1 + 𝑏𝑏𝑖𝑖
Forget gate: 𝑓𝑓𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑥𝑥𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎ𝑓𝑓)ℎ𝑡𝑡−1 + 𝑊𝑊(𝑐𝑐𝑐𝑐) 𝑐𝑐𝑡𝑡−1 + 𝑏𝑏𝑓𝑓
Cell: 𝑐𝑐𝑡𝑡 = 𝑓𝑓𝑡𝑡 ⊙ 𝑐𝑐𝑡𝑡−1 + 𝑖𝑖𝑡𝑡 ⊙ tanh 𝑊𝑊(𝑥𝑥𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎ𝑐𝑐)ℎ𝑡𝑡−1 + 𝑏𝑏𝑐𝑐
Output gate: 𝑜𝑜𝑡𝑡 = 𝜎𝜎 𝑊𝑊(𝑥𝑥𝑥𝑥) 𝑥𝑥𝑡𝑡 + 𝑊𝑊(ℎ𝑜𝑜)ℎ𝑡𝑡−1 + 𝑊𝑊(𝑐𝑐𝑐𝑐) 𝑐𝑐𝑡𝑡 + 𝑏𝑏𝑜𝑜
Hidden variable: ℎ𝑡𝑡 = 𝑜𝑜𝑡𝑡 ⊙ tanh 𝑐𝑐𝑡𝑡
Graves (2013)
⊗（数式中は⊙）は
要素ごとの積

Tree-structured LSTM (Tai+ 2015)
http://kaishengtai.github.io/static/slides/treelstm-acl2015.pdf

Stanford Sentiment Treebankでの評価
Tai+ (2015)
(Tai+ 15)

我々の取り組み

統語的な関係を考慮した線形変換
(Muraoka+ 2014)
• Mitchell+ (2010) の句ベクトル構成
𝒑𝒑 = 𝑓𝑓(𝒖𝒖, 𝒗𝒗, 𝑅𝑅, 𝐾𝐾)
• 実際には，統語的な関係𝑅𝑅は使われない
• RNNの行列を統語関係𝑅𝑅ごとに学習（𝑊𝑊𝑅𝑅）

関係パタンのデータ疎問題
cause
lead to
increase the risk of
associate with
increase the likelihood of
cause an increase in
10回以上，100回未
満出現するフレーズ:
2,041,133件
100回以上出現するフレーズ: 326,810
件
ukWaCコーパス中に出現する名詞句・動詞句の出現頻度とその順位
関係パタンの認定基準（例
えば頻度のしきい値）を設
定するのが難しい

SGNSとRNNの統合 (高瀬+ 2015)
prevent the initial growth of bacteriasoaps
+
x
内容語の意味
ベクトルの平均
機能語の
意味変換行列
構成性に基いて計算した
句の意味ベクトル
句（単語の連接）に対してベクトルを割り当てる
機能語（動詞の一部）に行列，内容語（名詞）にベクトルを割り当てる
予測予測
予測予測
従来手法
提案手法
疎データ問題により，句の意味ベクトルの質が低下する
学習時に存在しなかった句の意味ベクトルを計算できない
動詞による意味の変性をモデル化できる（promote, preventなど）
学習時に存在しなかった句の意味を構成的に計算できる

平均による句ベクトル近似の理論解析 (田+ 2015)
• 単語ベクトルの一般形として次式を考える
𝑚𝑚 𝑤𝑤,𝑐𝑐 = 𝛾𝛾 ⋅ 𝐹𝐹 𝑃𝑃 𝑐𝑐 𝑤𝑤 − 𝛼𝛼 𝑐𝑐 − 𝛽𝛽(𝑤𝑤)
• PPMI, Skip-gram, GloVeはこの形で表される
• 句𝑡𝑡1 𝑡𝑡2のベクトルは単語𝑡𝑡1, 𝑡𝑡2のベクトル平均で近似
1
2
𝒗𝒗𝑡𝑡1
+ 𝒗𝒗𝑡𝑡2
• 句ベクトル近似の誤差のバウンドは，
𝒗𝒗𝑡𝑡1 𝑡𝑡2
−
1
2
𝒗𝒗𝑡𝑡1
+ 𝒗𝒗𝑡𝑡2
≤
1
2
(𝜋𝜋1∖2
2
+ 𝜋𝜋2∖1
2
+ 𝜋𝜋1∖2 𝜋𝜋2∖1)
• ただし，関数𝐹𝐹(𝑝𝑝)が満たすべき条件がつく
• log 𝑝𝑝や 𝑝𝑝はOKだが， 𝑝𝑝や𝑝𝑝 log 𝑝𝑝では成り立たない
𝑡𝑡1が出現した後，
𝑡𝑡2が続かない確率
𝑡𝑡2が出現した前に
𝑡𝑡1が現れない確率

関数𝐹𝐹(𝑝𝑝)による近似誤差の違い(田+ 2015)
• 横軸: 句を構成す
る単語𝑡𝑡1, 𝑡𝑡2のコロ
ケーションの弱さ
1
2
(𝜋𝜋1∖2
2
+ 𝜋𝜋2∖1
2
+ 𝜋𝜋1∖2 𝜋𝜋2∖1)
• 縦軸: 実際にコー
パスから求めた句
ベクトルとの誤差

まとめ
• SGNSで単語の分散表現の研究が活性化
• 新手法や理論解析の研究が進む
• タスクや実験設定に応じたチューニングが必要
• 単語の分散表現だけでの改善は終焉に向かう？
• 構成性原理に基づく句の分散表現学習
• 色々なアーキテクチャが提案・検討される
• 翻訳，対話，文生成などにLSTMが応用される
• 今後の課題
• 様々なタスクでNNを使いこなす
• 研究サイクルの加速

さらに詳しく知りたい方は（宣伝）…
• 岩波データサイエンス vol. 2『自然言語処
理』（統数研・持橋さん，サイボウズ・ラ
ボ・中谷さん監修）（来年発刊予定）
• 人工知能2016年3月号特集『ニューラル
ネットワーク研究の最前線（仮）』
• 画像処理，言語処理，音声処理，ロボット，実
装など6件の特集記事を予定
• PFN・得居さんのChainer解説も！

参考文献 (1/2)
• M Baroni and R Zamparelli. 2010. Nouns are vectors, adjectives are matrices: representing adjective-noun constructions
in semantic space. In EMNLP 2010, pp. 1183-1193.
• J Bullinaria and J Levy. 2007. Extracting semantic representations from word co-occurrence statistics: A computational
study. Behavior Research Methods, 39:510–526.
• S Cohen, M Collins, D Foster, K Stratos, L Ungar. 2013. Spectral Learning Algorithms for Natural Language Processing. In
NAACL 2013 tutorial.
• S Deerwester, S Dumais, G Furnas, T Landauer, R Harshman. 1990. Indexing by latent semantic analysis. Journal of the
American Society for Information Science, 41(6):391-407.
• J Firth. 1957. A synopsis of linguistic theory 1930-1955. In Studies in Linguistic Analysis, pp. 1-32.
• D Foster, R Johnson, S Kakade, T Zhang. 2009. Multi-View Dimensionality Reduction via Canonical Correlation Analysis.
Tech Report.
• A Graves. 2013. Generating Sequences with Recurrent Neural Networks. arXiv.org.
• Z Harris. 1954. Distributional structure. Word, 10(23):146-162.
• G Hinton, J McClelland, and D Rumelhart. 1986. Distributed representations. In Parallel distributed processing:
Explorations in the microstructure of cognition, Volume I. Chapter 3, pp. 77-109, Cambridge, MA: MIT Press.
• O Levy and Y Goldberg. 2014. Neural word embedding as implicit matrix factorization. NIPS 2014, pp. 2177–2185.
• O Levy, Y Goldberg, and I Dagan. 2015. Improving distributional similarity with lessons learned from word embeddings.
TACL, 3:211-225.
• T Mikolov, K Chen, G Corrado, and J Dean. 2013. Efficient estimation of word representations in vector space. In
Proceedings of Workshop at ICLR, 2013.
• T Mikolov, I Sutskever, K Chen, G Corrado, and J Dean. 2013. Distributed representations of words and phrases and their
compositionality. In NIPS 2013, pp. 3111–3119.

参考文献 (2/2)
• J Mitchell and M Lapata. 2010. Composition in distributional models of semantics. Cognitive Science, 34:1388–1429.
• M Muraoka, S Shimaoka, K Yamamoto, Y Watanabe, N Okazaki, K Inui. 2014. Finding The Best Model Among
Representative Compositional Models. In PACLIC 28, pp. 65-74.
• J Pennington, R Socher, and C Manning. 2014. Glove: Global vectors for word representation. In EMNLP 2014, pp.
1532–1543.
• T Schnabel, I Labutov, D Mimno, T Joachims. Evaluation methods for unsupervised word embeddings. In EMNLP 2015,
pp. 298-307.
• R Socher, J Pennington, E Huang, A Ng, and C Manning. 2011. Semi-supervised recursive autoencoders for predicting
sentiment distributions. EMNLP 2011, pp. 151-161.
• R Socher, B Huval, C Manning and A Ng. 2012. Semantic compositionality through recursive matrix-vector spaces.
EMNLP 2012, pp. 1201-1211.
• R Socher, A Perelygin, J Wu, J Chuang, C Manning, A Ng and C Potts. Recursive deep models for semantic
compositionality over a sentiment treebank. EMNLP 2013, pp. 1631-1642.
• K Stratos, M Collins, D Hsu. 2015. Model-based Word Embeddings from Decompositions of Count Matrices. In ACL-
IJCNLP 2015, pp. 1282-1291.
• I Sutskever, J Martens, G Hinton. 2011. Generating text with recurrent
• neural networks. In ICML 2011, pp. 1017-1024.
• K Tai, R Socher, C Manning. 2015. Improved Semantic Representations From Tree-Structured Long Short-Term
Memory Networks. In ACL-IJCNLP 2015, pp. 1556-1566.
• 高瀬, 岡崎, 乾. 2015. 構成性に基づく関係パタンの意味計算. 言語処理学会第21回年次大会, pp.640-643.
• 田, 岡崎, 乾. 2015. 対数的共起ベクトルの加法構成性. 情報処理学会研究報告, 2015-SLP-106(14), pp. 1-12.

単語・句の分散表現の学習

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 単語・句の分散表現の学習

Similar to 単語・句の分散表現の学習 (20)

More from Naoaki Okazaki

More from Naoaki Okazaki (10)

Recently uploaded

Recently uploaded (7)

単語・句の分散表現の学習