Learning Better Embeddings for Rare Words Using Distributional Representations

Learning Better Embeddings for Rare Words
Using Distributional Representations
by YIrina Sergienya, Hinrich Schuze
担当： @Quasi_quant2010
EMNLP2015読み会1
【EMNLP2015読み会】

概要
- SGとCBOWを混合させたレアワード分散表現 -
EMNLP2015読み会2
 Skip-Gram Negative Sampling(SGNS)は
主に頻出語に関する分散表現を構築していた
 SGNSがshifted PMIを用いた行列分解であることが
分かってきており、次元圧縮により単語の潜在ベクトルを計算
→レアワードは主な計算対象になっていない
 本報告は、レアワードに関する分散表現を得る為
どの様なモデルを考えればよいかを考察している
 Skip-GramとCBOWを混合して表現するほうがよい

先行研究
- 単語だけでなく、他ソースを用いた分散表現 -
 レアワードは単語のコンテキスト情報が不十分なので、
その他情報を用いて、過不足を補っている
 形態素：[COLING14] S.Qiu, etc
 句構造：[CVSC15] K.Hashimoto, etc
 レアワードに関する分散表現を構築する際、先行研究では
CBOWも用いられている
 Skip-GramとCBOWは言語現象の近似に、
向き不向きがあるらしい
 SGとCBOWはどんな現象を近似するのか
EMNLP2015読み会3

SGとCBOWはどんな現象を近似するのか
- 例) 頻出語:パンツ、レアワード:デニム
EMNLP2015読み会4
パンツ
パンツメンズパンツレディース
パンツメンズコーディネートパンツレディースコーディネート
パンツメンズコーディネートデニムパンツレディースコーディネートデニム
パンツメンズコーディネートデニムファッションパンツレディースコーディネートジャケットチェック
 パンツは多くのコンテキストを持つがデニムは少ない
→ パンツは多くのコンテキストを持つがデニムは少ない
→ パンツは多くの分岐を持つがデニムは少ない
注) dmenuのクエリサジェストから抜粋

SGとCBOWはどんな現象を近似するのか
- 例) 頻出語:パンツ、レアワード:デニム
 パンツがrootノードで、デニムは最下層に位置する
EMNLP2015読み会5
パンツ
メンズ
レディ
－ス
コーディ
ネート
コーディ
ネート
サイズデニムサイズデニム
→ コンテキストリッチな単語はSG、レアはCBOWかも

再考 : SGとCBOWはどんな現象を近似するのか
- コンテキストリッチな単語はSG、レアはCBOW? -
EMNLP2015読み会6
注) word2vec Parameter Learning
Explainedから抜粋
パンツ
デニム
サイズ
コーディ
ネート
パンツ
デニム
メンズ
コーディ
ネート

モデル
- Binary設定でのSGC・BOW混合 -
 SeparateはSGとCBOWが完全に独立
 頻出語の閾値はΘで制御(freq.words≧Θ)
 MixはSGとCBOWを混合
 CBOWのコンテキストckはターゲットviと10回以上共起
 ck = 1 if (vi, ck) ≧ 10 (otherwise ck = 0)
EMNLP2015読み会7
SG
CBOW CBOW
SG
CBOWのインプットベクトルに頻出語を含むか否か
①:Separate ②:Mix

実験設定
- レアワード表現獲得のため、コーパスはDownSampling -
 コーパス(ukWac, WaCkypedia)
 2.4billion tokens, 6million vocabulary
 評価データ
 有名どころを6つ
 Stanford Rare Wordが本報告の目的にあっている
 評価値
 スピアマン順位相関(人間評価と計算結果)
 パラメータ
 頻出語・レアワードの表現行列
 頻出語の閾値はΘで制御(freq.words≧Θ)
 Binary表現以外に、[0,1]でスケーリングしたPMIも計算
 1-of-K表現よりスムージングさせる狙い?
EMNLP2015読み会8

結果(Binary)
- Skip-Gram vs Skip-Gram+CBOW -
 Θ(頻出語の閾値)が20以下の場合、概ね
 SG < SG+CBOW Separate (SGCS) < SG+CBOW Mix(SGCM)
 SG < SGCS
 レアワードのCBOWを独立に混合した効果
 SGCS < SGCM
 レアワードのコンテキストに頻出語を含めた効果
EMNLP2015読み会9
注)Table1
より抜粋。
何れも、
5回実験
した平均値

結果(PMI∈[0,1])
- Skip-Gram vs Skip-Gram+CBOW -
 概ね
 SG < SG+CBOW Separate (SGCS) < SG+CBOW Mix(SGCM)
 SGCM(Binary) < SGCM(PMI)
 おそらく1-of-K表現する際、BinaryでなくPMIでスムージングした
効果が性能向上に寄与している
 Θ∈{10,20,50,100}
 レアワード分散表現を計算する場合、頻出語閾値は20が良い
EMNLP2015読み会10
注)Table1
より抜粋。
何れも、
5回実験
した平均値

感想
- コンテキストリッチな単語はSG、レアはCBOW -
 レアワードは単語のコンテキスト情報が不十分なので、
良い分散表現を作るため、ターゲットワードと共起するワード
を追加することで、コンテキスト情報をリッチにした。
 不十分なコンテキスト情報を追加情報で補う流れは共通手法
 基礎・追加コンテキストを同時にモデル化するため
SG・CBOWを混合
 レアワードに関する分散表現構築というより、SG・CBOWが
どの様に現象を近似するかという考察をしてみたくなった

参考文献
 [S.Qiu] Co-learning of Word Representations and Morpheme
Representations. COLING14
 [N.Djuric] Hierarchical Neural Language Models for Joint
Representation of Streaming Documents and their Content.
WWW15
 [K.Hashimoto] Learning Embeddings for Transitive Verb
Disambiguation by Implicit Tensor Factorization. CVSC15
 [X.Rong] word2vec Parameter Learning Explained. arXiv14
 [O.Levy] Improving Distributional Similarity with Lessons
Learned from Word Embedding. TACL15
 [O.Levy] Neural Word Embedding as Implicit Matrix
Factorization. NIPS14
 [Y.Li] Word Embedding Revisited: A New Representation
Learning and Explicit Matrix Factorization Perspective. IJCAI15

Learning Better Embeddings for Rare Words Using Distributional Representations

Recommended

Recommended

More Related Content

More from Takanori Nakai

More from Takanori Nakai (18)

Learning Better Embeddings for Rare Words Using Distributional Representations