語の分散表現と上位下位関係―研究動向と今後への試案―

語の分散表現と上位下位関係
―研究動向と今後への試案―
東京大学総合文化研究科M2
鷲尾光樹

はじめに
• 分散表現
– 語の意味を分布の情報から捉える（分布意味論）
– 意味関係の推測・学習に利用
– 人手によるリソースにない語にも対応可能
• 上位下位関係
– 「動物」と「犬」、「果物」と「りんご」など
• 手法と問題点の概観、今後の方向性の提案

構成
1. 分散表現
2. 上位下位関係の学習
3. 教師あり学習の問題点
4. 提案

分散表現（単語ベクトル）
• コーパスから文脈として、単語の共起などを
集計・学習し、ベクトルにする。
– 文脈：近傍共起（文脈窓）、依存構造など
• カウントベースの分散表現
– 文脈を集計してベクトルにする。
• ニューラルベースの分散表現
– 文脈を学習して、ベクトルを獲得。

カウントベースの分散表現
• 文脈を集計して共起頻度行列を作る
• 各次元には、ある語𝑤と文脈（近傍に出現し
た語など）との結びつきの強さ（共起回数な
ど）が割り当てられる。
• 高次元でスパース（ほとんどの次元は0）

カウントベースの分散表現
• 単語の頻度のばらつきが表現に悪影響を及
ぼす可能性がある。
– １００００回出現した語と１００回出現した語
– 似たような意味でも空間上の距離が離れてしまう。
• PMI(相互情報量)
𝑃𝑀𝐼 𝑤, 𝑐 = log2
𝑃(𝑤, 𝑐)
𝑃 𝑤 𝑃(𝑐)
• SVD（特異値分解）

ニューラルベースの分散表現
• 文脈から単語、あるいは単語から文脈を予測
するようにニューラルネットワークで学習を行
い、隠れ層をベクトルとする。
– ネガティブサンプルを用いたSkipgramモデル、
GloVeなど
• 低次元で密な表現
• 各次元の意味が不明瞭

ニューラルベース vs. カウントベース
• ニューラルベースの分散表現を用いた方が
意味タスクにおける性能がいいとされている。
• しかし、両表現に本質的な差はないとする
Levyらの一連の報告がある。

ニューラルベース vs. カウントベース
• Skipgramで獲得される分散表現は、カウントベー
スのPMI行列を行列分解したものとみなせる。
(Goldberg and Levy, 2014)
• アナロジーの計算はカウントベースでも式をいじ
れば行うことができる。(Levy and Goldberg, 2014)
• サブサンプリングなどをカウントベースに適用す
れば性能が拮抗する。(Levy et al. 2015)

上位下位関係の学習
• 教師なし学習
– 単語ベクトルのペアに適用できる指標を用いる。
– 主に各次元の意味が明確なカウントベースの単
語ベクトルを用いる。
• 教師あり学習
– 二つ単語ベクトルの差や結合を特徴とみなして、
分類器に学習させる。

教師なし学習
• 教師なし学習では、基本的に分布の包含関係を見る。
– 上位語は下位語の出現する文脈と、それ以外の文脈に出現す
るはずである。（分布包含仮説）
• 単語ベクトルの各次元の値を見比べることで、分布の包含
性を測り、閾値を設定することで分類を行う。
• 各次元の意味が明確である必要があり、カウントベースの
分散表現を用いる。
• (Weeds et al., 2004)、 (Clarke, 2009)、(Lenci and Benotto,
2012)など

実験：教師なし学習の性能
• BNC前半5000万語に出現した他動詞を対象
• 分散表現
– １００回以上出現した依存構造（主語と目的語）を文
脈としたPPMI行列
• データセット
– WordNet3.0から単義の他動詞とその上位語を抽出
– 負例には正例以外の対象の語の適当な組み合わせ
を、正例と同じ数だけサンプリング

結果：基本的な性能
Weeds Clarke Lenci &
Benotto
0.74 0.73 0.71
データセットや分散表現にもよるが、
だいたい6割～7割ぐらいの正解率
最適な閾値での性能を比較

教師あり
• 二つの単語ベクトル（w1, w2）の差や結合な
どを特徴として扱い、SVMやロジスティック回
帰で学習する。
Difference : 𝑤2 − 𝑤1
Concatenation: 𝑤2⨁ 𝑤1

実験：教師あり学習の性能
• BNC約1億語に出現した名詞を対象
• 分散表現
– 文脈：近傍共起前後２語
– ネガティブサンプリング１５個、サブサンプリングなどのハイパーパラ
メタで、Skipgramにより500次元の分散表現を獲得
• データセット: BLESS（hyper, mero, coord, random-n）
– 正例にはhyperのペア
– 負例にはhyper以外のペアから正例と同じ数だけサンプリング
• 0.93の正解率、0.93のF値、0.97のAverage Precision
– （ベクトルの差を用いたロジスティック回帰による１０分割交差検定）

教師あり学習の問題点
• Levy et al.(2015)の報告
• 教師あり学習によって学習しているのは、二
語の関係性ではなく、上位語になりやすい語
を記憶しているだけ。

教師あり学習の問題点
• 教師あり学習する際に、訓練データとテスト
データの語彙の重なりをなくすと、性能が大き
く下がる。
• ちぐはぐな上位下位関係を正例とみなしてし
まう割合(match error)と、recallが様々な分類
モデルでほぼ同じ。
(𝑚𝑎𝑡𝑐ℎ 𝑒𝑟𝑟𝑜𝑟 = 0.935 ⋅ 𝑟𝑒𝑐𝑎𝑙𝑙）

実験：語彙の記憶
• 教師あり学習で語彙の重なりをなくした場合
の性能差を確かめた。
• 重なりをなくした場合、語彙の記憶が妨げら
れ、性能が大きく下がる。
重なりあり重なりなし性能差
分類正解率 0.93 0.68 0.25
F値 0.93 0.61 0.32
AP 0.97 0.77 0.20

まとめ
• カウントベースとニューラルベースの分散表
現に本質的な差はない。
• 教師なし学習より教師あり学習の性能がいい
ように見えるが、教師あり学習は２語の関係
性を学習できていない。
• 教師あり学習では訓練データにない語彙に
対応できない。

提案
• 分散表現の最適化
– 分散表現の獲得法は、特定の意味タスクを志向
していない。
– 上位下位関係の意味の側面を反映したモデルが
必要。
– たとえば、文脈に依存構造を用いて上位下位関
係の学習に必要そうな機能的な側面を捉えるな
ど。
• 学習法の見直し

提案
• 学習法の見直し
– ベクトルの単純な差や結合では関係性が学習で
きない。
– より明確な意味付けのある特徴を用いるべき。
→教師なし学習の指標

実験設定
• BNC約1億語から近傍共起前後2語の文脈を
用いてPPMI行列を作成。（SkipGramを用いた
際と同じハイパーパラメタを用いる）
• データセット: BLESS（hyper, mero, coord,
random-n）

実験設定
• 利用した教師なし学習の指標
– 類似度
• cos類似度
– 分布の包含
• Weeds, Clarke, etc….
– 分布の形状の比較
• 単語の分布のエントロピーの差・比、SLQS
• これらの特徴を用いてロジスティック回帰。
• 上位語の記憶の影響を調べる。

実験結果
分類正解率 0.61 0.55 0.06
F値 0.59 0.50 0.09
AP 0.64 0.59 0.05
提案手法における語彙の重なりの影響
分類正解率 0.54 0.49 0.05
F値 0.51 0.41 0.10
AP 0.56 0.56 0.00
Baseline（cos類似度のみ）
提案手法では、性能差が小さいことがわかる。

実験結果
ベクトルの差のみベクトルの差＋提案手法
分類正解率 0.68 0.73
F値 0.61 0.68
AP 0.77 0.83
提案手法を付加した場合の性能
教師なし学習の指標を特徴として付加することで、
訓練データとテストデータの語彙の重なりをなくし
た際の性能が向上した。

考察
• 上位下位関係に関して、意味付けのある指
標を特徴として学習した場合、語彙の重なり
を排除した場合の影響が少なく、関係性が学
習されている。
• 既存の教師あり学習に、教師なし学習の指
標を特徴として付加することで、関係性の学
習が促進される。

おわりに
• 分散表現と上位下位関係の学習、その問題
について概観した。
• 今後の研究の方向性として、分散表現の最
適化と、意味付けのある分布的特徴を用いた
学習法を提案し、後者の妥当性を実験によっ
て示した。

語の分散表現と上位下位関係―研究動向と今後への試案―

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 語の分散表現と上位下位関係―研究動向と今後への試案―

Similar to 語の分散表現と上位下位関係―研究動向と今後への試案― (9)

語の分散表現と上位下位関係―研究動向と今後への試案―