More Related Content
Similar to 語の分散表現と上位下位関係―研究動向と今後への試案―
Similar to 語の分散表現と上位下位関係―研究動向と今後への試案― (9)
語の分散表現と上位下位関係―研究動向と今後への試案―
- 9. ニューラルベース vs. カウントベース
• Skipgramで獲得される分散表現は、カウントベー
スのPMI行列を行列分解したものとみなせる。
(Goldberg and Levy, 2014)
• アナロジーの計算はカウントベースでも式をいじ
れば行うことができる。(Levy and Goldberg, 2014)
• サブサンプリングなどをカウントベースに適用す
れば性能が拮抗する。(Levy et al. 2015)
- 16. 実験:教師あり学習の性能
• BNC約1億語に出現した名詞を対象
• 分散表現
– 文脈:近傍共起前後2語
– ネガティブサンプリング15個、サブサンプリングなどのハイパーパラ
メタで、Skipgramにより500次元の分散表現を獲得
• データセット: BLESS(hyper, mero, coord, random-n)
– 正例にはhyperのペア
– 負例にはhyper以外のペアから正例と同じ数だけサンプリング
• 0.93の正解率、0.93のF値、0.97のAverage Precision
– (ベクトルの差を用いたロジスティック回帰による10分割交差検定)
- 26. 実験設定
• 利用した教師なし学習の指標
– 類似度
• cos類似度
– 分布の包含
• Weeds, Clarke, etc….
– 分布の形状の比較
• 単語の分布のエントロピーの差・比、SLQS
• これらの特徴を用いてロジスティック回帰。
• 上位語の記憶の影響を調べる。
- 27. 実験結果
重なりあり 重なりなし 性能差
分類正解率 0.61 0.55 0.06
F値 0.59 0.50 0.09
AP 0.64 0.59 0.05
提案手法における語彙の重なりの影響
重なりあり 重なりなし 性能差
分類正解率 0.54 0.49 0.05
F値 0.51 0.41 0.10
AP 0.56 0.56 0.00
Baseline(cos類似度のみ)
提案手法では、性能差が小さいことがわかる。