7. Tying Word Vectors and Word Classifiers: A Loss Framework
for Language Modeling
言葉の広がりを反映した学習を行うために、「one hotではなく
distribution」レベルでの比較を行おう
この手法を適用すると、同時に「input embeddingとoutput
projectionの間に等価性が生じる」。これによりパラメーター数を大幅
に削減することができる。
もちろん、精度もよくなる
論文の主張
17. Tying Word Vectors and Word Classifiers: A Loss Framework
for Language Modeling
言葉の広がりを反映した学習を行うために、「one hotではなく
distribution」レベルでの比較を行おう
この手法を適用すると、同時に「input embeddingとoutput
projectionの間に等価性が生じる」。これによりパラメーター数を大幅
に削減することができる。
もちろん、精度もよくなる
論文の主張(再掲)
18. 誤差の定義(one hot + distribution)
定式化
one hotの誤差
distributionの誤差(KL距離)
教師分布の得方
正解単語のベクトル取得
内積計算+softmaxで分布化