Sentence-State LSTM for Text Representation

Sentence-State LSTM for Text
Representation
by Y.Zhang etc
担当： @Quasi_quant2010
ACL2018読み会1
【ACL2018読み会】

本論文を読んだ動機
- どの様にセンテンスをベクトル表現すれば良いか -
 センテンスを単語系列と考えてRNN
 本論文でのベースライン(BiLSTM)
 本論文でのベースライン(BiLSTM + Attention)
 センテンスから局所情報をCNNで獲得して、group by
 本論文でのベースライン(CNN)
 パラグラフをセンテンス系列・センテンスを単語系列と考えて
階層RNN
 Query Suggestionを構築する際、ユーザー毎のセッションデータ
を作り、階層構造を入れたencoder-decoderが有名
 上記以外に、センテンス内の係受け情報や項構造を付加す
ることも考えられる
ACL2018読み会2

概要
- パラグラフ方向にLSTMを適用 -
 パラグラフをセンテンス系列・センテンスを単語系列と考えて
センテンスをグローバル特徴量・単語をローカル特徴量と考え
パラグラフ方向にLSTMを適用した
 h(t,i) : i-thの単語の隠れベクトル表現 at t-th センテンス
 i = 1,…,n t = 1,…,T
 n : t-thのセンテンスに含まれる単語数
 T : パラグラフがT個のセンテンスを持つ
 g(t) : ベクトル表現 at t-th センテンス
 t番目とt+1番目のセンテンスのアライメントは考慮しない
 学習時には、センテンスのidリストを一様乱数からサンプリング
ACL2018読み会3

アイディア①
- 単語(ローカル特徴量)の更新方法 -
ACL2018読み会4
wi-1, t wi , t wi+1 , t
wi-1,t-1 wi ,t-1 wi+1,t-1
Word
Embedding(t-1)
Hidden
Embedding(t-1)
Sentence
Embedding(t-1)
Word
Embedding(t)
Hidden
Embedding(t)
h(t,i)
g(t-1,i)
h(t-1,i-1) h(t-1,i) h(t-1,i+1)

アイディア②
- センテンス(グローバル特徴量)の隠れベクトルの更新方法 -
ACL2018読み会5
w0, t-1 w1,t-1 wn+1,t+1
Sentence
Embedding(t-1)
Word
Embedding(t-1)
wi,t
Hidden
Embedding(t-1)
Word
Embedding(t)
Hidden
Embedding(t-1)
Sentence
Embedding(t)
・・・
・・・
g(t,i)
g(t-1,i)
h(t-1,0) h(t-1,1) h(t-1,n+1)

イメージ
ACL2018読み会6

問題設定
- センテンス分類 -
 センテンスがあるトピックに属するか否かの教師データを用意
 Text Classification(Liu, etc, 2017)
 評価指標はAccuracy
 前処理 :高頻度単語を削除、未知語は<unk>
 事前学習 : Glove(300次元)
 NN回り
 Softmax Layer
 センテンスのグローバル特徴量g(t)を使って分類
 Adam Optimizer
 Dropout is 0.5
 Gradient Clipping at 3
 L2 regularization(0.001)
ACL2018読み会7

結果
- 評価値のwindow依存性 -
 TimeStep t は、S-LSTMの時間方向の長さ(エポックではない)
 ローカル特徴量更新時におけるWindowサイズには依存してない
 センテンス分類にはグローバル特徴量が有効。ローカル特徴量単体では相対
比効果がないが、グローバル特徴量にアグリゲーションされると有効
8

結果
- グローバル特徴量を除去した場合の性能 -
 gを除去すると、81.76%(t=11)まで性能が下がる
 gのノードを追加しても性能は変わらなかった
ACL2018読み会9
81.76%

結果
- 16種類のデータセットでの結果 -
 S-LSTMの売りは大きく二つ
 パラグラフ方向にLSTMを走らせる
 t-番目内におけるローカル特徴量の更新は並列化できる
 学習時に11個センテンスをサンプリングすれば性能が安定するらしい
 S-LSTMとBiLSTMと比べると、短い時間で高い性能
 パラグラフ方向にLSTMを走らせるため、CNNを使った場合
よりは時間がかかる
ACL2018読み会10

考察
- センテンス間のアライメントを考えなくてよいのか -
 センテンス間の関係(アライメント)を考えなくてよいのか
 学習時のセンテンスサンプリングの方法
 例えば100個のラベル付センテンスがある
 公開コードでは、ここから幾つかのセンテンスをランダムサンプリング
 つまり、tとt+1番目のセンテンスの関係を考慮していない
 例えば、検索のセッションデータを考える
 あるユーザーのセッション/dayを一か月持つとする
 するとセッション/day内のレコードはマルチインテントとなっている
 さらに、t日目とt+1日目のセッションは不連続なインテントとなる
 なので、 t日目のセッションデータが与えられた時、t+1日目の最
初の検索クエリをナイーブに予測することは難しい
ACL2018読み会11

考察
- パラメータ推定方法(勾配情報の伝播) -
 S.Hahn, etc
 なぜDropoutが汎化に寄与するのかを経験的に調べた文献
 MnistデータでDropout有り無しの場合を調べた
 表は特に各レイヤーの勾配の絶対値を平均したもの
 表(Layer3はOutput Layer)からわかるように、Dropoutがある
ほうが、勾配情報が伝播していることがわかる
 レイヤーに60個と59個のノードがあっても性能は変わらない
 Dropoutの定説
 Dropoutは勾配情報の伝播を促進させる
ACL2018読み会12

考察
- パラメータ推定方法(勾配の加速) -
 Momentum
 Momentum Restart Scheme
 Aggregated Scheme
 通常のMomentumやNesterov Momentumにより、目
的関数の学習が加速されることはよく知られる
 ただし、Momentumはパイパーパラメタの調整をしないと、
目的関数が振動することも知られている
 [B.O’Donoghue, etc]
 それを防ぐ方法として、上記二つの方法がある
ACL2018読み会13

考察
- Restart Scheme(NAG) -
 振動する理由は
[B.O’Donoghue, etc]
 モメンタムを微分方程式で表
すと、ある条件では調和振動
子の方程式となる
 大きく二つのテクニック
 目的関数が増加したらベータ
をゼロにしてモメンタムを消す
 加速の方法と勾配の内積が
せいになったらベータをゼロにし
てモメンタムを消す
 勾配はnegative方向
ACL2018読み会14

考察
- Aggregated Scheme(AggMo) -
 最適なモメンタムパラメータβを求めるのは難しいので、複数
の係数βで更新したパラメータをアグリゲーション
 そもそも、各FeatureWeightに対して最適なβは異なる
 それを見つけるより、異なるβで求めたパラメータを平均したほ
うが安定する
 [J.Lucas, etc]には、損失関数がconvex+smoothで正則化
項がconvex+non-differentiable、の設定で収束を証明
 画像分類の例で、ResNetを各Optimizerで精度比較
 言語モデルの例で、LSTMを各Optimizerで精度比較
ACL2018読み会15

考察
- AggMoイケてるかも -
 x,y二種類の変数が与えられた時の最適化問題(Non-Convex)
 (x,y)=(0,0)で最適値をとる目的関数
 βがゼロ (=SGD、青)・ NAG(黄色)では、フラットな領域から抜け出せない
 NAG(緑)は最適値を目指すも振動しながらオーバーフィット
 AggMo(赤)はフラットな領域を脱出しつつ、振動することなく最適値へ収束
ACL2018読み会16

参考文献
 Sentence Embedding
 [G.Zhe, etc] Learning Generic Sentence
Representations Using Convolutional Neural
Networks, EMNLP, 2017
 Parameter Estimation
 [S.Hahn, etc] Gradient Acceleration in Activation
Functions, arXiv, 1806.09783v1, 2018
 [B.O’Donoghue, etc] Adaptive Restart for
Accelerated Gradient Schemes, JFCM, vol15(3),
p715-732, 2015
 [J.Lucas, etc], Aggregated Momentum_Stability
Through Passive Damping, arXiv, 1804.00325v1,
2018
ACL2018読み会17

Sentence-State LSTM for Text Representation

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Similar to Sentence-State LSTM for Text Representation

Similar to Sentence-State LSTM for Text Representation (7)

More from Takanori Nakai

More from Takanori Nakai (17)

Sentence-State LSTM for Text Representation