SlideShare a Scribd company logo
1 of 17
Sentence-State LSTM for Text
Representation
by Y.Zhang etc
担当: @Quasi_quant2010
ACL2018読み会1
【ACL2018読み会】
本論文を読んだ動機
- どの様にセンテンスをベクトル表現すれば良いか -
 センテンスを単語系列と考えてRNN
 本論文でのベースライン(BiLSTM)
 本論文でのベースライン(BiLSTM + Attention)
 センテンスから局所情報をCNNで獲得して、group by
 本論文でのベースライン(CNN)
 パラグラフをセンテンス系列・センテンスを単語系列と考えて
階層RNN
 Query Suggestionを構築する際、ユーザー毎のセッションデータ
を作り、階層構造を入れたencoder-decoderが有名
 上記以外に、センテンス内の係受け情報や項構造を付加す
ることも考えられる
ACL2018読み会2
概要
- パラグラフ方向にLSTMを適用 -
 パラグラフをセンテンス系列・センテンスを単語系列と考えて
センテンスをグローバル特徴量・単語をローカル特徴量と考え
パラグラフ方向にLSTMを適用した
 h(t,i) : i-thの単語の隠れベクトル表現 at t-th センテンス
 i = 1,…,n t = 1,…,T
 n : t-thのセンテンスに含まれる単語数
 T : パラグラフがT個のセンテンスを持つ
 g(t) : ベクトル表現 at t-th センテンス
 t番目とt+1番目のセンテンスのアライメントは考慮しない
 学習時には、センテンスのidリストを一様乱数からサンプリング
ACL2018読み会3
アイディア①
- 単語(ローカル特徴量)の更新方法 -
ACL2018読み会4
wi-1, t wi , t wi+1 , t
wi-1,t-1 wi ,t-1 wi+1,t-1
Word
Embedding(t-1)
Hidden
Embedding(t-1)
Sentence
Embedding(t-1)
Word
Embedding(t)
Hidden
Embedding(t)
h(t,i)
g(t-1,i)
h(t-1,i-1) h(t-1,i) h(t-1,i+1)
アイディア②
- センテンス(グローバル特徴量)の隠れベクトルの更新方法 -
ACL2018読み会5
w0, t-1 w1,t-1 wn+1,t+1
Sentence
Embedding(t-1)
Word
Embedding(t-1)
wi,t
Hidden
Embedding(t-1)
Word
Embedding(t)
Hidden
Embedding(t-1)
Sentence
Embedding(t)
・・・
・・・
g(t,i)
g(t-1,i)
h(t-1,0) h(t-1,1) h(t-1,n+1)
イメージ
ACL2018読み会6
問題設定
- センテンス分類 -
 センテンスがあるトピックに属するか否かの教師データを用意
 Text Classification(Liu, etc, 2017)
 評価指標はAccuracy
 前処理 :高頻度単語を削除、未知語は<unk>
 事前学習 : Glove(300次元)
 NN回り
 Softmax Layer
 センテンスのグローバル特徴量g(t)を使って分類
 Adam Optimizer
 Dropout is 0.5
 Gradient Clipping at 3
 L2 regularization(0.001)
ACL2018読み会7
結果
- 評価値のwindow依存性 -
 TimeStep t は、S-LSTMの時間方向の長さ(エポックではない)
 ローカル特徴量更新時におけるWindowサイズには依存してない
 センテンス分類にはグローバル特徴量が有効。ローカル特徴量単体では相対
比効果がないが、グローバル特徴量にアグリゲーションされると有効
8
結果
- グローバル特徴量を除去した場合の性能 -
 gを除去すると、81.76%(t=11)まで性能が下がる
 gのノードを追加しても性能は変わらなかった
ACL2018読み会9
81.76%
結果
- 16種類のデータセットでの結果 -
 S-LSTMの売りは大きく二つ
 パラグラフ方向にLSTMを走らせる
 t-番目内におけるローカル特徴量の更新は並列化できる
 学習時に11個センテンスをサンプリングすれば性能が安定するらしい
 S-LSTMとBiLSTMと比べると、短い時間で高い性能
 パラグラフ方向にLSTMを走らせるため、CNNを使った場合
よりは時間がかかる
ACL2018読み会10
考察
- センテンス間のアライメントを考えなくてよいのか -
 センテンス間の関係(アライメント)を考えなくてよいのか
 学習時のセンテンスサンプリングの方法
 例えば100個のラベル付センテンスがある
 公開コードでは、ここから幾つかのセンテンスをランダムサンプリング
 つまり、tとt+1番目のセンテンスの関係を考慮していない
 例えば、検索のセッションデータを考える
 あるユーザーのセッション/dayを一か月持つとする
 するとセッション/day内のレコードはマルチインテントとなっている
 さらに、t日目とt+1日目のセッションは不連続なインテントとなる
 なので、 t日目のセッションデータが与えられた時、t+1日目の最
初の検索クエリをナイーブに予測することは難しい
ACL2018読み会11
考察
- パラメータ推定方法(勾配情報の伝播) -
 S.Hahn, etc
 なぜDropoutが汎化に寄与するのかを経験的に調べた文献
 MnistデータでDropout有り無しの場合を調べた
 表は特に各レイヤーの勾配の絶対値を平均したもの
 表(Layer3はOutput Layer)からわかるように、Dropoutがある
ほうが、勾配情報が伝播していることがわかる
 レイヤーに60個と59個のノードがあっても性能は変わらない
 Dropoutの定説
 Dropoutは勾配情報の伝播を促進させる
ACL2018読み会12
考察
- パラメータ推定方法(勾配の加速) -
 Momentum
 Momentum Restart Scheme
 Aggregated Scheme
 通常のMomentumやNesterov Momentumにより、目
的関数の学習が加速されることはよく知られる
 ただし、Momentumはパイパーパラメタの調整をしないと、
目的関数が振動することも知られている
 [B.O’Donoghue, etc]
 それを防ぐ方法として、上記二つの方法がある
ACL2018読み会13
考察
- Restart Scheme(NAG) -
 振動する理由は
[B.O’Donoghue, etc]
 モメンタムを微分方程式で表
すと、ある条件では調和振動
子の方程式となる
 大きく二つのテクニック
 目的関数が増加したらベータ
をゼロにしてモメンタムを消す
 加速の方法と勾配の内積が
せいになったらベータをゼロにし
てモメンタムを消す
 勾配はnegative方向
ACL2018読み会14
考察
- Aggregated Scheme(AggMo) -
 最適なモメンタムパラメータβを求めるのは難しいので、複数
の係数βで更新したパラメータをアグリゲーション
 そもそも、各FeatureWeightに対して最適なβは異なる
 それを見つけるより、異なるβで求めたパラメータを平均したほ
うが安定する
 [J.Lucas, etc]には、損失関数がconvex+smoothで正則化
項がconvex+non-differentiable、の設定で収束を証明
 画像分類の例で、ResNetを各Optimizerで精度比較
 言語モデルの例で、LSTMを各Optimizerで精度比較
ACL2018読み会15
考察
- AggMoイケてるかも -
 x,y二種類の変数が与えられた時の最適化問題(Non-Convex)
 (x,y)=(0,0)で最適値をとる目的関数
 βがゼロ (=SGD、青)・ NAG(黄色)では、フラットな領域から抜け出せない
 NAG(緑)は最適値を目指すも振動しながらオーバーフィット
 AggMo(赤)はフラットな領域を脱出しつつ、振動することなく最適値へ収束
ACL2018読み会16
参考文献
 Sentence Embedding
 [G.Zhe, etc] Learning Generic Sentence
Representations Using Convolutional Neural
Networks, EMNLP, 2017
 Parameter Estimation
 [S.Hahn, etc] Gradient Acceleration in Activation
Functions, arXiv, 1806.09783v1, 2018
 [B.O’Donoghue, etc] Adaptive Restart for
Accelerated Gradient Schemes, JFCM, vol15(3),
p715-732, 2015
 [J.Lucas, etc], Aggregated Momentum_Stability
Through Passive Damping, arXiv, 1804.00325v1,
2018
ACL2018読み会17

More Related Content

What's hot

[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task LearningDeep Learning JP
 
Dl hacks paperreading_20150527
Dl hacks paperreading_20150527Dl hacks paperreading_20150527
Dl hacks paperreading_20150527Makoto Kawano
 
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...sakaizawa
 
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and DocumentsDistributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documentssakaizawa
 
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践Yota Ishida
 
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable ConvolutionsKotaro Asami
 
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable ConvolutionsDeep Learning JP
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecShin Asakawa
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksEiichi Matsumoto
 
Mxnetによるデープラーニングでセミの抜け殻を識別する
Mxnetによるデープラーニングでセミの抜け殻を識別するMxnetによるデープラーニングでセミの抜け殻を識別する
Mxnetによるデープラーニングでセミの抜け殻を識別するdokechin
 
Learning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularizationLearning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularization周平 合田
 
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...Masatoshi Kurihara
 
2015 08 survey
2015 08 survey2015 08 survey
2015 08 surveymarujirou
 
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...Yuki Tomo
 
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep NetworkDeep Learning JP
 
深層学習(講談社)のまとめ 第7章
深層学習(講談社)のまとめ 第7章深層学習(講談社)のまとめ 第7章
深層学習(講談社)のまとめ 第7章okku apot
 
Learning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase EmbeddingsLearning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase EmbeddingsSho Takase
 
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical SimplificationTomoyuki Kajiwara
 

What's hot (19)

[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
 
Dl hacks paperreading_20150527
Dl hacks paperreading_20150527Dl hacks paperreading_20150527
Dl hacks paperreading_20150527
 
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...
 
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and DocumentsDistributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
 
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践ディープラーニングゼミ TensorFlowで学ぶ理論と実践
ディープラーニングゼミ TensorFlowで学ぶ理論と実践
 
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
 
2016word embbed
2016word embbed2016word embbed
2016word embbed
 
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
 
NIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder NetworksNIPS2015読み会: Ladder Networks
NIPS2015読み会: Ladder Networks
 
Mxnetによるデープラーニングでセミの抜け殻を識別する
Mxnetによるデープラーニングでセミの抜け殻を識別するMxnetによるデープラーニングでセミの抜け殻を識別する
Mxnetによるデープラーニングでセミの抜け殻を識別する
 
Learning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularizationLearning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularization
 
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
論文輪読(Effective LSTMs for Target-Dependent Sentiment Classification, Duyu Tang...
 
2015 08 survey
2015 08 survey2015 08 survey
2015 08 survey
 
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
 
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
 
深層学習(講談社)のまとめ 第7章
深層学習(講談社)のまとめ 第7章深層学習(講談社)のまとめ 第7章
深層学習(講談社)のまとめ 第7章
 
Learning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase EmbeddingsLearning Composition Models for Phrase Embeddings
Learning Composition Models for Phrase Embeddings
 
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification文献紹介:SemEval-2012 Task 1: English Lexical Simplification
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
 

Similar to Sentence-State LSTM for Text Representation

深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開Seiya Tokui
 
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and BeyondTakashi YAMAMURA
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...Deep Learning JP
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phraseTatsuya Shirakawa
 
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門SAS Institute Japan
 

Similar to Sentence-State LSTM for Text Representation (7)

深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
[DLHacks]Fast and Accurate Entity Recognition with Iterated Dilated Convoluti...
 
2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
 
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
SASによるインメモリ分散並列処理 レコメンドプロシジャ入門
 

More from Takanori Nakai

ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaTakanori Nakai
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsTakanori Nakai
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Takanori Nakai
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例Takanori Nakai
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsTakanori Nakai
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferenceTakanori Nakai
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差Takanori Nakai
 
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataTakanori Nakai
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionTakanori Nakai
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Takanori Nakai
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysisTakanori Nakai
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendationTakanori Nakai
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaTakanori Nakai
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Takanori Nakai
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチTakanori Nakai
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出Takanori Nakai
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTakanori Nakai
 

More from Takanori Nakai (17)

ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @DenaICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
 
Note : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methodsNote : Noise constastive estimation of unnormalized statictics methods
Note : Noise constastive estimation of unnormalized statictics methods
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...Adaptive subgradient methods for online learning and stochastic optimization ...
Adaptive subgradient methods for online learning and stochastic optimization ...
 
GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例GBDTを使ったfeature transformationの適用例
GBDTを使ったfeature transformationの適用例
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional RepresentationsLearning Better Embeddings for Rare Words Using Distributional Representations
Learning Better Embeddings for Rare Words Using Distributional Representations
 
Preference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and InferencePreference-oriented Social Networks_Group Recommendation and Inference
Preference-oriented Social Networks_Group Recommendation and Inference
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差高次元データの統計:スパース正則化の近似誤差と推定誤差
高次元データの統計:スパース正則化の近似誤差と推定誤差
 
Analysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled DataAnalysis of Learning from Positive and Unlabeled Data
Analysis of Learning from Positive and Unlabeled Data
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews DetectionPositive Unlabeled Learning for Deceptive Reviews Detection
Positive Unlabeled Learning for Deceptive Reviews Detection
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
 
Similarity component analysis
Similarity component analysisSimilarity component analysis
Similarity component analysis
 
Query driven context aware recommendation
Query driven context aware recommendationQuery driven context aware recommendation
Query driven context aware recommendation
 
Unsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpediaUnsupervised Graph-based Topic Labelling using DBpedia
Unsupervised Graph-based Topic Labelling using DBpedia
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチPUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
 
金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出金利期間構造について:Forward Martingale Measureの導出
金利期間構造について:Forward Martingale Measureの導出
 
Topic discovery through data dependent and random projections
Topic discovery through data dependent and random projectionsTopic discovery through data dependent and random projections
Topic discovery through data dependent and random projections
 

Sentence-State LSTM for Text Representation

  • 1. Sentence-State LSTM for Text Representation by Y.Zhang etc 担当: @Quasi_quant2010 ACL2018読み会1 【ACL2018読み会】
  • 2. 本論文を読んだ動機 - どの様にセンテンスをベクトル表現すれば良いか -  センテンスを単語系列と考えてRNN  本論文でのベースライン(BiLSTM)  本論文でのベースライン(BiLSTM + Attention)  センテンスから局所情報をCNNで獲得して、group by  本論文でのベースライン(CNN)  パラグラフをセンテンス系列・センテンスを単語系列と考えて 階層RNN  Query Suggestionを構築する際、ユーザー毎のセッションデータ を作り、階層構造を入れたencoder-decoderが有名  上記以外に、センテンス内の係受け情報や項構造を付加す ることも考えられる ACL2018読み会2
  • 3. 概要 - パラグラフ方向にLSTMを適用 -  パラグラフをセンテンス系列・センテンスを単語系列と考えて センテンスをグローバル特徴量・単語をローカル特徴量と考え パラグラフ方向にLSTMを適用した  h(t,i) : i-thの単語の隠れベクトル表現 at t-th センテンス  i = 1,…,n t = 1,…,T  n : t-thのセンテンスに含まれる単語数  T : パラグラフがT個のセンテンスを持つ  g(t) : ベクトル表現 at t-th センテンス  t番目とt+1番目のセンテンスのアライメントは考慮しない  学習時には、センテンスのidリストを一様乱数からサンプリング ACL2018読み会3
  • 4. アイディア① - 単語(ローカル特徴量)の更新方法 - ACL2018読み会4 wi-1, t wi , t wi+1 , t wi-1,t-1 wi ,t-1 wi+1,t-1 Word Embedding(t-1) Hidden Embedding(t-1) Sentence Embedding(t-1) Word Embedding(t) Hidden Embedding(t) h(t,i) g(t-1,i) h(t-1,i-1) h(t-1,i) h(t-1,i+1)
  • 5. アイディア② - センテンス(グローバル特徴量)の隠れベクトルの更新方法 - ACL2018読み会5 w0, t-1 w1,t-1 wn+1,t+1 Sentence Embedding(t-1) Word Embedding(t-1) wi,t Hidden Embedding(t-1) Word Embedding(t) Hidden Embedding(t-1) Sentence Embedding(t) ・・・ ・・・ g(t,i) g(t-1,i) h(t-1,0) h(t-1,1) h(t-1,n+1)
  • 7. 問題設定 - センテンス分類 -  センテンスがあるトピックに属するか否かの教師データを用意  Text Classification(Liu, etc, 2017)  評価指標はAccuracy  前処理 :高頻度単語を削除、未知語は<unk>  事前学習 : Glove(300次元)  NN回り  Softmax Layer  センテンスのグローバル特徴量g(t)を使って分類  Adam Optimizer  Dropout is 0.5  Gradient Clipping at 3  L2 regularization(0.001) ACL2018読み会7
  • 8. 結果 - 評価値のwindow依存性 -  TimeStep t は、S-LSTMの時間方向の長さ(エポックではない)  ローカル特徴量更新時におけるWindowサイズには依存してない  センテンス分類にはグローバル特徴量が有効。ローカル特徴量単体では相対 比効果がないが、グローバル特徴量にアグリゲーションされると有効 8
  • 9. 結果 - グローバル特徴量を除去した場合の性能 -  gを除去すると、81.76%(t=11)まで性能が下がる  gのノードを追加しても性能は変わらなかった ACL2018読み会9 81.76%
  • 10. 結果 - 16種類のデータセットでの結果 -  S-LSTMの売りは大きく二つ  パラグラフ方向にLSTMを走らせる  t-番目内におけるローカル特徴量の更新は並列化できる  学習時に11個センテンスをサンプリングすれば性能が安定するらしい  S-LSTMとBiLSTMと比べると、短い時間で高い性能  パラグラフ方向にLSTMを走らせるため、CNNを使った場合 よりは時間がかかる ACL2018読み会10
  • 11. 考察 - センテンス間のアライメントを考えなくてよいのか -  センテンス間の関係(アライメント)を考えなくてよいのか  学習時のセンテンスサンプリングの方法  例えば100個のラベル付センテンスがある  公開コードでは、ここから幾つかのセンテンスをランダムサンプリング  つまり、tとt+1番目のセンテンスの関係を考慮していない  例えば、検索のセッションデータを考える  あるユーザーのセッション/dayを一か月持つとする  するとセッション/day内のレコードはマルチインテントとなっている  さらに、t日目とt+1日目のセッションは不連続なインテントとなる  なので、 t日目のセッションデータが与えられた時、t+1日目の最 初の検索クエリをナイーブに予測することは難しい ACL2018読み会11
  • 12. 考察 - パラメータ推定方法(勾配情報の伝播) -  S.Hahn, etc  なぜDropoutが汎化に寄与するのかを経験的に調べた文献  MnistデータでDropout有り無しの場合を調べた  表は特に各レイヤーの勾配の絶対値を平均したもの  表(Layer3はOutput Layer)からわかるように、Dropoutがある ほうが、勾配情報が伝播していることがわかる  レイヤーに60個と59個のノードがあっても性能は変わらない  Dropoutの定説  Dropoutは勾配情報の伝播を促進させる ACL2018読み会12
  • 13. 考察 - パラメータ推定方法(勾配の加速) -  Momentum  Momentum Restart Scheme  Aggregated Scheme  通常のMomentumやNesterov Momentumにより、目 的関数の学習が加速されることはよく知られる  ただし、Momentumはパイパーパラメタの調整をしないと、 目的関数が振動することも知られている  [B.O’Donoghue, etc]  それを防ぐ方法として、上記二つの方法がある ACL2018読み会13
  • 14. 考察 - Restart Scheme(NAG) -  振動する理由は [B.O’Donoghue, etc]  モメンタムを微分方程式で表 すと、ある条件では調和振動 子の方程式となる  大きく二つのテクニック  目的関数が増加したらベータ をゼロにしてモメンタムを消す  加速の方法と勾配の内積が せいになったらベータをゼロにし てモメンタムを消す  勾配はnegative方向 ACL2018読み会14
  • 15. 考察 - Aggregated Scheme(AggMo) -  最適なモメンタムパラメータβを求めるのは難しいので、複数 の係数βで更新したパラメータをアグリゲーション  そもそも、各FeatureWeightに対して最適なβは異なる  それを見つけるより、異なるβで求めたパラメータを平均したほ うが安定する  [J.Lucas, etc]には、損失関数がconvex+smoothで正則化 項がconvex+non-differentiable、の設定で収束を証明  画像分類の例で、ResNetを各Optimizerで精度比較  言語モデルの例で、LSTMを各Optimizerで精度比較 ACL2018読み会15
  • 16. 考察 - AggMoイケてるかも -  x,y二種類の変数が与えられた時の最適化問題(Non-Convex)  (x,y)=(0,0)で最適値をとる目的関数  βがゼロ (=SGD、青)・ NAG(黄色)では、フラットな領域から抜け出せない  NAG(緑)は最適値を目指すも振動しながらオーバーフィット  AggMo(赤)はフラットな領域を脱出しつつ、振動することなく最適値へ収束 ACL2018読み会16
  • 17. 参考文献  Sentence Embedding  [G.Zhe, etc] Learning Generic Sentence Representations Using Convolutional Neural Networks, EMNLP, 2017  Parameter Estimation  [S.Hahn, etc] Gradient Acceleration in Activation Functions, arXiv, 1806.09783v1, 2018  [B.O’Donoghue, etc] Adaptive Restart for Accelerated Gradient Schemes, JFCM, vol15(3), p715-732, 2015  [J.Lucas, etc], Aggregated Momentum_Stability Through Passive Damping, arXiv, 1804.00325v1, 2018 ACL2018読み会17