ReviewNet_161122

Review Networks for Caption Generation
Zhilin Yang+, Carnegie Mellon University, '16
2016/11/22
@shima_x

Agenda
概要
モチベーション
Attentionモデルのおさらい
ReviewNetの手法
実験/結果
コメント

概要
Caption生成における新たな手法を提案
encoderとdecoderの間にreview stepを追加
既存のencoder‑decoderに追加することが出来、性能向上が
見込める
Image captionだけでなく、seq2seqなタスクにも利用可能(マ
ルチタスク)

モチベーション
入力（画像など）からのグローバルな情報の活用
以前の手法では生成ステップが進むにつれecnoderから取得し
た情報が失われていた
encoder情報をさらに精製した情報をdecoderに投入したい(review
step)
encoder‑decoderモデルへのdiscriminative supervision適用手法を
明確にしたい
性能向上

attention modelのおさらい

Encoder
入力からcontext vectorを抽出
Decoder
context vectorからsentenceを生成
Attention
Effective Approaches to Attention‑based Neural Machine
Translation, Luong+, '15で提案された手法
出力wordに対して、画像や文字位置の特定の位置周辺の情報を活用
出力に対する入力の注目点が分かる、という事も良い点

Global attentional model
入力情報全てを使用し、前のhidden stateとの加重平均をRNNへの
入力として計算
入力文字列が長くなると上手く計算出来なる傾向

Local attention model
入力情報の一部を使用する
入力文字列が長くなっても注目箇所周辺のデータのみを使用するの
で上手くいく

Global attentional model
Local attention model
※ は入力文のhidden state, h はdecoderのLSTMのhidden statehs
¯ t

ReviewerとDecoderの詳細図

Encoder
encoderはinput xをcontext vector cへencodeするもの
source hidden states: H = {h }t t

Encoder
RNN Encoder
T = ∣H∣ : length of imput sequence
context vector(c = h ): final hidden state
h は普通のLSTM
h はzero vector
CNN Encoder
論文中はVGG16
context vector: c = fc7(x)
hidden states: H = conv5(x), T_x=|H|=196(14×14)
x
Tx
t
0

Reviewer
Encoderの出力よりも、以下の点で良い情報抽出を行う
1. コンパクト
2. 情報の抽象化
3. グローバル情報の抽出

Reviewer
Notation
T : review stepの数
H: encoder hidden states(画像だとfeature map)
f (thought vector): output
g : modified LSTM
g はAttentive Input ReviewerとAttentive Output Reviewerを提案
（使い分け不明）
r
t
t
t

Reviewer
α(h , f )はattention modelのscoreと同じ
h : i番目のHの要素
f : tステップ目のLSTM
i t−1
i
t
′

Decoder
F = {f } : set of thought vectors(reviewerのoutput)
s : tステップ目のLSTMのhidden state
f : decoderのLSTM
y : tステップ目のdecodeされたtoken
s : W [f ; c]
[・;・]: concatenation of two vectors
t t
t
′′
t
0
′
Tr

Discriminative Supervisionのloss
discriminative loss
total loss

discriminative lossの意味
引用: From Captions to Visual Concepts and Back,Fang+, '14

discriminative loss
s はvocablary内の単語が表す物体が画像中に含まれているscore
式からはペナルティ項のような印象
しかし実装中1は教師とのhinge lossを計算している感じ...
[1]
https://github.com/kimiyoung/review_net/blob/master/image_caption_offline/reaso
n_att_copy.lua#L268
j

評価
image caption
offline
datasetを使った普通の評価
online
CoCoLabのサーバで自動評価
source code caption

データセット
MSCOCO
123,000 images with 5 captoins for each image
5,000枚をvalidation/testに使用
残りをtrainingに使用

実験条件
アルファベット以外の文字列は除外
全て小文字に変換
tokenizeはスペース区切り
頻度5未満の文字は<UNK>に変換
vocablaryは9,520
30文字以上のcaptionは30文字で切った（出力は30文字）
OptimizerはAdaGrad

Offline実験
decoder側にbeam searchを使用
T = 8
weight factor λ = 10.0
dimension of word embeddings: 100
learning rate: 1e‑2
dimension of LSTM hidden state: 1,024
early stoppingを使用
条件はBLUE‑4の値のサチり
encoder: VGG16
評価指標: BLEU‑4, METEOR, CIDEr
r

(カッコ内はbeam searchなし)
3つの指標全てで従来の手法より性能が高い

Online実験
パラメタはofflineの時と(多分)同じ(論文中に記載無し)
encoder: Inception‑v3を3つアンサンブルしたもの
評価指標: BLEU‑4, METEOR, ROUGE‑L, CIDEr

OnlineではBLEU‑4以外SoTA手法よりよい結果
Google NICはタスク依存のチューニングをカリッカリにやって、学習に
2週間かけたのが上の性能
提案手法では特殊な事をせずに6時間学習させて上の性能

最初の3つのreviewerのunitの可視化

データセット
HabeasCorpus
https://github.com/habeascorpus/habeascorpus‑data‑
withComments
Apache Ant, Luceneなどの9つのOpen source code＋
comment
7,903,872source code tokens
251,565 comment word tokens
そこから10%のファイルをtest setとした
キャメルケースは単語に分けた(binaryClassifierEnsemble ‑>
binary classifier ensemble)

実験条件
コメントのmax length: 300
Encoder: RNN
T = 8
dimension of word embeddings: 50
dimension of the LSTM hidden states: 256
r

結果
評価指標: log‑likelihood, top‑k character savings(top‑k を取り出
す際の質)
全ての指標でbase line超え

様々なタスクに対して特殊な事をせずに適用でき、収束が早く、精
度が出るのは良さがある（要追試）
discriminative lossの意味が不明確
実装するためには不明確な部分があるように感じた

ReviewNet_161122

Recommended

Recommended

More Related Content

Similar to ReviewNet_161122

Similar to ReviewNet_161122 (20)

More from shima o

More from shima o (20)

ReviewNet_161122