16. Encoder
RNN Encoder
T = ∣H∣ : length of imput sequence
context vector(c = h ): final hidden state
h は普通のLSTM
h はzero vector
CNN Encoder
論文中はVGG16
context vector: c = fc7(x)
hidden states: H = conv5(x), T_x=|H|=196(14×14)
x
Tx
t
0
18. Reviewer
Notation
T : review stepの数
H: encoder hidden states(画像だとfeature map)
f (thought vector): output
g : modified LSTM
g はAttentive Input ReviewerとAttentive Output Reviewerを提案
(使い分け不明)
r
t
t
t
19. Reviewer
α(h , f )はattention modelのscoreと同じ
h : i番目のHの要素
f : tステップ目のLSTM
i t−1
i
t
′
20. Decoder
F = {f } : set of thought vectors(reviewerのoutput)
s : tステップ目のLSTMのhidden state
f : decoderのLSTM
y : tステップ目のdecodeされたtoken
s : W [f ; c]
[・;・]: concatenation of two vectors
t t
t
′′
t
0
′
Tr