SlideShare a Scribd company logo
1 of 40
Download to read offline
Review Networks for Caption Generation
Zhilin Yang+, Carnegie Mellon University, '16
2016/11/22
@shima_x
Agenda
概要
モチベーション
Attentionモデルのおさらい
ReviewNetの手法
実験/結果
コメント
概要
概要
Caption生成における新たな手法を提案
encoderとdecoderの間にreview stepを追加
既存のencoder‑decoderに追加することが出来、性能向上が
見込める
Image captionだけでなく、seq2seqなタスクにも利用可能(マ
ルチタスク)
モチベーション
モチベーション
入力(画像など)からのグローバルな情報の活用
以前の手法では生成ステップが進むにつれecnoderから取得し
た情報が失われていた
encoder情報をさらに精製した情報をdecoderに投入したい(review
step)
encoder‑decoderモデルへのdiscriminative supervision適用手法を
明確にしたい
性能向上
attention modelのおさらい
Encoder
入力からcontext vectorを抽出
Decoder
context vectorからsentenceを生成
Attention
Effective Approaches to Attention‑based Neural Machine
Translation, Luong+, '15で提案された手法
出力wordに対して、画像や文字位置の特定の位置周辺の情報を活用
出力に対する入力の注目点が分かる、という事も良い点
Global attentional model
入力情報全てを使用し、前のhidden stateとの加重平均をRNNへの
入力として計算
入力文字列が長くなると上手く計算出来なる傾向
Local attention model
入力情報の一部を使用する
入力文字列が長くなっても注目箇所周辺のデータのみを使用するの
で上手くいく
Global attentional model
Local attention model
※ は入力文のhidden state, h はdecoderのLSTMのhidden statehs
¯ t
Review Netの手法
Review Netのnetwork構成
ReviewerとDecoderの詳細図
Encoder
encoderはinput xをcontext vector cへencodeするもの
source hidden states: H = {h }t t
Encoder
RNN Encoder
T = ∣H∣ : length of imput sequence
context vector(c = h ): final hidden state
h は普通のLSTM
h はzero vector
CNN Encoder
論文中はVGG16
context vector: c = fc7(x)
hidden states: H = conv5(x), T_x=|H|=196(14×14)
x
Tx
t
0
Reviewer
Encoderの出力よりも、以下の点で良い情報抽出を行う
1. コンパクト
2. 情報の抽象化
3. グローバル情報の抽出
Reviewer
Notation
T : review stepの数
H: encoder hidden states(画像だとfeature map)
f (thought vector): output
g : modified LSTM
g はAttentive Input ReviewerとAttentive Output Reviewerを提案
(使い分け不明)
r
t
t
t
Reviewer
α(h , f )はattention modelのscoreと同じ
h : i番目のHの要素
f : tステップ目のLSTM
i t−1
i
t
′
Decoder
F = {f } : set of thought vectors(reviewerのoutput)
s : tステップ目のLSTMのhidden state
f : decoderのLSTM
y : tステップ目のdecodeされたtoken
s : W [f ; c]
[・;・]: concatenation of two vectors
t t
t
′′
t
0
′
Tr
network構成(再掲)
Discriminative Supervisionのloss
discriminative loss
total loss
discriminative lossの意味
引用: From Captions to Visual Concepts and Back,Fang+, '14
discriminative loss
s はvocablary内の単語が表す物体が画像中に含まれているscore
式からはペナルティ項のような印象
しかし実装中1は教師とのhinge lossを計算している感じ...
[1]
https://github.com/kimiyoung/review_net/blob/master/image_caption_offline/reaso
n_att_copy.lua#L268
j
実験
評価
image caption
offline
datasetを使った普通の評価
online
CoCoLabのサーバで自動評価
source code caption
実験/image caption
データセット
MSCOCO
123,000 images with 5 captoins for each image
5,000枚をvalidation/testに使用
残りをtrainingに使用
実験条件
アルファベット以外の文字列は除外
全て小文字に変換
tokenizeはスペース区切り
頻度5未満の文字は<UNK>に変換
vocablaryは9,520
30文字以上のcaptionは30文字で切った(出力は30文字)
OptimizerはAdaGrad
Offline実験
decoder側にbeam searchを使用
T = 8
weight factor λ = 10.0
dimension of word embeddings: 100
learning rate: 1e‑2
dimension of LSTM hidden state: 1,024
early stoppingを使用
条件はBLUE‑4の値のサチり
encoder: VGG16
評価指標: BLEU‑4, METEOR, CIDEr
r
(カッコ内はbeam searchなし)
3つの指標全てで従来の手法より性能が高い
Online実験
パラメタはofflineの時と(多分)同じ(論文中に記載無し)
encoder: Inception‑v3を3つアンサンブルしたもの
評価指標: BLEU‑4, METEOR, ROUGE‑L, CIDEr
OnlineではBLEU‑4以外SoTA手法よりよい結果
Google NICはタスク依存のチューニングをカリッカリにやって、学習に
2週間かけたのが上の性能
提案手法では特殊な事をせずに6時間学習させて上の性能
最初の3つのreviewerのunitの可視化
実験/source code caption
データセット
HabeasCorpus
https://github.com/habeascorpus/habeascorpus‑data‑
withComments
Apache Ant, Luceneなどの9つのOpen source code+
comment
7,903,872source code tokens
251,565 comment word tokens
そこから10%のファイルをtest setとした
キャメルケースは単語に分けた(binaryClassifierEnsemble ‑>
binary classifier ensemble)
実験条件
コメントのmax length: 300
Encoder: RNN
T = 8
dimension of word embeddings: 50
dimension of the LSTM hidden states: 256
r
結果
評価指標: log‑likelihood, top‑k character savings(top‑k を取り出
す際の質)
全ての指標でbase line超え
コメント
様々なタスクに対して特殊な事をせずに適用でき、収束が早く、精
度が出るのは良さがある(要追試)
discriminative lossの意味が不明確
実装するためには不明確な部分があるように感じた

More Related Content

Similar to ReviewNet_161122

Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要Miho Yamamoto
 
DIGITSによるディープラーニング画像分類
DIGITSによるディープラーニング画像分類DIGITSによるディープラーニング画像分類
DIGITSによるディープラーニング画像分類NVIDIA Japan
 
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twittersleepy_yoshi
 
OpenShift Ansbile 活用法 アプリケーションライフサイクルからみる導入効果
OpenShift Ansbile 活用法 アプリケーションライフサイクルからみる導入効果OpenShift Ansbile 活用法 アプリケーションライフサイクルからみる導入効果
OpenShift Ansbile 活用法 アプリケーションライフサイクルからみる導入効果Hideaki Tokida
 
XPFes2023_DevOps business-briefing_Hasegawa
XPFes2023_DevOps business-briefing_HasegawaXPFes2023_DevOps business-briefing_Hasegawa
XPFes2023_DevOps business-briefing_HasegawaTokyo, Japan
 
DevOps with Dynatrace
DevOps with DynatraceDevOps with Dynatrace
DevOps with DynatraceHarry Hiyoshi
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
自習形式で学ぶ「DIGITS による画像分類入門」
自習形式で学ぶ「DIGITS による画像分類入門」自習形式で学ぶ「DIGITS による画像分類入門」
自習形式で学ぶ「DIGITS による画像分類入門」NVIDIA Japan
 
機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編Daiyu Hatakeyama
 
Open Hybrid Cloudを検討すべき理由.pdf
Open Hybrid Cloudを検討すべき理由.pdfOpen Hybrid Cloudを検討すべき理由.pdf
Open Hybrid Cloudを検討すべき理由.pdfMasahiko Umeno
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介Hiroshi Ouchiyama
 
Developer-Controlled Packages (DCPs) を試してみた
Developer-Controlled Packages (DCPs) を試してみたDeveloper-Controlled Packages (DCPs) を試してみた
Developer-Controlled Packages (DCPs) を試してみたTakahiro Kawabata
 
ハンズオン1: DIGITS によるディープラーニング入門
ハンズオン1: DIGITS によるディープラーニング入門ハンズオン1: DIGITS によるディープラーニング入門
ハンズオン1: DIGITS によるディープラーニング入門NVIDIA Japan
 
LiBRA 07.2020 / ITソリューション塾・第34期・開発と運用
LiBRA 07.2020 / ITソリューション塾・第34期・開発と運用LiBRA 07.2020 / ITソリューション塾・第34期・開発と運用
LiBRA 07.2020 / ITソリューション塾・第34期・開発と運用Masanori Saito
 
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】Tomoharu ASAMI
 
静的解析Klocwork とJenkins CIの連携
静的解析Klocwork とJenkins CIの連携静的解析Klocwork とJenkins CIの連携
静的解析Klocwork とJenkins CIの連携Masaru Horioka
 
博士論文公聴会
博士論文公聴会博士論文公聴会
博士論文公聴会Makoto SAKAI
 

Similar to ReviewNet_161122 (20)

Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要
 
DIGITSによるディープラーニング画像分類
DIGITSによるディープラーニング画像分類DIGITSによるディープラーニング画像分類
DIGITSによるディープラーニング画像分類
 
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
 
OpenShift Ansbile 活用法 アプリケーションライフサイクルからみる導入効果
OpenShift Ansbile 活用法 アプリケーションライフサイクルからみる導入効果OpenShift Ansbile 活用法 アプリケーションライフサイクルからみる導入効果
OpenShift Ansbile 活用法 アプリケーションライフサイクルからみる導入効果
 
XPFes2023_DevOps business-briefing_Hasegawa
XPFes2023_DevOps business-briefing_HasegawaXPFes2023_DevOps business-briefing_Hasegawa
XPFes2023_DevOps business-briefing_Hasegawa
 
DevOps with Dynatrace
DevOps with DynatraceDevOps with Dynatrace
DevOps with Dynatrace
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
自習形式で学ぶ「DIGITS による画像分類入門」
自習形式で学ぶ「DIGITS による画像分類入門」自習形式で学ぶ「DIGITS による画像分類入門」
自習形式で学ぶ「DIGITS による画像分類入門」
 
機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編
 
Open Hybrid Cloudを検討すべき理由.pdf
Open Hybrid Cloudを検討すべき理由.pdfOpen Hybrid Cloudを検討すべき理由.pdf
Open Hybrid Cloudを検討すべき理由.pdf
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介Intel OpenVINO™ ツールキットのご紹介
Intel OpenVINO™ ツールキットのご紹介
 
Developer-Controlled Packages (DCPs) を試してみた
Developer-Controlled Packages (DCPs) を試してみたDeveloper-Controlled Packages (DCPs) を試してみた
Developer-Controlled Packages (DCPs) を試してみた
 
ハンズオン1: DIGITS によるディープラーニング入門
ハンズオン1: DIGITS によるディープラーニング入門ハンズオン1: DIGITS によるディープラーニング入門
ハンズオン1: DIGITS によるディープラーニング入門
 
LiBRA 07.2020 / ITソリューション塾・第34期・開発と運用
LiBRA 07.2020 / ITソリューション塾・第34期・開発と運用LiBRA 07.2020 / ITソリューション塾・第34期・開発と運用
LiBRA 07.2020 / ITソリューション塾・第34期・開発と運用
 
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
 
PHP勉強会 #51
PHP勉強会 #51PHP勉強会 #51
PHP勉強会 #51
 
segawa m
segawa msegawa m
segawa m
 
静的解析Klocwork とJenkins CIの連携
静的解析Klocwork とJenkins CIの連携静的解析Klocwork とJenkins CIの連携
静的解析Klocwork とJenkins CIの連携
 
博士論文公聴会
博士論文公聴会博士論文公聴会
博士論文公聴会
 

More from shima o

[読会]Causal transfer random forest combining logged data and randomized expe...
[読会]Causal transfer random forest   combining logged data and randomized expe...[読会]Causal transfer random forest   combining logged data and randomized expe...
[読会]Causal transfer random forest combining logged data and randomized expe...shima o
 
[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codesshima o
 
[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustmentshima o
 
[読会]A critical review of lasso and its derivatives for variable selection und...
[読会]A critical review of lasso and its derivatives for variable selection und...[読会]A critical review of lasso and its derivatives for variable selection und...
[読会]A critical review of lasso and its derivatives for variable selection und...shima o
 
[読会]Themis decentralized and trustless ad platform with reporting integrity
[読会]Themis decentralized and trustless ad platform with reporting integrity[読会]Themis decentralized and trustless ad platform with reporting integrity
[読会]Themis decentralized and trustless ad platform with reporting integrityshima o
 
[読会]Logistic regression models for aggregated data
[読会]Logistic regression models for aggregated data[読会]Logistic regression models for aggregated data
[読会]Logistic regression models for aggregated datashima o
 
Introduction of introduction_to_group_theory
Introduction of introduction_to_group_theoryIntroduction of introduction_to_group_theory
Introduction of introduction_to_group_theoryshima o
 
Squeeze and-excitation networks
Squeeze and-excitation networksSqueeze and-excitation networks
Squeeze and-excitation networksshima o
 
Nmp for quantum_chemistry
Nmp for  quantum_chemistryNmp for  quantum_chemistry
Nmp for quantum_chemistryshima o
 
Dl study g_learning_to_remember_rare_events
Dl study g_learning_to_remember_rare_eventsDl study g_learning_to_remember_rare_events
Dl study g_learning_to_remember_rare_eventsshima o
 
連続最適化勉強会
連続最適化勉強会連続最適化勉強会
連続最適化勉強会shima o
 
finite time analysis of the multiarmed bandit problem
finite time analysis of the multiarmed bandit problemfinite time analysis of the multiarmed bandit problem
finite time analysis of the multiarmed bandit problemshima o
 
normalized online learning
normalized online learningnormalized online learning
normalized online learningshima o
 
logistic regression in rare events data
logistic regression in rare events datalogistic regression in rare events data
logistic regression in rare events datashima o
 
Joint optimization of bid and budget allocation in sponsored search
Joint optimization of bid and budget allocation in sponsored searchJoint optimization of bid and budget allocation in sponsored search
Joint optimization of bid and budget allocation in sponsored searchshima o
 
Towards a robust modeling of temporal interest change patterns for behavioral...
Towards a robust modeling of temporal interest change patterns for behavioral...Towards a robust modeling of temporal interest change patterns for behavioral...
Towards a robust modeling of temporal interest change patterns for behavioral...shima o
 
Real time bidding algorithms for performance-based display ad allocation
Real time bidding algorithms for performance-based display ad allocationReal time bidding algorithms for performance-based display ad allocation
Real time bidding algorithms for performance-based display ad allocationshima o
 
Fingind the right consumer - optimizing for conversion in display advertising...
Fingind the right consumer - optimizing for conversion in display advertising...Fingind the right consumer - optimizing for conversion in display advertising...
Fingind the right consumer - optimizing for conversion in display advertising...shima o
 
Real time bid optimization with smooth budget delivery in online advertising
Real time bid optimization with smooth budget delivery in online advertisingReal time bid optimization with smooth budget delivery in online advertising
Real time bid optimization with smooth budget delivery in online advertisingshima o
 
Estimating conversion rate in display advertising from past performance data
Estimating conversion rate in display advertising from past performance dataEstimating conversion rate in display advertising from past performance data
Estimating conversion rate in display advertising from past performance datashima o
 

More from shima o (20)

[読会]Causal transfer random forest combining logged data and randomized expe...
[読会]Causal transfer random forest   combining logged data and randomized expe...[読会]Causal transfer random forest   combining logged data and randomized expe...
[読会]Causal transfer random forest combining logged data and randomized expe...
 
[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes[読会]P qk means-_ billion-scale clustering for product-quantized codes
[読会]P qk means-_ billion-scale clustering for product-quantized codes
 
[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment[読会]Long tail learning via logit adjustment
[読会]Long tail learning via logit adjustment
 
[読会]A critical review of lasso and its derivatives for variable selection und...
[読会]A critical review of lasso and its derivatives for variable selection und...[読会]A critical review of lasso and its derivatives for variable selection und...
[読会]A critical review of lasso and its derivatives for variable selection und...
 
[読会]Themis decentralized and trustless ad platform with reporting integrity
[読会]Themis decentralized and trustless ad platform with reporting integrity[読会]Themis decentralized and trustless ad platform with reporting integrity
[読会]Themis decentralized and trustless ad platform with reporting integrity
 
[読会]Logistic regression models for aggregated data
[読会]Logistic regression models for aggregated data[読会]Logistic regression models for aggregated data
[読会]Logistic regression models for aggregated data
 
Introduction of introduction_to_group_theory
Introduction of introduction_to_group_theoryIntroduction of introduction_to_group_theory
Introduction of introduction_to_group_theory
 
Squeeze and-excitation networks
Squeeze and-excitation networksSqueeze and-excitation networks
Squeeze and-excitation networks
 
Nmp for quantum_chemistry
Nmp for  quantum_chemistryNmp for  quantum_chemistry
Nmp for quantum_chemistry
 
Dl study g_learning_to_remember_rare_events
Dl study g_learning_to_remember_rare_eventsDl study g_learning_to_remember_rare_events
Dl study g_learning_to_remember_rare_events
 
連続最適化勉強会
連続最適化勉強会連続最適化勉強会
連続最適化勉強会
 
finite time analysis of the multiarmed bandit problem
finite time analysis of the multiarmed bandit problemfinite time analysis of the multiarmed bandit problem
finite time analysis of the multiarmed bandit problem
 
normalized online learning
normalized online learningnormalized online learning
normalized online learning
 
logistic regression in rare events data
logistic regression in rare events datalogistic regression in rare events data
logistic regression in rare events data
 
Joint optimization of bid and budget allocation in sponsored search
Joint optimization of bid and budget allocation in sponsored searchJoint optimization of bid and budget allocation in sponsored search
Joint optimization of bid and budget allocation in sponsored search
 
Towards a robust modeling of temporal interest change patterns for behavioral...
Towards a robust modeling of temporal interest change patterns for behavioral...Towards a robust modeling of temporal interest change patterns for behavioral...
Towards a robust modeling of temporal interest change patterns for behavioral...
 
Real time bidding algorithms for performance-based display ad allocation
Real time bidding algorithms for performance-based display ad allocationReal time bidding algorithms for performance-based display ad allocation
Real time bidding algorithms for performance-based display ad allocation
 
Fingind the right consumer - optimizing for conversion in display advertising...
Fingind the right consumer - optimizing for conversion in display advertising...Fingind the right consumer - optimizing for conversion in display advertising...
Fingind the right consumer - optimizing for conversion in display advertising...
 
Real time bid optimization with smooth budget delivery in online advertising
Real time bid optimization with smooth budget delivery in online advertisingReal time bid optimization with smooth budget delivery in online advertising
Real time bid optimization with smooth budget delivery in online advertising
 
Estimating conversion rate in display advertising from past performance data
Estimating conversion rate in display advertising from past performance dataEstimating conversion rate in display advertising from past performance data
Estimating conversion rate in display advertising from past performance data
 

ReviewNet_161122