CVPR 2015 論文紹介（NTT研究所内勉強会用資料）

Copyright©2015 NTT corp. All Rights Reserved.
ベイズ勉強会
CVPR読み会（画像×言語を中心に）
基メ部基識Ｇ牛久祥孝

1Copyright©2015 NTT corp. All Rights Reserved.
CVPR2015 (6月7日～12日)
カメラレディ論文公開：5/24～
• 個人webページで先んじて公開している
• arXivにも投稿する文化が広まりつつある
画像と自然言語、そして深層学習を
中心にいくつかの論文を紹介

次々見つかるDeep Learningの応用先
• 画像認識 [Krizhevsky+, NIPS 2012]
– 1000クラス130万枚
• 機械翻訳 [Sutskever+, NIPS 2014]
– 英仏1200万対訳対

• Googleのやつのニュース

日本でも反響
• Gigazine、「Googleが画像の説明文章を自
動生成する技術を開発」、2014年11月19
日
• TechCrunch Japan、「複雑な画像のキャプ
ション（説明文）を自動生成するシステ
ムをGoogleが研究開発中」、2014年11月
19日
• 日経BP、「MSやGoogleが研究、画像説明
文の自動生成機能」、2014年11月21日

今年のCVPRのオーラルセッション
CNN特化セッション
（去年もあった）
画像と言語セッション
（New!）

今年のCVPRのオーラルセッション
CNN特化セッション
（去年もあった）
画像と言語セッション
（New!）
Neural Networkによる説明文生成が
同時に3本オーラル発表
ポスターでもMSR等が説明文生成

紹介論文
1. Show and Tell: A Neural Image Caption
Generator [Vinyals+, CVPR 2015]
2. Long-term Recurrent Convolutional Networks
for Visual Recognition and Description
[Donahue+, CVPR 2015]
3. Deep Visual-Semantic Alignments for
Generating Image Descriptions
[Karpathy+Fei-Fei, CVPR 2015]

これまでの説明文生成
• これまでは、やや前時代的な組合せ
– 他の画像の説明文をそのまま流用
[Farhadi+, ECCV 2010][Hodosh+, 2013]
– 物体や動作、シーンを推定→テンプレートに
そって文生成
[Kulkarni+, CVPR 2011][Gupta+, AAAI 2012]

Google NIC[Vinyals+, CVPR 2015]
Googleで開発された
• GoogLeNet[Szegedy+, CVPR 2015]
• LSTM[Sutskever+, NIPS 2014]
を直列させて文生成する。
画像𝐼への文（単語列）𝑆0 … 𝑆 𝑁は
𝑆0: スタートを意味する単語
𝑆1 = LSTM CNN 𝐼
𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1
𝑆 𝑁: ストップを意味する単語

生成された説明文の例

LRCN[Donahue+, CVPR 2015]
• CNN+stacked LSTM
– 動作認識（下図左）
– 画像説明文生成（下図中央）
– 動画説明文生成（下図右）

生成された説明文の例

Visual-Semantic Alignments
[Karpathy+Fei-Fei, CVPR 2015]
• 画像説明文生成はCNN+Bidirectional RNN
– 他の手法とほぼ同一
– 並列でVisual Semantic
Alignmentを提案

画像領域と文の一部とのアライメント
Image-sentence score（右図）
画像領域𝐼𝑖・説明文単語𝑆𝑡で、
– 𝒗𝑖 = CNN 𝐼𝑖 ∈ ℝℎ
– 𝒔 𝑡 = BRNN 𝑆𝑡 ∈ ℝℎ
から 𝑖 𝑡 𝒗𝑖
⊤
𝒔 𝑡 を計算
対応する画像・説明文ペアの score
> 非対応ペアの score になるよう学習

アライメントの例

お互いにとても似ている
CNN（画像特徴量） RNN（文生成）
Google NIC GoogLeNet（22層CNN）
Fine Tuningあり
LSTM
LRCN VGG Net（19層CNN）
Fine Tuningあり
Stacked LSTMs
Visual-Semantic Alignment AlexNet（7層CNN）
Fine Tuningなし
BRNN → LSTM
表：Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較

[Ushiku+, ACM MM 2012]と比べると
入力画像
[Ushiku+, ACM MM 2012]では：
Fisher Vector + 線形分類オンライン学習
CVPR 2015 の各論文では：
CNN（オンライン学習なのは一緒）
CVPR 2015 の各論文では：
RNNとビームサーチで文をつなぐ
[Ushiku+, ACM MM 2012]では：
キーフレーズと文法モデル、
ビームサーチで文をつなぐ
文の一部で重要そうなものを複数推定文法モデルを利用して繋ぎ、説明文に
尽く引用されていないが、全体の流れは非常に似ている
“キーフレーズ”

紹介論文
4. Deep Neural Networks are Easilly Fooled:
High Confidence Predictions for
Unrecognizable Images [Nguyen+, CVPR
2015]
5. Understanding Deep Image Representation
by Inverting Them [Mahendran+Vedaldi,
CVPR 2015]

何の画像でしょうか？

だまし画像生成[Nguyen+, CVPR 2015]

だまし画像生成[Nguyen+, CVPR 2015]
• 進化アルゴリズムを利用
– 特定のクラスへのconfidenceが99.99%になる
ように
1. ピクセルごとにランダム初期値→進化
2. 画像を生成するNeural Netを進化 [Stanley, 2007]

特徴量可視化[Mahendran+Vedaldi, CVPR 2015]
• [Nguyen+, CVPR 2015]は出力のみを見て画像
を生成
– CNNの途中のレイヤーなどは無視
– 各層での学習結果を直接可視化出来るか？
• 先行研究 [Zeiler+Fergus, ECCV 2014] では･･･
– Max poolingしたユニットの情報が必要
– ある入力画像による勾配を可視化しているだけ
[Simonyan+, ICLR 2014]

画像の正則化今の画像の
特徴量
目的の
特徴量画素（タテxヨコxチャネル数）
損失関数 =
正則化項 =

• 勾配降下法によって最適化
を入力したときの
の各レイヤを可視化すると･･･

CVPR 2015 論文紹介（NTT研究所内勉強会用資料）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to CVPR 2015 論文紹介（NTT研究所内勉強会用資料）

Similar to CVPR 2015 論文紹介（NTT研究所内勉強会用資料） (20)

More from Yoshitaka Ushiku

More from Yoshitaka Ushiku (14)

Recently uploaded

Recently uploaded (9)

CVPR 2015 論文紹介（NTT研究所内勉強会用資料）