SlideShare a Scribd company logo
1 of 26
Copyright©2015 NTT corp. All Rights Reserved.
ベイズ勉強会
CVPR読み会(画像×言語を中心に)
基メ部 基識G 牛久祥孝
1Copyright©2015 NTT corp. All Rights Reserved.
CVPR2015 (6月7日~12日)
カメラレディ論文公開:5/24~
• 個人webページで先んじて公開している
• arXivにも投稿する文化が広まりつつある
画像と自然言語、そして深層学習を
中心にいくつかの論文を紹介
2Copyright©2015 NTT corp. All Rights Reserved.
次々見つかるDeep Learningの応用先
• 画像認識 [Krizhevsky+, NIPS 2012]
– 1000クラス130万枚
• 機械翻訳 [Sutskever+, NIPS 2014]
– 英仏1200万対訳対
3Copyright©2015 NTT corp. All Rights Reserved.
• Googleのやつのニュース
4Copyright©2015 NTT corp. All Rights Reserved.
日本でも反響
• Gigazine、「Googleが画像の説明文章を自
動生成する技術を開発」、2014年11月19
日
• TechCrunch Japan、「複雑な画像のキャプ
ション(説明文)を自動生成するシステ
ムをGoogleが研究開発中」、2014年11月
19日
• 日経BP、「MSやGoogleが研究、画像説明
文の自動生成機能」、2014年11月21日
5Copyright©2015 NTT corp. All Rights Reserved.
今年のCVPRのオーラルセッション
CNN特化セッション
(去年もあった)
画像と言語セッション
(New!)
6Copyright©2015 NTT corp. All Rights Reserved.
今年のCVPRのオーラルセッション
CNN特化セッション
(去年もあった)
画像と言語セッション
(New!)
Neural Networkによる説明文生成が
同時に3本オーラル発表
ポスターでもMSR等が説明文生成
Copyright©2015 NTT corp. All Rights Reserved.
紹介論文
1. Show and Tell: A Neural Image Caption
Generator [Vinyals+, CVPR 2015]
2. Long-term Recurrent Convolutional Networks
for Visual Recognition and Description
[Donahue+, CVPR 2015]
3. Deep Visual-Semantic Alignments for
Generating Image Descriptions
[Karpathy+Fei-Fei, CVPR 2015]
8Copyright©2015 NTT corp. All Rights Reserved.
これまでの説明文生成
• これまでは、やや前時代的な組合せ
– 他の画像の説明文をそのまま流用
[Farhadi+, ECCV 2010][Hodosh+, 2013]
– 物体や動作、シーンを推定→テンプレートに
そって文生成
[Kulkarni+, CVPR 2011][Gupta+, AAAI 2012]
9Copyright©2015 NTT corp. All Rights Reserved.
Google NIC[Vinyals+, CVPR 2015]
Googleで開発された
• GoogLeNet[Szegedy+, CVPR 2015]
• LSTM[Sutskever+, NIPS 2014]
を直列させて文生成する。
画像𝐼への文(単語列)𝑆0 … 𝑆 𝑁は
𝑆0: スタートを意味する単語
𝑆1 = LSTM CNN 𝐼
𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1
𝑆 𝑁: ストップを意味する単語
10Copyright©2015 NTT corp. All Rights Reserved.
生成された説明文の例
11Copyright©2015 NTT corp. All Rights Reserved.
LRCN[Donahue+, CVPR 2015]
• CNN+stacked LSTM
– 動作認識(下図左)
– 画像説明文生成(下図中央)
– 動画説明文生成(下図右)
12Copyright©2015 NTT corp. All Rights Reserved.
生成された説明文の例
13Copyright©2015 NTT corp. All Rights Reserved.
Visual-Semantic Alignments
[Karpathy+Fei-Fei, CVPR 2015]
• 画像説明文生成はCNN+Bidirectional RNN
– 他の手法とほぼ同一
– 並列でVisual Semantic
Alignmentを提案
14Copyright©2015 NTT corp. All Rights Reserved.
画像領域と文の一部とのアライメント
Image-sentence score(右図)
画像領域𝐼𝑖・説明文単語𝑆𝑡で、
– 𝒗𝑖 = CNN 𝐼𝑖 ∈ ℝℎ
– 𝒔 𝑡 = BRNN 𝑆𝑡 ∈ ℝℎ
から 𝑖 𝑡 𝒗𝑖
⊤
𝒔 𝑡 を計算
対応する画像・説明文ペアの score
> 非対応ペアの score になるよう学習
15Copyright©2015 NTT corp. All Rights Reserved.
アライメントの例
16Copyright©2015 NTT corp. All Rights Reserved.
お互いにとても似ている
CNN(画像特徴量) RNN(文生成)
Google NIC GoogLeNet(22層CNN)
Fine Tuningあり
LSTM
LRCN VGG Net(19層CNN)
Fine Tuningあり
Stacked LSTMs
Visual-Semantic Alignment AlexNet(7層CNN)
Fine Tuningなし
BRNN → LSTM
表:Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較
17Copyright©2015 NTT corp. All Rights Reserved.
[Ushiku+, ACM MM 2012]と比べると
入力画像
[Ushiku+, ACM MM 2012]では:
Fisher Vector + 線形分類オンライン学習
CVPR 2015 の各論文では:
CNN(オンライン学習なのは一緒)
CVPR 2015 の各論文では:
RNNとビームサーチで文をつなぐ
[Ushiku+, ACM MM 2012]では:
キーフレーズと文法モデル、
ビームサーチで文をつなぐ
文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に
尽く引用されていないが、全体の流れは非常に似ている
“キーフレーズ”
Copyright©2015 NTT corp. All Rights Reserved.
紹介論文
4. Deep Neural Networks are Easilly Fooled:
High Confidence Predictions for
Unrecognizable Images [Nguyen+, CVPR
2015]
5. Understanding Deep Image Representation
by Inverting Them [Mahendran+Vedaldi,
CVPR 2015]
19Copyright©2015 NTT corp. All Rights Reserved.
何の画像でしょうか?
20Copyright©2015 NTT corp. All Rights Reserved.
何の画像でしょうか?
21Copyright©2015 NTT corp. All Rights Reserved.
だまし画像生成[Nguyen+, CVPR 2015]
22Copyright©2015 NTT corp. All Rights Reserved.
だまし画像生成[Nguyen+, CVPR 2015]
• 進化アルゴリズムを利用
– 特定のクラスへのconfidenceが99.99%になる
ように
1. ピクセルごとにランダム初期値→進化
2. 画像を生成するNeural Netを進化 [Stanley, 2007]
23Copyright©2015 NTT corp. All Rights Reserved.
特徴量可視化[Mahendran+Vedaldi, CVPR 2015]
• [Nguyen+, CVPR 2015]は出力のみを見て画像
を生成
– CNNの途中のレイヤーなどは無視
– 各層での学習結果を直接可視化出来るか?
• 先行研究 [Zeiler+Fergus, ECCV 2014] では・・・
– Max poolingしたユニットの情報が必要
– ある入力画像による勾配を可視化しているだけ
[Simonyan+, ICLR 2014]
24Copyright©2015 NTT corp. All Rights Reserved.
特徴量可視化[Mahendran+Vedaldi, CVPR 2015]
画像の正則化今の画像の
特徴量
目的の
特徴量画素(タテxヨコxチャネル数)
損失関数 =
正則化項 =
25Copyright©2015 NTT corp. All Rights Reserved.
特徴量可視化[Mahendran+Vedaldi, CVPR 2015]
• 勾配降下法によって最適化
を入力したときの
の各レイヤを可視化すると・・・

More Related Content

What's hot

Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Yoshitaka Ushiku
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Yoshitaka Ushiku
 
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Daiki Shimada
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive NormalizationSPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive NormalizationTenki Lee
 
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)Tenki Lee
 
深層学習とTensorFlow入門
深層学習とTensorFlow入門深層学習とTensorFlow入門
深層学習とTensorFlow入門tak9029
 
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper. challenge
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)cvpaper. challenge
 
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料tm_2648
 
FeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement LearningFeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement Learning佑 甲野
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + αNIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α佑 甲野
 
日本ソフトウェア科学会第36回大会発表資料「帰納的プログラミングの初等教育の試み」西澤勇輝
日本ソフトウェア科学会第36回大会発表資料「帰納的プログラミングの初等教育の試み」西澤勇輝日本ソフトウェア科学会第36回大会発表資料「帰納的プログラミングの初等教育の試み」西澤勇輝
日本ソフトウェア科学会第36回大会発表資料「帰納的プログラミングの初等教育の試み」西澤勇輝Preferred Networks
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) cvpaper. challenge
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太Preferred Networks
 

What's hot (20)

Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive NormalizationSPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
 
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)
 
深層学習とTensorFlow入門
深層学習とTensorFlow入門深層学習とTensorFlow入門
深層学習とTensorFlow入門
 
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)
 
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
 
FeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement LearningFeUdal Networks for Hierarchical Reinforcement Learning
FeUdal Networks for Hierarchical Reinforcement Learning
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + αNIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
 
日本ソフトウェア科学会第36回大会発表資料「帰納的プログラミングの初等教育の試み」西澤勇輝
日本ソフトウェア科学会第36回大会発表資料「帰納的プログラミングの初等教育の試み」西澤勇輝日本ソフトウェア科学会第36回大会発表資料「帰納的プログラミングの初等教育の試み」西澤勇輝
日本ソフトウェア科学会第36回大会発表資料「帰納的プログラミングの初等教育の試み」西澤勇輝
 
深層強化学習入門
深層強化学習入門深層強化学習入門
深層強化学習入門
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2)
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 

Similar to CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

視覚と対話の融合研究
視覚と対話の融合研究視覚と対話の融合研究
視覚と対話の融合研究Yoshitaka Ushiku
 
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Yusuke Oda
 
チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発Satoshi Takano
 
WebRTC入門+最新動向
WebRTC入門+最新動向WebRTC入門+最新動向
WebRTC入門+最新動向Ryosuke Otsuya
 
自前でcloud foundryを構築してgooのビッグサービスをカットオーバーした話
自前でcloud foundryを構築してgooのビッグサービスをカットオーバーした話自前でcloud foundryを構築してgooのビッグサービスをカットオーバーした話
自前でcloud foundryを構築してgooのビッグサービスをカットオーバーした話和也 大木
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況cvpaper. challenge
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
3000台のサーバーを毎日vulsでスキャンしてRedmineでチケット管理した話
3000台のサーバーを毎日vulsでスキャンしてRedmineでチケット管理した話3000台のサーバーを毎日vulsでスキャンしてRedmineでチケット管理した話
3000台のサーバーを毎日vulsでスキャンしてRedmineでチケット管理した話Rie Watanabe
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNA
 
KinectやRealSenseの概要とさまざまな使い方
KinectやRealSenseの概要とさまざまな使い方KinectやRealSenseの概要とさまざまな使い方
KinectやRealSenseの概要とさまざまな使い方Kaoru NAKAMURA
 
私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て
私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て
私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全てOsamu Shimoda
 
第5回業開中心会議
第5回業開中心会議第5回業開中心会議
第5回業開中心会議Kaoru NAKAMURA
 
HeapStatsの出展と発表を通して見えた JavaOne2014
HeapStatsの出展と発表を通して見えた JavaOne2014HeapStatsの出展と発表を通して見えた JavaOne2014
HeapStatsの出展と発表を通して見えた JavaOne2014Shinji Takao
 
CNNチュートリアル
CNNチュートリアルCNNチュートリアル
CNNチュートリアルIkuro Sato
 
ウェアラブルデバイスとモーションセンサーの融合
ウェアラブルデバイスとモーションセンサーの融合ウェアラブルデバイスとモーションセンサーの融合
ウェアラブルデバイスとモーションセンサーの融合Kaoru NAKAMURA
 
はじめてのKinect for windows v2
はじめてのKinect for windows v2はじめてのKinect for windows v2
はじめてのKinect for windows v2Kaoru NAKAMURA
 
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text UnderstandingToru Tamaki
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかRecruit Technologies
 

Similar to CVPR 2015 論文紹介(NTT研究所内勉強会用資料) (20)

視覚と対話の融合研究
視覚と対話の融合研究視覚と対話の融合研究
視覚と対話の融合研究
 
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)
 
チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発チラシルiOSでの広告枠開発
チラシルiOSでの広告枠開発
 
WebRTC入門+最新動向
WebRTC入門+最新動向WebRTC入門+最新動向
WebRTC入門+最新動向
 
自前でcloud foundryを構築してgooのビッグサービスをカットオーバーした話
自前でcloud foundryを構築してgooのビッグサービスをカットオーバーした話自前でcloud foundryを構築してgooのビッグサービスをカットオーバーした話
自前でcloud foundryを構築してgooのビッグサービスをカットオーバーした話
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
3000台のサーバーを毎日vulsでスキャンしてRedmineでチケット管理した話
3000台のサーバーを毎日vulsでスキャンしてRedmineでチケット管理した話3000台のサーバーを毎日vulsでスキャンしてRedmineでチケット管理した話
3000台のサーバーを毎日vulsでスキャンしてRedmineでチケット管理した話
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
 
10大ニュースで振り返るPGCon2015
10大ニュースで振り返るPGCon201510大ニュースで振り返るPGCon2015
10大ニュースで振り返るPGCon2015
 
KinectやRealSenseの概要とさまざまな使い方
KinectやRealSenseの概要とさまざまな使い方KinectやRealSenseの概要とさまざまな使い方
KinectやRealSenseの概要とさまざまな使い方
 
私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て
私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て
私がSeleniumを使ってスクリーンショットを撮るまでに出会った闇の全て
 
第5回業開中心会議
第5回業開中心会議第5回業開中心会議
第5回業開中心会議
 
HeapStatsの出展と発表を通して見えた JavaOne2014
HeapStatsの出展と発表を通して見えた JavaOne2014HeapStatsの出展と発表を通して見えた JavaOne2014
HeapStatsの出展と発表を通して見えた JavaOne2014
 
CNNチュートリアル
CNNチュートリアルCNNチュートリアル
CNNチュートリアル
 
ウェアラブルデバイスとモーションセンサーの融合
ウェアラブルデバイスとモーションセンサーの融合ウェアラブルデバイスとモーションセンサーの融合
ウェアラブルデバイスとモーションセンサーの融合
 
はじめてのKinect for windows v2
はじめてのKinect for windows v2はじめてのKinect for windows v2
はじめてのKinect for windows v2
 
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたかリクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
 

More from Yoshitaka Ushiku

機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組みYoshitaka Ushiku
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Yoshitaka Ushiku
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Yoshitaka Ushiku
 
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Yoshitaka Ushiku
 
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningYoshitaka Ushiku
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考えるYoshitaka Ushiku
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Yoshitaka Ushiku
 
Asymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationYoshitaka Ushiku
 
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILYoshitaka Ushiku
 
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...Yoshitaka Ushiku
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)Yoshitaka Ushiku
 
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...Yoshitaka Ushiku
 
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...Yoshitaka Ushiku
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 

More from Yoshitaka Ushiku (14)

機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
 
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
 
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
 
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
 
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考える
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
 
Asymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain Adaptation
 
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
 
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
 
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
 
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 

Recently uploaded

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 

Recently uploaded (9)

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 

CVPR 2015 論文紹介(NTT研究所内勉強会用資料)

  • 1. Copyright©2015 NTT corp. All Rights Reserved. ベイズ勉強会 CVPR読み会(画像×言語を中心に) 基メ部 基識G 牛久祥孝
  • 2. 1Copyright©2015 NTT corp. All Rights Reserved. CVPR2015 (6月7日~12日) カメラレディ論文公開:5/24~ • 個人webページで先んじて公開している • arXivにも投稿する文化が広まりつつある 画像と自然言語、そして深層学習を 中心にいくつかの論文を紹介
  • 3. 2Copyright©2015 NTT corp. All Rights Reserved. 次々見つかるDeep Learningの応用先 • 画像認識 [Krizhevsky+, NIPS 2012] – 1000クラス130万枚 • 機械翻訳 [Sutskever+, NIPS 2014] – 英仏1200万対訳対
  • 4. 3Copyright©2015 NTT corp. All Rights Reserved. • Googleのやつのニュース
  • 5. 4Copyright©2015 NTT corp. All Rights Reserved. 日本でも反響 • Gigazine、「Googleが画像の説明文章を自 動生成する技術を開発」、2014年11月19 日 • TechCrunch Japan、「複雑な画像のキャプ ション(説明文)を自動生成するシステ ムをGoogleが研究開発中」、2014年11月 19日 • 日経BP、「MSやGoogleが研究、画像説明 文の自動生成機能」、2014年11月21日
  • 6. 5Copyright©2015 NTT corp. All Rights Reserved. 今年のCVPRのオーラルセッション CNN特化セッション (去年もあった) 画像と言語セッション (New!)
  • 7. 6Copyright©2015 NTT corp. All Rights Reserved. 今年のCVPRのオーラルセッション CNN特化セッション (去年もあった) 画像と言語セッション (New!) Neural Networkによる説明文生成が 同時に3本オーラル発表 ポスターでもMSR等が説明文生成
  • 8. Copyright©2015 NTT corp. All Rights Reserved. 紹介論文 1. Show and Tell: A Neural Image Caption Generator [Vinyals+, CVPR 2015] 2. Long-term Recurrent Convolutional Networks for Visual Recognition and Description [Donahue+, CVPR 2015] 3. Deep Visual-Semantic Alignments for Generating Image Descriptions [Karpathy+Fei-Fei, CVPR 2015]
  • 9. 8Copyright©2015 NTT corp. All Rights Reserved. これまでの説明文生成 • これまでは、やや前時代的な組合せ – 他の画像の説明文をそのまま流用 [Farhadi+, ECCV 2010][Hodosh+, 2013] – 物体や動作、シーンを推定→テンプレートに そって文生成 [Kulkarni+, CVPR 2011][Gupta+, AAAI 2012]
  • 10. 9Copyright©2015 NTT corp. All Rights Reserved. Google NIC[Vinyals+, CVPR 2015] Googleで開発された • GoogLeNet[Szegedy+, CVPR 2015] • LSTM[Sutskever+, NIPS 2014] を直列させて文生成する。 画像𝐼への文(単語列)𝑆0 … 𝑆 𝑁は 𝑆0: スタートを意味する単語 𝑆1 = LSTM CNN 𝐼 𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1 𝑆 𝑁: ストップを意味する単語
  • 11. 10Copyright©2015 NTT corp. All Rights Reserved. 生成された説明文の例
  • 12. 11Copyright©2015 NTT corp. All Rights Reserved. LRCN[Donahue+, CVPR 2015] • CNN+stacked LSTM – 動作認識(下図左) – 画像説明文生成(下図中央) – 動画説明文生成(下図右)
  • 13. 12Copyright©2015 NTT corp. All Rights Reserved. 生成された説明文の例
  • 14. 13Copyright©2015 NTT corp. All Rights Reserved. Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] • 画像説明文生成はCNN+Bidirectional RNN – 他の手法とほぼ同一 – 並列でVisual Semantic Alignmentを提案
  • 15. 14Copyright©2015 NTT corp. All Rights Reserved. 画像領域と文の一部とのアライメント Image-sentence score(右図) 画像領域𝐼𝑖・説明文単語𝑆𝑡で、 – 𝒗𝑖 = CNN 𝐼𝑖 ∈ ℝℎ – 𝒔 𝑡 = BRNN 𝑆𝑡 ∈ ℝℎ から 𝑖 𝑡 𝒗𝑖 ⊤ 𝒔 𝑡 を計算 対応する画像・説明文ペアの score > 非対応ペアの score になるよう学習
  • 16. 15Copyright©2015 NTT corp. All Rights Reserved. アライメントの例
  • 17. 16Copyright©2015 NTT corp. All Rights Reserved. お互いにとても似ている CNN(画像特徴量) RNN(文生成) Google NIC GoogLeNet(22層CNN) Fine Tuningあり LSTM LRCN VGG Net(19層CNN) Fine Tuningあり Stacked LSTMs Visual-Semantic Alignment AlexNet(7層CNN) Fine Tuningなし BRNN → LSTM 表:Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較
  • 18. 17Copyright©2015 NTT corp. All Rights Reserved. [Ushiku+, ACM MM 2012]と比べると 入力画像 [Ushiku+, ACM MM 2012]では: Fisher Vector + 線形分類オンライン学習 CVPR 2015 の各論文では: CNN(オンライン学習なのは一緒) CVPR 2015 の各論文では: RNNとビームサーチで文をつなぐ [Ushiku+, ACM MM 2012]では: キーフレーズと文法モデル、 ビームサーチで文をつなぐ 文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に 尽く引用されていないが、全体の流れは非常に似ている “キーフレーズ”
  • 19. Copyright©2015 NTT corp. All Rights Reserved. 紹介論文 4. Deep Neural Networks are Easilly Fooled: High Confidence Predictions for Unrecognizable Images [Nguyen+, CVPR 2015] 5. Understanding Deep Image Representation by Inverting Them [Mahendran+Vedaldi, CVPR 2015]
  • 20. 19Copyright©2015 NTT corp. All Rights Reserved. 何の画像でしょうか?
  • 21. 20Copyright©2015 NTT corp. All Rights Reserved. 何の画像でしょうか?
  • 22. 21Copyright©2015 NTT corp. All Rights Reserved. だまし画像生成[Nguyen+, CVPR 2015]
  • 23. 22Copyright©2015 NTT corp. All Rights Reserved. だまし画像生成[Nguyen+, CVPR 2015] • 進化アルゴリズムを利用 – 特定のクラスへのconfidenceが99.99%になる ように 1. ピクセルごとにランダム初期値→進化 2. 画像を生成するNeural Netを進化 [Stanley, 2007]
  • 24. 23Copyright©2015 NTT corp. All Rights Reserved. 特徴量可視化[Mahendran+Vedaldi, CVPR 2015] • [Nguyen+, CVPR 2015]は出力のみを見て画像 を生成 – CNNの途中のレイヤーなどは無視 – 各層での学習結果を直接可視化出来るか? • 先行研究 [Zeiler+Fergus, ECCV 2014] では・・・ – Max poolingしたユニットの情報が必要 – ある入力画像による勾配を可視化しているだけ [Simonyan+, ICLR 2014]
  • 25. 24Copyright©2015 NTT corp. All Rights Reserved. 特徴量可視化[Mahendran+Vedaldi, CVPR 2015] 画像の正則化今の画像の 特徴量 目的の 特徴量画素(タテxヨコxチャネル数) 損失関数 = 正則化項 =
  • 26. 25Copyright©2015 NTT corp. All Rights Reserved. 特徴量可視化[Mahendran+Vedaldi, CVPR 2015] • 勾配降下法によって最適化 を入力したときの の各レイヤを可視化すると・・・