【2017.02】cvpaper.challenge2017

cvpaper.challenge

Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com

Samarth Brahmbhatt, James Hays, “DeepNav: Learning to Navigate Large Cities”, in arXiv 1701.09135,
2017.
【1】
Keywords: StreetView, CNN, DeepNavigation
新規性・差分
概要
ストリートビューから画像を⼤量に採取して道案内のためのCNNを構築した。提案の
データセットには10都市から100万画像を超えるストリートビューの画像が含まれ
る。ナビゲーションの課題において3種類の教師あり学習を提案し、A*-searchがどの
程度学習の⽣成に有効かを検証した。データセットは完全にストリートビューのタグ
を使⽤した。CNNアーキテクチャに関してはDeepNav-{distance, direction, pair}を提
案。-distanceはVGG16の特徴から⽬的地までの距離を返却（fc8が距離を算出）、-
directionは同特徴から⽅向を返却（fc8が各⽬的地・各⽅向のスコアを算出）、-pairは
SiameseNetにより構成され、画像のペアから⽅向を算出。
・⽶国の10都市から100万枚のストリートビュー
の画像を収集してデータセットを構成した。本デ
ータセットには５種類の⽬的地（Bank of
America, Church, Gas Station, High School and
McDonald’s）を含む。
・⼿法としては3つのCNNアーキテクチャを提案
した。従来⼿法[Khosla+, CVPR14]と⽐較の結
果、有効性を⽰した。
・A*-searchにより経路⽣成を⾏い、これをCNN
の教師と設定した
Links
論⽂ https://arxiv.org/pdf/1701.09135.pdf
著者 https://samarth-robo.github.io/
サンフランシスコの経路（ノード）と
⽬的地（ピン）
DB中に含まれるデータ数と各統計
←各アルゴリズムの平均ステップ数

Florian Schroff, Dmitry Kalenichenko, James Philbin, “FaceNet: A Unified Embedding for Face
Recognition and Clustering”, in CVPR, 2015.
【2】
Keywords: Face Recognition, TripletLoss, FaceNet
新規性・差分
概要
顔画像をユークリッド空間として扱えるような特徴マッピング(Embedding)を実
⾏する。GoogLeNetをベースにしたCNNを、Tripletにより学習することで、128
次元のベクトルで顔画像を扱えるようになり、さらにユークリッド空間において
顔同⼠を⽐較可能。Tripletは(アンカー、ポジティブ（アンカーと同⼀クラ
ス）、ネガティブ（アンカーと異なるクラス）)により構成され、ユークリッド
空間においてポジティブとできるだけ近くに、ネガティブとできるだけ遠くに配
置するように学習。
・TripletLossにより顔認識の特徴を計算可能
・⾮常に単純な特徴でありながら顔認識において（当時の）
State-of-the-artを達成した：Labeled Face in the Wild (LFW)で
99.63%、YouTube Faces DBで95.12%を実現した。
・現在では、TensorFlowやTorchの学習やテストコードが提供さ
れている。
Links
論⽂ https://arxiv.org/pdf/1503.03832v3.pdf
プロジェクト
資料 http://www.slideshare.net/kaorunasuno/20150611-nasuno
TensorFlow実装 https://github.com/davidsandberg/facenet
Torch実装 https://github.com/Atcold/torch-TripletEmbedding
顔認識におい
て、同⼀⼈物の
距離をできる限
り近く、他⼈と
の距離をできる
だけ遠くにした
い。FaceNetは
TripletLossを⽤い
ることによりこ
れを実現する。
Min-batchによりTripletを⼊⼒、CNNにより特徴を計算してアンカー・ポ
ジティブ、アンカー・ネガティブによりTripletLossを学習。
5つのCNNアーキテクチャを考案。
AlexNetをベースにしたZFNetも良好
な精度を出しているが、GoogLeNet
がもっとも良い結果となった。ま
た、⼊⼒画像も224x224[pixel]が良い
という結果に。

Abhijit Kundu,Yin Li,Frank Daellert,Fuxin Li,James M. Rehg “Joint Semantic Segmentation and 3D
Reconstruction from Monocular Video”, in ECCV, 2014.
【3】
Keywords: 3次元再構成、セマンティックセグメンテーション
新規性・差分
概要
・⼤規模な屋外シーンのビデオから、３Dコンストラクショ
ンとセマンティックセグメンテーション同時に⾏う⼿法を
提案した。左上の図は提案⼿法のイメージ図です。
・流れとしては、提案⼿法はまず、まず標準的なvisual
slam と２Dセマンティックセグメンテーションを⾏う。そ
して、そういった情報を利⽤して、データ駆動型の図形モ
デルコンストラクションを⾏う。最後に、マップ推定法を
⽤いて、ボクセルごとにラベルを配分する。
・3dボリュームモデルの3dコンストラクションとセマンティックの
新たに⾼次なcrfモデルを提案した。デンスなデプス情報が必要な
し。
・ダイナミックにcrfモデルのpotentialsをインスタンス化するデータ
駆動型のカテゴリ固定的プロセスを提案した。
・挑戦的な前進モノクロ序列データセットのcamvidと leuvenで提案
⼿法を検証した。検証の結果は右下の図で⽰しているようです。
伝統的なスパースSFMよりデンスで、セマンティックセグメンテー
ションの部分は従来⼿法と⽐べて不⼀致の問題を解決した。そし
て、ピクセルごとの正確さも⾼いです。
Links
論⽂ http://www.cc.gatech.edu/~dellaert/pubs/Kundu14eccv.pdf

Yann N. Dauphin, Angela Fan, Michael Auli, David Grangier, “Language Modeling with Gated
Convolutional Networks”, in arXiv 1612.08083, 2016.
【4】
Keywords: Gated CNN, Language Model
新規性・差分
概要
⾔語モデルの記述は LSTMが多いが、本論⽂では畳み込みを⽤いた
⾔語モデルを提案する。特に、ゲーティングの仕組みを提案し、勾
配の伝播を実⾏する。LSTMを⽤いたOord et al. (2016b)の⼿法と
⽐較するとWikiText-103にて⾼精度かつシンプルなモデルを提供す
る。
・提案されたGated ConvNetを適⽤して、LSTMなど再帰的な構造
を⽤いずに構造化された再帰的構造を破る結果を実現した。
Google Billion Word test setにおいてもっとも良い性能を出した(下
表参照)。
Links
コード https://github.com/YueDayu/gated-cnn
Gated ConvNetのアーキテクチ
ャ。⼊⼒はテキストをルックアッ
プテーブルにて型変換し、ワード
数N x ベクトル次元数
(Embedding) mの空間に投影した
もの。隠れ層 h0, … h_Lは
の処理を⾏う。X (Nxm次元)は各
層h_lにおける⼊⼒、W (k x m x n
次元)、b (n次元)、V(k x m x n)、c
(n次元)は学習するパラメータで、
σはシグモイド関数、⊗はテンソ
ル積を表す。

Martin Arjovsky, Soumith Chintala, Leon Bottou, “Wasserstein GAN”, in arXiv, 2017.【5】
Keywords: GAN, Generative Model
新規性・差分
概要
モデルの距離計算を新しいモデルで定義。具体的には、
Earth Mover (EM)distanceにより分布を解析するものを提
案した。この、EM distanceを効率的に最⼩化するモデル
はWasserstein-GANと呼ばれる。右式は2つの分布の距離
を⽰し、その下式の最⼤化を⾏うことによりWassetstein
距離の近似を⾏う。
・右の図はLSUNによるシーンの⽣成結果である
・WGANは⽣成画像の崩壊を防ぐとされている
・PyTorchやChainerによるコードが公開されているので、
すぐに試すことができる
Links
PyTorchコード
https://github.com/martinarjovsky/WassersteinGAN
Chainerコード https://github.com/musyoku/wasserstein-gan

Geoffrey Hinton, Oriol Vinyals, Jeff Dean, “Distilling the Knowledge in a Neural Network”, in NIPS, 2014.
【6】
Keywords: Knowledge Distillation, CNN
新規性・差分
概要
⼤きなDNNネットワークのパラメータを⽤いて、⼩さな
DNNネットワークのパラメータを更新し、⼩さなモデルで
も⼤きなネットワークと同じような精度を実現す
る”Knowledge Distillation”を実現した。
・MNISTにて学習した結果、CNN(⼤; 精度99.3%)のパラ
メータをCNN(⼩; 精度98.6%)に教⽰した結果、CNN(⼩)の
精度が99.2%まで向上した。
・同じタスクを解く際に、⼤きなネットワークから⼩さな
ネットワークに転移学習する⽅法を確⽴した。
Links
プロジェクト
JFTのテストセットにおいても精度の向上が⾒られた。

Yonghui Wu, et al., “Google’s Neural Machine Translation System: Bridging the Gap between Human
and Machine Translation”, in arXiv 1609.08144, 2016.
【7】
Keywords: Machine Transtation, Goolge翻訳
新規性・差分
概要
グーグル翻訳の新機能であるGoogle’s Neural Machine Translation (GNMT)
の論⽂。NMTでは⼤規模なデータにおいて翻訳速度が遅くなってしまう問
題があったが、本論⽂ではそれも解決している。翻訳モデルGNMTは
Encoder-Decorderの構造を保有し、Residual Connectionを導⼊した8のエ
ンコーダ、8のデコーダから構成される。エンコーダもデコーダも深い構造
の⽅がよく、ResNetの枠組みを⽤いると⾔語処理において8層でも勾配消
失を防ぐことができた。
学習は初期段階では最尤訓練を⾏い、次に強化学習を繰り返す。
・⾼速化のための演算の⼯夫や、レアな単語に対応するためサブワード分割
や⼊⼒を出⼒にコピーして扱う。
・従来のグーグル翻訳と⽐較するとエラー率を相対的に60%低減することに
成功した。
・NVIDIA K80 GPU x 96により6⽇間学習@最尤訓練、3⽇間学習@強化学習
を⾏った。
Links
⽇本語資料 http://www.slideshare.net/ToshiakiNakazawa/gnmt-66491745
Google Research Blog https://research.googleblog.com/2016/09/a-neural-network-for-machine.html
図はGNMTシステムを⽰す。左側はエンコーダ、右はデコー
ダネットワーク、中央にはアテンションモジュールが存在。
下層のエンコーダ層は双⽅向(bi-directional)の構造である。
ピンクのエンコーダは順⽅向、緑のエンコーダは逆⽅向の処
理を⽰している。エンコーダ・デコーダにおいてResidual
Connectionは3層から開始している。エンコーダ・デコーダ
はいずれも8層のLSTMから構成される。分散処理が可能な部
分においては独⽴してGPUを割り当て⾼速化を図る。

Emin Orhan, “Skip Connections as Effective Symmetry-Breaking”, in arXiv 1701.09175, 2017.【8】
Keywords: Skip Connection, Residual Learning, Symmetry-Breaking
新規性・差分
概要
ResNetによるスキップコネクションはVeryDeepなDNNを学習するための有
効な⽅法となったが、さらに改善を施すために、Symmetry-Breakingを提案
し、学習⽅法についても⾔及した。（ここで、Symmetry-Breakingとは畳み
込みのカーネルを交換すること？）
Dense-Connectionでは残差を多数統合して勾配を強調するため精度は上がる
が、理想的な向上は⾒られなかった。⼀⽅でSymmetry-Breakingによる最適
化は勾配爆発・消失問題を解決し、認識タスクにおいて有効であることがわ
かった。（が、常に有効であるとは限らない）
・Symmetry-Breakingにより勾配爆発・消失を解決した
・Residual Connectionの仕組みを解明したわけではない
が、理想的な学習に近づいた
Links
プロジェクト
(a)通常のFeedforward network (b) Residual netwrok (c)
Hyper-residual network：複数の階層をスキップした特徴
マップを統合 (d) Path-residual：相互的にスキップ

Wenpeng Yin, Katharina Kann, Mo Yu, Hinrich Schutze, “Comparative Study of CNN and RNN for
Natural Language Processing”, in 1702.01923, 2017.
【9】
Keywords: NLP, CNN, RNN
新規性・差分
概要
NLPにおけるCNNやRNNの解析論⽂。
タスクとしてはSentiment Classification, Relation
Classification, Textual Entailment, Question Relation
Match, Path Query Answering, Part-of-Speech Tagging,
ContextDepを含む。
・CNN, GRU, LSTM (RNN)に加え、タスクによってはBi-
directional GRUやBi-directional LSTMを採⽤。右表は各タ
スクにおける精度を⽰す。
・「深さ」と「最適化のバッチサイズ」が性能に影響を与
えることを実証した。
Links
プロジェクト
NLPにて頻出のDNNフレームワークであるCNN (Convolutional Neural
Network), GRU (Gated Recurrent Unit)やRNN (Recurrent Neural Network)

Yevhen Kuznietsov, Jorg Stuckler, Bastian Leibe, “Semi-Supervised Deep Learning for Monocular Depth
Map Prediction”, in arXiv 1702.02706, 2017.
【10】
Keywords: Semi-supervised learning, depth prediction, ResNet, CNN
新規性・差分
概要
半教師あり学習による⾞載画像のデプスマップ推定をDeep Learning
により⾏う。学習時にはステレオ画像やLiDARなどの3次元情報を抽
出・教師としてRGB画像と対応づけることで、テスト時に⾼精度な距
離画像を⽣成することができる。
教師あり/教師なしが混ざっていてもシームレスに学習可能な誤差関
数を提案した。式(5)は誤差関数を⽰し、トレードオフパラメータは教
師あり（第⼀項）、教師なし（第⼆項）、正規化項（第三項）に存
在。θはCNNのパラメータであり、I_l, I_rは左右ステレオ画像、Z_l,
Z_rは左右に対応するLiDARの3次元情報である。ネットワーク構造は
ResNet-50をベースとしてエンコーダとして⽤いるが、さらに
Upsampling層も追加してデコーダとして動作する。
・教師あり・教師なし学習により距離画像を推定する枠
組みを提案し、さらには誤差関数を提案した。
・ResNet-50をベースとしたエンコーダ・デコーダによ
るアーキテクチャにより距離画像推定においてもっとも
良い値を出した。
Links
プロジェクト
RGBからの距離画
像推定と、その教
師である「ステレ
オ画像」や
「LiDARの距離情
報」。Semi-
supervised学習が
可能となる。

Xiang Zhang, Yann LeCun, “Text Understanding from Scratch”, in arXiv 1502.01710, 2015.
【11】
Keywords: Language Model, Text Understanding
新規性・差分
概要
⾔語モデルについて、単語レベルの⼊⼒ではなく、（ちょ
うど画像に対するピクセルのように）⽂章を⽂字という
Low-levelな特徴の集合体として扱うことにより、画像のよ
うな解析ができるのはないかという発想。
・形態素解析や単語の分割、意味レベルの辞書を使⽤する
ことなく⾔語モデルを構築することができる（ルックアッ
プテーブルやWord2Vecを⽤いることなく⽂章解析ができ
る）
・DBPediaによるwikipediaのオントロジー判別にて98%
・Amazon Review Sentiment Analysis (評判推定)にてフル
スコア59%、Polarity dataにて95%を達成。
・Yahoo! Answers dataにて71%を達成。
Links
GitHub https://github.com/zhangxiangxiao/Crepe
著者 http://xzh.me/
図は本論⽂におけるCNNの概念図である。ひとつのネットワークは9層によ
り構成され、うち6層が畳み込みやプーリング、3層が全結合層と出⼒層によ
るものである。単語単位ではなく⽂字単位で畳み込みを⾏い、特徴抽出を⾏
う。
表はCNNアーキテクチャの構成について

Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C. Lawrence Zitnick, Ross
Girshick, “CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual
Reasoning”, in arXiv 1612.06890, 2016.
【12】
Keywords: VQA
新規性・差分
概要
画像による質問回答 (VQA; Visual Question Answering)の
ための新しい取り組みで、回答に対する診断(Reasoning)を詳細にできるよ
うにし、さらにデータセットも提案する。データセットであるCLEVRは多
側⾯からの質問が⽤意されており、属性・カウント・⽐較・空間的な位置
関係・論理的な操作がそれにあたる。質問は⾃然⾔語により構成され、画
像解析により質問への回答を⽣成する。
・従来のVQAでは画像やテキストの学
習を⾏い、画像の意味を理解していな
いまま回答していたが、本論⽂のデー
タセットでは詳細な理由付けまで⾏え
るようにした
・この問題を設定するために、
Compositional Language and
Elementary Visual Reasoning
diagnostics dataset (CLEVR)を提供。
同データは100Kの画像や1M(うち853K
はオリジナル)の⾃動⽣成された質問⽂
を含んでいる。
Links
プロジェクト（データセットあり）
http://cs.stanford.edu/people/jcjohns/clevr/
下の精度⽐較のグラフでは、
LSTMやCNN+BoW, CNN
+LSTM (+MCB, +SA)による⽐
較を⾏っている。

Sergey Ioffe, “Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized
Models”, in arXiv 1702.03275, 2017.
【13】
Keywords: Batch Renormalization
新規性・差分
概要
ミニバッチのサイズが⼩さい場合や、学習とテスト時の活性化の値の
値域に差異が⽣じる問題を解決するため、Batch Renormalizationを提
案。移動平均を使ってシフトを⾏い、徐々にバッチ内からデータ全体
へ正規化を⾏うことで、互いに独⽴で同⼀の分布に従わない(Non-
i.i.d.)もしくは⼩さいバッチにおいても正規化が⾏えるよう改善し
た。また、従来のBatch Norm.の際の初期値によらない最適化や学習
の効率という利点も残している。
・右図参照
Links
PyTorch実装
https://github.com/rarilurelo/batch_renormalization

Dayong Wang, Charles Otto, Anil K. Jain, “Face Search at Scale: 80 Million Gallery”, in arXiv
1507.07242, 2015.
【14】
Keywords: Face Recognition, Large-scale database
新規性・差分
概要
Facebookでは2013年の時点ですでに2500億の写真が、そ
して毎⽇3.5億枚の画像が追加されている。本論⽂では
8000万枚の画像データベースを構築し、顔画像検索を実利
⽤するための条件について検討した。
・LFWにて98.23% (accuracy)、
verification rate 87.65%を実現
・IJB-A benchmarkではrank-1の検索精
度が82.0%を実現
・⼤規模データにおける精度やスケール
性において良好なトレードオフを実現
・ボストンマラソンの爆破事件における
犯⼈探索問題において500万の顔画像か
らrank-1を1秒で検索、8000万の顔画像
からrank-8を7秒で検索を実現した。
Links
プロジェクト

Andrew Zhai, Dmitry Kislyuk, Yushi Jing, Michael Feng, Eric Tzeng, Jeff Donahue, Yue Li Du, Trevor
Darrell, “Visual Discovery at Pinterest”, in arXiv 1702.04680, 2017.
【15】
Keywords: Object Detection, Pinterest, SNS
新規性・差分
概要
Pinterestは過去数年に渡りRelated Pins (2014), Similar
Looks (2015), Flashlight (2016), Lens (2017)とサービスを
向上させてきた。それらの機能紹介について書かれてい
る。
・Pinterestの機能について紹介する
とともに実験についても詳細に⾏っ
た。論⽂中ではAlexNet,
GoogLeNet, VGG16, ResNet-101,
-152などの活性化特徴と精度につい
ての対応表が⽰されている。また、
物体検出においてもFaster R-CNN
やSSDについて検討を⾏った。
Links
プロジェクト
Pinterest Flashlight（左）: ユーザは画像
中に含まれる物体を選択して検索するこ
とができる。Flashlight(下): 物体が⾃動検
出された際に、クリック可能なドットが
表⽰されナビを⾏う。
Pinterest Lens（左）: 画像単位ではな
く、物体単位にクリップして検索を⾏い
やすくする。画像内の物体を検出・クロ
ップして検索可能な形式にする。

Keita Higuchi, Ryo Yonetani, Yoichi Sato, “EgoScanning: Quickly Scanning First-Person Videos with
Egocentric Elastic Timelines”, in CHI, 2017.
【16】
Keywords: First-Person Videos, User Interfaces
新規性・差分
概要
⼀⼈称カメラにて、⼤量のビデオから重要なイベントを検索する⽅法
について提案。ビデオのタイムラインにて、重要なイベントの速度を
適応的に変換してプレイバック・⼀⼈称の重要な⼿がかりをピックア
ップするため、⼈物の操作、動作、会話を認識する。
・適応的な動画再⽣速度の変換により、より多くのビデオ
を短時間で閲覧可能となった
・ビデオを部分的に強調することによりユーザーに対して
より効果的な視聴を可能とする
・ユーザの興味に応じてより適応的にイベントを⾒せる事
ができるようになった
Links
論⽂ http://keihigu.github.io/preprint/HYS-CHI2017-preprint.pdf
著者 http://keihigu.github.io/

Vlad Firoiu, William F. Whitney, Joshua B. Tenenbaum, “Beating the World’s Best at Super Smash Bros.
Melee with Deep Reinforcement Learning”, in arXiv 1702.06230, 2017.
【17】
Keywords: Deep Reinforcement Learning, Super Smash Brothers (Nintendo)
新規性・差分
概要
任天堂スーパースマッシュブラザーズを強化学習してプレイするコンピュー
タを研究開発した。強化学習にはDeep Reinforcement Learningを適⽤。学習
には⾏動と将来の報酬をマッピングする関数を学習するQ-Learningを採⽤
（式１）。Riはゲームのルールに従い内的に依存関係にある。式２が⽬的関
数であり、Qはニューラルネットにより推定、バッチによるSGDによりLの
パラメータを学習する。式２の２番⽬のQは将来の報酬が最⼤になるよう勾
配を計算する。キャラクターはもっともポピュラーであることから、キャプ
テンファルコンを選択した。提案法は2時間くらいで報酬を効率的に学習し
た（右グラフ）。
・⼈間のプロフェッショナル（なゲーマー？）を倒すくらいのコンピ
ュータゲーマーが爆誕した
・複数⼈物がプレイするゲームにおいても強化学習が有効であることを
⽰した
Links
ベースライン（OpenAI Gym）
https://github.com/openai/universe-starter-agent

Timnit Gebru, Jonathan Krause, Yilun Wang, Duyun Chen, Jia Deng, Erez Lieberman Aiden, Li Fei-Fei,
“Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US”, in arXiv
1702.06683, 2017.
【18】
Keywords:
新規性・差分
概要
アメリカの経済など社会的な動向をGoogle Street Viewに
おける5000万枚の画像から明らかにするという研究。アメ
リカの200以上の都市から⾃動⾞により収集された。本研
究ではCNNにより⾃動⾞の⾞種（2,657カテゴリ）を推
定。
・アメリカの⾃動⾞の推定やその動向から、アメリカの社
会学的な動きを推定する事ができると主張した
Links
プロジェクト

, “Barcode Imaging using a Light Field Camera”, in LF4CV, 2014.
【19】
Keywords: Light field camera, Barcode imaging, Spatial frequency
新規性・差分
概要
・従来２Dバーコードの読み取りに使⽤される２Dスキャ
ナは固定焦点であり、ユーザは、バーコードを⼿動でスキ
ャナに近づけたり遠ざけたりしてスキャナの被写界深度内
に確実に移動させる必要があった。
本稿ではライトフィールドカメラを⽤いたバーコードスキ
ャニングシステムを提案する。LytroやRaytrixなどのライ
トフィールドカメラでは、マイクロレンズアレイを使⽤し
て、シーンの複数のビューを取得することで、キャプチ
ャー後に複数のフォーカスを合成ことができる。
・ライトフィールドカメラによるバーコードスキャニング
を提案した
・２Dイメージャと⽐較して、深さの推定という計算コス
トがかかるが、従来のカメラに⽐べて3倍近くの被写界深
度が得られた。
・バーコードイメージレンダリングを⾏うことにより計算
コストを低減している。
Links
論⽂
http://vigir.missouri.edu/~gdesouza/Research/Conference_CDs/ECCV_2014/
workshops/w14/Guo-et-al-LF4CV2014.pdf
バーコード領域のレンダリングの結果
歪みが⼤きいと失敗する場合もある

Carl Vondrick, Hamed Pirsiavash, Antonio Torralba, “Anticipating Visual Representations from Unlabeled
Video”, in CVPR, 2016.
【20】
Keywords: Action Prediction
新規性・差分
概要
⾏動予測のためのラベル付けが⾏われていないビデオから、ハイレベ
ルな⾏動ラベルや物体ラベルを予測する。⾏動ラベルについては⼀
秒、物体ラベルについては五秒先まで予測できた。式（１）は誤差w
を⽰し、誤差を最⼩化することで特徴表現を学習する。φ(x)は未来の
特徴表現（正解値）、g(x)は与えられた特徴表現から未来の特徴表現
を予測する関数。特徴表現にはAlexNetのfc7を⽤いる。誤差関数には
ユークリッド誤差を⽤いる。複数のありうる未来に対応すべく、
Mixture of K Networksの表現を採⽤。学習には600時間もの動画を含
むTelevision Shows DataとTHUMOSにより学習する。
・新規性としては、ピクセルの予測やカテゴリの予測より
も、特徴表現を予測することである。
・予測した特徴表現から、⾏動ラベルや物体のラベルを推
定可能。⾏動は１秒、物体は５秒先まで予測が可能。
Links
論⽂ http://web.mit.edu/vondrick/prediction.pdf
プロジェクト http://web.mit.edu/vondrick/prediction/
（右図）ラベルなしのビデ
オからいかに⼈物⾏動を予
測するかを考える。（下
図）ビデオに対する⾏動予
測のダイアグラム。現在フ
レームと未来のフレームか
ら特徴表現を⾏い、その差
分により誤差を計算する。
ラベルをちょくせつよそく
するのではなく、特徴量を
予測し、同特徴から⾏動や
物体を推定する。

ご質問・コメント等ありましたら，cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします．

【2017.02】cvpaper.challenge2017

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (18)

Similar to 【2017.02】cvpaper.challenge2017

Similar to 【2017.02】cvpaper.challenge2017 (20)

【2017.02】cvpaper.challenge2017