CVPR 2016 まとめ v1

cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com

Dai Jifeng, Kaiming He, Jian Sun, “Instance-aware Semantic Segmentation via Multi-task Network Cascades”,
in CVPR, 2016.
【1】
Keywords: Semantc Segmentation, Deep Residual Networks
(ResNet)
新規性・差分
手法
結果
概要
Multi-task Network Cascades (MNCs)を提案し，カスケード内
でDeep Residual Networks (ResNet)も用いてセマンティックセ
グメンテーションの課題に取り組んだ．MNCsは3つの構造-イン
スタンス分離，マスクの推定，物体カテゴリ推定-を含んでい
る．さらにはEnd-to-endで学習する仕組みも与える．
ILSVRC2015のMS COCO semantic segmentation部門にて一
位を獲得した．通常のMulti-task学習とは異なり，カスケードと
して情報を後段に参照していく．
Instance-aware Semantic Segmentationは3つのタスクを保有し，それぞれをMulti-
task Learningの要領で解決．
(1) Differentiating instances. ボックスレベルの分離であり，bounding boxで表現さ
れる．
(2) Estimating masks. ピクセルレベルのマスクを推定．
(3) Categorizing objects. いわゆるセマンティックセグメンテーションを推定．ピクセ
ルごとにカテゴリを推定．
Multi-task Network Cascadesではbox-level => mask-level => category-levelと推
定され，前段の処理はより後段の処理に情報を渡して同時に学習する(Multi-task
学習)．これら3段階の行程はConvFeaturesや損失関数を共有する．box-levelでは
Faster R-CNNのRPNs，mask-levelではDeepMask，category-levelでは全結合層
によりマスクのカテゴリを推定．End-to-endの学習には(5)式の損失を最小化す
る．
MS COCOのセマンティックセグメンテーションタスクにて63.5% mAPを実現．従来の
State-of-the-artよりも3.0%向上した．Test-time speedも360ms/imageと非常に高
速である．101層の構造を持つResNet-101を用いた結果，ILSVRC2015のMS
COCOデータ部門で一位を獲得．
Links 論文 http://arxiv.org/pdf/1512.04412v1.pdf
著者 http://research.microsoft.com/en-us/um/people/kahe/
プロジェクト(コードあり)
https://github.com/KaimingHe/deep-residual-networks

Ke Li, Bharath Hariharan, Jitendra Malik, “Iterative Instance Segmentation”, in CVPR, 2016.
【2】
Keywords: Semantic Segmentation, Instance Segment
新規性・差分
手法
結果
概要
構造化されたモデルをセマンティックセグメンテーションに組入
れることは実用的であるが，人間が拘束を与えるのは得策で
はない．これを本論文では拘束を与えずに，かつ形状の事前
確率を推定する．
・下図のようにセグメンテーションを実行するCNNにより繰り返
し処理．繰り返すたびに詳細のセグメンテーションが改良され
る．
Implicitな形状に対してのピクセルごとのラベリング(Semantic Segmentation)は非
常に困難な課題と位置付けられているが，Auto-context [Tu+, TPAMI10]や
Iterative Error Feedback (IEF) [Carreira+, arXiv15]のような繰り返し最適化にイン
スパイアされている．下図が提案手法のフロー図であり，セグメンテーションを行う
CNNにより出力された画像をさらにセグメンテーションを行うCNNに繰り返し入力す
ることで結果を良好にしていく．
なお，ここでの戦略はSimultaneous Detection and Segmentation (SDS; セグメン
テーションのマスクやインスタンスを検出結果から得ること) => Non-Maximum
Suppression (NMS) => Binarizationを行い，最終的なセグメンテーション結果を得
る．パラメータとして，入力画像は224x224[pixels], 出力画像は50x50[pixels]，CNN
アーキテクチャにはVGG-16を用いた．
最終的にはmAPが50%の
オクルージョン時には
63.6%，70%のオクルージョ
ン発生時にも43.3%にてセ
マンティックセグメンテー
ションを行うことに成功し
た．なお，これは現在の
state-of-the-artである．
Links
論文 http://arxiv.org/pdf/1511.08498v2.pdf
プロジェクト

Gedas Bertasius, Jianbo Shi, Lorenzo Torresani, “Semantic Segmentation with Boundary Neural Fields”, in
CVPR, 2016.
【3】
Keywords: Semantic Segmentation
新規性・差分
手法
結果
概要
Fully Convolutional Networks (FCN)に見られるようなセマン
ティックセグメンテーションの精度を改善するために，Boundary
Neural Field (BNF)を構造内に取り入れ，境界の手がかりを与
えた上でタスクをこなす手法を提案する．
現在，セマンティックセグメンテーションの最先端手法はFully
Convolutional Networks (FCNs)であるが，大規模な受容野
(receptive layer)やプーリング層のためにブラーや低解像なセ
グメンテーションが目立つ．そのため，境界情報をFCN内に取り
入れ，主に境界付近の精度を向上することでセマンティックセ
グメンテーションの結果を改善．
下の図はFCNやBNFによるセマンティックセグメンテーションの概略図である．FCN
の出力結果や中間層の特徴マップから抜き出した特徴を用いて境界推定を行う
(BNF)．FCNやBNFにより得られた画像を大域的に最適化して得られたマップが，
最終的なセマンティックセグメンテーションの結果．
データセットとしてはセマンティッ
クセグメンテーションのタスクでよ
く用いられるSBDデータセットを
用いた．表は複数の推定手法を
用いた比較であるが，提案の
BNFを用いるのがもっとも高精度
に推定できたと主張．
Links
プロジェクト
ここでは，FCNの出力をUnary
Potential，境界情報との組み合わ
せをPairwise Potentialとして最適
化．

Jun Xie, Martin Kiefel, Ming-Ting Sun, Andreas Geiger, “Semantic Instance Annotation of Street Scenes by 3D
to 2D Label Transfer”, in CVPR, 2016.
【4】
Keywords: Semantic Annotation, Segmentation
新規性・差分
手法
結果
概要
3次元環境のレーザーデータを入力として，2次元のシーンに対
してセマンティックなラベル付けを実行する．
・移動する自動車から撮影されたKITTIデータセットに対して，
地形的なアノテーションを施した．400kの画像や100kのレーザ
スキャンデータを用いて3次元アノテーションを実行する．
・3次元から2次元への転移を行い，Semantic Instance
Annotationを実行．ベースラインとの比較により，提案手法の
有効性を示した．

下図は提案手法のフレームワークを示す．レーザによりスキャンされた3次元環境
に対してのアノテーションが手に入っている状態(a)で，2次元空間への転移手法を
提案(b)．その結果，3D=>2Dの転移を実現(c)．ここでは3次元の疎なアノテーション
から2次元の正確なラベル付けを実現するためにNon-local Multi-field CRFを提案
する．
提案のCRFモデルのポテンシャルは下式で示される．Unary項であるφ^p(s_i)はピ
クセルごとのラベルs，φ^L(s_l)は3次元点群のラベルs，φ^F(s_i)はGeometricなポ
テンシャルを示す．Pairwise項であるΨ^P,P_ij(s_i,s_j)はGaussian edge kernelsを用
いたピクセル間の結合，Ψ^L,L_lk(s_l,s_k)は3次元位置や表面法線，Ψ^P,L(s_i,s_l)
は2D-3D間のポテンシャルを示す．
データはKITTIデータセットに存在するVelodyneセンサやGPSデータを用いる．点群
データに対してGPSからデータを付加する．3次元点群に対する意味付けは14種類
-- road, parking, sidewalk, terrain, building, vegetation, car, trailer, caravan, gate,
wall, fance, box and sky-- とした．下の表が最終的な結果であり，3次元点群から
の2次元ラベル推定の問題は非常に高精度なラベル付けが実行できることが判明
した．Full-Connect CRF [Krahenbuhl+, NIPS2011]と比較しても高い精度を実現．
Links
論文
http://arxiv.org/pdf/1511.03240v1.pdf
Full-Connect CRF
http://graphics.stanford.edu/projects/
densecrf/densecrf.pdf

Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Scharwachter, Markus Enzweiler, Rodrigo Benenson,
Uwe Franke, Stefan Roth, Bernt Schiele, “The Cityscapes Dataset”, in CVPRW, 2016.
【5】
Keywords: Dataset, Traffic, Semantic Segmentation
データセットの構成概要
大規模かつ多様な都市の交通シーンにおいてセマンティックセ
グメンテーションや物体検出などのデータセットを提供する．
データは主にヨーロッパの50の都市においてアノテーションされ
た5,000枚(pixel-level)，20,000枚(weakly-annotated)の画像で
構成される．
データセット中のアノテーションには，Ground (road, sidewalk), Human (person,
rider), Vehicle (car, truck, bus, on rails, motorcycle, bicycle, license plate),
Infrastructure (building, wall, fence, traffic sign, traffic light, pole, bridge, tunnel),
Nature (tree, terrain), Sky (sky), Void (ground, dynamic, static)が含まれる．
Links
論文
http://www.visinf.tu-darmstadt.de/media/
visinf/vi_papers/2015/cordts-cvprws.pdf
プロジェクト
https://www.cityscapes-dataset.com/

F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, A. Sorkine-Hornung, “A Benchmark Dataset
and Evaluation Methodology for Video Object Segmentation”, in CVPR, 2016.
【6】
Keywords: Segmentation
新規性・差分
概要
前景と背景を高精度に分離するセグメンテーション問題のため
の密なラベル付けデータセットであるDAVIS (Densely
Annotated VIdeo Segmentation)を提供する．
・問題は従来のセグメンテーションにのっとっているが，とにかく
密に(Dense)することで現在までの手法がどの程度できている
かを再度認識した．
・従来手法としては教師なし学習による手法 (NLC, FST, SAL,
TRC, MSG, CVOS)，半教師あり学習による手法 (SEA, JMP,
TSP, HVS)をDAVISデータセットに対して実装し，表のような精
度を得た．
Links
論文
https://graphics.ethz.ch/~perazzif/davis/
files/davis.pdf
プロジェクト
https://graphics.ethz.ch/~perazzif/davis/
index.html

Qifeng Chen, Vladlen Koltun, “Full Flow: Optical Flow Estimation By Global Optimization over Regular Grids”, in
CVPR, 2016.
【7】
Keywords: Optical Flow Estimation, Full Flow, Markov Random Fields
新規性・差分
手法
結果
概要
Optical Flow Estimation における離散グリッド間マッピングス
ペースの計算処理を大幅に削減した最適化手法の提案
・変化の大きいシーンにおいて記述子を定義することなく実効
可
・計算処理が簡略化されており，少ないコードで実行可
本稿の手法の概要を述べる
(1)右図上に示すように，対象とする画素から近傍4画素分のオプティカルフローを
抽出するモデルを構築する．
(2)(1)は2次元のマルコフ確率場な
ので，メッセージパッシングアル
ゴリズムを構築し，計算処理の
簡略化，さらに処理を速くするた
めの改良を行う．

下図にMPI Sintelデータセットでの比較実験結果を示す．
提案手法は先行研究であるEpicFlow, TF+OFM, NNF-Local, PH-Flow, and Classic+NLよりも誤
差率が低く，十分な精度が出ている．
右図に定性的比較実験の結果を示す．
Links
論文
http://vladlen.info/
publications/full-flow-
optical-flow-estimation-
by-global-optimization-
over-regular-grids/

Abhijit Kundu, Vibhav Vineet, Vladlen Koltun, “Feature Space Optimization for Semantic Video Segmentation”,
in CVPR, 2016. (oral)
【8】
Keywords: Semantic Segmentation, Video Segmentation
新規性・差分
手法
結果
概要
静止画でなく，ビデオに対するセマンティックセグメンテーション
に関する手法を提案する．ここでは対応するピクセルのマッピ
ングを特徴空間のユークリッド距離にて最適化する手法を検討
する．構造的推定にはDense CRFを用いる．
・時系列情報の正規化はシーンやカメラが動的であるため非常
に困難であるが，Dense CRFを用いることでこの最適化を実行
・CamVid / Cityspacesデータセットに対して良好な性能を達成
した
左図は時系列の構造モデルである．複数のフレームが同時に処理され，それぞれ
がDense 3D CRFにより構造的にセグメンテーションされる．このCRFは下の式を最
適化することで得られる．E_uはRegularization term，E_sは空間的正規化項(Spatial
Regularization Term)，E_tは時間的正規化項(Temporal Regularization Term)を示
す．
表はCamVidデータセット
に対する定量的な評価
である．クラスごとの
IoU，平均IoU，時間的整
合性を示す．CNN有/無
で上下に分割している． Links
論文 http://vladlen.info/papers/FSO.pdf
プロジェクト
http://vladlen.info/publications/feature-space-optimization-for-
semantic-video-segmentation/

Yin Li, Manohar Paluri, James M. Rehg, Piotr Dollar, “Unsupervised Learning of Edges”, in CVPR, 2016. (oral) 【9】
Keywords: Unsupervised Edge Learning
新規性・差分
手法
結果
概要
データドリブン(アノテーションありの教師あり学習)のエッジ検出
ではなく，教師なし学習によりエッジ検出を高精度に実行する．
ここではビデオからsemi-denseなマッチング処理を行いモー
ション情報を取得．
・現在のデータドリブンのエッジ検出は物体の境界線を与えた
データセットからの学習が必要であるが，本論文では教師無し
学習によりエッジ検出を高精度化する手法を提案する
・高精度なエッジ検出は物体候補領域などに用いることができ
る？さらに高速化が必要か
ここで，左下の図ではエッジ検出のためのフレーム間のsemi-denseなマッチングを
示した．モーションのつながりが阻害される位置は画像のエッジが存在するという
戦略で教師無しエッジ検出を実行する．semi-denseマッチングは[Weinzaepfel+,
ICCV13]により実行し，それ以外の特徴は用いていない．下図，提案フローの(1)
compute flowではフローベースのエッジマップを生成，(2) compute motion edgesで
は(1)で生成したフロー場からのモーションエッジを得る，(3) ではモーションエッジを
学習し，(4) compute edgesで最終的なエッジを検出．
上記，semi-dense optical flowを用
いた結果，VSB benchmarkにて良好
な性能を達成 (.71)．
Links
論文
http://arxiv.org/pdf/
1511.04166v2.pdf
プロジェクト

Laura Sevilla-Lara, Deqing Sun, Varun Jampani, Michael J. Black, “Optical Flow with Semantic Segmentation
and Localized Layers”, in CVPR, 2016.
【10】
Keywords: Semantic Segmentation, Optical Flow
新規性・差分
手法
結果
概要
オプティカルフローを高度に用いたセマンティックセグメンテー
ション手法の提案．現在のオプティカルフローでは荒い領域抽
出しかできないが，密なオプティカルフローや予めセグメント化
された領域を事前情報とすることで高精度に，かつ複数の意味
的な違いを見分けることができる．
・シーンや物体などのセマンティックセグメンテーションにオプ
ティカルフローを導入することで高精度化
・階層的オプティカルフローをいかに複雑なシーンに用いるか
を検討した
前処理として荒く画像セグメンテーションをする．これは，物体間の境界を求めるた
めである．さらに，移動するカメラでは物体間が異なる動作をするので，オプティカ
ルフロー情報を取得し，追加情報とすることで領域への意味付けが高精度にでき
る．空間情報やフロー情報が相補的にKITTIデータのような移動カメラからのセマ
ンティックセグメンテーションを実現する．
KITTIデータセットを拡張したKITTI-2015データセットを用いた．セマンティックセグメ
ンテーションの結果は表の通りである．
Links
論文 http://arxiv.org/abs/1603.03911
プロジェクト

Shanshan Zhang, Rodrigo Benenson, Mohamed Omran, Jan Hosang, Bernt Schiele, “How Far are We from
Solving Pedestrian Detection?”, in CVPR, 2016.
【11】
Keywords: Pedestrian Detection, Human Baseline
新規性・差分
手法
結果
概要
現状の歩行者検出技術の最先端と実利用化に耐えうるパー
フェクトな人物検出にはどれほどの差があるのかを検証．実利
用化のレベルを”Human-level”と定義付け，現行の技術がどこ
まで近づくことができているかについて議論する．なお，データ
セットにはCaltech-USAを採用している．Human-levelではエ
ラー率が5.62%である．
さらにはローカライズのエラーを学習し，アノテーションの補正
を行った．
・最先端の歩行者識別器での検出ミスのパターンを把握
・Human-levelのベースラインをCaltechデータセットに与える
・学習データの品質がいかに検出率に影響するかを評価．
Caltechのデータセットに対して再アノテーション
最先端手法としてはICF(Integral Channel Features)ベースのFiltered Channel
Features [Zhang+, CVPR15]，R-CNNベースの歩行者検出 [Hosang+, CVPR15]を
適用する．ICFの改良手法の中ではChackerboards detectorがもっとも性能が高い
(Error-rate: 18.5%)．また，R-CNNでは物体候補領域の抽出方法にセンシティブで
あるという問題がある．下の図は各タスクにおける各手法の精度である．また，失
敗する環境要因(double detections, vertical structures in bg, confusing等)，ソース
(small scale, side view, cyclists, occlusion等)についても言及した．
Checkerborards detectorに回転を加えて特徴
を抽出するRotation Filtersを提案し，精度を
上げた(16.1 => 13.0%)．さらに，VGGNet特徴を
追加(11,1%)，bbox回帰やNMSにより9.3%のエ
ラー率を達成した． Links
論文
プロジェクト
https://www.mpi-inf.mpg.de/departments/
computer-vision-and-multimodal-
computing/research/people-detection-
pose-estimation-and-tracking/how-far-
are-we-from-solving-pedestrian-

Jiale Cao, Yanwei Pang, Xuelong Li, “Pedestrian Detection Inspired by Appearance Constancy and Shape
Symmetry”, in CVPR, 2016.
【12】
Keywords: Pedestrian Detection
新規性・差分
概要
アピアランスの恒常性や形状の対称性を用いることでハンドク
ラフト特徴でも歩行者検出の精度がまだ向上することを示し
た．2種のNon-Neighboring Features (NNF)であるSide-Inner
Difference Features (SIDF)やSymmetrical Similarity Features
(SSF)を提案する．
・ハンドクラフト特徴で非常に高いパフォーマンスを実現した．
・SIDFは前景と背景を効果的に分離することができるだけでな
く，人物の外輪郭や内側に存在する輪郭を分離することができ
る．さらにSSFは人物の対称性を考慮した記述によりSIDFにな
い表現を実装可能である．
Links
論文 https://arxiv.org/pdf/1511.08058v1.pdf
プロジェクト
SIDFのパッチペア例．SIDFやSSFの識別器には異なる深さのDecision Treesを
組み合わせた．これにより，SIDFやSSFの有効な空間を探索することができ，
歩行者と背景を高度に分離可能である．
提案のNNNF-L4はCaltech Pedestrian
Detection Benchmarkにおいて16.84%の
エラー率であった．CheckerBoard特徴
(CVPR2015)から1.63%向上した．

Albert Haque, Alexandre Alahi, Li Fei-Fei, “Attention in the Dark: A Recurrent Attention Model for Person
Identification”, in CVPR, 2016.
【13】
Keywords: Person Identification,CNN,RNN
新規性・差分
手法
結果
概要
・RGB情報が存在しない暗闇環境において人物識別を行うため
のattention-baseの人体形状と運動力学に基づいたモデル生
成法を提案．4次元の特徴空間から固有の運動を学習する．
CNNとRNNの組み合わせで各人らしさを表す小領域を同定．
・Depth情報のみを使ったモデルのため，夜間においての人物
識別の実現への期待ができる．従来研究と異なりmetric
learingを使っていない．Depth画像の公開データセットでstate-
of-the-artな精度を達成．
・4次元の特徴はCNNにとって辛いので，Glimse layerはダウンサンプリング，
Encoder layerでさらに次元削減が行われる．核となるRAMの段階では時空間上で
の学習が行われる．
recurrent attention model(RAM)とオフラインの並列で学習を行う．
Links
論文 http://web.stanford.edu/~alahi/downloads/CVPR16_id.pdf

・2,3,4次元それぞれの入力に対し提案手
法は下表のように，最先端手法と比較し
ても高いと言える精度を達成．

Keywords: Weakly supervised, semantic segmentation
Re-idの既存手法では，トレーニングサンプルの特徴の次元がはるか
に少ないと，サンプルサイズが小さい(SSS)という問題に直面してしま
い，次元圧縮技術や正則行列に頼る必要が有り，これでは識別力の
損失に繋がってしまっていた．

この研究では，人マッチングの中の特徴的な0空間のトレーニン
グデータにより，Re-ID距離メトリック学習におけるSSSの問題を
解決する手法について提案している．
Null空間を学習することで，元の高次元の特徴ベクトルを低次元へと投影し
て学習することができる．Re-idは，学習した判別Null空間の二つの投影ベクト
ルのユークリッド距離を計算することで実現できる．
学習したnull Foley-Sammon transform (NFST) spaceはFoley-Sammon
transform (FST)として知られており，linear discriminant analysis (LDA)にも密
接に関係している．FSTの目的は，示されている各列が，フィッシャー判別基
準を最大化する最適な判別方向となるように，投影行列を学ぶことである．

本研究では，従来の教師有学習のアプローチ+null Foley-Sammon transfer
(NFST)を利用し，パラメータチューニングの必要がない手法を提案している．
さらに，Semi教師学習の設定に，Full教師Null空間モデルを拡張する．Semi教
師有りRe-idの問題として，トレーニングデータが不足する問題を潜在的な影
響力を集めることで克服する．本研究では，辞書学習ベース手法に対して新
たなSemi教師有Null空間モデルを比較している．
貢献
(1)Metric LearningベースでのRe-id方法で生じる，SSS問題への解決策を提案した．
(2)Training Dataの判別ヌル空間を学習することにより，Re-idのSSS問題を克服する．
(3)SSS問題の影響を軽減するために豊富なラベルが付いていないデータを有効に用い
るnovel semi-supervised learning methodを開発．
Li Zhang, Tao Xiang, Shaogang Gong, “ Learning a Discriminative Null Space for Person Re-identification”, in
CVPR, 2016.
【14】
論文ページ： http://arxiv.org/pdf/1603.02139.pdf 次ページに示す．
概要
新規性・差分
Links
手法
結果

結果
Full Supervisedの実験結果
Semi Supervisedの実験結果
Running Costの実験結果

Hakan Bilen, Andrea Vedaldi, “Weakly Supervised Deep Detection Networks”, in CVPR, 2016.
【15】
Keywords: Weakly supervised, CNN, Object Detection
新規性・差分
手法
結果
概要
CNNのPre-trainedモデルを使用した，弱教師あり学習による物
体検出の手法を提案．ImageNetデータのPre-trainedモデルに
含まれる特徴を効果的に用いることで弱教師あり学習でも物体
検出の学習ができるというアイディア．
End-to-Endでの弱教師あり学習による物体検出を提案．手法
の名前はWealy Supervised Deep Detection Network (WSDDN)
とされている．下図は正解(緑枠)と不正解(赤枠)を示す．
AlexNetやVGGNetのImageNet Pre-trainedモデルを適用する．候補領域のモデル
により画像xより領域Rを抽出(Φ(x; R)を得る)し，画像サイズが任意で活性化関数
により特徴を抽出するSpatial Pyramid Pooling (SPP)に領域を挿入する．SPPを通
り抜けると特徴はRecognitionとDetectionの目的に分割され，認識クラスを抽出す
るスコアΦ^c(x; R)と検出枠を出すためのスコアΦ^d(x; R)が出力される．
ベンチマークデータにはPaccal VOC 2007と2010を用い
た．物体検出の評価としてはIoUが50%を超える際に成功と
した．2007では89%, 2010では36.2%という結果になった．
Links
論文
http://www.robots.ox.ac.uk/~hbilen/pubs/cv/
bilen2016wsddn.pdf
コード https://github.com/hbilen/WSDDN
著者 http://www.robots.ox.ac.uk/~hbilen/

Wanli Ouyang, Xiaogang Wang, Cong Zhang, Xiaokang Yang, “Factors in Finetuning Deep Model for Object
Detection with Long-tail Distribution”, in CVPR, 2016.
【16】
Keywords: Fine-tuning Analysis, Object Detection
新規性・差分
手法
結果
概要
CNNのFine-tuningの解析に関する論文．以下の2点について
考察した．
(1)  サンプル数が確保できている場合(e.g. 人物や犬)は良
いが，サンプル数が確保しづらい場合の対処 (Long-
tail property)
(2)  特定クラスの特徴表現についてFine-tuningの検討
・Fine-tuningの解析やその特徴に及ぼす影響について検証を
行った．Long-tail propertyによるサンプル数の違いや各層の
重みなどについて評価する
・物体クラスをグループ分けしたCascaded Hierarchical Feature
Learning (カスケード型階層的特徴学習?)を提案，Fine-tuning
をよくする
ベースラインとなる手法はDeepID-Net [Ouyang+, CVPR15]を用いる．
Cascaded Hierarchical Feature Learning：ILSVRCの検出タスクに含まれる200の物
体クラスに対して階層的クラスタリングを実行する．距離の比較にはGoogLeNetの
中間層の特徴を用いる．Level 1には200クラス，Level 2には各50クラス，Level 3に
は各29クラス，Level 4には11クラス (クラス数は平均値)が含まれる．階層的学習
の際には学習サンプルや階層的クラスタリングにより得られたP/Nサンプル，Pre-
trained Deep Modelを入力として，各階層ごとに学習を実施する．この階層的クラ
スタリングを行った後のFine-tuningが効果的であると主張．
下の表は階層的クラスタリングの各レベルとFine-
tuningした結果，各手法との比較を示す．レベルが
1~4と進むごとに精度が向上することや，オリジナル
のGoogLeNet (38.8%)からFine-tuningした結果，45%
まで向上した．
Links
論文
http://www.ee.cuhk.edu.hk/~wlouyang/Papers/
OuyangFactors_CVPR16.pdf
プロジェクト
www.ee.cuhk.edu.hk/~wlouyang/projects/
ImageNetFactors/CVPR16.html

Xiaofan Zhang, Feng Zhou, Yuanqing Lin, Shaoting Zhang, “Embedding Label Structures for Fine-Grained
Feature Representation”, in CVPR, 2016.
【17】
Keywords: Fine-Grained Feature Representation, Convolutional Newral Network
新規性・差分
手法
結果
概要
微小な特徴表現法を学習するフレームワークの提案
損失項から微小な特徴表現法と分類器を取得
フレームワークを上図に示す．
本フレームワークでは，リファレンスイメージ，ネガティブイメージ，ポジティブイメー
ジの3項を抽出し，Parameters Sharing CNN層に入力する．
CNN内での以上の3項の損失項とソフトマックスでの損失項を最適化することによ
り，微小な特徴表現法と分類器を得る．
(1)Stanford car datasetでの比較実験結果
(2)much larger car datasetでの比較実験結果
(3)food datasetでの比較実験結果を示す．

Links
論文
http://arxiv.org/pdf/
1512.02895v2.pdf
(1) (2) (3)

Han Zhang, Tao Xu, Mohamed Elhoseiny, Xiaolei Huang, Shaoting Zhang, Ahmed Elgammal, Dimitris Metaxas,
“SPDA-CNN: Unifying Semantic Part Detection and Abstraction for Fine-grained Recognition”, in CVPR, 2016.
【18】
Keywords: Semantic Parts Detection, Semantic Parts Abstraction, Fine-grained
Recgnition
新規性・差分
手法
概要
fine-grainedな分類を行うCNNアーキテクチャ(SPDA-CNN)の提
案
検出と認識を行う2つのサブネットワークを持ち，detection sub-
networkでは，semantic part候補の生成を行い検出を行う．
classification sub-networkでは，detection sub-networkが検出
した部分からの特徴を抽出する

フレームワークの概要を右上図に示す．
(1)新規のKNN法により，small semantic partsを抽出し，パーツの
候補を生成する．
(2)Fast RCNNを用いて，生成した候補から正確な部分のバウン
ディングボックスを得，classification sub-networkに送信する．こ
の時，オクルージョンによって見えない部分がある場合，0(図の
Leg参照)として送信される．
(3)正確なsmall semantic partsを結合し，相関関係を学習する．
Links
論文
http://paul.rutgers.edu/~hz138/publications/CVPR16.pdf
結果
(1)CUB-2011において，正しくローカライズされた割合の比較
(2)CUB-2011における最新の研究との比較
(3)CUB-2010における最新の研究との比較

(1) (2)
(3)

Russell Stewart, Mykhaylo Andriluka, Andrew Ng, “End-to-end Detection in Crowded Scenes”, in CVPR, 2016.
【19】
Keywords: People Detection, Crowded Scene
新規性・差分
手法
結果
概要
混雑環境下でも各人物の検出を実現するフレームワークを提
案する．ここで，RNNのうちLSTMを適用するが，新しい損失関
数を与えることでEnd-to-Endでの学習を行う．
・画像(のみ)を入力することで候補領域やbbox regressionなど
の後処理が必要なく複数の物体の位置が返却されることが新
規性である
・End-to-EndでCNN~RNNの学習が実行できること
・LSTMにて画像内の文脈を把握して人物位置を推定する
・下図はOverFeatと提案手法の比較
CNN~RNNの組み合わせにより特徴抽出や人物位置の推定を実行する．CNNには
GoogLeNetを用いて畳み込みによる特徴を抽出する．VGAサイズの画像を入力す
るとCNNにより固定長の特徴(20x15x1024)を出力する．この特徴をLSTMへの入力
とし，人物位置と対応付けた学習により，混雑環境下においてもロバストに人物を
検出可能とする．なお，下式をベースに最適化(最小化)を行う．Gは正解位置，Cは
システムの推定値である．候補領域はiで示され，f(i)は候補領域と正解との距離
(領域の差分)を示す．yはcross-entropy lossを示し，αの値は0.03に設定された．
学習にはCaffe (CNN)やNLPCaffe (LSTM)が用いられた．学習率は0.2 (100,000回
ごとにx0.8)，Momentumは0.5，繰り返し回数は500,000に設定した．ベースとなる検
出器はOverFeatやR-CNNを用いて比較を行った．
結果から，Recall rateがOverFeatの71%から提案手法では81%まで向上，Average
Precision (AP)も78% (OverFeatでは67%)まで向上した．
通常の損失関数を適用時には60%であったが，提案の損失関数を適用することで
78%の精度で，混雑環境下における人物検出を実現した．
Links
コード https://github.com/Russell91/reinspect
YouTube https://www.youtube.com/watch?v=QeWl0h3kQ24

Yingying Zhang, Desen Zhou, Siqin Chen, Shenghua Gao, Yi Ma, “Single-Image Crowd Counting via Multi-
Column Convolutional Neural Network”, in CVPR, 2016.
【20】
Keywords: Crowd Counting, Multi-Column Convolutional Neural Network
新規性・差分
概要
・任意の視点および任意の群衆密度の画像から，画像内の人
口を推定する方法の精度向上を目指す．
・入力画像に密度マップをマッピングするMulti-Column
Convolutional Neural Network(MCNN)を提案
・1198画像に33万の頭のアノテーションをつけたデータセットを
構築
・既存の群衆データセットおよび提案したデータセットにおい
て，既存するすべてのアプローチと比較して優れた性能を発揮
した．

・MCNNの入力画像は任意のサイズ・解像度でよい．
・異なるサイズを許容するフィルタを使用することで，画像中の
人物の距離や画像の解像度による人間の頭の大きさの変化に
対応している．
・真の密度マップを学習する必要はなく，すべて幾何学適応
カーネルを使用して，正確に計算される．
Links
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2016/
papers/Zhang_Single-Image_Crowd_Counting_CVPR_2016_paper.pdf
プロジェクト

Alexandre Alahi, “Social LSTM: Human Trajectory Prediction in Crowded Spaces”, in CVPR, 2016.
【21】
Keywords:
新規性・差分
概要
・群衆の経路予測のためのRNNモデルの提案．(social LSTM)
・従来の群衆解析は人同士はぶつからないことや同じような動きをするといった
仮説の基に解かれてきた．しかし本手法では群衆予測に特化したRNNアーキテ
クチャを構築することでデータ特化の群衆予測を可能にした．Social LSTMを構
築する上でSocial Poolingを提案した．Social Poolingとはそれぞれに近い存在の
重みも考慮するpooling方法である．近い人間が複数存在する場合はセルごとに
重みを統合する

Links
論文
http://web.stanford.edu/~alahi/downloads/
CVPR16_N_LSTM.pdf
プロジェクト

Ankush Gupta, Andrea Vedaldi, Andrew Zisserman, “Synthetic Data for Text Localisation in Natural Images”, in
CVPR, 2016.
【22】
Keywords: Text Synthetic Data, Text Detection
新規性・差分
手法
結果
概要
文字検出(Text Detection, Text Localisation)のための自然な
データを自動生成する論文．画像中の環境を認識してテキスト
情報を埋め込むための手法を提案．Fully- Convolutional
Regression Network (FCRN)を用いることで文字検出やbbox
regressionといったタスクをネットワーク内で実行．
・文字認識のための画像データ
を自動生成できること
・文字認識のデータをFRCNにて
学習し，state-of-the-artな手法
を提案
【Image Synthetic】画像合成の前処理はRGB画像からDepth画像の推定，gPb-
UCMによるセグメンテーション，テキストを埋め込むための平面推定により実行．
文字の埋め込みは平面の軸に沿って行われる．前処理により，自然な文字の埋め
込みが実行可能である．
【Fast Text Detection Network】提案のFCRNは[Long+, CVPR15]のFCNや
[Redmon+, CVPR16]のYOLOの拡張版という位置付けであり，さらにImplicit Shape
Model (ISM)のような投票を行う．ネットワークアーキテクチャはVGG16を参考にし
ているが，本論文で用いる畳み込み層は全9層，ReLU，Max-poolingを採用．
トレーニングには提案のSynthText in the Wildを用いた．同データセットには
800,000枚もの画像が含まれており，入力画像サイズは512x512[pixels]，学習のパ
ラメータは16 mini-batch, momentum 0.9, weightdecay 5^-4, 学習率は10^-5 ~
10^-4とした．ICDAR2013のデータセットにて84.2%のF値を達成しただけでなく，
GPU上ではあるが15FPSでの検出を実現した．
Links
論文
http://www.robots.ox.ac.uk/~vgg/data/scenetext/gupta16.pdf
プロジェクト http://www.robots.ox.ac.uk/~vgg/data/scenetext/
データセット
http://www.robots.ox.ac.uk/~vgg/data/scenetext/SynthText.zip

Yongxi Lu, Tara Javidi, Svetlana Laebnik, “Adaptive Object Detection Using Adjacency and Zoom Prediction”,
in CVPR, 2016.
【23】
Keywords: Adaptive Object Detection
新規性・差分
手法
結果
概要
隣接/ズームなどサブ領域を利用して効率よく(候補領域を指定
して)物体を検出する方法を提案．スパースかつ微小でも物体
のインスタンスを探索可能とした．
Faster R-CNNでは2400ものボックスを探索することで画像を全
探索していたが，提案のAdjacency and Zoom Network (AZ-
Net)では領域を区切って適応的な探索を試みた．
Faster R-CNNをベースとしているが，異なる点は候補領域の抽出を適応的にした
点である．左下図のように与えられた領域を5つに分割して隣接領域の移動や
ズームを適応的に行う．その後は右下図のようなネットワーク構造で識別を実施す
る．
下図はPASCAL VOC 2007における物体検出の結果である．AZ-Netは70.4%と
Faster/Fast R-CNNよりも高い精度での検出に成功した．また，候補領域の抽出
に関しても，Faster R-CNNのRegion Proposal Network (RPN)と比較した結果，AZ-
NetのTop-300のRecall Rateの方が良好な性能を示した．
Links
論文 http://arxiv.org/abs/1512.07711
コード https://github.com/luyongxi/az-net

Kai Kang, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, “Object Detection from Video Tubelets with
Convolutional Neural Netwroks”, in CVPR, 2016.
【24】
Keywords: Video Tubelets, Video Object Detection
新規性・差分
手法
結果
概要
動画像に対する物体検出の論文．候補領域を時系列で推定
(Video Tubelets)し，検出する．ILSVRC2015の”Object
Detection from Video (VID)”にて優勝したCUHKのアイディアで
ある．
動画像に対する候補領域や候補領域からの選択を実施するこ
とにより物体検出を行った．静止画に対する検出では37%しか
到達できなかったところを，47%まで引き上げた．
初期値として静止画により検出．
(1)  時系列の候補領域を算出する．初期値はR-CNNにより検出．R-CNNには
Selective Search (SS)による候補領域やAlexNetによる識別を採用し，
Negativeを除去する．さらに，次のステップではGoogLeNetを用いてR-CNN
を構成しPositiveの信頼度を高める．これにより，高い信頼度の領域をト
ラッキングすることで時系列候補領域を生成．
(2)  Temporal Convolutional Network (TCN)により候補領域中の時系列の検出
スコア・追跡スコア・アンカーオフセットを評価．出力はTubeletの評価値が
算出される．
VIDタスクにて47.5%，下の表はYouTube-
Objects (YTO) datasetにおける評価の結果で
あり，76.8%を達成した．．
Links
プロジェクトhttps://github.com/myfavouritekk/vdetlib

Kwang Moo Yi, Yannick Verdie, Pascal Fua, Vincent Lepetit, “Learning to Assign Orientations to Feature
Points”, in CVPR, 2016. (oral)
【25】
Keywords: Orientation Feature Points
新規性・差分
手法
結果
概要
オリエンテーションを考慮したキーポイント検出を新規に提案す
る．特徴の記述子にはConvolutional Neural Networks (CNN)を
採用し，さらにReLUやMaxout，PReLUといった活性化関数の
一般化に取り組んだ．
右図はSIFTと比較した際のキー
ポイントにおけるオリエンテー
ション推定である．SIFTでは誤り
がある場合でもCNNであれば少
ない誤差でオリエンテーションを
推定可能である．Multi-View
Stereo (MVS)を実行した結果，
再構成の性能自体も向上した．
CNNのアーキテクチャにはSiamese Networkを採用する．ネットワークの活性化関
数にはGeneralized Hinging Hyperplanes (GHH)をベースとした手法を提案する．
GHHの改良版はReLU・Maxout・PReLUを一般化した性質を持つ．問題としては
SIFTのように画像パッチを入力とし，対応するキーポイントを算出する．ここで，(1)
式を最小化することでCNNの重みWの値を調整．L(p_i)は損失関数を，p_i = {p^1,
p^2}はパッチのペアを示す．fw(p_i)はパッチのオリエンテーションを，g(p, θ)はパッ
チのあるオリエンテーションにおける画像記述を示す．
表は各キーポイント検
出器との比較結果であ
る．提案法はEF-VGG
であり，困難な条件が
含まれる各データセット
においても安定して良
好な性能を得た．
Links
論文 https://cvarlab.icg.tugraz.at/pubs/yi_cvpr16.pdf
Lab https://cvarlab.icg.tugraz.at/publications.php

Jiang Wang, Yi Yang, Junhua Mao, Zhiheng Huang, Chang Huang, Wei Xu, “CNN-RNN: A Unified Framework for
Multi-label Image Classification”, in CVPR, 2016.
【26】
Keywords: Multi-label Image Classification, convolutional neural network, recurrent neural network
新規性・差分
手法
結果
概要
画像中の物体のラベルとその関連性を学習するCNN-RNNフ
レームワークの提案
CNNとRNNを統一したフレームワーク
RNN-CNNフレームワークの概要を右図
に示す．
RNN-CNNフレームワークでは，ラベル
の関係性と依存性の特徴付けをおこなう
ためにJoint Embedding Spaceという空
間の学習を行う．
赤点はラベル，青点は入力画像，黒点
は入力画像とrecurrent newronの出力
の合計を示す．
順次，recurrent newronのラベルをJoint
Embedding Spaceに入力し，リンクさせる
ことでラベルの依存関係をモデル化す
る．
実験結果を以下(1)〜(4)に示す．
(1)はNUS-WIDE Dataseon 81 conceptsでk＝3のときの比較結果
(2) NUS-WIDE Dataset on 1000 tagsでk＝10のときの比較結果
(3)MS-COCO Datasetでk＝3のときの比較結果
(4)PASCAL VOC 2007 datasetでの分類結果の比較　を示す．
Links
論文
http://arxiv.org/pdf/1604.04573v1
(1) (2) (3)
(4)

M. Harandi , M. Salzmann , and F. Porikli, “When VLAD met Hilbert”, in CVPR, 2016.
【27】
Keywords: VLAD, Kernelization, Kernel Approximation, Grassmann manifold, SPD
新規性・差分
手法
結果
概要
・VLADは局所記述子のaggregationで使われる画像表現だが、局
所記述子を適切にベクトルで表現できない場合には非力
・Kernelizationによりそのような場合でも有効に働くようにし、更にはよ
り良い識別器の学習も可能に
・Kernel VLADの近似も提案
・諸々の実験で先行研究と同程度もしくは上回る性能
・VLADをkernelization (Kernel VLAD, kVLAD)
・kernelの局所的な近似手法も同時に提案 (sVLAD)、さらに
Nystromの手法 (nVLAD, sVLADを局所的じゃなくしたもの),
Random特徴 (fVLAD, Kernelがシフト不変(つまりk(x, y) = k(x-
y))な場合にのみ適用可能)に基づいた近似も提案
・VLADでおなじみのL2 power normalizationも可能、signed
squared root normalizationはKernelのHilbert空間への射影が
自明じゃないと厳しいらしい
[Kernel VLAD]
・k-means → kernel k-means
・codebook割り当て → ||Φ(x) - Φ(c)||^2 = k(x, c) - 2k(x, c) + k(c, c)を最小とする
ようなcodebookに
・Kernel VLAD同士の積もカーネルだけで表現できる

[sVLAD, Kernel VLADの近似]
・各codebookに割り振られた局所記述子を元にしてcodebookごとにNystromの方
法で近似用の射影を用意

・Grassmann manifold上の点, 正定値対称行列などを局所記
述子とする場合の実験を行い既存手法を超える性能
・VOC07での実験(SIFTとRBF kernel?)も良好(右上表)、
ECCV2014の教師付きVLADと近い性能
・kVLADの方がsVLADより高速らしい
(右下表)
Links
論文 (camera review版ではない可能性あり) http://
infoscience.epfl.ch/record/217986/files/
HarandiSalzmannPorikliCVPR16.pdf

Relja Arandjelovic, Petr Gronat, Akihiko Torii, Tomas Pajdla, Josef Sivic, “NetVLAD: CNN architecture for
weakly supervised place recognition”, in CVPR, 2016.
【28】
Keywords: NetVLAD, CNN, Codeword
新規性・差分
手法
結果
概要
深層学習CNNとコードワード表現であるVLADを用いた位置推
定．昼/夜，拡大/縮小のような劇的な変化があったとしても
シーン認識ベースの位置特定を行うことができる．
・End-to-endのCNNモデルに追加して，VLAD (Vector of
Locally Aggregated Descriptors) layerを付け加えることに成功
した
・弱教師あり学習に基づくRanking Lossの最適化を行った．特
に，Google Street Viewにあるような画像を学習サンプルとして
最適化を行った
・Off-the-shelf CNNなどといった従来型のモデルよりも高い精
度で位置推定を行うことができた
CNNの畳み込みやプーリング特徴量をそのままVLADによるコードワード表現がで
きるようにした．CNNのあとにNetVLAD layerを追加することにより，これらの枠組
みは誤差逆伝播法により最適化される．
下図が4つのデータセット(Pitts250k-test, TokyoTM-val, Tokyo24/7 all queries,
Tokyo 24/7 sunset/night)に対するグラフである．例えばPitts250kデータセットでは
Off-the-shelf CNNで55.0%だった精度が提案手法では81.0%@top-1という精度を達
成した．
Links
プロジェクト http://www.di.ens.fr/willow/research/netvlad/
コード https://github.com/Relja/netvlad

Abhinav Shrivastava, Abhinav Gupta, Ross Girshick, “Training Region-based Object Detectors with Online
Hard Example Mining”, in CVPR, 2016. (oral)
【29】
Keywords: Hard Negative Mining, R-CNN, Object Detection
新規性・差分
手法
結果
概要
物体検出のための学習には多大なコストやパラメータのチュー
ニングを行うが，できる限り効果的に最適化を行う手法Online
Hard Example Mining (OHEM)を提案する．ベースとなるアルゴ
リズムはFast R-CNN (FRCN)であり，物体検出に特に重要なト
レーニングセットであるHard Negative (クラス間の境界付近に
位置するサンプル)を見つけ出すことが重要であるとした．
・ブートストラップ法に基づくHard Example Miningを提案するこ
とで，煩わしいパラメータ調整を省き，効果的に最適化を行え
る．
・MSCOCOやPASCAL VOCのテストセットに対して改善が見ら
れた．
ベースとなるアルゴリズムはFast R-CNN (FRCN) [Girshick, ICCV15]であり，画像
や物体候補領域(RoIs)の入力が必要である．
提案手法では，FRCNの学習時にHard Negativeを選択することがポイントである．
入力のRoIs画像に対してエラー率を計算し，エラーが大きいものをHard Negativeと
して選定する．したがって，CNNのモデルを更新するために必要なサンプル数はご
く少数で済み，なおかつクラス間を分離するために必要なサンプルのみを用いるこ
とが可能である．
実験はPASCAL 2007や2012に対して行った．それぞれ78.9%, 76.3%と非常に高い
精度での認識を可能にした(表)．表中にはトレーニングセットやmAPが含まれてい
る．
Links
著者 http://abhinav-shrivastava.info/

Jianming Zhang, Stan Sclaroff, Zhe Lin, Xiaohui Shen, Brian Price, Radomir Mech, “Unconstrained Salient
Object Detection via Proposal Subset Optimization”, in CVPR, 2016.
【30】
Keywords: Salient Object Detection, Proposal, VGGNet
新規性・差分
手法
結果
概要
Salient Object Detection (SOD)のための候補領域抽出．全く
顕著性のない画像の場合には候補領域を抽出しない(下図)．
CNNモデルをベースにしており，最適化はMAPによりノイズなど
複雑背景下においても効果的に部分集合を推定する．
現在までの顕著性マップ生成は画像内の相対的な評価によ
り，顕著な領域を検出してきたが，提案手法では絶対的な評価
により顕著な物体検出のみならず，顕著性のない場合には反
応しない手法を実装．
顕著物体の検出のため，Greedy(貪欲な; ここでは画像全体の)探索と不要な領域
を除去するNon-Maximum Suppression (NMS)を実装．ここで，Maximum a
Posteriori (MAP)による部分集合の最適化を導入する．下図のようにステップごと
候補を除去して行き，最終的にはNMSにより出力する．図の例ではIoUが0.4以上
のトップ3を抽出．CNNモデルにはVGGNetを適用したが，Fine-tuningにより最終層
を100次元のSigmoid Layerとした．Fine-tuningに用いた画像はSalient Object
Subtizing (SOS)データに含まれる5,500枚の画像である．
MSRA, DUT-O, MSOデータセットにより評価
を行った．表(上)は各データセットにおける
SODのAverage Precision (AP)であり，表(下)
は背景の認識率のAPである．
Links
論文
http://cs-people.bu.edu/jmzhang/SOD/
CVPR16SOD_camera_ready.pdf
プロジェクト http://cs-people.bu.edu/jmzhang/sod.html
GitHub Code https://github.com/jimmie33/SOD
Model-Zoo Wiki https://github.com/BVLC/caffe/wiki/Model-Zoo

Keywords:Large-scale Object Detection
離散エネルギー最小化(discrete energy minimization)を用いた大規模
物体検出のための効率的なPoint Process Inferenceの提案．オブジェ
クトの数を任意に増やすことができるような画像(群衆，鳥の大群等)で
の大規模な物体検出の問題に対処し，著しい人の重なりやオクル―
ジョンを提示することができる．
左の2枚の図では，4144の幹細胞が検出されており，一番右の図では
492人のランナーが検出できている．
オブジェクトの信頼度と空間オブジェクトパターンを含む密度関数
によるPoint process probabilistic modelを用いることでオブジェクト
検出の問題を定式化する．．
Trung T. Pham, Seyed Hamid Rezatofighi, Ian Reid and Tat-Jun Chin, “ Efficient Point Process Inference for
Large-scale Object Detection”, in CVPR, 2016.
【31】
論文ページ： https://cs.adelaide.edu.au/~trung/lib/exe/fetch.php?media=ls_obj_det.pdf
概要
新規性・差分
Links
手法
結果
オブジェクトの位置を特定するプロセスを複雑にする要因とし
て，人の重なりやオクル―ジョンの問題が生じるがこれにについ
て解いている．

Tao Kong, Anbang Yao, Yurong Chen, Fuchun Sun, “HyperNet: Towards Accurate Region Proposal Generation
and Joint Object Detection”, in CVPR, 2016.
【32】
Keywords: Region Proposal, HyperNet
新規性・差分
手法
結果
概要
物体候補領域の抽出や物体検出を同時にこなすニューラル
ネットのアーキテクチャであるHyperNetを提案する．HyperNet
はend-to-endでの学習が可能であり，約100の候補領域である
が非常にRecall Rateが高い．さらに，5FPSで動作することが明
らかになった．
・現在，候補領域のstate-of-the-artはRegion Proposal
Network (RPN)であるが，微小領域の評価には向いていないた
め，改善する
下図は本論文の提案するフローチャートである．入力画像からCNNによりHyper
Feature Extractionを実行する．この特徴はObject Proposal や検出タスク自体にも
用いる．図を参照すると，top-10ではあるが物体候補領域の段階ですでに物体検
出に近い出力を行っている．Hyper FeatureではConv1/3/5の出力値を統合して候
補領域の生成や物体検出に用いる．Conv1はMax-poolを，Conv5はDeconvolution
を行うことで第3層の特徴マップサイズに統一．
50の候補領域で95%，100では97%のRecall Rateを実現した．さらに，PASCAL VOC
2007/2012ではそれぞれ76.3%，71.4%というmAPを実現．下の表にPASCAL VOC
2012の結果を示す．
Links
論文 https://arxiv.org/pdf/1604.00600.pdf
プロジェクト

Keywords:
新規性・差分
手法
結果
概要
CNNアーキテクチャとRNNを組み合わせマ
ルチクラス分類をend-to-endで行うフレー
ムワークを提案した論文
end-to-endでマルチクラス分類を行う
コンパクトかつ強力な多クラス分類モデル
の設計
implicit attention mechanismは画像中の小
さな物体認識に有効であることも示された．
フレームワークの概略図を以下に示す．フレームワークは、ラベルの依存
関係だけでなく、画像ラベルの関係を特徴づけるために、joint embedding
spaceを学習する．赤と青のドットはそれぞれ、ラベルと画像であり、黒丸
は画像およびRNN出力の合計です。RNNは、順次、joint embedding
spaceにラベル埋め込みをリンクすることにより、関節埋め込み空間での
ラベルの共起の依存関係をモデル化. 各時間ステップで、ラベルの確率
は、画像の埋め込みおよびRNN出力に基づいて計算される．以下にRNN
のネットワーク構成図を示す．

NUS-WIDEとMSCOCOで実験従来の手法よ
り良い結果となった
Jiang Wang+, “CNN-RNN: A Unified Framework for Multi-label Image Classification”, in CVPR, 2016.
【33】
Links
PDF

Dong Li, Jia-Bin Huang, Yali Li, Shengjin Wang, and Ming-Hsuan Yang, “Weakly Supervised Object Localization
with Progressive Domain Adaptation”, in CVPR, 2016.
【34】
Keywords: weakly supervised object localization, in detection adaptation, in classification adaptation
新規性・差分
手法
結果
概要
・本論文では, 教師画像を用いて弱教習でも物体の認識・特定
を行う．

・従来研究
多くのアプローチは、オブジェクトの提案マイニングを通じてこ
の弱教師でも位置特定を行う．しかし, オブジェクトのノイズの
量によって、判別対象モデルを学習するための曖昧さを引き起
す．
・提案手法
　 2つのステップ分類適応と検出適応を用いてこの問題に対処
します．
　分類適応では, 画像内の特定のオブジェクトの存在を認識す
るため,マルチラベル分類タスクに事前訓練を受けたネットワー
クに送る．
検出適応にはクラス固有のオブジェクトを収集の提案するた
め, 候補を発見するための教師有り学習を提案するためにマス
クアウト処理を使用する．
・物体をデータセット内の画像を収集するための検出適応, 認識・識別するための
分類適応を用いる．誤検出し無いように画像に微調整する．
・実験結果より, 提案手法が大幅に最先端の方法よりも優れていることが分かる．
識別率の平均は39.5%を表示した．

.
Links
論文 http://goo.gl/vLkEQe

Junhua Mao, Jonathan Huang,Alexander Toshev, Oana Camburu, Alan Yuille, Kevin Murphy, “Generation and
Comprehension of Unambiguous Object Descriptions”, in CVPR, 2016.
【35】
Keywords: text descriptions of images,dataset
新規性・差分
概要
・画像生成分の根本的な問題として，画像の説明の仕方は
いくらでもあるため，手法の評価が難しいという点がある．そ
こで一度に説明するbounding_box内の物を１つに限定するこ
とで，より明確な評価をする．右図のように，画像と領域が入
力されたら説明文が出力され，文と画像が入力されたらその
文に合う領域が出力される．

・Google Refexp (G-Ref) datasetを提案．右上の画像のよ
うに，リッチなアノテーションが物体ごと（緑のマーク）に付
与されている．MS COCOに基づいたものなので物体の
maskやカテゴリーの情報にもアクセスできる．

． datasetとtoolboxが公開されている．
https://github.com/ mjhucla/Google_Refexp_toolbox
Links

Mahyar Najibi, Mohammad Rastegari, Larry S. Davis, “G-CNN: An Iterative Grid Based Object Detector”, in
CVPR, 2016.
【36】
Keywords: object detection
新規性・差分
手法
結果
概要
・新しい物体検出手法を提案
・Fast R-CNN + Selective Searchより高速だが概ね同程度の
性能を出すことができることを実験で示す
・新しい物体検出のパイプラインを提案

・画像が入力されたらグリッドを切り、物体の候補領域とする
・現在の候補領域に関して物体のスコアの算出とBBoxの位置の
回帰を行い、各候補領域の位置の修正を行う。この際に一気に
BBoxの位置を更新するのではなく、NNによって提示された更新
量を残りの更新回数で割った値を現在のBBoxの位置に足し込ん
でいく。

・右図がiterativeにboxを更新して
いった場合の結果の例
・Fast R-CNN+Selective Searchより
も高速だが概ね同程度の性能を出
すことに成功している
・VOC 07においてはFaster R-CNN
と比較すると劣りそう
・クラス数が多いとどうなるかが疑
問
Links
プロジェクト http://www.umiacs.umd.edu/~najibi/GCNN.html

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Fahadi, “You Only Look Once: Unified, Real-Time Object
Detection”, in CVPR, 2016. (oral)
【37】
Keywords: Object Detection, Real-Time
手法
結果
概要
現在までの候補領域+CNNによる識別といった物体検出のアプ
ローチとは異なり，単一のCNNモデルで画像全体を一度処理し
スコアの高い領域を検出位置としてバウンディングボックス
(bbox)を出力するというコンセプトとした．下図に提案手法の簡
略図を示す．提案手法は非常に高速で約45fpsでの処理が可
能であり，解像度を若干落とすと155fpsでの処理も可能とした．
画像を448x448pixelsにリサイズする．画像はSxSのグリッドに区切られ，それぞれ
の領域でbbox Bやそのスコアが推定される．各bboxからはx, y, w, h, scoreと，5つ
のパラメータが推定される．
CNNのアーキテクチャはGoogLeNetを参考にしていて，24層の畳み込み層，2層の
全結合層から構成される．
表はPascal VOC 2012における比較である．YOLOは高速であるが単体では57.9%
という結果であった．Fast R-CNN [Girshick, ICCV15]と統合することで70.7%と良好
な精度を実現可能であることが判明した．
Links
論文 http://arxiv.org/pdf/1506.02640.pdf
プロジェクト http://pjreddie.com/darknet/yolo/
Video
https://www.youtube.com/channel/UC7ev3hNVkx4DzZ3LO19oebg

Spyros Gidaris, Nikos Komodakis, “LocNet: Improving Localization Accuracy for Object Detection”, in CVPR,
2016. (oral)
【38】
Keywords: Object detection, CNN
新規性・差分
手法
結果
概要
物体検出の領域抽出の精度を向上させるため，与えられた候
補領域や物体検出位置を再評価してバウンディングボックスを
より正確に割り当てるための方法(LocNet)を提案．近年の物体
検出の評価は推定領域とGroungTruthの交差領域(IoU)が50%
以上であるが，より正確に位置を割りあてることが求められる．
・現在の候補領域抽出が不十分であるため，バウンディング
ボックスの回帰をニューラルネット内で実行する．
アルゴリズムを右に示す．入力は画像Iとその(初期の)
バウンディングボックスB^1であり，出力は最終検出結
果Yである．仮説1~Tを評価することとし，認識のスコア
値S^t <- Recognition(B^t|I)を評価，その後バウンディ
ングボックスを評価 B^t+1 <- Localization(B^t|I)する．
それらを総合的に評価し，最終的に後処理を行った上
(PostProcess(D) )で最終検出結果Yに至る．下記は
LocNetのアーキテクチャである．
下記はPASCAL VOC 2007/2012に対する検出結果である．IoUが0.7の場合でも高
い推定精度を実現している．
Links
プロジェクト https://github.com/gidariss/LocNet
・パラメータを限定的にした
CNNモデルを提案した．この
物体検出器をLocNetとして
新たに提案する．

Liang Lin, Guangrun Wang, Rui Zhang, Ruimao Zhang, Xiaodan Liang, Wangmeng Zuo, “Structured Scene
Parsing by Learning CNN-RNN Model with Sentence Description”, in CVPR, 2016. (oral)
【39】
Keywords: Scene Understanding, Scene Parsing
新規性・差分
手法
結果
概要
CNNやRNNを用いた総合的なシーン解析について提案する．
CNNによりピクセル毎の物体ラベルを推定し，RNNにより階層
的な物体の構造や物体間の(inter-object)関係性について記述
する．
下図は提案のシーン解析モデルを提案する．CNNの物体毎の
ラベルを割りあて，階層的な把握にはRNNを用いる．CNN-
RNNによる階層的なシーン解析を可能とした．
下図はCNN-RNNモデルによる階層的シーン解析モデルである．CNNではセマン
ティックラベリングや特徴表現について出力する．RNNでは与えられたラベルやそ
の領域の特徴量を解析して詳細なシーン解析を実行する．トレーニングはWeakly-
Supervised Modelにより実行する．ロス関数は下記式(8)により定義し，CNNとRNN
の損失を同時に最適化することで識別器のパラメータを得る．
表はPASCAL VOC 2012のテストセッ
トに対して評価した結果である．学習
の方策を変更して評価． Links
論文 https://arxiv.org/abs/1604.02271
プロジェクト

Zuxuan Wu, “Harnessing Object and Scene Semantics for Large-Scale Video Understanding”, in CVPR, 2016.
【40】
Keywords:
新規性・差分
概要
オブジェクトとシーンを意味的に融合させたネットワークの構築
(Object-Scene semantic Fusion:OSF). 物体認識，シーン認識，
フレームベースの低レベルCNNの3層のCNN特徴を意味的に
融合する．ActivityNetとFCVIDで学習されたm出るを用いてい
る．Fusion Netに誤差逆伝搬情報を入力することでビデオと物
体・シーンの意味的関係性を観測することが可能
オブジェクト特化のCNN特徴ととシーン特化のCNN特徴を意味
的に融合した特徴抽出が可能．
Links
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2016/
papers/Wu_Harnessing_Object_and_CVPR_2016_paper.pdf
プロジェクト

Mark Yatskar, Luke Zettlemoyer, Ali Farhadi, “Situation Recognition: Visual Semantic Role Labeling for Image
Understanding”, in CVPR, 2016.
【41】
Keywords: Role Recognition, Image Understanding, Situation Recognition, FrameNet, Dataset
新規性・差分
概要
画像内の詳細な理解を行う．画像に写っているメインの物体
(人，動物など)やその目的，道具，場所などの関係性や役
割なども推定可能とする．500の行動，1700の役割(Role)，
11,000の物体，125,000枚の画像を含む大規模データを構成
した．この大規模なデータはFrameNetと呼ぶこととする．
・画像の総合的な理解のために大規模なデータセットである
FrameNetを提案した．
・各行動・役割・物体・道具などの要素を含んでいる非常に困難
な課題を提供した．
・VGG-CRFの枠組みで識別を実行したが，思うように精度が出
ていない．この問題はこれから取り扱われるべき課題である．
Links
論文
http://homes.cs.washington.edu/~my89/publications/situations.pdf
プロジェクト https://homes.cs.washington.edu/~ali/index.html

Xiaodan Liang, Xiaohui She, Donglai Xiang, Jiashi Feng, “Semantic Object Parsing with Local-Global Long
Short-Term Memory”, in CVPR, 2016.
【42】
Keywords: Semantic Object Parsing, Semantic Segmentation
新規性・差分
手法
結果
概要
Local-Global Long Short-Term Memory (LG-LSTM)を提案す
ることで，局所的・大域的な空間情報を考慮してセマンティック
な領域の解析 (Semantic Object Parsing)を実行する．
・8近傍の空間的LSTMやDepth LSTMの実行により特徴学習
・Global Hidden Cells により大域的な(離れた位置であっても)空
間の評価ができる
・Stacked LG-LSTM (層を繰り返し通り抜ける)により大域的に
評価できる
畳み込みにより特徴マップを生成，その後Transition Layerを通り抜けLG-LSTMに
よる繰り返し演算によりセマンティック物体解析を実現．
表はFashionista datasetによる領域解析結果である．
Links
論文
http://users.eecs.northwestern.edu/
~xsh835/assets/
cvpr2016_lstmparsing.pdf
著者
http://users.eecs.northwestern.edu/
~xsh835/

Edgar Simo-Serra, Hiroshi Ishikawa, “Fashion Style in 128 Floats: Joint Ranking and Classification using Weak
Data for Feature Extraction”, in CVPR, 2016.
【43】
Keywords:
新規性・差分
概要
多様なファッション画像を効果的に分類できる特徴量抽出手法
を提案する．提案手法では，ランキングロスとクロスエントロ
ピーロスを合わせて畳込みニューラルネットワークを学習させ
ることで，ノイズが多く含まれるようなデータセットに対しても良
好に特徴抽出が行えることを示した．(下記プロジェクトページ
より参照)
・インターネットから得られる画像はラベルが十分についている
わけではないので，弱教師あり学習の枠組みであつかえるよう
にする．
・コンパクトかつ識別性に優れたCNN特徴量を，比較的少ない
データから調整する．
・ユークリッド空間にて距離計算できるようにする．さらに下図
のように可視化することでファッションの解析を効果的に行う．
Links
論文
http://hi.cs.waseda.ac.jp/~esimo/publications/
SimoSerraCVPR2016.pdf
プロジェクト
http://hi.cs.waseda.ac.jp/~esimo/ja/research/stylenet/

Rasmus Rothe, Radu Timofte, Luc Van Gool, “Some like it hot - visual guidance for preference prediction”, in
CVPR, 2016.
【44】
Keywords: Autonomous Rating
新規性・差分
概要
Collaborative Filteringを用いた評価付けに関する論文．論文中
ではデートサイトから抽出した評価付けデータを元にしている．
写真や評価付けを行ったアクセス履歴をもとにして結果を推定
するパラメータを学習する．
・デートサイトから取得したプロフィールやアクセス履歴，評価
などによるデータベースを作成した．
・視覚的な情報を含めたCollaborative Filteringによる解析手法
を提案．
・最終的には画像のみからの効果的な回帰モデルを提案．評
価値を画像のみから推定できるようになった．
Links
プロジェクト http://howhot.io/
著者 http://www.vision.ee.ethz.ch/~timofter/

Keywords:
新規性・差分
手法
結果
概要
物体のスケッチ画像を詳細物体分類に用い
た手法(fine-graind sketch-based image
retieval)
１．物体とフリーハンドの画像を対応した
データセットを作成
2. 抽象的な画像を用いた画像識別を行った
データセット例を以下に示す．また識別を行
うアーキテクチャを以下に示す．データオー
ギュメンテーションはStroke Removalを用い
て一枚の画像から9枚に拡張する
物体分類の従来手法
と比較し識別性能が
向上した．
Qian Yu+, “Sketch Me That Shoe”, in CVPR, 2016.
【45】
Links
https://qmro.qmul.ac.uk/xmlui/bitstream/handle/123456789/11936/Hospedales
%20Sketch%20Me%20That%20Shoe%202016%20Published.pdf?sequence=1

David F. Fouhey, Abhinav Gupta, Andrew Zisserman, “3D Shape Attributes”, in CVPR, 2016.
【46】
Keywords: 3D object recognitiion, Shape Attributes
新規性・差分
概要
3次元物体のアトリビュートを単一の画像から推定する．見えの
情報からいかに3次元の形状を説明する属性を推定するかが
非常に困難な課題である．本論文では，3次元形状のアトリ
ビュートをCurvature Properties, Contact Properties,
Volumetric Propertiesの3分類，12種類に分けて分類する．
データはFlickrにより収集され，アノテーションした後にラベル付
けのミスを修正した．
・複雑な3次元形状(例：上図)のアトリビュートを推定するCNN
アーキテクチャを構築した．
・大規模データベースを提供する．DBには143,000枚の画像と
属性情報が含まれている．
・アトリビュートの推定が72.3%と非常に高精度．
Links
論文
http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/
fouhey16.pdf
プロジェクト
http://www.robots.ox.ac.uk/~vgg/publications/2016/Fouhey16/
提案のMulti-task Network．最
終層が分岐しており，12種のアト
リビュート推定器と形状を説明す
る特徴に分類されている．

Bo Li, Tianfu Wu, Caiming Xiong, Song-Chun Zhu, “Recognizing Car Fluents from Video”, in CVPR, 2016. (oral)
【47】
Keywords: ST-AOG
新規性・差分
手法
結果
概要
本論文では車両の状態の変遷(論文中ではFluentと表現)を推
定する．オクルージョンや低解像な場面においても高精度に時
系列遷移を推定するためにSpatio-Temporal And-Or Graph
(ST-AOG)を用いる．
・ST-AOGを用いた時系列のFluent解析を提案．Car Fluentとい
うコンセプトはCVでは新しい提案
・Car Fluentに関してデータセットを提供
・Car Fluentや状態推定に関するモデルを新規に提案
ST-AOGの学習にはLatent Structural SVMを適用する．
Directed Acyclic Graph (DAG)に頼らず，代替としてLoopy Belief Propagation
(LBP)やDynamic Programming (DP)により時系列の遷移状態を推定．Part-baed
HMMを適用することでパーツ毎の時系列変化を捉える．
FeatureにはImproved Dense Trajectories (IDT)やC3D特徴を採用．
下はST-AOGによるCar Fluent Recognitionの結果(と表はその比較)である．TPS
やIDT，C3Dを組み合わせ，最終的には50.8%の精度での認識に成功した．
Links
論文
http://www.stat.ucla.edu/~sczhu/papers/Conf_2016/
CVPR2016_car_fluent.pdf
C3D Feature https://arxiv.org/pdf/1412.0767.pdf
プロジェクト

Florian Jug, Evgeny Levinkov, Corinna Blasse, Eugene W. Myers, Bjoern Andres, “Moral Lineage Tracing”, in
CVPR, 2016.
【48】
Keywords: Lineage Tracing, Integer Linear Program (ILP)
新規性・差分
手法
結果
概要
細胞の分岐を自動でトレーシングする手法を提案する．Integer
Linear Program (ILP)を用いることでセグメンテーションや細胞
の家系図(Lineage Forest)をトレーシングする．セグメンテーショ
ンをPath-Cutにより分割して細胞の分岐をトレーシングする
が，NP-hard問題を解決するための手法を考案する．
・単一画像内の複数のセルをセグ
メンテーションベースで分割
することに成功
・細胞の木構造を階層的に捉える
ことにおいて最先端の精度を達成
した
グラフのセグメンテーション分割問題を，最適化と置き換えて解決する．空間的な
最適化のみならず，時系列方向も参照して最適化を行う．下図は各データに対し
て適用した結果である．
セグメンテーションやトレーシングの精度を示したのが下
の表である．想像以上にうまく領域分割やそのトレーシ
ングができている．
Links
プロジェクト https://github.com/mpi-inf-cia/moral-lineage-tracing

Chenliang Xu, Jason J. Corso, “Actor-Action Semantic Segmentation with Grouping Process Models”, in
CVPR, 2016.
【49】
Keywords: Action Semantic Segmentation, Action Recognition
新規性・差分
手法
結果
概要
Actor-Action (行動者とその行動を推定する)に関して，その行
動者や行動を推定するのみならず，セマンティックセグメンテー
ションも与える．CRFやSupervoxelのフレームワークにより時系
列領域を推定する．
・GPMにより意味的なラベルを階層的な領域に統合した
・今回，ActorやそのAction，さらにはそれらのセマンティックセ
グメンテーションを実現した
前処理としてPairwise-CRF (近傍のみがつながっている)による荒いセグメンテー
ションを実行する．次に階層的Supervoxelによる時系列ラベリングを実行．この
CRFやSupervoxel Hierarchyを相補的に行う仕組みをGrouping Process Model
(GPM)と呼ぶ．GPMではCRFからグルーピングの手がかりを，Supervoxel
Hierarchyからはラベリングの手がかりを渡して繰り返し最適化を行う．
実験にはA2Dデータセットを適用した．結果は下の表に示す通りである．
Links
論文 http://arxiv.org/pdf/1512.09041.pdf
ビデオ https://www.youtube.com/watch?v=3Dvg5hzI-y4
著者 http://www-personal.umich.edu/~cliangxu/

フレームワークの概要を上図に示す．
本フレームワークは， Spatio Temporal Interest Pointsを使用して，トリミング動画
から行動の特徴抽出を行い，学習する．
動画中から行動の候補のセットを生成し，その候補のランク付けを行うことで行動
提案を行う．
Fabian Caba Heilbron, Juan Carlos Niebles, Bernard Ghanem, “Fast Temporal Activity Proposals for Efficient
Detection of Human Actions in Untrimmed Videos”, in CVPR, 2016.
【50】
Keywords: activity proposal, Human Action,
新規性・差分
手法
結果
概要
行動の特徴表現方法を学習し，動画中の人物の高速で行動提
案を行うフレームワークの提案
動画内で同一の行動が行われた時間を検索でき
，高速で精度の高い行動提案を行う
(1)はThumos14 datasetでの処理時間の比較実験結果
(2)はThumos14における最新の研究との比較結果
(3)はMSR-IIとThumos14でのMAP検出結果の比較
Links
論文
https://ivul.kaust.edu.sa/Documents/Publications/2016/Fast
%20Temporal%20Activity%20Proposals%20for%20Efficient
%20Detection%20of%20Human%20Actions%20in%20Untrimmed
%20Videos.pdf
(1)
(2)
(3)

Yang Wang, Minh Hoai, “Improving Human Action Recognition by Non-action Classification”, in CVPR, 2016.
【51】
Keywords: Action Recognition, Non-action Classification
新規性・差分
手法
結果
概要
行動認識精度を向上させる Non-action 分類器の提案
動画中の人物が行動を行っていないときの描写をNon-action
分類器によって非行動として分類することで，認識精度を向上
本稿は，人物非行動時の描写を除去することによる認識精度の評価とNon-action
分類器の構築・評価について書かれている．以下Non-action 分類器の構築につ
いて記述する．
(1)Fisher Vectorを用いたDense TrajectoriesとTwo-stream ConvNet の deep-
learned featuresを組み合わせたものを使用し，特徴計算を行う．上図に取得した
特徴量の概要を示す．
(2)ActionThread datasetを用いて，最小二乗SVMの学習を行い，Non-action 分類
器とする．
(1)Non-action 分類器の使用なし，一部，全てでの比較結果
(2)VideoDarwinとNon-action 分類器を用いたVideoDarwinでの比
較結果
(3)Hollywood2上でNon-action 分類器有無による比較結果
(4)6 unseen actionsでNon-action 分類器有無による比較結果
Links
論文
http://arxiv.org/
pdf/
1604.06397v2.pdf
(1) (2) (3)
(4)

Xiaolong Wang, Ali Farhadi, Abhinav Gupta, “Actions ~ Transformation”, in CVPR, 2016.
【52】
Keywords: Action Recognition, Precondition
新規性・差分
概要
人物行動が生起する前の事前状態をプレコンディション
(Precondition)と定義して，「起こりそう」な行動を前の状態から
察知，また生起した際の認識精度を高めるというアイディア．
Siamese Networkを用いてこのアイディアを実装した．今回は
UCF101やHMDB51などマルチメディアのデータセットに対して
実験を行った．
・行動認識の新しい表現方法を提案
・UCF101にてstate-of-the-artな精度を達成した．UCF101に対
して92.4%，HMDBに対して63.4%という数字を実現した．
・Cross-Categoryのタスクを提案し，ACT datasetを提案した．
同データには43の行動ラベル，16グループ，11234の動画が含
まれる．
Links
論文
http://www.cs.cmu.edu/~xiaolonw/papers/
precondition_effect_CVPR16.pdf
プロジェクト

Bhrooz Mahasseni, Sinisa Todorovic, “Regularizing Long Short Term Memory with 3D Human-Skeleton
Sequences for Action Recognition”, in CVPR, 2016.
【53】
Keywords: Skeleton, Action Recognition
新規性・差分
概要
大規模データにおいて，映像からスケルトンを推定し，さらには行動のラベルを
学習して行動認識を実行する．CNNの特徴量を取り出し，Recurrent Neural
Networks (RNN)のうちLong Short Term Memory (LSTM)を学習する．
右図の右は教師なし学習による3次元スケルトン，v_t, s_tはそれぞれ時間tにお
けるビデオやスケルトンを示す．r_vやr_sはLSTMやencoder LSTMの出力を表
す．y_tやy_tのハットは正解値と推定値を示し，この両者により損失を計算する．
hはそれぞれLSTMの隠れ層を示す．
・LSTMの学習について新しい枠組みを提案した．通常はdropoutやweight
decayにより最適化を行うが，ここではLSTMやeLSTMの誤差をユークリッド距離
で計測しパラメータを調整する．誤差伝播の仕組みはBackpropagation through
Time (BPTT)により操作した．
・提案手法はUCF101に対して85.7%，HMDB51に対して55.3%を達成し，通常の
LSTMのみではそれぞれ75.2%(UCF101)，43.1%(HMDB)だったので提案法の効果
を示した．
Links
論文
http://web.engr.oregonstate.edu/~sinisa/research/publications/
cvpr16_multimodal.pdf
プロジェクト

Limin Wang, Yu Qiao, Xiaoou Tang, Luc Van Gool, “Actionness Estimation Using Hybrid Fully Convolutional
Networks”, in CVPR, 2016.
【54】
Keywords: Actionness Estimation, Fully Convolutional Network, two-stream convolutional netwoek
新規性・差分
手法概要
hybrid fully convolutional network (HFCN)というactionnessの推
定に向けた深層アーキテクチャの提案

アピアランスとモーションに基づいた fully convolutional
networkの組み合わせによるactionness推定
アプローチのパイプラインを下図に示す．
(1)appearance fully convolutinal network (A-FCN)とmotion fully convolutional
network(M-FCN)の組み合わせであるHFCNでactionness を推定
(2)RCNNの行動検出システムのように，推定したactionessを用いてaction proposalを
生成する．
(3)action proposalをtwo-stream convolutional networksを用いて，分類する．
Links
論文　https://wanglimin.github.io/papers/WangQTV_CVPR16.pdf

結果
(1)Stanford40 と UCF Sports，JHMDBを用いた，提案手法
と先行研究の比較

(2)Stanford 40 (上段) and JHMDB (下段)を用いたaction
proposalの評価実験の比較’(赤の実線が提案手法)
比較対象は，L-CORF, Spatio-temporal object detection
proposal, objectness, discriminatively trained part-based
models, random samplingである

(3)JHMDBを用いた，行動検出結果　
(1)
(2)
(3)

Jinsoo Choi, Tae-Hyun Oh, In So Kweon, “Video-Story Composition via Plot Analysis”, in CVPR, 2016. 【55】
Keywords:Video-Story Composition
新規性・差分
手法
結果
概要
ビデオからストーリーを再構成する．複数のビデオを入力とし
て，”Video-Story”と呼ばれるビデオクリップを構成することを
提案．特徴やマッチングにはDense Optical FlowやPatch
Matchingを採用し，さらに効果的なVideo-Storyの探索のため
にBranch-and-Boundアルゴリズムを適用．
・複数のビデオクリップより自動でストーリーを構成する論文は
初めてであると主張
・Video-Storyを解決するための一般的な手法を提案．
左図はストーリー解析の様子である．ここではExposition, Rising Action, Climax,
Resolution (起承転結？)をベースとして展開に沿うビデオクリップを挿入した．設定
としては，複数のビデオクリップNを入力とし，C = {c_1, …, c_N}と表現．s(⊂P)は順
序を示し，Pは可能なCの順序を示す．(1)式は最適なビデオクリップのパスであり，
目的関数であるQ(s) ((2)式)を最適化．ここで，P(s)はストーリー展開時のペナル
ティを示し，D(s)は非類似度を示すため，(1)式であるようにarg minを取得すること
で最適なビデオクリップのパスs^*を推定できる．ここではNP-hard問題を，Branch-
and-Boundアルゴリズムを用いることで効果的に探索．
新規にデータセットを提案．23
のビデオセットから構成され，
236のビデオクリップが含まれ
る．ROCカーブにより評価した結
果が右図． Links
論文
http://rcv.kaist.ac.kr/v2/bbs/board.php?
bo_table=rs_publications&wr_id=522
プロジェクト

Chuang Gan, “You Lead, We Exceed: Labor-Free Video Concept Learning by Jointly Exploiting Web Videos and
Images”, in CVPR, 2016.
【56】
Keywords:
新規性・差分
概要
概念学習のためのウェブ動画を用いたデータセット構築方法．
[Lead Net]
インターネット上の動画には概念学習に用いれないノイズが存
在し(図:右下)従来では人の手によってタグ付けされていた．本
論文ではCNNアーキテクチャの自動学習とRNN(LSTM)を用い
て動画像からノイズとなるフレームを除去し高品質な学習デー
タを自動学習する仕組みを提案している．基本概念は動画像
を用いて学習しチューニングしたアーキテクチャを用いてWeb画
像を学習する．さらにWeb画像によってチューニングしなおされ
たアーキテクチャで学習データのトリミング(ノイズ除去)を行う．
その後トリミングされた動作像からLSTMの学習を行う．
実験は学習方法を変更した手法で比較している(UCF101)．本
手法の自動学習が有用であることが示された．
またイベント認識でも有用な結果が得られた(MEDtest13).

Links 論文
http://research.microsoft.com/pubs/266581/
CVPR16_webly_final.pdf
プロジェクト

Jean-Baptiste Alayrac+, “Unsupervised Learning from Narrated Instruction Videos”, in CVPR, 2016.
【57】
Keywords:
新規性・差分
概要
・教師なし学習でナレーションに含まれる行動タスクと動画像を
対応づける手法の提案．特定のタスクを完了するために必要
な共通の行動を自動で学習する．
・入力された映像とナレーションの相補的性質を活用し教師な
し学習する手法の提案．新規データセットの提案．実験的検
証．各ナレーションはオブジェクトの関係性の行動列に変換さ
れ，意味的な統合を行い，K個のタスクに分離される
Links
論文 http://www.di.ens.fr/~alayrac/papers/alayrac16unsupervised.pdf
プロジェクト

Yuncheng Li, Yale Song, Liangliang Cao, Joel Tetreault, “TGIF: A New Dataset and Benchmark on Animated
GIF Description”, in CVPR, 2016.
【58】
Keywords: Animated GIF, Image Description
新規性・差分
概要
GIFアニメに対する画像説明文の研究．Tumblrからの100Kを超
えるGIFアニメと，120Kに及ぶキャプションの収集をクラウドソー
シングにより行い，データセットについても提案する．
・GIFアニメに対する画像説明文を提案する．さらにはデータの
収集についても解決する
・GIFアニメを多数含んだデータセットを提供し，さらには同デー
タセットを現在の画像説明文のデータと比較した
・作成したデータセットに対して，既存のビデオ説明文の手法を
実装して比較した．
・コードをGitHubにて一般公開した　
・下の表は提案のTGIFデータセットを用い，動画説明文に
Domain Adaptationした際の結果である．データ数が確保でき
ている分，精度が向上したものと思われる．
Links
プロジェクト http://raingo.github.io/TGIF-Release/
コード https://github.com/raingo/TGIF-Release

Vignesh Ramanathan, Jonathan Huang, Sami Abu-El-Haija, Alexander Gorban, Kevin Murphy, Li Fei-Fei,
“Detecting events and key actors in multi-person videos”, in CVPR, 2016.
【59】
Keywords:Detecting Events, Events Classification, multi person videos
新規性・差分
手法
結果
概要
複数の人物が写っている動画内でのイベント検出・分類および
重要な人物の決定する手法の提案

データセットの構築
・アノテーションの学習なし
でキーパーソンの識別が
可能
本稿の手法は，(1)特徴抽出，(2)イベント分類，(3)注目モデルの決定の3つの項で成
り立つ．
(1)RCNN物体検出と同様の方法で，外観から特徴を抽出し，静的なCNN表記のみを
使用する．
(2)双方向のLSTMでの全体の背景特徴を計算(左図青枠)し，時刻ｔでの状態を表現
するために単方向のLSTMを計算する(左図黒枠)．
(3)注目モデルを決定するうえでの必要条件を満たすBLSTMの表現を学習するモデ
ルを構築する．
バスケットの3ポイントシュート(成功，失敗)，フリースロー（成功，失敗），レ
イアップ(成功，失敗)，2ポイントシュート(成功，失敗)，ダンクシュート(成
功，失敗)のクラス分類，検出を行った結果を右図上および下に示す．他
の手法に比べ，本提案手法が有効であることがわかる．
Links
論文

Hirokatsu Kataoka, Masaki Hayashi, Kenji Iwata, Yutaka Satoh, Yoshimitsu Aoki, Slobodan Ilic, “Dominant
Codewords Selection with Topic Model for Action Recognition”, in CVPR Workshop, 2016.
【60】
Keywords: Action Recognition, Topic Model, Dense Trajectories
新規性・差分
手法
結果
概要
トピックモデル(Latent Dirichlet Allocation; LDA)を用いて行動
認識に有効な特徴選択を行う．行動認識にDense Trajectories
を用いているが，背景にノイズが乗ってしまうため，トピックごと
(≒ プリミティブなモーション)に分類し，各トピックのノイズを除
去することで行動認識の精度を向上した．
オリジナルのトピックモデルであるLDAを用いて時系列行動認
識の精度を向上させた．非常に簡易的なモデルでパフォーマン
スをあげることができることを実証した．
右図が提案手法の流れである．入力となる
データはDense Trajectories (DT)である．ト
ピックモデルLDA (Latent Dirichlet
Allocation)への入力のため，コードワード化
にはBag-of-words (Bow)を用いている．ここ
で，トピックは各プリミティブなモーション
(DCS)を近似していると言える．各DCS内で
閾値を設けることで，小さなモーションからも
ノイズを綺麗に除去できるという戦略であ
る．最後にノイズを除去したDCSを統合する
ことでDominant DT (DDT)を生成する．DDT
をSVMで学習したものが最終的な識別器で
ある．
INRIA surgery, IXMAS, NTSEL, MPII cookingデータセット
に対して実験を行った．DDTを用いた各結果は80.4%,
94.6%, 90.9%, 61.8%でこれはオリジナルのDTよりも+4.9%,
+1.5%, +3.7%, +2.3%良好な結果である．さらに，MPII
cookingに関しては共起特徴[Kataoka+, ACCV14]も用いて
68.9%にまで向上した．
Links
論文
http://www.hirokatsukataoka.net/pdf/
cvprw16_kataoka_ddt.pdf
プロジェクト

Hossein Rahmani, Ajmal Mian, “3D Action Recognition from Novel Viewpoints”, in CVPR2016.
【61】
Keywords:
手法
結果
概要
1つの視点から撮影した特徴を基に，複数視点の特徴を算出す
ることで視点変化に依存しない3D行動認識を提案している．N-
UCLA Multiview Action3D Dataset ，IXMAS，UCF Sports Datasetな
どの複数のデータセットで比較実験した結果，提案手法の有効性が
確認された．
Mocapデータを3Dモデルにフィッティングさせ，そこから複数視点のDT特徴(F1, F2,
F3)を抽出．F1・F2・F3の全ての特徴をSoftmax関数に入力し，異なる視点での行動
認識を実現している(R-NKTM)．
Links
論文：https://arxiv.org/pdf/1602.00828.pdf

Alexander Richard, Juergen Gall, “Temporal Action Detection using a Statistical Language Model”, in CVPR,
2016.
【62】
Keywords: Action Detection, Language Model
新規性・差分
手法
結果
概要
言語モデルを参考にした行動検出の問題．行動検出では行動
を認識するのみでなく，その位置まで推定する必要があるが，
言語モデルを参考にして可変の行動長さ，文脈を判断する．
「行動の長さ」「言語モデル(文脈)」「識別性に優れた行動」の3
つを同時最適化する．
・行動検出に対して言語モデルを取り入れることで文脈やその
長さを効果的に分割することができる．
・Language Model (言語モデル)，Length Model (長さモデル)，Action Model (行動
モデル)を個々に定義，Dynamic Programming内で行動や位置の推定を行う．
THUMOS14の行動検出タスクにおいて
実験を試みた．Overlap率が0.1の際，
THUMOS14 (39.7%)，MPII-Cooking
(24.8%)，50 salads (37.9%)を達成した．
Links
論文
http://www.iai.uni-bonn.de/~gall/
download/jgall_actiondetect_cvpr16.pdf
GitHub
https://github.com/alexanderrichard/
squirrel

Jun Yuan+, “Temporal Action Localization with Pyramid of Score Distribution Features”, in CVPR, 2016.
【63】
Keywords:
新規性・差分
概要
・時系列方向のアクションローカライゼーションのためのアーキ
テクチャ構築.
Pyramid of Score Distribution Features (PSDF) の提案．

・従来の行動認識は行動ごとにトリムされた動画像を対象とし
ていた．本論文では行動の始まりから終わりまでをピラミッド状
にスコアとして評価しトリムされていない動画像から行動を検出
する手法の提案を行っている．
PSDFは各検出領域を中心とする複数の分解能を持つ動き情
報を抽出するために提案されている．
Links
論文
http://www.cv-
foundation.org/
openaccess/
content_cvpr_2016/
papers/
Yuan_Temporal_Action_Lo
calization_CVPR_2016_pap
er.pdf
プロジェクト

Zheng Shou, Dongang Wang, Shih-Fu Chang, “Temporal Action Localization in Untrimmed Videos via Multi-
stage CNNs”, in CVPR, 2016.
【64】
Keywords: Action Localization, Multi-stage CNN
新規性・差分
手法結果
概要
トリミングされていない長時間の動画から，行動のローカライズ
を行う手法の提案
3つのセグメントベースのConvNetを使用することで，Deep
Networksにおけるアクションのローカライズを効率的に行う．

フレームワークの概要を右上図に示す．本フレームワークは3つの
構成からなる．
(1)Multi-scale segment generation: 入力された動画から，様々な長
さのセグメントを生成(16frame, 32frame,64frame...)
(2)Segment-CNN: proposal networkが候補セグメントを識別．
classification networkはlocalization networkの初期設定を行うため
に，行動識別モデルを学習．その後localization networkは，動画か
ら行動のローカライズを行い，スコアを出力する．
(3)Post-processing: 出力されたスコアにNMSを用いることで，冗長
性を除去し，最終的な結果を取得する．
(1)MEXaction2における，Dense Trajectoriesとの平均精度の比較
(2)THUMOS 2014における平均精度の比較
(3)THUMOS 2014における，各クラスの平均精度のヒストグラム(緑が提案手法)
Links
論文
https://arxiv.org/pdf/1601.02129v2.pdf
(1) (2)
(3)

Hakan Bilen, Basura Fernando, Efstratios Gavves, Andrea Vedaldi, Stephen Gould, “Dynaic Image Networks for
Action Recognition”, in CVPR, 2016. (oral)
【65】
Keywords: Action Recognition, CNN, Dyanmic Image
新規性・差分
手法
結果
概要
動的な画像表現をコンパクトなConvolutional Neural Networks
(CNN)で実現するための方法を提案する．動画像表現はRank
Poolingにより行われ，時系列の変化(temporal evolution)を効
果的に表現する．
既存のCNNモデルを用い，動画像によりFine-tuningを実行す
ることにより動的な画像表現を簡易的に行うことが可能であ
る．このアイディアは [Fernando+, CVPR15]を参考にしている．
左下図のようなDynamic Imagesを生成して，CNNのFine-tuningを実行．例えば
ImageNet Pre-trainedモデルとモーション認識のための特徴の乖離が激しいので，
膨大な学習サンプルが必要となる．これに対して本論文では前景のモデリング(背
景は統計的に棄却)や，データ拡張により学習のサンプルを行う．データ拡張では
各ビデオのミラーリング，クロッピングなどをして動画のサブセットを生成し，
Dynamic Imageを作成する．RankPooling Layer (RankPool)では，時系列情報を整
理しランク付けと効果的なオーダーにならべかえることができるとしている
([Fernando+, CVPR15]より)．これを用いることでコンパクトかつ強力に時系列表現
がCNNないでも可能になる．
ベンチマークにはHMDB51やUCF101データ
セットを用いた．HMDB51では65.2%，UCF101
では89.1%とハイレベルな認識を実現した．
Links
論文
http://www.robots.ox.ac.uk/~hbilen/pubs/cv/bilen2016dynamic.pdf
コード https://github.com/hbilen/dynamic-image-nets
著者 http://users.cecs.anu.edu.au/~basura/
論文中では，Approximate Dynamic Mapsという，時
系列情報を保有する特徴マップの近似的な手法を
提案しており，よりリアルタイムでの処理に近づい
た．

CVPR 2016 まとめ v1

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to CVPR 2016 まとめ v1

Similar to CVPR 2016 まとめ v1 (20)

CVPR 2016 まとめ v1