Cvpr2017事前読み会

CVPR2017事前読み会
2017/07/08 皆川卓也(@takmin)

本資料について
 CVPR2017 paper on the web上のタイトルを眺めて、面白
そうなやつを適当にピックアップ
 http://www.cvpapers.com/cvpr2017.html
 選んだ論文に共有のテーマとか一貫性とかは特にない。
 今回は１本を深く読むよりも、広く浅く
 と思ったら広くない。
 最初は10本くらいやるつもりが、結局５本。。。
 単純に読んだ順番で並べただけ

自己紹介
3
テクニカル・ソリューション・アーキテクト
皆川卓也（みながわたくや）
フリーエンジニア（ビジョン＆ITラボ）
「コンピュータビジョン勉強会＠関東」主催
博士（工学）
略歴：
1999-2003年
日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得（2014年）
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事
http://visitlab.jp

Network Dissection
Network Dissection: Quantifying
Interpretability of DeepVisual Representations
 David Bau, Bolei Zhou,Aditya Khosla,Aude
Oliva, and AntonioTorralba
 概要
 画像解析を行うCNNの隠れ層がどのような
「意味」と関連付けられているかを解析するた
めのフレームワークを提案

Network Dissection
 手法
 Broden (Broadly and Densely Labbeled Dataset)という様々なコンセ
プトをラベル付けしたデータセットと学習済みCNNモデルの各隠れ
層ユニットの反応との関係を見ることで、ユニットが持つ「意味」を解
析

Network Dissection
 結果
 AlexNet, GoogLeNet,VGG, ResNetを、ImageNetおよびPlaces205で学習
 学習済みモデルに対して、Brodenで隠れユニットのコンセプトを検出
AlexNetの各層で最も強く反応したBroden画像

Network Dissection
 結果
 AlexNet, GoogLeNet,VGG, ResNetを、ImageNetおよびPlaces205で学習
 学習済みモデルに対して、Brodenで隠れユニットのコンセプトを検出
Places205を学習させたVGG, GoogLeNet, ResNetの各ネットワークで、あるコンセプトに最も強く反応した２つのユニット
における検出結果例

Semantic Scene Completion
Semantic Scene Completion from a Single Depth Image
 Shuran Song, FisherYu,Andy Zeng,Angel X. Chang, Manolis
Savva,Thomas Funkhouser
 概要
 1枚の深度画像から、ボクセ
ル空間を生成するScene
Completionと、各ボクセル
にラベル付けを行う
Semantic Segmentationを「同
時に」行うSemantic Scene
Completion Network
(SSCNet)を提案

 手法
 入力は１つの深度画像から生成したボクセル空間
 各ボクセルには最寄りのSurfaceの手前を正、奥を負とし、
Surfaceまでの距離が近いほど絶対値が大きくなるような値を
配置 (flippedTSDF)
 Dilated filterでコンテクスト情報を取得
 SUNCGデータセットから学習データを生成

 実験
 Scene CompletionとSemantic Segmentationを同時に行う方が
個別に行うよりうまくいく

Context-Aware Correlation Filter Tracking
 Matthias Mueller, Neil Smith, Bernard Ghanem
 概要
 追跡対象の周辺の情報をNegative Sampleとして加えることで、
Contextも考慮したCorrelation Filterを作成するフレームワー
クを提案
 従来のCorrelation Filterに関する関連研究は、より強力な特
徴量を使用するものがほとんど

 従来手法
 Correlation Filter
 目的関数
 目的関数の解は周波数ドメインで以下のように求まる
目的画像𝒂0を
巡回させた行列
求める
フィルタ
物体の
場所
正則化項
入力画像𝒂0の複
素共役𝒂0
∗
を離散
フーリエ変換
要素ごとの積

 手法
 Context-Aware Correlation Filter
 目的関数
 目的関数の解は周波数ドメインで以下のように求まる
背景パッチ
画像の巡回
行列
論文ではこの手法をカーネルを使用した場合や、Multi Channel (HOG等の特徴を使用する場合など)に拡張して
いるが、ここでは割愛。

 結果
 4つの従来法にContext-Awareを追加してOTB-100データセットで比
較

 結果動画
 https://www.youtube.com/watch?v=-mEkFAAag2Q
 (1:24くらいから)

Feature Pyramid Networks
Feature Pyramid Networks for Object Detection
 Tsung-Yi Lin, Piotr Dollar, Ross Girshick
 概要
 Deep CNNに対しわず
かな追加コストでFeature
Pyramidを生成する手法
を提案
 Hand-crafted特徴の物体
検出では一般的
 CNNによる物体検出で
は、計算コストとメモリの
点からFeature Pyramid生
成は避けられてきた

 手法
 Bottom-up pathway (左)
 通常のCNN
 Top-down pathway (右)
 トップの最も表現力の高い
層を単純にアップサンプルし
て、解像度を上げる
 対応するBottom-up pathway
の層のfeature mapに1x1の
畳み込みでfeature mapの数
を合わせてから、足す。
 マージされた各層に3x3の畳
み込みをして最終的な
Feature mapを算出

 実験
 Bottom-upはResNets
 各スケールのFeature Map上でFaster R-CNNで検出
 COCO (single model)でstate-of-the-artを達成

Real-time tracking from depth-colour
imagery
Real-time tracking of single and multiple objects from depth-
colour imagery using 3D signed distance functions
 C.Y. Ren,V.A.Prisacariu, O.Kahler, I.D.Reid, D.W.Murray
 概要
 RGB-Dカメラを用いて物体を3Dでリアルタイム追跡

imagery
 手法
 ベイズモデルで物体の位置/姿勢をMAP推定
 追跡対象周辺のボクセルを表面からの距離関数φでモデル化

imagery
 手法（続き）
 オブジェクトモデルと背景モデルをフレームごとに更新しながら

imagery
 手法（続き）
 Levenberg-Marquart法
前景モデル
（色ヒストグラム）
背景モデル
（色ヒストグラム）
モデルΩ上の点を姿勢pに
基づいて投影した位置に
反応するデルタ関数
モデルΩ上の周辺の点を姿
勢pに基づいて投影した位
置に反応するデルタ関数

imagery
 結果

imagery
 結果（処理時間）

Cvpr2017事前読み会

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (12)

Similar to Cvpr2017事前読み会

Similar to Cvpr2017事前読み会 (20)

More from Takuya Minagawa

More from Takuya Minagawa (20)

Cvpr2017事前読み会