4. 4
■ 論文賞
➤ CVPR / ICCV / ECCV
■ 有名論文
➤ よく引用される・そのサブ分野ではスタンダードな論文
➤ 著名なデータセット/オープンソース等の論文
➤ など
論文の選定方法
CVPR
Longuet-Higgins Prize
Best Paper Award
Best Student Paper Award
Best Paper Honorable Mention Award
ICCV
Helmholtz Prize
Best Paper Award (Marr Prize)
Best Student Paper Award
Best Paper Honorable Mention Award
ECCV
Koenderink Prize
Best Paper Award
Best Paper Honorable Mention Award
CVFのAward List(https://www.thecvf.com/?page_id=413)のみでも200論文以上!
21. 21
■ Lab創設時期から様々な研究機関とコラボ
➤ In 2003, C. Schmid visited Oxford for a week and K. Mikolajczyk visited
Grenoble for a week.
➤ という記載もあるように,Zisserman先生とも2003年からコラボ
➤ この時点で劇強Labになることは決定していた?
➤ A collaboration between the LEAR project-team and the Japanese-French
Robotics Laboratory (JRL), AIST, located in Tsukuba, Japan has started in
2007. 2007年には産総研ともコラボしていた!
■ 年々Top Conf.採択数が増加=Labが成長
➤ 2019年度一年間で41本??
➤ 2003年時点では20本??程度
➤ 基本的にPhD学生は企業にインターンして武者修行
➤ インターンを期にコラボレーション,2019年時点ではFacebook, Google等
➤ FacebookからはGPU贈与等
■ 古き良きではなく,常にトレンドを研究
➤ このレベルのLabでは当然??かもしれないが,研究も移り変わっている
Schmid先生ここが凄い!
22. 22
■ 現時点でCVPR/ICCV/ECCVにおいてtest-of-time
prizeを獲得しているのはBlack先生のみ??
■ 研究体制が素晴らしすぎる.研究者ファースト!
➤ https://ps.is.mpg.de/why
➤ Students are not put on projects to satisfy grants because we have few, if any, external grants.
Projects do not need to be justified by applications or external review. Scientists, and only
scientists, decide what research to pursue.
➤ If admitted, your PhD is funded by the department at a level sufficient to cover your living
costs, health care, etc. There is no tuition fee. You do not need to find your own funding.
■ 若手研究者が潰れないようにバックアップしてる!
■ ロマンあふれる研究
Black先生ここが凄い!
こんな環境で研究できるの最高すぎる!
他の研究機関では成し得ないことを確実に実績とし独自のフィールドを確立
Webページ作成の専門家
23. 23
■ Efros先生も常にCVの最前線での研究
■ 2000年前後から時代の変化に常に対応
■ 2020年でもECCV5本採択レベル
■ この記事が非常に面白い!
➤ 研究は雑談&賭けから始動する?
➤ During that afternoon coffee at Nefeli, I suggested that maybe the network didn't actually need the ImageNet labels,
just the ImageNet images to pre-train.
■ Over the years I was lucky to have truly amazing officemates who taught me everything I know. Among them: Alex Berg,
Andras Ferencz, Andrea Frome, Andrew Fitzgibbon, Aude Oliva, Bryan Russell, Charless Fowlkes, Fernando de la Torre,
Francis Bach, Fred Schaffalitzky, Fredo Durand, Greg Mori, Jianbo Shi, Josef Sivic, Krystian Mikolajczyk, Laura Walker,
Neva Durand, Paul Debevec, Paul Newman, Serge Belongie, Thomas Leung, Xiaofeng Ren, etc.
Efros先生ここが凄い!
75. 75
■ Training Support Vector Machines: An Application to Face Detection
➤ SVMによる顔検出のアプリケーション構築
➤ 大規模データを用いた顔検出において,大域的最適化を保証しつつSVM
を学習
➤ 大規模な特徴空間の中から対象物を発見するように最適化,当時の技術
ではSVMが最適な手法であるとして,本論文ではSVMによる学習に着目
CVPR 2007 Longuet-Higgins Prize
86. 86
■ Face Recognition with Local Binary Patterns
➤ Local Binary Pattern (LBP)による顔認識
➤ LBPとPCA, Bayesian Intraなどの圧縮により特徴抽出,顔認
証をするというシンプルながら効果的な手法を提案
ECCV 2014 Koenderink Prize
LBPはパッチ中央との明暗差を符号化することで特徴記
述できる。本論文では顔認証に対しても効果があること
を示した。
前処理〜特徴抽出〜照合まで含めた
顔認識フロー
87. 87
■ High Accuracy Optical Flow Estimation Based
on a Theory for Warping
➤ エネルギー関数によるオプティカルフロー計算の提案
➤ 明るさ・勾配の一貫性、時系列の非連続性に関する制約を導入し高精度な
オプティカルフロー計算を実現
➤ 大きなフローの変化についても前後フレームの関係性を考慮。
➤ 粗密探索も実装,理論検証も実施
ECCV 2014 Koenderink Prize
88. 88
■ What Energy Functions Can Be Minimized via
Graph Cuts?
➤ それまで主流だったエネルギー最小化のグラフカット手法の改
善点について指摘した論文
➤ 二値変数によるエネルギー関数を提案
➤ 本論文での発見
- エネルギー関数の必要条件
- 3変数までの関数和として同時に書けるエネルギー関数の条件
- エネルギー関数を最小化するための汎用的な構成
ECCV 2012 Koenderink Prize
89. 89
■ Stochastic Tracking of 3D Human Figures Using
2D Image Motion
➤ 人物の関節位置を3Dトラッキングする研究
➤ Bayesian Frameworkにより事前情報と観測されたグレー画
像の動きの差分からアピアランスを生成
➤ 実装上はパーティクルフィルタを用いた
ECCV 2010 Koenderink Prize
透視カメラモデルを用いることで自己オクルージョン・単眼から
の3次元モーション復元を実現
91. 91
■ Contour Tracking by Stochastic Propagation of
Conditional Density
➤ Particle Filter(Condensation)の提案論文
➤ 動画像を想定,適宜観測と更新を繰り返すことで物体の形状ト
ラッキングを実施
➤ 背景に運動モデルを据えており,尤度の観測により観測点を
移動
ECCV 2008 Koenderink Prize
92. 92
■ Building Rome in a Day
➤ Web上の画像からキーポイントマッチング&3D再構成
➤ なおかつ計算並列化により高速な大規模空間再構成に成功
➤ Flickrからランドマークを検索して画像収集
ICCV 2019 Helmholtz Prize
プロジェクトページより。
https://grail.cs.washington.edu/rome/
93. 93
■ Attribute and Simile Classifiers for Face
Verification
➤ 人物顔に関する「属性」と「直喩(Simile)」を推定
- 属性:性別・人種・年齢
- 直喩:顔および領域の,参照画像との類似度計算
➤ LFW datasetにてそれぞれ23.92/26.34%,統合手法は
31.68%エラー率を下げた
ICCV 2019 Helmholtz Prize
属性推定の結果例(左)と直
喩推定の結果例(右):属性推
定がラベルを学習して性別・
年齢などを推定するのに対し
て直喩では参照画像との比
較により推定を実施する
115. 115
■ Unsupervised Learning of Probably Symmetric
Deformable 3D Objects from Images in the Wild
➤ 1枚の画像から3Dデータの正解ラベルなしに,教師なし学習の
枠組みで三次元形状を復元
➤ 入力画像を深度,アルベド,カメラ姿勢(6自由度),照明の4要
素に分解し,Encoder-Decoder(一部はEncoderのみ)から推
定
➤ 非対称な物体も復元可能に!
CVPR 2020 Best Paper Award
↑女性の前髪は非対称であるが,非対称性を表現した復元を実現
116. 116
■ A Theory of Fermat Paths for Non-Line-of-Sight
Shape Reconstruction
➤ 視角外の物体形状を推測するFermat Flowを提案
➤ カメラの視角に存在しない物体を高精度センサからの情報に
基づいて復元
CVPR 2019 Best Paper Award
117. 117
■ Taskonomy: Disentangling Task Transfer
Learning
➤ タスク間の類似性を転移学習の観点から調査した論文
- 例: 深度推定と法線推定どちらかを学習することで,もう一方は学習し
やすくなるのか?
➤ 26個のタスクの組み合わせで検証
➤ プロジェクトページの質がすごい!APIも備えられている
- http://taskonomy.stanford.edu/
CVPR 2018 Best Paper Award
118. 118
■ Densely Connected Convolutional Networks
➤ アイデア:従来は直下の層としかなかったconnectionを増やす
ResNetのように入力を加算せずに結合することによって情報を保持
➤ Contribution
- Dense blockを用いたDenseNetを提案
- ResNetに比べパラメータを削減
- CIFAR, SVHN, ImageNetでSOTA
CVPR 2017 Best Paper Award
119. 119
■ Learning from Simulated and Unsupervised
Images through Adversarial Training
➤ 実画像に近い合成画像を生成するSimGANの提案
➤ Refinerで合成画像を実画像に近づけ,識別器で実画像 or合
成画像の識別
➤ GANとの差分
- lossに自己正則化項を加える
- ピクセル単位でadversarial lossを求める
- 過去の識別器を学習させる
CVPR 2017 Best Paper Award
120. 120
■ Deep Residual Learning for Image Recognition
➤ 当時困難とされてきたニューラルネットワークの訓練を容易なものにするために、残
差学習のフレームワークとしてResNetを提案.
➤ ImageNetデータセットに対してVGGNetよりも8倍深い152層までの深さの構造で評
価(18, 34, 50, 101, 152 layer)
➤ 大幅なネットワークのレイヤ数増加と精度向上を実現(ILSVRC 2015で優勝)
➤ shortcut connection付きのネットワークで、パラメータ数・計算コストの抑制に寄与
CVPR 2016 Best Paper Award
121. 121
■ DynamicFusion: Reconstruction and Tracking of
Non-rigid Scenes in Real-Time
➤ 汎用のセンサから検出した深度画像を融合することで,リアルタイムでの動的な動
きを3次元復元する手法を提案.
➤ 対象物の位置を捉えて再構築するだけでなく,得られたモデルに対して最新の深度
画像と位置合わせをすることによって,カメラの姿勢を推定.
➤ Sampled TSDFによってwarp fieldを疎なノードの重み付きノードで表現.
➤ KinectFusionで対象でなかった「動的かつ非剛体」なシーンへの適用をリアルタイ
ム性を維持しながら実現.
CVPR 2015 Best Paper Award
122. 122
■ What Camera Motion Reveals About Shape with
Unknown BRDF
➤ 双方向反射分布関数(BRDF)が未知の場合でもShape from
Motion(SfM)を実行
- 小領域/差分モーション状況下でもOK
➤ 心理物理学の知見「反射率が未知の場合でも動きから形状復
元可能」を実証する形となった
CVPR 2014 Best Paper Award
123. 123
■ Fast, Accurate Detection of 100,000 Object
Classes on a Single Machine
➤ 10万カテゴリ物体認識システムの構築
➤ DPMによる特徴表現で精度0.2@mAP
➤ 単一コアマシンで20秒以下の処理速度
CVPR 2013 Best Paper Award
124. 124
■ Real-Time Human Pose Recognition in Parts
from Single Depth Images
➤ Kinectにも載った距離画像からの人物姿勢推定手法の提案
➤ Random Decision Forestsと距離画像のピクセルペア特徴に
て領域推定→関節位置推定
➤ Xboxのハードで200fpsにて処理可能,しかも高精度
CVPR 2011 Best Paper Award
距離画像から人物領域を姿勢ごとに切り分けてい
る.尤度を計算した後にジョイントの重心計算.
125. 125
■ A Simple Prior-free Method for Non-Rigid
Structure-from-Motion Factorization
➤ non-rigidの構造と動きの因数分解問題を解決するために「prior free」のシンプルな
手法を提案
➤ 本論文の手法は実装が簡単で小さな固定サイズのSDP(半無限計画)と線形の
Least-SquaresまたはTrace-Norm mini-mizationを解くだけで済む
➤ 大規模な実験により,non-rigid因子分解の既存の線形手法を凌駕
➤ この論文は、非剛体構造の動きからの抽出において、理論的に新しい知見を提供
するだけでなく、日常的に使える実用的なソリューションを提供するものである.
CVPR 2012 Best Paper Award
126. 126
■ Efficient Computation of Robust Low-Rank
Matrix Approximations in the Presence of
Missing Data using the L1 Norm
➤ 特異値分解により低ランク近似する方法は欠損データや外れ
値がある場合には適用不可
➤ 上記の問題を解決すべく,欠損データがある場合にL1ノルム
を最小化するための低ランク近似の計算方法を提案
- Wibergアルゴリズムを一般化
CVPR 2010 Best Paper Award
127. 127
■ Single Image Haze Removal Using Dark Channel
Prior
➤ 霧がかった画像(Haze Image)からノイズ除去(Dehaze)する方法
を提案
➤ 霧無し屋外画像(Haze-free outdoor image)のピクセル統計量
(Dark Channel Prior)を事前情報としてDehazeを実行
CVPR 2009 Best Paper Award
(左)入力画像、(中) Dehaze後の画像,(右)復
元された距離画像. Haze imageは少なくともひと
つのカラーチャンネルがかなり低い輝度値であ
ることを発見,ここから画像復元のためのモデ
ルを設計.
暗い輝度値を含むピ
クセル(Dark
Channel)の統計量.
75%のDark Channel
のピクセル値が25以
下.ここからDark
Channel Priorを提
案.
128. 128
■ Beyond Sliding Windows: Object Localization by
Efficient Subwindow Search
➤ 成功している物体認識の多くは,オブジェクトの位置に関する情報を提供しない2値
分類である.
➤ localizationを行うためにはsliding window法を用いた方法が考えられるが,分類
関数の膨大なサブウィンドウ候補セットで評価しなければならないためコストが大き
くなる.
➤ 本論文では可能な全ての部分画像に対して大規模な分類関数を効率的に最大化
することができる,シンプルで強力なbranch-and-bound法を提案.
➤ 高速化されたことにより、空間ピラミッドカーネルを用いたSVMや、χ2距離に基づく
最近傍分類法など、従来は遅すぎると考えられていた分類法を、位置検出に用いる
ことができる.(PASCAL VOC 2006データセットでSOTA)
CVPR 2008 Best Paper Award
129. 129
■ Global Stereo Reconstruction under Second
Order Smoothness Priors
➤ 3D物体の滑らかさに関する2次事前分布はグラフカットによる
ステレオ再構成には適用できなかった
➤ triple cliquesが最適化困難
➤ 「QPBO」アルゴリズムに基づいてα拡張を拡張
CVPR 2008 Best Paper Award
130. 130
■ Dynamic 3D Scene Analysis from a Moving
Vehicles
➤ 本論文では,移動する自動車からの動的なシーンの解釈のために,完全に自動化
されたシーン・ジオメトリ推定,2Dオブジェクト検出,3Dローカリゼーション,トラジェ
クトリ推定,トラッキングを統合したシステムを紹介
➤ 車の上に設置されたキャリブレーション済みのステレオリグからの2つのビデオを唯
一の入力としている
➤ これ等のビデオからStructure-from-Motion(SfM)とシーンジオメトリをリアルタイム
で推定
➤ 混雑した都市部を自動車が通過するという困難な実世界のデータを用いて、本シス
テムの性能を実証した
CVPR 2007 Best Paper Award
131. 131
■ Putting Objects in Perspective
➤ 正確な物体検出を実現するために各シーンのcontextに沿っ
た検出手法を提案
- 道路があるから車,車があるから道路等
➤ 低解像度,scene context,カメラ位置の関係をモデル化
- カメラ位置までモデル化することで,遠近法による物体のスケール/解像
度に対して対処
CVPR 2006 Best Paper Award
132. 132
■ Real-Time Non-Rigid Surface Detection
➤ 本研究では変形可能な表面をリアルタイムで検出する手法を提案
➤ この手法は,物体の変形していない画像と,物体を検出したい画像との間で,広い
ベースラインのポイントマッチを行うことから始める
➤ このマッチングは、物体の検出だけでなく、一方から他方への正確なマッピングを計
算するためにも使用される
➤ また,大きな変形,照明の変化,モーションブラー,オクルージョンに対してロバスト
で,2.8GHzのPCで10フレーム/秒の速度で動作する
➤ 変形可能なメッシュと適切に設計されたローバスト推定器を組み合わせることで
,95%のエラー率で誤ったマッチを拒否することができる
CVPR 2005 Best Paper Award
133. 133
■ Programmable Imaging Using a Digital
Micromirror Array
➤ programmable imaging systemを提案することによる,カメラなどの幾何
学的特性を大幅に制御可能
- ハイダイナミックレンジ、全方位、多視点などのイメージングシステムは
機能変更に伴い,システムの大幅な変更が必要
➤ マイクロミラーをプログラムにより制御することで,必要に応じて光を選択
し、変調可能
CVPR 2004 Best Paper Award
134. 134
■ Object Class Recognition by Unsupervised
Scale-Invariant Learning
➤ 本研究は,ラベルのない,セグメント化されてない複雑なシーンからスケールに依存
しない方法で物体クラスモデルを学習し,認識する手法を提案
➤ 物体は柔軟な部品の集りとしてモデル化され,物体の全ての側面(形状,外観,オク
ルージョン,相対的なスケール)に対して確率的な表現を用いる
➤ エントロピーベースの特徴検出器を用いて、画像内の領域とそのスケールを選択.
学習では,スケール不変オブジェクトモデルのパラメータを推定する
➤ これは最尤推定での期待値最大化を用いて行われ,認識ではベイズ方式を用いて
画像分類を行う.様々なデータで優れた結果を収めた
CVPR 2003 Best Paper Award
135. 135
■ Morphable 3D Models From Video
➤ Nonrigid 3D structure-from-motionと2D optical flowは、どちらもテンソル分解問
題として定式化できる
➤ この2つの問題は、ノイズの多いアフィン変換によって等価にすることができ、構造
化された行列分解によって解く、強度から見た非剛体の構造問題を組み合わせるこ
とができる
➤ これらの問題は、ランク制約、ノルム制約、および強度値の不確実性に対する統合
を慎重に用いることで解決され、不確実性下のSVD、不確実性下のファシリティート
リゼーション、非剛体因子分解、および亜空間オプティカルフローに対する新しいソ
リューションが得られた
➤ 低解像度・低テクスチャの”founded video”を用いて,従来のアルゴリズムでは失
敗していたトラッキングや3D再構築の結果を得ることができた
CVPR 2001 Best Paper Award
136. 136
■ Real-Time Tracking of Non-Rigid Objects using
Mean Shift
➤ 視覚的特徴に基づいて非剛体の物体をリアルタイムに追跡する手法を提案
➤ 手法
- 各フレームにおいてカラーヒストグラムを算出
- 隣接フレームにおいてBhattacharyyaにより類似度を算出
- Mean Shitに基づいて物体を探索
➤ カーネル幅を適切に設定することで、現実的な時間で物体追跡可能
➤ 多種多様な色やテクスチャを持つ物体に対して適応可能
➤ 部分的なオクルージョン,回転,カメラ位置の変化に対して頑健
CVPR 2000 Best Paper Award
137. 137
■ Robust Hierarchical Algorithm for Constructing
a Mosaic from Images of the Curved Human
Retina
➤ 網膜手術を支援するアルゴリズムの提案
- 1999年時点で手術成功率50%,失明の原因となっていた
➤ 個体差がある網膜の曲率を2次曲面としてモデル化
➤ フレーム間の大きな動きを処理し、キャリブレーションを必要と
せず完全に自動化!
CVPR 1999 Best Paper Award
138. 138
■ What is a Light Source?
➤ 本論文では、自由空間における光線のセットのディメンショナルな分析に基づ
いて、光源の種類を分類するためのフレームワークを提示
➤ 具体的には,4-0光源ハイパーキューブを導入し,その中に異なるタイプの光源
を組み込み,比較することができる
➤ また,標準的な光源の定義をエミッターとして一般化した,新しい光源の定義を
提示
CVPR 1997 Best Paper Award
139. 139
■ DeepCap: Monocular Human Performance Capture Using Weak Supervision
➤ human perfofmance capture(HPC)は映画制作やVRなどで多くの応用方法がある
➤ これまでのHPCはフレーム間の対応関係を学習できてなくて人の動きを回復できなかっ
たりしていた
➤ 人の動きを完全に再構成するにはより厳密なgroud truthを付与する必要があるが本論
文はその必要性を否定し,single view を学習したPoseNetの結果をmulti-viewの弱教
師として利用し,HPCの精度を向上した
CVPR 2020 Best Paper Honorable Mention Award
140. 140
■ A Style-Based Generator Architecture for Generative Adversarial Networks
➤ GANは品質の高い画像を再構成できる一方で,潜在空間という幾何学的な空間でデー
タを構造を理解しようとする試みがある.
➤ 現在のGANの構造は潜在変数空間に対しての理解が十分に進んでなく,良い潜在変数
空間を議論のための定量的な評価手法もない
➤ 本論文では,path length metricとlinear separabilityという二つのmetricを提案し,従来
のGANがstyleを生成するのに適してないことを示し,正則化としての役割を機能させる
ことを示す.また,中間層にノイズを加えたGAN構造がstyleを再構成するのに良いこと
を示した.
CVPR 2019 Best Paper Honorable Mention Award
ノイズを入力したときの layerごとの効果
(a) :Noise is applied to all layers
(b) :No noise
(c) :Noise in fine layers only
(d) :Noise in coarse layers only
141. 141
■ Learning the Depths of Moving People by Watching Frozen People
➤ 既存の物体のdepthを復元する手法は物体の動き強く制約があり,まばらなdepthしか
復元できなかった.
➤ 本論文では,背景は動いているけど,人間が多様なポーズで固まっている人々の何千も
のなインターネットビデオから学習することで,単眼のカメラとシーン内の人物が自由に
動いているシーンにおいて高密度のdepthを予測する方法を提案する.
CVPR 2019 Best Paper Honorable Mention Award
142. 142
■ Deep Learning of Graph Matching
➤ Graph matching の問題は組合せ最適化,機械学習,コンピュータビジョンなどの多様な
分野の基本問題であり,ノード間の関係とその近傍構造の両方の表現は極めて重要で
ある.
➤ 本論文ではGraph Matching のプロセスの全てのパラメータを学習することを可能にす
るEnd to End モデルを提案する.
➤ 本手法の課題としては損失関数から マッチング問題を解決するための最適化問題を考
え,それを勾配の伝搬を可能とする方法で定式化することにある.
➤ Deep Learning を用いたモデルは従来の特徴階層に基づくモデルより優れていることが
本論文で示された.
CVPR 2018 Best Paper Honorable Mention Award
143. 143
■ SPLATNet: Sparse Latticorks for Point Cloud Processing
➤ レーザースキャナーなどの3Dセンサーで得られたデータは,主に点群やメッシュといった
不規則なフォーマットであることが多い.
➤ 点群の解析は,ロボットの操作や自律走行などに使用される.
➤ 本研究は,点群処理のための新しいネットワーク構造を開発を目的とする
➤ 単純な畳み込み演算は点群データにおいてメモリと計算コストの面で問題である
➤ 本研究でBCLが点群データに適しを持っていることが判明
➤ この結果,点群データの2-3Dの共同推論が可能となった.
CVPR 2018 Best Paper Honorable Mention Award
144. 144
■ CodeSLAM - Learning a Compact, Optimisable Representation for Dense Visual
SLAM
➤ リアルタイム3D認識システムにおける形状表現は,重要な課題となっている.
➤ 密なマップは完全な表面形状をキャプチャは次元が高いため計算コストがかかり,厳密な確率
的推論には適さない.
➤ 疎な特徴に基づく表現は,これらの問題を回避するがシーンの情報の一部しか捉えられないの
で,位置特定にのみ有用である.
➤ 本論文では,一枚の強度画像と少数のパラメータで構成されるコードを用いて,コンパクトであり
ながら密なシーン形状である新しい表現を提案する.
➤ depthの特徴表現が将来のSLRMシステムに向けて重要な進歩をもたらすことを示した
CVPR 2018 Best Paper Honorable Mention Award
145. 145
■ Efficient Optimization for Rank-Based Loss Functions
➤ インターネットで使用される情報検索システムの精度は平均精度(AP)や正規化割引累
積利得(NDCG)などの複雑な損失関数を用いて測定されることが多い.
➤ 通常の機械学習手法では,損失関数を最小化することで最適なモデルのパラメータを推
定することができるがAPやNDCGは非微分・非分解な損失関数であるためSGDなどの
勾配ベースのアルゴリズムが使用できない.
➤ 本論文では,この問題を解決するために,APやNDCGの大規模なクラスい対する新しい
最適化アルゴリズムQuicksort Flavored Optimizationを提案する.
➤ 単純な損失関数と比較して,同等の学習時間を必要としながらも,非常に優れた結果を
得ることができた.
CVPR 2018 Best Paper Honorable Mention Award
QSだと単純な0-1損失と同等の計算時間
146. 146
■ Annotating Object Instances with a Polygon-RNN
➤ 画像のセマンティックセグメンテーションはCVで非常に注目されており,ほとんどの手法
がニューラルネットワークを用いている.
➤ モデルの性能はデータ量と強く相関する
➤ このため,大規模なデータセットのアノテーションを行う必要があるがセマンティックセグメ
ンテーションは,特に時間と費用がかかる
➤ 本論文では,対象物を含んだパッチを入力とすることで,対象物を囲むポリゴン頂点を順
次生成するようなネットワークを提案している.
➤ 本手法は必要に応じてポリゴンの頂点を変更することができ,アノテーたが望む正確な
セグメンテーションを実現できる
CVPR 2017 Best Paper Honorable Mention Award
147. 147
■ YOLO9000: Better, Faster, Stronger
➤ 汎用的な物体検出は,高速かつ正確で,様々な物体を認識できることが求められてい
る.
➤ 従来の物体検出は速度,精度の面で向上しているが少ない物体しか扱えない問題があ
る.またデータ作成のコストがかかる.
➤ そこで本稿では,物体検出を画像分類のレベルに拡張するために,画像分類データセッ
トと物体検出データセットを学習する共同学習とマルチスケール学習法により,速度と精
度のトレードオフが容易なった.(色々工夫をしている)
➤ その結果YOLOv2は物体検出で最先端の性能であることを実験的に示した.
CVPR 2017 Best Paper Honorable Mention Award
148. 148
■ Efficient Globally Optimal Consensus Maximisation with Tree Search
➤ Maximum consensusはコンピュータビジョンにおけるロバスト推定のための一般的な評
価基準の一つ.
➤ Maximum consensusはRandom sample consensus(RANSAC)が主流だったが,得ら
れた解が最適であるかどうかの絶対的な確信がなかった.そのため,BnBとうい手法が
活用されていたのだが,解を求めるのに時間がかかる.
➤ そこで,本稿ではA* 探索アルゴリズムを用いることで最速で最適な解を見つけ出す方法
を提案した.
CVPR 2015 Best Paper Honorable Mention Award
149. 149
■ Fully Convolutional Networks for Semantic Segmentation
➤ CNNは認識の進歩を促進し,画像全体の分類精度を向上させるだけでなく,構造化され
た出力がローカルタスクでも活用されている.
➤ CNNを発展させる自然な次のステップは粗い推論から細かい推論で,そのタスクとして
ピクセル単位で予測を行うことである.
➤ 本論文はピクセル単位にラベルがついた画像をFully Convolutional Networks(FCN)で
End to Endで学習することで,機械学習が追加の機械的処理無しに最先端のセグメン
テーション技術を超えることを示した.
CVPR 2015 Best Paper Honorable Mention Award
150. 150
■ Picture: A Probabilistic Programming Language for Scene Perception
CVPR 2015 Best Paper Honorable Mention Award
➤ 生成的な確率モデル,すなわち「analysis by
synthesis」アプローチは、豊富なシーン構造を捉
えることができるが、識別的なモデルに比べて適
用範囲が狭い.
➤ 理由は,一般的に低速な近似推論が用いられる
ことと,の構築と推論には,ロバストで信頼性の高
い結果を得るために,問題に応じたかなりのエン
ジニアリングが必要であることである.
➤ そこで,本稿ではPictureというシーン理解のため
の確率的プログラミング言語を提案し,研究者が
複雑な生成的ビジョンモデルを表現しながら、高
速な汎用推論装置を用いて自動的に解決するこ
とを可能にした.
151. 151
■ 3D Shape and Indirect Appearance by Structured Light Transport
➤ 光は反射や屈折,鏡面反射や拡散相互反射,体積散乱や因果関係の形成など,同じ
シーンの中でこれらすべての現象を起こすことがある.
➤ これらの現象を従来のカメラで分析することは難しく,光の移動が予測できないほど変化
する場合には,さらに難しい問題である.
➤ また,これらの問題は直接光や低周波光を前提とした構造光技術(3Dレーザースキャニ
ングや,active triangulation,フォトメトリックステレオなど)の普及を妨げる要因でもあ
る.
➤ 本研究は,複雑な光輸送を示すシーンを
解析するための一歩として,それらを
リアルタイムでイメージングするための
フレームワークを開発した
CVPR 2014 Best Paper Honorable Mention Award
間接照明の生映像からのスナップショット→
152. 152
■ Lost! Leveraging the Crowd for Probabilistic Visual Self-Localization
➤ 自己位置推定で最先端の技術はGPSであり,この技術は自動運転などの日常業務を支
援する自律システムを構築する上で重要である.
➤ しかし,GPU信号は常に利用できるわけでなく,高層ビルやトンネルなどで位置が不正
確になる可能性がある.
➤ この問題を解決するために3D点群と視覚的な特徴が利用されており,GPSとの組み合
わせで高性能であるが,計算,メモリ,通信の必要性を考えると世界規模での計算を維
持できるか不明である.
➤ 本稿では,車両に搭載されたカメラと,無料のオンライン地図を利用し低コストで自己位
置確認アプローチを提案した.
➤ 高速道路,郊外,混雑した都市のシーンなど,様々なシナリオでこのアプローチの有効
性を実証し,わずか20秒の走行で3mの精度で自車の位置を特定できることを示した.
CVPR 2013 Best Paper Honorable Mention Award
153. 153
■ Discrete-Continuous Optimization for Large-scale Structure from Motion
➤ 2D画像のような構造化されていない画像から3Dモデルを構築するためには「Structure
from Motion(SfM)」という技術が利用されている.
➤ 従来のSfMは小さな箇所からの再構築から始まり,カメラやシーンポイントの追加を繰り
返して,高精度にするインクリメンタルな手法が用いるが,画像数の増加に伴ってスケー
リングが困難になり,また,局所的にドリフトしたり,悪い極小状態に陥ったりする可能性
がある.
➤ 本論文では,離散-連続のハイブリッド最適化を用いて粗い初期解を見つけ、バンドル調
整を用いてその解を改善することに基づいた、SfMの代替的な定式化を提案する.
➤ いくつかの大規模な写真でテストをし,バンドルの増分調整で生成されたものと同等以上
のモデルを、よりロバストに、かつわずかな時間で生成できることを示した.
CVPR 2011 Best Paper Honorable Mention Award
155. 155
■ Spectral Matting
➤ Digital mattingとは,画像から前景となる物体を抽出し,その物体に覆われている核が
その不透明度を推定する作業であり,この操作は抽出された前景を新規の背景に合成
することを可能にするため,映画制作,映画の特殊効果において重要なツールである.
➤ 本研究は自然画像のMattingのための新しい手法として提案
➤ これは適切に定義されたラプラシアン行列の最小固有ベクトルから,曖昧なmat成分を
基底を自動的に計算する手法である.
➤ 教師なし,あるいは,少量のユーザー入力に基づいて,前景Mattingを簡単に構築する
手法として使用できる.
CVPR 2007 Best Paper Honorable Mention Award
156. 156
■ Human Detection via Classification on Riemannian Manifolds
➤ 静止画中の人物検出は,物体検出の中でも最も難しい例の一つと考えられている
➤ 理由は人体の関節構造や多様な外観,証明やポーズの複雑さが原因である.
➤ 本論文では,物体検出で使われている共分散行列をリーマン多様体上の特徴としてみ
なすことで,従来法のユークリッド空間上の特徴より性能が向上することを実験的に示し
た.
➤ 特徴空間の構造をリーマン多様体と仮定した方が精度が上がったため,別タスクへの精
度向上可能性についても述べている.
CVPR 2007 Best Paper Honorable Mention Award
右の図は共分散記述子の説明図
入力画像IからマッピングΦを用いてd次元
の特徴画像Fを構築する.
検出窓をRとし,r_1,r_2は2つの可能な記
述子サブウィンドウである.
157. 157
■ Incremental learning of object detectors using a visual shape alphabet
➤ 物体カテゴリ認識の論文では,各カテゴリとに個別に新しいモデルを学習するモデルや
学習方法が提案されている
➤ 本論文では複数の物体カテゴリ,または,1つのカテゴリを複数の側面に対するモデル化
を検討し,新しいモデルが段階的な恩恵を受けれるように工夫する.
➤ そのために,本論文では視覚的なアルファベット表現を導入
➤ この表現は段階的に学習することができ,物体の教会の破片とセントロイドとの関係を可
視化することができる.
➤ 形状特徴を共有することで必要な特徴数が減るだけでなく,detectionの精度も向上し
た.
CVPR 2006 Best Paper Honorable Mention Award
158. 158
■ A non-local algorithm for image denoising
➤ 画像のノイズ除去技術
➤ ノイズ除去のためにこれまでは局所的に平均を取ることを行っていた
➤ テンプレートマッチングを行いその結果と画像の畳み込み計算を行うことでエッジを残す
ことに成功した
CVPR 2005 Best Paper Honorable Mention Award
pの周りで平均を取る際に、 q1,q2は似通っている
ため大きな重みを、q3とは異なるため小さな重み
をかけて平均を取る
159. 159
■ Bi-layer segmentation of binocular stereo video
➤ ステレオカメラからの前景抽出
➤ ステレオカメラの差分情報での前景抽出、単画像のカラー・コントラストからの前景抽出
は行われていた
➤ ステレオカメラの差分情報と各画像のカラー・コントラスト情報を組み合わせて高精度な
前景抽出を行った
CVPR 2005 Best Paper Honorable Mention Award
160. 160
■ Video epitomes
➤ ビデオのepitome(短い、小さい抜き出し)の解説
➤ ビデオの重要部分を時間的、空間的に抜き出せることが分かっていた
➤ epitomeを用いることで映像処理が高速に行えること、欠損、ノイズ等に強い処理が行え
ることを実験的に証明した
CVPR 2005 Best Paper Honorable Mention Award
epitomesの例
(a)のようなビデオからの抜き出し
(b)は空間的な抜き出し
(c) は空間次元を(a)と揃えたもの
(d)は(c)より構造化され分かりやすく
なったepitomes
161. 161
■ Constraint on Five Points in Two Images
➤ 2台の同じ対象を撮影した時、カメラの位置関係を計算するエピポーラ幾何学
➤ 現実の問題で言うと特徴量抽出等で共通の点を探した後の話
➤ 7個の点があればカメラ位置が固定され、配置にも条件があることは知られていた
➤ 7個未満の点の配置には制限がないと思われていた
➤ 5個の点の配置にも制限があり、カメラ位置も拘束されることを証明した
CVPR 2003 Best Paper Honorable Mention Award
5点の位置が対応するカメラ位置の存
在しない2枚の画像の例
5点から拘束されるカメラ位置の例
赤線のみがエピポーラ場所となりうる
163. 163
■ SinGAN: Learning a Generative Model from a Single Natural Image
➤ GANは高次元のデータ分布をモデル化する上で,飛躍的な進歩を遂げていたが,複数
のオブジェクトクラスが存在する画像をモデル化するのは困難である.
➤ 本稿では,1枚の自然画像からパッチを切り出し,それをMulti-scaleで敵対的学習を行う
ことでパッチの分布を獲得.
➤ Multi-scaleの枠組みはグローバルな構造と微細なテクスチャを維持することができる.
ICCV 2019 Best Paper Award (Marr Prize)
164. 164
■ Mask R-CNN
➤ インスタンスセグメンテーションは画像内の全てのオブジェクトを正しく検出すると同時に
,各インスタンスを正確にセグメンテーションするため困難である.
➤ そこで,本研究では物体検出とセマンティックセグメンテーションの要素を組み合わせる
ことで精度向上を試みた.
➤ この手法は従来法であるFaster R-CNNを拡張したもので,分類とバウンディングボック
スの予測として並行して,インスタンスセグメンテーションを加えたものである.
➤ 本手法はセグメンテーションタスクを増やしているにもかかわらず,推論速度が速く,従
来法より精度が高い.
ICCV 2017 Best Paper Award (Marr Prize)