High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文

High-impact Papers in Computer Vision
片岡裕雄，山田亮佑，小暮駿介，西村和也，古澤嘉久，山縣英介，
高橋遼，中村凌，中原龍一，中嶋航大，内田郁真，西山翔大
1
〜歴史を変えた/トレンドを創る論文〜
http://xpaperchallenge.org/

2
■ cvpaper.challenge メタサーベイの一環
➤ 2021/01/01〜2021/04/28に実施した調査
➤ 論文調査はもちろん，背景・メタ知識も含め収集
➤ 今回はCV分野の中でもインパクトのある論文集
■ 主な参考資料
➤ Computer Vision Awards, Computer Vision Foundation
- https://www.thecvf.com/?page_id=413
➤ Google Scholar Citations
- https://scholar.google.com/citations?view_op=top_venues&hl=ja&
vq=eng
本資料について

3
1本でCV分野の歴史を変えた/トレンドを創った論文
■ 今後トレンドを創るには？
➤ cvpaper.challenge の目的もトレンドを創出すること
➤ High-impact Papers（公開情報）を分析
➤ 共通するメタな知見，然るべき体制構築などを学ぶ
■ メジャー会議Best Paper（BP）も調査
➤ このレベルのBPは「面白い研究」以上の価値がある
➤ 審査側が次のトレンドになり得ると期待して論文選定
High-impact Papers?

4
■ 論文賞
➤ CVPR / ICCV / ECCV
■ 有名論文
➤ よく引用される・そのサブ分野ではスタンダードな論文
➤ 著名なデータセット/オープンソース等の論文
➤ など
論文の選定方法
CVPR
Longuet-Higgins Prize
Best Paper Award
Best Student Paper Award
Best Paper Honorable Mention Award
ICCV
Helmholtz Prize
Best Paper Award (Marr Prize)
Best Student Paper Award
ECCV
Koenderink Prize
Best Paper Award
CVFのAward List（https://www.thecvf.com/?page_id=413）のみでも200論文以上！

5
■ メタサーベイ
➤ 論文サマリからメタな知識を収集
■ トレンドを創る研究グループの構築法
➤ メタサーベイ+追加調査によりノウハウ化
■ まとめ
➤ メタサーベイ・研究グループ構築法
■ 論文サマリ（200論文超）
➤ 数が多いので後半に持ってきました
■ 著者紹介
本資料の構成

High-impact Papers Meta-survey？
7
● トレンドを創ってきた論文から学ぶ
● どんな論文が受賞するのか？
● どう研究を進めるべきか？
● どうアイディアを発想するか？
● どう研究体制を整えるか？
という部分にフォーカス

8
■ Best Paperの３大別
➤ 手法提案型
- ベースラインとして皆が使える手法を提案
- 例：ResNet, DenseNet, StyleGAN, YOLOV2, FCN, SIFT, HOG,
Haar-like, SinGAN, Mask R-CNN, NeRF
➤ 問題設定型
- ルールを創りデータセット等を提供
- 例：ImageNet, Polygon-RNN
➤ 評価・再検討型
- 分野の流れを正す，徹底調査により本質を見出す
- 例：Taskonomy, Evaluation of local descriptors, Secrets of optical
ﬂow estimation
Best Paper Types
# Long-term Award, Honorable Mention等も含んでいます

9
■ CVPR, ICCV, ECCVでは評価されやすい論文タイプ
➤ 論文にした際に「分野を進める」ことが分かりやすい
➤ 誰もが使える次のベースラインとなる
■ 一方で，期限が短いことも...
➤ 世の常だが，公開手法は攻略されて置き換えられる巨人の肩に乗る
手法提案型
https://image.slidesharecdn.com/170227chukyounivslide-170227235926/95/-21-638.jpg?cb=1488240013
深層学習のフレームワークも，常に置き換えられてい
る．2021年現在「CNNもまたTransformerに置き換え
られるのか」と議論が続く．

10
■ みんなが取り組める土台を構築
➤ 手法提案は回答例, 対して問題を設定
➤ 期限は比較的長いと言える
■ 研究者ならこちらを提案したいところ
➤ だが一時のBest Paperにはなりづらい
➤ ImageNetも10年後に評価（CVPR 2019 Longuet-Higgins Prize）
問題設定型
http://www.image-net.org/index
2010年代から現在に渡り，間違いなくみんな
が取り組める問題を提供してきたのが
ImageNet．その後の大規模画像データへの
パラダイムシフトへも貢献．
Polygon-RNN: 問題を直接的に提供するわけでは
無いが，新しいデータを効率よく作成するための
ツールを提供した．

11
■ 本質を捉え，取り組むべき課題は何かを検討
➤ 必然的に大規模調査になりやすい
➤ 公平な実験結果から考察，次の方向性を決めやすい
評価・再検討型
スケール・回転・ブラー・圧縮・照明変動に対する
頑健性を調査．
記憶に新しいのはCVPR 2018のTaskonomy．タ
スク間の転移しやすさを徹底評価．CVの歴史上
別々に議論されていたタスク間の繋がりを統合的
に調査．
Secrets of Optical Flow Estimation: OFの本質を解析，
洞察から新しい目的関数を定義して性能向上に直結．
多様な局所特徴，キー
ポイントマッチング手法
をベンチマーク．

12
■ Accepted Paper（AP）
➤ “３大別”のうち何れかにおいて提案とその実証がある
➤ 難関国際会議は減点方式なので，ミスが少ない論文
■ Best Paper（BP）
➤ APの性質を保有している
➤ 当然ストーリー・アイディア・実験の総合力が高い
➤ 更に分野を進展させる技術提案があることが重要
Best Paper と Accepted Paperの違い？

13
■ 「10年間で最もインパクトのある賞」より
➤ {Longuet-Higgins, Koenderink, Helmholtz} Prize
■ 実際に使える技術を提供することが長期にわたりイン
パクトを与える
➤ ソースコード，オープンソースへの実装
オープンソース戦略が重要
OpenCVのプロジェクト開始は1999年，v1.0
リリースは2006年．多くのコンピュータビジョ
ンアルゴリズムを実装．
■ 自ら実装するか？実装されるよ
うな手法を作るか？
➤ 両方やるのがベター，だが追実装し
て公開したくなるほど良いアルゴリ
ズムの提案が効くのも事実
https://opencv.org/

14
➤ {Longuet-Higgins, Koenderink, Helmholtz} Prize
■ 単発で終わりではなく続編執筆や拡散する努力
➤ Proj.ページを定期更新, コンペを開催, ジャーナル執筆
➤ 教科書やオープンソースに載る（載せる）も重要？
技術を広める努力を行う
http://www.image-net.org/index
ImageNetはCVPR 2009ではポスター発表だった．その後
コンペを開催し続け，2012年大会では深層学習ブームを巻
き起こすなど現在の流れに貢献．
第３次AIブーム以降，被引用数が伸びる
論文を出して終わりではない

15
■ CV分野での当然を提案できるかが鍵
➤ 誰しもが当然に用いる手法こそ価値がある
- ResNet → Kaiming He
- R-CNN/Fast R-CNN/Faster R-CNN → Ross Girshick
➤ 分野への認知が手法先行であれば著者としては理想??
■ 何が重要？？
➤ Simple Idea & High Reproducibility & High Performance
- 近年のCVPR等のCV Top Conferenceは精度勝負感
- 手法が複雑かつ再現性が低い手法も...
- 論文数が急激増加しても上記3項目（特に前2つ）を高い質で保っている
論文は10年後でも色褪せない
「あの論文の人だ！」が大事

16
■ Performance以外に分野を広げる研究は有用
➤ 新規問題設定の提案
➤ 各タスクにおけるデータセットの構築
■ 隆盛している手法の本質に立ち返る
➤ Optical Flowにおいて本当に重要な要素とは?等の多数提案
された手法に基づき本質を整理
■ 様々な分野との融合
➤ cv/robotics/nlp等の密接な分野とは常にコラボレーション
➤ 分野と分野の融合は絶大な効果を発揮する??
- NLP→CV: Bag-of-visual-words, RNN, Vision Transformer
CV分野の可能範囲を広げる

17
➤ 5回：Jitendra Malik
➤ 4回：Andrew Zisserman，Cordelia Schmid
➤ 3回：Michael Black，Joseph Sivic，Ramin Zabih，Alexei
Efros
➤ 2回：Jean Ponce，Takeo Kanade，William Freeman，Ted
Adelson，Pedro Felzenszwalb，Michael Isard，Paul
Viola，David Lowe，Carlo Tomasi，Pietro Perona
複数受賞したグループ
＃今回は下線のメンバーを特集

18
■ Computer Vision@Google Scholar Metrics 第3位
➤ 2021/04/08時点 197895
■ 20歳で学部卒，25歳で博士卒，26歳で大学教員
■ Malik Family
➤ 研究者のエコシステムが出来上がっている
➤ 米国内屈指のコミュニティを形成
- https://neurotree.org/beta/tree.php?pid=2003
■ インタビューを聞くと人材育成について探れる？
➤ https://www.youtube.com/watch?v=LRYkH-fAVGE
Malik先生ここが凄い！

19
■ Computer Vision@Google Scholar Metrics 第1位
➤ 2021/04/08時点 249161
➤ VGGNet, Multiple View Geometry
■ 他にもMarr Prize 4回，CVPR BP 2回受賞
➤ もうちょっと多かったかも（？）しれません
■ カメラ幾何で著名だったが，深層学習に完全に対応
➤ Multiple View Geometry in Computer Visionで有名
➤ 最近では寧ろ深層学習の方が有名
➤ 両者の知識が融合している！！
Zisserman先生ここが凄い！

20
■ 研究室内外問わず研究のエコシステムを広げていく傾
向のMalik Family
■ 対して「一研究室内」に基盤・研究者・データなどを積み
上げて行くVisual Geometry Group (VGG)
➤ どちらもそういう傾向がある，ということです
Prof. Malik vs. Prof. Zisserman!?

21
■ Lab創設時期から様々な研究機関とコラボ
➤ In 2003, C. Schmid visited Oxford for a week and K. Mikolajczyk visited
Grenoble for a week.
➤ という記載もあるように，Zisserman先生とも2003年からコラボ
➤ この時点で劇強Labになることは決定していた？
➤ A collaboration between the LEAR project-team and the Japanese-French
Robotics Laboratory (JRL), AIST, located in Tsukuba, Japan has started in
2007. 2007年には産総研ともコラボしていた！
■ 年々Top Conf.採択数が増加＝Labが成長
➤ 2019年度一年間で41本??
➤ 2003年時点では20本??程度
➤ 基本的にPhD学生は企業にインターンして武者修行
➤ インターンを期にコラボレーション，2019年時点ではFacebook, Google等
➤ FacebookからはGPU贈与等
■ 古き良きではなく，常にトレンドを研究
➤ このレベルのLabでは当然??かもしれないが，研究も移り変わっている
Schmid先生ここが凄い！

22
■ 現時点でCVPR/ICCV/ECCVにおいてtest-of-time
prizeを獲得しているのはBlack先生のみ??
■ 研究体制が素晴らしすぎる．研究者ファースト！
➤ https://ps.is.mpg.de/why
➤ Students are not put on projects to satisfy grants because we have few, if any, external grants.
Projects do not need to be justified by applications or external review. Scientists, and only
scientists, decide what research to pursue.
➤ If admitted, your PhD is funded by the department at a level sufficient to cover your living
costs, health care, etc. There is no tuition fee. You do not need to find your own funding.
■ 若手研究者が潰れないようにバックアップしてる！
■ ロマンあふれる研究
Black先生ここが凄い！
こんな環境で研究できるの最高すぎる！
他の研究機関では成し得ないことを確実に実績とし独自のフィールドを確立
Webページ作成の専門家

23
■ Efros先生も常にCVの最前線での研究
■ 2000年前後から時代の変化に常に対応
■ 2020年でもECCV5本採択レベル
■ この記事が非常に面白い！
➤ 研究は雑談&賭けから始動する？
➤ During that afternoon coffee at Nefeli, I suggested that maybe the network didn't actually need the ImageNet labels,
just the ImageNet images to pre-train.
■ Over the years I was lucky to have truly amazing officemates who taught me everything I know. Among them: Alex Berg,
Andras Ferencz, Andrea Frome, Andrew Fitzgibbon, Aude Oliva, Bryan Russell, Charless Fowlkes, Fernando de la Torre,
Francis Bach, Fred Schaffalitzky, Fredo Durand, Greg Mori, Jianbo Shi, Josef Sivic, Krystian Mikolajczyk, Laura Walker,
Neva Durand, Paul Debevec, Paul Newman, Serge Belongie, Thomas Leung, Xiaofeng Ren, etc.
Efros先生ここが凄い！

24
■ 素人発想玄人実装
■ Keep it Simple, Stupid!
➤ 「できる奴ほど悩むものだ」と学生を鼓舞
➤ 研究室の学生とは毎週1人につき1時間のミーティング
- これは中々に真似できない！凄い！
■ 教授が良くないという研究は良い研究に違いない
➤ 当初，金出先生はLucas-kanade法の研究発表に対して懐疑的
➤ 学生であったBruce Lucasの熱量により発表に漕ぎ付く
➤ 結果として16000+の引用される論文となった (2021年4月時点) 
Kanade先生ここが凄い！
https://ibisml.org/ibis2018/files/2018/11/kanade.pdf

25
■ 教育者としても超超一流
➤ 1人では上限があっても，教育により最強の影分身を作れれば
研究機関としては強くなる！
➤ 教育は一番の自己投資？
➤ 一流選手が一流監督とは限らない的な？
■ 弟子達も世界レベルで活躍する研究者を多数輩出！
➤ 各研究機関に所属することでグローバルにコラボ！
➤ 弟子がさらに一流の研究者を育成する最高の循環！
➤ その循環が完成する時には自ずと優秀な学生が集合
■ 各Labで方針は少しずつ違っても育成プロセスのノウハ
ウが詰まっている
教育者としても超超一流

26
■ 本質を捉え分野を発展させる技術を創る意気込み
➤ 小手先だけで精度を少し上げる論文は書かない
➤ しかも論文はほぼ完璧に仕上げる
■ 内を徹底して叩き上げ，外との連携でも高める
➤ ブランディングにより研究室に参加する敷居が高い
➤ 研究室内の切磋琢磨
➤ コラボにより新しい技術を取り入れ続ける
■ コア技術を持っている
➤ 複数手札を持ってる&合わせ技で真似できない領域へ
■ 研究が早く，速い
➤ 新技術に対する取り掛かりが’早い’
➤ 始めてから論文化までが’速い’
Top PIの共通項

27
■ CVPR / ICCV / ECCVのざっくり特徴
➤ CVPR: その年最も良かった論文に与えられる
- その中から最も優れている/（Long-term Awardの場合は）引用された
か学術的にインパクトのあった論文を選出
➤ ICCV: 時代背景も読んで選定している？
- 特に2000年代の論文は「行動認識」「ジオメトリ」「画像検索」のための
基礎技術が受賞している印象
- 1990年代は「ジオメトリ」が多い傾向
➤ ECCV: 数理的なモデルも重要？
- 受賞論文中の数式も多い...ような気がする
- 特に2000年代は「最適化」「マッチング」「機械学習」が選出されている
印象
- 理論的な内容が選出されやすい
会議別のメタサーベイ
＃あくまでも印象です

28
■ Awardから見るトレンドの主流？
➤ より正確な年表はリンクの技術マップ等をご覧ください
➤ キーワードレベルで抽出
時系列のメタサーベイ
1990s
2000s
2010s
2020s
Local
Descriptor
Keypoint
Matching
Linear
Classiﬁer
Bag of
Visual
Words
Deep Neural Networks
CNN
Large-scale image datasets
RNN GAN
FaceRecog.
Retrieval
より詳細な変遷はSSII 2015技術マップにて
イメージング：http://www.ssii.jp/15/images/map1.pdf
認識：http://www.ssii.jp/15/images/map2.pdf
三次元シーンの復元：http://www.ssii.jp/15/images/map3.pdf
Segmentation
Optical Flow
Calibration
MVS
Background
Subtraction
Object
Recognition/
Detection
Boundary
Detection
Tracking
Motion
Analysis

29
■ 初期のビジョン技術
➤ 〜1980年代
- Primitive Visionの提案
- 今回のサーベイではフォーカスにあまりないが，ここまでで基礎中の基
礎が確立（CNNも1980年代には初期提案）
1990s
2000s
2010s
2020s
Local
Descriptor
Keypoint
Matching
Linear
Classiﬁer
Bag of
Visual
Words
CNN
RNN GAN
FaceRecog.
Retrieval
Segmentation
Optical Flow
Calibration
MVS
Background
Subtraction
Object
Recognition/
Detection
Boundary
Detection
Tracking
Motion
Analysis

30
■ 流れを先読みすれば受賞できる？
➤ 1990〜2000年代の流れ
- Keypoint Matchingが登場（SIFTがGame Changer）
- SIFT改良・コーナー検出等が受賞（SURF/FAST/BRIEF等）
- 局所特徴・BoVWが受賞（HOG/SPM/DPM等）
- 画像検索・MVSのシステム寄りの論文が受賞
1990s
2000s
2010s
2020s
Local
Descriptor
Keypoint
Matching
Linear
Classiﬁer
Bag of
Visual
Words
CNN
RNN GAN
FaceRecog.
Retrieval
Segmentation
Optical Flow
Calibration
MVS
Background
Subtraction
Object
Recognition/
Detection
Boundary
Detection
Tracking
Motion
Analysis

31
■ 深層学習時代になってから読みづらくなった？
➤ 2010年代以降
- 流速が速くなったことでとにかく技術を先に進める必要あり
- 新しく出た手法のデファクトスタンダードを次の年には論文化
- 2021年現在だとVision Transformerか
- 大規模データセット提案は受賞よりは引用数に影響
- 10年後のLong-term Awardには効果アリ？
1990s
2000s
2010s
2020s
Local
Descriptor
Keypoint
Matching
Linear
Classiﬁer
Bag of
Visual
Words
CNN
RNN GAN
FaceRecog.
Retrieval
Segmentation
Optical Flow
Calibration
MVS
Background
Subtraction
Object
Recognition/
Detection
Boundary
Detection
Tracking
Motion
Analysis

32
■ 2017〜2020年　GANの広がり
➤ GANタスクの増加
- 画像の再構成
- Adversarial training，SinGAN
- スタイルの変換
- CycleGAN，pix2pix
- 画像認識タスクへの応用
- GANの仕組みを画像認識へ応用　→　Adversarial Example
- 動画の再構成
- 1枚の画像からアニメーションを生成
2020s
2010s
2015s
CNN
RNN GAN
この部分を少しブレークダウン

33
■ 2018〜2020年　動画解析分野の広がり
➤ 動画タスクの増加
- 行動認識モデル増加
- SlowFast，3DResNet
- 動画から３Dアニメーションを再構成
- 動画のシーン検索
➤ 動画解析手法の増加
- 時間を含めたLSTM的手法から3D conv
- 2D画像を深度画像に変換　→　マネキンチャレンジ
- 大域的処理　Attention/Transformer モデルの利用
2020s
2010s
2015s
CNN
RNN GAN

34
■ 2018〜2020年　３Dを扱った論文が増加
➤ 2D画像を3Dに変換して解析(次元が増えた)
- 顔認識
- 建物・物体の連続　→　SLAM
➤ 動画を3Dデータの集合として扱う解析
- 人物の行動認識
- 車の前後・方向判定
➤ 深度画像と2D画像の融合(depthを扱うようになった)
➤ 深度画像のポイントクラウドデータを直接扱う解析
2020s
2010s
2015s
CNN
RNN GAN

35
■ これまでの手法とどう違うのかを数式的/図式的に説明
/整理
➤ Metric Learning系は特に綺麗に整理されている印象
- ArcFaceだけ読んでも既往研究との違いとやりたいことがわかる
➤ 必ずしも昔の手法が多く引用されているわけではない
- 綺麗に整理するだけでも，直接的な発展手法でなくても読んで引用しや
すくなる？
- 2021年4月現在の引用数：
- FaceNet (2015年) : 7531
- SphereFace (2017年) : 1377
- CosFace (2018年) : 848
- ArcFace (2018年): 1389
引用されやすい論文

36
■ 多くの人が疑問に思っているけど，やりたがらない点を
網羅的に調査する
➤ 実験的に網羅的な分析を行う
- 最近ではNAS系のトピックな気がする
- 複数実験を行って，一つの実験に限定しても引用しやすい
- InceptionやResNetの構造探索
- ハイパラ探索
➤ 結局どうすれば良さそうかが序盤でまとまっていると読みやす
い
■ (感想) 今の潮流的にKaggleとかで使えるようなtipsと
かをまとめたりすると，多くの人の目に触れるようになっ
て，引用数も増えそうな気がした

37
■ 〇〇Net → コンセプトとモジュール(ネットワーク構造)
名が一対一対応しているとわかりやすい
➤ Inception-V{1,2,3} ↔ Inception moduleで効率的に有効受
容野を広げる
➤ Res-Net ↔ Residual 構造で勾配問題を抑える
➤ Dence-Net ↔ 層の間の接続をDenseにする
➤ Squeeze-Net ↔ Squeeze moduleでパラメータを抑えつつ学
習を進める
■ コンセプトがわかりやすいと画像認識以外の分野(時系列とか音
声認識とか)の人も読みやすく，取り入れやすい(引用されやす
い？)
■ どれだけライトユーザーにわかりやすい構成になっているか

38
■ Transformerの大原則 !?
➤ 集合演算にはTransformer
➤ 学習データが十分あればtransformer
➤ 全てでTransformerが良いわけではない（適材適所）
■ 歴史は繰り返される
➤ CNNに対して行われた，工夫は再度検討されそう
（eﬃcient network, deformable conv, feature pyramid型のfeature
extraction, skip connection, recurrentなど）
➤ すでに提案されたものも．．．
➤ Deformable：https://arxiv.org/abs/2010.04159
➤ Eﬃcient：https://arxiv.org/abs/2009.06732
■ 感想：Transformerブームはしばらく続きそう，
だれでも一度は試してみても良いだろう
Transformerについて

39
Object detection について
■ 優れた手法が注目されるわけではない！？
➤ YOLOは著者の存在感あって有名に
- SSDもYOLOと同じ程度良い手法
➤ ヒューリスティックな後処理からの脱却
- Non Maximum Suppression (NMS)からの脱却が近年のブーム？
- DETR, CenterNetなど
- Detection Transformer (DETR)の出現で，
主流になっていたYOLOベースの手法はどうなる？
➤ 感想：精度を追求するとエンジニアリングで性能は向上し続け
ていくので，SoTAしか受け入れない姿勢だとエンジニアリング
でSoTAをとっているのか，手法の良さでSoTAをとるのか分か
らなくなりそう．特に，実用のために，様々なエンジニアリング
を施しているObject Detectionは心配

40
■ 精度上げたい
→計算コスト，速度も大事
➤ SqueezeNet （2016）
➤ MobileNet V1~V3 （2017~）
➤ ShuﬄeNet V1,V2（2017~）
➤ EﬃcientNet （2019）
■ 職人技による設計やチューニングは時代遅れ
➤ EA，RLベースのNASの発展
➤ NASでも軽量なアーキテクチャの探索
- Learning Transferable Architectures （2017）
- MnasNet （2019）
■ より実用的な，軽量なモデルに対する需要
実用へ向けて

High-impact Papersに学ぶ 
トレンドを創る研究グループの構築法

42
■ 「有名ラボの有名なPIになってください！」
➤ ができれば苦労しない...
■ 本資料では
➤ 現状を如何に変え，トレンドを創る研究グループを構築するか
について探りました
前提
「トップラボで名前を上げてPIになる」 vs. 「現状から始め研究グループを強くする」
→ この議論は永遠のテーマだけど，今回は後者に着目

43
■ 最初は何に注力すべきか...？
➤ 「情報収集」と「テーマ設定」
■ 研究グループの４要素
➤ 人材：研究者，スタッフ，外部連携者など
➤ リソース：計算機，データなど
➤ 研究費：（言わずもがな）
➤ 情報：専門知識，研究のHowToなど
→人材・リソース・研究費は最初期はどうしようもないが，
徹底した情報収集・良いテーマ設定はできる！
トレンドを創る研究グループを作るには

44
■ 徹底した情報収集
➤ 研究なので主に論文を調べる（論文の調べ方は他文献に譲る）
➤ 点・線よりも面で捉える（下図）
➤ その他，凡ゆるチャンネルから情報収集（何が役にたつかわからないし
，High-impactな論文は他分野からも知識を持ち込んでいる）
情報収集（1/2）
論文は点（1論文）→線（1分野）→面（多分
野）で把握したい．１論文から得られる知
識ではなく「分野の現状を俯瞰」し「今後ど
うなって行くか」を予想，「誰もが困っている
問題」を想像する，が有効か．
https://www.slideshare.net/cvpaperchallenge/ss-72641629/45

45
■ どのように情報を捉えるか？
➤ 「俯瞰的な視点」と「論文の裏側」を探る
■ 俯瞰的な視点（’What’を掴む）
➤ 「量」と「質」を兼ね備え，現状と方向性をよむ
- 個人の論文数だと年間で数百本速読・数十本精読が目安
- 輪講やオンラインツールでの議論も有効
■ 論文の裏側（’How’を掴む）
➤ 論文に直接載らない研究戦略を予想
- 「人材？計算資源？予算は？」→自分の規模感と比較
「俯瞰的な視点」は本質を捉えた改善に，
「論文の裏側」は研究の進め方に繋がる
情報収集（2/2）

46
■ 本質を捉え, 分野を発展させるテーマ設定
➤ インクリメンタルではない，根本を変える話（説明難しい...）
■ ‘What’ / ‘How’は文献調査から掴む前ページ参照
‘Why’は自ら考える
➤ CV分野において方法論（method）は大体従来法の延長
- 無論，深層学習（CNN・Transformer）のような根本を考案しても良い
➤ 「なぜ」の部分が新しい分野を開拓することも多い
- 研究としての哲学（Philosophy）に繋がる
「なぜ」を突き詰めよう，
それがオリジナリティに繋がる
テーマ設定（1/2）

47
■ 基礎から始めよう！
➤ 実は1990年代と現在のBPの顔ぶれはほぼ同じ？
- DNN以前の基礎知識も必要＆本質は過去から変わらない
➤ 深層学習前後の華麗なる切り替え
- Oxford VGG今昔
- Camera Geometry（Marr Prize x4）→DNN（CVPR’20 BP）
- Kaiming He先生
- Dehaze(CVPR‘09BP)→ResNet(CVPR‘16BP)/Mask R-CNN(‘17Marr Prize)
- その他多数...
本質を捉え, 分野を発展させるテーマ設定
（訳：DNN以前/以外の勉強もやろう/論文読もう）
テーマ設定（2/2）

48
■ BP獲れば後から付いてくる？
➤ Chicken & Egg Problem...
■ [人材] 有名ラボだと学会の度に/常時履歴書付メール
で訪問依頼がある
■ [リソース・研究費] 論文のAcknowledgement見ると
ある程度わかる？
➤ あとがきに注目するとなんとなく状況がわかるかも
人材・リソース・研究費

49
■ 無理じゃない！だが有名ラボは有利なのは確か
➤ 大学にも依るが倍率が100倍(!)以上のことも
- 正規メンバーから選別がかかっている...
- Ph.D.入学時点でTop-tier論文複数本，という条件もある
➤ 国際会議で履歴書を持った大学院生から話かけられる
- 現在は世界中から履歴書付きのメールが来る
- 断りきれないくらいくるのでやはり選別される
➤ 企業からもオファーが多い
- 研究費のみならず企業研究者からの派遣研究者の話もある
- 企業研究者は経験豊富なことが多い
➤ 研究費は集まり易い
- 業績あるから研究費申請は通り易い
- コラボ先からも研究費が出る
有名ラボではないから無理？

50
■ 精度改善型論文 vs. 問題提案型論文
➤ どちらもやるべき！
■ 長期的視点（問題提案型）を業績に結び付ける，その間短期
的視点（精度改善型）の論文を出し続ける
➤ 問題提案→精度改善というハイブリッドがやはり強い
研究グループの目指す姿勢

52
■ いかに研究を進めていくか？
➤ Best Paperの大別：提案手法型，問題設定型，評価・再検討型
➤ オープンソース戦略の重要性
- ソースコード公開，教科書/オープンソースへの掲載，プロジェクトページ
➤ 論文/技術先行型の認知
- CV分野での当然を提案できるかが鍵
- Simple Idea & High Reproducibility & High Performance
■ 各時代におけるトレンド
➤ 1990年以前：Primitive Visionの提案，Computer Visionの基礎
➤ 1990年 - 2000年：データ品質の向上，局所特徴，画像検索
➤ 2000年 - 2010年：局所特徴を用いた予測/認識
➤ 2010年 - 2018年：深層学習(CNN)登場，研究スピードの急速な加速
➤ 2018年 - 2021年：2Dタスク→3Dタスクへ，Transformer
■ Best Paper複数回受賞者の研究体制
➤ 研究室内 or 研究室外での研究体制のエコシステムを構築
- 育成体制，研究環境(リソース，データ等)
➤ 研究体制が整っているからこそ，他グループでは不可能なインパクトある研究に着手
➤ 急速な分野の動向を常時キャッチアップ
まとめ

53
■ 研究グループの構築法
➤ 人材・リソース・研究費・情報
➤ 「情報収集」から有用な「研究テーマ設定」が効果的！
■ 情報収集
➤ 徹底した情報収集
- 点・線よりも面で捉える
➤ どのように情報を捉えるか？
➤ 俯瞰的な視点(‘What’を掴む)
- 「量」より「質」を兼ね備え，現状と方向性をよむ
➤ 論文の裏側(‘How’を掴む)
- 論文に直接乗らない研究戦力を予測
■ テーマ設定
➤ 本質を捉え, 分野を発展させるテーマ設定
➤ 捉えた‘What’と’How’から’Why’を考える
➤ トレンドと基礎の両方を知識を習得することが重要！
- Computer Visionの根本の問題解決は古典的な論文から取り組まれている
- 基礎的な知見を現代の技術へ応用
まとめ

以下，論文サマリ 
受賞論文 + 有名論文

Long-term Award 
{Longuet-Higgins, Koenderink, Helmholtz} Prize

56
■ Secrets of Optical Flow Estimation and Their Principles
➤ Optical Flowの歴史を遡り、解析することで本質を見直し新規手法を提案
➤ 2010年時点において多数のOptical Flow推定手法が提案されていたが，基本的には
Horn and Schunck (HS)の提案から大幅な改良はなかった
➤ にも関わらず，性能向上していることからOptical Flowの本質を解析し，さらなる性能向
上に努める
➤ 中央フィルタリングの非ノイズ化とエネルギーの増幅について解明
➤ 上記の事項に基づいて新しい目的関数を導出し，物体の境界を含むようにして、
Middlebury benchmarkにて上位手法を考案
CVPR 2020 Longuet-Higgins Prize

57
■ ImageNet: A large-scale hierarchical image database
➤ 第3次AIブームの火付け役であるImageNetの提案論文
➤ FlickerやYoutube等のWeb上にある大量データを効率的かつ高品質に大規模DBを構
築する枠組みを提案（現在では当然のことだが2009年時点では革新的）
➤ WordNetのSynsetに基づいて画像検索し，候補画像を収集
➤ Amazon Mechanical Turk (AMT)による複数人での教師ラベルのアノテーション
➤ 3つのアプリケーションにて評価
← WordNet Subtreeの一例
(2009年時点)
12 Subtree/5247 Synsets/
320M Images

58
■ A Discriminatively Trained, Multiscale, Deformable Part Model
➤ 物体全体と各パーツごとに検出することでロバストな手法を提案
➤ 人や動物等の姿勢により視覚的表現が大きく異なる物体に対して対応できない問題を
解決
➤ 検出物体の全体を捉えるroot filter（疎な特徴を獲得）と各パーツを捉えるpart filter（密な
特徴を獲得）から構成
➤ 各スケールの画像においてHOG特徴を獲得し，処理することでスケールに対してのロバ
スト性も向上
➤ 2006年 PASCAL VOC Challenge TsakのBest Modelから平均して2倍の精度向上

59
■ Accurate, Dense, and Robust Multi-View Stereopsis
➤ 多視点から法線付きパッチから三次元再構成する手法の提案
➤ 多視点画像に対してHarris/DoGにより特徴抽出し，エピポーラマッチング行い，視差を
計算
➤ マッチングされた探索窓を小領域のパッチとして3次元に復元
➤ 復元結果を周囲の特徴点に伝播させることで密な3次元メッシュを生成
➤ Middlebury benchmarkの評価において，4/6のデータセットで従来手法から向上

60
■ Object Retrieval with Large Vocabularies and Fast Spatial Matching
➤ 画像検索のスケールを大規模化するためのマイルストーン
➤ Flicker等のWebサイトからクエリオブジェクトを含む画像を高品質に検索
- 画像検索のスケールを100万画像オーダまで可能
➤ 大規模データに対してk-meansは計算コストが高い
➤ Approximate K-meansとHierarchical K-meansの提案により高速化
- オブジェクトクエリが含む可能性をランク付けして，人間にリストを提供
➤ Oxford Building Datasetsを構築（リンク）

61
■ Beyond Bags of Features: Spatial Pyramid Matching for
Recognizing Natural Scene Categories
➤ 画像をパッチ毎に分割して階層化した特徴表現 "Spatial Pyramid" を考案
➤ ピラミッドのレベルに応じて重みを付けて類似度を計算する Spatial
Pyramid Kernel も提案
➤ 大域的特徴と局所的特徴の両方を用いることで，Caltech101において
2006年当時のSOTA手法

62
■ Scalable Recognition with a Vocabulary Tree
➤ 画像特徴をコード化して検索する際に木構造で効率的に探索するため、Vocabulary
Treeを提案
➤ Vocabulary Treeのあるレベルにおいて各記述子ベクトルをいくつかのクエリと比較して
，最も類似したクエリを持つ枝を選択し，次の枝に進む．これを繰り返す
➤ 何百万のVocabularyを保持可能
➤ 個々の単語の判別力を高く保持したまま，各記述子の量子化にはかなりコスパ良く住む

63
■ Histograms of oriented gradients for human detection
➤ 局所領域の勾配方向ヒストグラム化により形状を表現し人物検出
➤ HOG特徴の原論文
➤ MIT Pedestrian Databaseで評価
➤ さらにINRIA Person Datasetを提案して人物検出アルゴリズムの性能
を評価した
人物検出のフロー図．前処理〜特徴抽出〜識別器には SVMを適用．
性能比較． Positive/Negativeの勾配の比較

64
■ A non-local algorithm for image denoising
➤ ノイズ除去手法であるNon-local means filterの提案論文
➤ テンプレートマッチングのように周辺画素と注目画素の類似
度もより重みを決定
- 類似度:小→重み:小，類似度:大→重み:大

65
■ A performance evaluation of local descriptors
➤ 多様な局所特徴・キーポイントマッチング手法をベンチマーク
➤ SIFT, Shape Context, Steerable Filters, PCA-SIFT, Differential
Invariants, Spin Images, Complex Filters, Moment Invariants,
Cross-correlationなど当時主流な手法を公平に比較
➤ 実験ではスケール変動，画像回転，画像のボケ，JPEG圧縮，照明変動に
対する頑健性を調査
➤ SIFTベースの手法がベストな手法であり，Steerable Filtersは低次元特徴
としてはベストな手法であるという見解を示した
スケール変動，画像回転，画像のボケ，JPEG
圧縮，照明変動の画像例

66
■ Object Class Recognition by Unsupervised Scale-Invariant
Learning
➤ ラベルなし・複雑環境状況にて、スケール普遍性を持つ物体識別手法を提案
➤ 形状、アピアランス、オクルージョン、相対的スケールを同時確率的に表現
- 局所特徴のアピアランスA，相対位置X，スケールS
➤ 学習時は物体領域とスケールを検出し，検出領域から上記のパラメータを推定
➤ 推定したパラメータを用いて，検出領域をベイズ推定により評価

67
■ Rapid Object Detection using a Boosted Cascade of
Simple Features
➤ 2001年当時のノートPCでもリアルタイムに検出可能な顔検出手
法の提案
➤ 主な提案は以下の3点
- Integral-ImageによるHaar-like特徴による高速演算
- AdaBoostによる検出能力の強化
- 多段フィルタ（cascade）による非顔領域の排除

68
■ Eﬃcient Matching of Pictorial Structures
➤ Pictorial Structureの画像への最適なグローバルマッチングを見つ
けるための効率的なアルゴリズムを提案
➤ pictorial structureとは変形可能な構成で配置された備品の集合
➤ 効率的に計算することが従来は難しかったっため画像におけるマッ
チングや認識に適用できていなかった

69
■ Real-Time Tracking of Non-Rigid Objects Using Mean Shift
➤ 視覚的特徴に基づいて非剛体の物体をリアルタイムに追跡する手法を提案
➤ 手法
- 各フレームにおいてカラーヒストグラムを算出
- 隣接フレームにおいてBhattacharyyaにより類似度を算出
- Mean Shitに基づいて物体を探索
➤ カーネル幅を適切に設定することで、現実的な時間で物体追跡可能
➤ 多種多様な色やテクスチャを持つ物体に対して適応可能
➤ 部分的なオクルージョン，回転，カメラ位置の変化に対して頑健

70
■ Statistics of Natural Images and Models
➤ 自然画像の性質について統計的に調査
➤ 1ピクセルから3つのHaar wavelet responses の共同分布結果を報告
➤ 線形フィルタを含む統計は、ラプラス分布でモデル化できることが示唆
➤ 自然画像はスケール不変性をもっていない場合があるという結論

71
■ Adaptive Background Mixture Models for Real-Time Tracking
➤ 動的背景差分を行いながら対象領域をセグメンテーションしつつ物体追跡
➤ Gaussian Mixture Modelにより背景をオンランで適応的に変更しつつモデルを更新する
手法を提案
➤ 最も効果的に表すガウス分布が背景モデルの一部とみなされるかどうかに基づいて分
類
➤ 照明の変化、クラッタによる反復的な動き、長期的なシーンの変化にも確実に対応でき
る、安定したリアルタイム屋外トラッカーが実現

72
■ Probabilistic modeling of local appearance and
spatial relationships for object recognition
➤ ベイズ推論の事後確率 P(Object | Image)によるモデル化と
推論
➤ 正面からの顔検出においては483人の顔を含む125枚の画像
に対して93%検出

73
■ Tracking people with twists and exponential maps
➤ 動画の入力から，自由度の高い人物姿勢推定を実施
➤ Exponential maps / Twist motionやその統合によりモデル化，動きの差
分を推定
➤ 2D動画から3Dアニメーションを再構成して合成することに成功
人物姿勢推定の例
モーキャプ的な３Dアニメーションとして
レンダリング

74
■ Normalized Cuts and Image Segmentation
➤ ピクセルをグルーピングしてセグメンテーションを行うNormalized Cut
➤ データを個体間の類似度に基づいてグラフ表現し，そのスペクトル（固有値）を用い
てクラスタリング
➤ normalized cut criterionは異なるグループの非類似度と同グループの類似度を測
定
➤ グラフG とノード/エッジ (V, E)からG=(V, E)のモデル化、エッジの繋がりを見て固有
値最小問題により最適に領域を分割

75
■ Training Support Vector Machines: An Application to Face Detection
➤ SVMによる顔検出のアプリケーション構築
➤ 大規模データを用いた顔検出において，大域的最適化を保証しつつSVM
を学習
➤ 大規模な特徴空間の中から対象物を発見するように最適化，当時の技術
ではSVMが最適な手法であるとして，本論文ではSVMによる学習に着目

76
■ Neural Network-Based Face Detection
➤ 顔検出のためのNeural Networkの提案 (3層のNeural Network)
➤ 小パッチ内に顔が含まれるかどうか判断することで、画像中の顔領域を検出
- 同じ顔サンプルセットと複数の非サンプルセットで複数の顔検出器を構築し，これら
の顔検出器の出力を仲裁することで最終出力
➤ 20x20pixelの小パッチを抽出、画像全体を複数スケールに変換、ヒストグラム正規化を
施して入力
➤ 様々なスケールにおける特徴を獲得するために入力画像のPyramidを作成
➤ グレースケール正面顔に対して90.5%で検出

77
■ Combining greyvalue invariants with local
constraints for object recognition
➤ オクルージョンや画像変換に対して頑健なアピアランスベースの認識手法
を提案
➤ 自動検出されたキーポイントからgreyvalue invariantsの差分ベクトルを用
いる
➤ 投票アルゴリズムと半局所的な制約を適用することでノイズ・シーンの煩雑
さ、小さな形状変化に対してもロバスト
➤ 多次元 hashtableを用いた索引付けにより，高速な認識が可能
➤ 提案手法は誤検出やノイズに対して頑健

78
■ Boundary detection by minimizing functionals
➤ 画像における滑らかな境界線の検出に関する研究
➤ 仮説となる境界線とそのエネルギー最小化により，より良い境界線を探索
するアルゴリズムを提案
➤ Pseudo-minimum by solving the Euler-Lagrange equations（オイラー・
ラグランジュの擬似最小化）により仮説と検証を実施，境界線を検出

79
■ Layered representation for motion analysis
➤ 前景と背景をレイヤーとして分割し．レイヤー状運動推を提案
➤ レイヤー表現はパッチ集合に対してアフィン運動モデルを推定し，K平均法によりクラスタ
リング
➤ 各レイヤーは輝度画像，アルファマスク，パラメトリック運動場に分割され，これらを合成
することで動画を再生成
➤ Flower Garden画像系列に対して適用

80
■ Improving the Fisher Kernel for Large-Scale Image Classiﬁcation
➤ Bag of Visual WordsではVisual Words数が限られるため，大規模データセッ
トに対して汎化させることが困難
➤ 従来のFisher Kernelの問題であったスパースな点を改善することで高精度の
画像識別を実現可能
- L2正則化，パワー正規化，空間ピラミッド
➤ Pascal VOC 2007において従来の47.9から提案法では58.3まで向上
ECCV 2020 Koenderink Prize

81
■ BRIEF: Binary Robust Independent Elementary Features
➤ Binary stringを用いることで効率的に特徴記述
➤ 画像に対して前処理としてGaussian kernelを用いて平滑化
➤ 特徴点を中心としたS×Sサイズのパッチを生成
➤ パッチ内において5つ (GI~Gⅴ)のアプローチから(x,y)位置のペアを生
成
➤ 各ペアにおいて輝度値を比較し，Binary stringを獲得
➤ SURFやSIFTなどの他の記述子よりも処理時間と認識率の面で向上

82
■ Hamming Embedding and Weak Geometric Consistency for Large
Scale Image Search
➤ Hamming Embedding (HE) とWeak Geometric Consistency (WGC)を
用いることでbag-of-featuresを改善する手法を提案
➤ HE: visual wordsによりマッチングされるBinary Signatureを与えることで
記述子として適用
➤ WGC: 視点やスケールに対して一致しない記述子に対してペナルティを付
与
➤ 100万枚を超える大規模画像から効率的かつ高精度にマッチング

83
■ Semi-supervised On-Line Boosting for Robust Tracking
➤ Semi-online Boosting により，ラベルあり/なしデータを併用することで背景の情報が含
まれている場合でもモデルの劣化を防ぐ
➤ 対象物体がオクルージョンされた情報込みでモデルを更新してしまうため，エラーが蓄積
され検出不可になる
➤ 従来手法ではSVMなどで対象物体と背景を分離，またrandomized treesやピクセル単
位でキーポイントを検出し，背景との分離を行っている．
➤ これらの手法では事前に対象物体を学習していることがマスト．
➤ 物体のアピアランスの変化を学習しておかないと検出は失敗してしまう．
➤ また，背景変化に対応しなければならないためモデルが複雑になりがち．
水色矩形：従来手法，黄色矩形：提案手法

84
■ SURF: Speeded Up Robust Features
➤ 位置付け的にはSIFTの高速化
➤ へし庵行列を用いたFast-Hessian Detectorにより領域を荒く見ることがで
きるため高速化しつつ高精度化
y方向，xy方向のガウス２次偏微分の可視化とボックスフィルタによる近似
自然風景内で検出されたキーポイントと
回転を考慮したキーポイント検出

85
■ Machine learning for high-speed corner detection
➤ FAST (Features from Accelerated Segment Test)アルゴリズムの提案
➤ SLAM等のアプリケーションに適用可能なレベルに処理時間を削減する
➤ 手法
- 注目画素を中心とし円周が16画素となる円を想定
- 円上の画素値が注目画素値よりも閾値以上かどうかを輝度値に基づき判定
➤ 学習用画像の全ての画素について，その周囲16画素を明るい (brighter), 類似
(similar), 暗い(darker)の3値分類
➤ 上記の3値を特徴量としてID3アルゴリズムを適用し，決定木を生成
➤ SIFT, Harris, SUSANと比較すると高速に処理可能

86
■ Face Recognition with Local Binary Patterns
➤ Local Binary Pattern (LBP)による顔認識
➤ LBPとPCA, Bayesian Intraなどの圧縮により特徴抽出，顔認
証をするというシンプルながら効果的な手法を提案
LBPはパッチ中央との明暗差を符号化することで特徴記
述できる。本論文では顔認証に対しても効果があること
を示した。
前処理〜特徴抽出〜照合まで含めた
顔認識フロー

87
■ High Accuracy Optical Flow Estimation Based
on a Theory for Warping
➤ エネルギー関数によるオプティカルフロー計算の提案
➤ 明るさ・勾配の一貫性、時系列の非連続性に関する制約を導入し高精度な
オプティカルフロー計算を実現
➤ 大きなフローの変化についても前後フレームの関係性を考慮。
➤ 粗密探索も実装，理論検証も実施

88
■ What Energy Functions Can Be Minimized via
Graph Cuts?
➤ それまで主流だったエネルギー最小化のグラフカット手法の改
善点について指摘した論文
➤ 二値変数によるエネルギー関数を提案
➤ 本論文での発見
- エネルギー関数の必要条件
- ３変数までの関数和として同時に書けるエネルギー関数の条件
- エネルギー関数を最小化するための汎用的な構成

89
■ Stochastic Tracking of 3D Human Figures Using
2D Image Motion
➤ 人物の関節位置を3Dトラッキングする研究
➤ Bayesian Frameworkにより事前情報と観測されたグレー画
像の動きの差分からアピアランスを生成
➤ 実装上はパーティクルフィルタを用いた
透視カメラモデルを用いることで自己オクルージョン・単眼から
の３次元モーション復元を実現

90
■ Unsupervised Learning of Models for
Recognition
➤ 教師なし・セグメントなしにより複雑シーンで物体認識
➤ 画像を通して変化しない表現や変化する部分において確率密
度関数を計算
➤ 初期ステップでは変化しない部位を見て，形状モデルをEMア
ルゴリズムで推定
顔認識や自動車のリアビューを良好な精度で認識

91
■ Contour Tracking by Stochastic Propagation of
Conditional Density
➤ Particle Filter（Condensation）の提案論文
➤ 動画像を想定，適宜観測と更新を繰り返すことで物体の形状ト
ラッキングを実施
➤ 背景に運動モデルを据えており，尤度の観測により観測点を
移動

92
■ Building Rome in a Day
➤ Web上の画像からキーポイントマッチング&3D再構成
➤ なおかつ計算並列化により高速な大規模空間再構成に成功
➤ Flickrからランドマークを検索して画像収集
ICCV 2019 Helmholtz Prize
プロジェクトページより。
https://grail.cs.washington.edu/rome/

93
■ Attribute and Simile Classiﬁers for Face
Veriﬁcation
➤ 人物顔に関する「属性」と「直喩（Simile）」を推定
- 属性：性別・人種・年齢
- 直喩：顔および領域の，参照画像との類似度計算
➤ LFW datasetにてそれぞれ23.92/26.34%，統合手法は
31.68%エラー率を下げた
属性推定の結果例（左）と直
喩推定の結果例（右）：属性推
定がラベルを学習して性別・
年齢などを推定するのに対し
て直喩では参照画像との比
較により推定を実施する

94
■ Space-time interest points
➤ 時空間キーポイント検出による行動認識
➤ 従来の2D Corner Detectorを時間方向にも拡張
脚部の時空間キーポイント検出：行動の試行
が変わっても同様の位置を検出
時空間キーポイントマッチング検出と行動認識

95
■ Recognizing action at a distance
➤ 遠く（小さな; 30px高）の人物行動認識に成功
➤ オプティカルフローによる特徴抽出
➤ 追跡→フロー抽出→ヒストグラム表現→最近傍探索によるマッ
チングにより行動認識
対象のシーン：サッカーワールドカップからの切り抜
き
オプティカルフローにより方向と強度を記述

96
■ Video Google: A text retrieval approach to
object matching in videos
➤ 動画のシーン検索に関する研究
➤ 例として「異なる画角から撮影された同じタイミングのシーン」
などを検索可能
➤ マッチング・特徴抽出はSIFTを使用
異なる画角の同期カメラ：マッチングされた領域は
同じ領域を示す
動画中の前後フレー
ム：同じ領域をマッチ
ング可能

97
■ Discovering objects and their location in images
➤ 教師なしで物体のラベルと位置を特定する枠組み
➤ pLSA (Probabilistic Latent Semantic Analysis)をキーポイント/局所特徴
(bag-of-words表現)に使うことで類似特徴をローカライズ
キーポイントとトピックの関係性：類似する特徴
を保有する物体がまとまる
ドキュメント解析では頻出のトピックモデル pLSAを物
体認識・検出に用いた

98
■ The pyramid match kernel: Discriminative
classiﬁcation with sets of image features
➤ 高速カーネル関数を提案
- 整列されていない特徴セットを複数解像度ヒストグラムに投影
- 重み付きヒストグラムの交点を計算
局所特徴の間の相関関係を記述できる特徴点のセット，複数解像度ヒストグラムとその交
差

99
■ Actions as space-time shapes
➤ Weizmann Action Datasetの提案論文
➤ 同時に時空間ボリュームによる行動認識手法も提案
➤ 背景のメディアンにより差分を計算して人物シルエット抽出，時
空間ボリュームの形状をマッチングすることにより人物行動認
識
xyt時空間ボリューム（背景抽出より）の計算 Weizmann Action Dataset：
１０カテゴリの人物行動を含む

100
■ A Database of Human Segmented Natural Images and Its Application to
Evaluating Segmentation Algorithms and Measuring Ecological Statistics
➤ 人間によりセグメンテーションされたデータベースの提案
- この当時、セグメンテーションにおける評価用データベースがなかった
- セグメンテーションを簡単に実施可能なアプリケーションも同時に開発
➤ Corelデータセットから481x321 RGBの代表的な画像を1000枚選出
➤ 人間によるセグメンテーションにおける一貫性を定量化する指標Global Consistency
ErrorとLocal Consistency Errorを定義
➤ 提案データセットにより既存のセグメンテーション手法を性能評価、ゲシュタルト心理学に
基づいた自然画像における統計的解析

101
■ Matching shapes
➤ 形状分析の新しい手法であるshape contextという形状記述
子を導入
➤ 形状の輪郭から抽出した点を基準として，対象となる点の差分
を比較することで形状を識別

102
■ Snakes: Active Contour Models
➤ 古典的なセグメンテーションの先駆けSnakesの提案論文
➤ 検出したい対象を輪郭で囲みこれを初期輪郭
➤ 初期輪郭をある内部エネルギー、外部エネルギーの線形和として関数表現
- 内部エネルギー: 曲線自体がもつ性質を制御可能
- 外部エネルギー画像特徴量
➤ エネルギー関数の最小問題として扱うこと物体の輪郭を抽出

103
■ Indexing via color histograms
➤ ヒストグラム交差法 (Histogram Intersection)の提案論文
➤ 後にデータベース構築のための画像検索に多用
➤ 対象画像の全ピクセルにおいてRGBのヒストグラムを算出
➤ 対象画像のヒストグラムにおいて小さい輝度値を採用し合算
➤ ヒストグラム中の総画素数によって正規化
➤ Histogram Intersectionが1.0に近いほど，画像同士が類似

104
■ Steerable ﬁlters for early vision, image analysis,
and wavelet decomposition
➤ ステアラブルフィルタの提案論文
➤ 特徴記述子とエッジ検出に多用
➤ 各基底フィルタは少数の分離可能なフィルタの線形結合で計
算可能

105
■ Alignment by Maximization of Mutual
Information
➤ 画像における物体の姿勢を推定するEMMA Alignmentを提案
➤ エントロピーと相互情報量を評価する新規なアプローチ
➤ 物体のテクスチャの情報を用いずに推定
- 照明変化に対して頑健
➤ データに対する事前モデルを必要とせず，確率的近似法を用いてエントロピーを最大/最
小化が可能

106
■ In Defence of the 8-Point Algorithm
➤ Structure from Motion (SfM)で最重要である8点アルゴリズムの提案
➤ 多視点画像から3次元へ再構成するためには，内部カメラパラメータで
ある基礎行列の推定が必要
➤ エピポーラ拘束式に基づいて多視点画像から基礎行列を推定
➤ 各多視点画像における対応点(特徴点)を8点で基礎行列を推定するア
ルゴリズム

107
■ Bilateral Filtering for Gray and Color Images
➤ バイラテラルフィルタの提案論文
➤ 従来，画像の平滑化にはガウシアンフィルタが一般的であったが，エッジも平均化されて
しまうためエッジがぼやけた画像となる問題点
- 対象画素と輝度値の差が大きい画素まで考慮して平滑化することが原因
➤ 輝度値の差に基づいて重みを付与することでエッジを明確にすることを実現

108
■ A Metric for Distributions with Applications to Image Databases
➤ Earth Mover’s Distance (EMD)の提案論文
➤ 画像における色やテクスチャの分布間の距離を測定
➤ 背景
- 特徴量を獲得→量子化→ヒストグラムに基づきにパターン識別
- 基本的に量子化の大きさは固定←ここが問題！画像によっては非効率
➤ 各特徴と重みを用いて，分布間における各特徴量どうしの距離総和で算出
➤ Transportation Problemとして扱い，値が小さい → 分布間距離が近い
← 「砂漠」画像の検索の例
左→右: 黄色→青
下→上:コントラスト↑
高速に画像検索可能に！

109
■ Flexible Camera Calibration by Viewing a Plane
from Unknown Orientations
➤ いわゆるZhangのカメラ校正、現在も使用される金字塔
➤ カメラキャリブレーションはカメラの内部・外部パラメータ推定やレンズ歪み
補正を実施
➤ 既知パターンとしてチェッカーボードパターンを用いる
➤ 論文中では3D研究は「研究室レベルから実環境レベルへ」拡張されたと位
置付けている
■
OpenCVにも早い段階から実装されていた
http://opencv.jp/sample/camera_calibration.html

110
■ Texture Synthesis by Non-parametric Sampling
➤ ノンパラメトリックサンプリングを用いたテクスチャ合成
➤ 画素値は入力画像内のテクスチャが局所的に類似したパッチの中から
ランダムに選択
➤ 合成画像に類似した領域をテクスチャに基づいて探索し，テクスチャ画
像を準じ生成
➤ 類似度によりランダム画素選択を重み付け

111
■ Object Recognition from Local Scale-Invariant
Features
➤ Scale Invariant Feature Transform (SIFT)の提案論文
➤ 特徴点の検出＆特徴量の記述
➤ 回転・スケール変化に不変、証明変化に頑健な特徴

112
■ Fast Approximate Energy Minimization via Graph Cuts
➤ グラフカットにおける近似最小化手法 (α-β交換、α拡張)の提案
➤ １９９０年台後半にコンピュータビジョンにグラフカットが登場
- 主な問題: 計算コストの軽減、多値大域最小化等
➤ エネルギー最小問題として扱い、有向グラフの最小切断問題として最小解を求める
➤ 多値大域最小化には条件が存在し、コンピュータビジョンに適用する場合にはこれを満
たす場合が少数であるため、近似解を求めるアルゴリズムが必要
➤ α-β交換: 2つのラベルを選択し、処理時にあるサイトにのみ注目し交換のみを許容
➤ α拡張: αでないサイトをαに変換することのみ許容

113
■ Geodesic Active Contours
➤ Geometric Active Countersの発展で、画像のノイズや切れに対して頑強
に境界追跡
➤ Geometric Active Countersの定式に１つ項を追加
➤ 画像における境界部分の特徴も考慮した測地距離を最小化
➤ 画像が急激に変化する領域でのみ値をもつ

115
■ Unsupervised Learning of Probably Symmetric
Deformable 3D Objects from Images in the Wild
➤ 1枚の画像から3Dデータの正解ラベルなしに，教師なし学習の
枠組みで三次元形状を復元
➤ 入力画像を深度，アルベド，カメラ姿勢（６自由度），照明の4要
素に分解し，Encoder-Decoder（一部はEncoderのみ）から推
定
➤ 非対称な物体も復元可能に！
CVPR 2020 Best Paper Award
↑女性の前髪は非対称であるが，非対称性を表現した復元を実現

116
■ A Theory of Fermat Paths for Non-Line-of-Sight
Shape Reconstruction
➤ 視角外の物体形状を推測するFermat Flowを提案
➤ カメラの視角に存在しない物体を高精度センサからの情報に
基づいて復元

117
■ Taskonomy: Disentangling Task Transfer
Learning
➤ タスク間の類似性を転移学習の観点から調査した論文
- 例: 深度推定と法線推定どちらかを学習することで，もう一方は学習し
やすくなるのか？
➤ 26個のタスクの組み合わせで検証
➤ プロジェクトページの質がすごい！APIも備えられている
- http://taskonomy.stanford.edu/

118
■ Densely Connected Convolutional Networks
➤ アイデア：従来は直下の層としかなかったconnectionを増やす
ResNetのように入力を加算せずに結合することによって情報を保持
➤ Contribution
- Dense blockを用いたDenseNetを提案
- ResNetに比べパラメータを削減
- CIFAR, SVHN, ImageNetでSOTA

119
■ Learning from Simulated and Unsupervised
Images through Adversarial Training
➤ 実画像に近い合成画像を生成するSimGANの提案
➤ Reﬁnerで合成画像を実画像に近づけ，識別器で実画像 or合
成画像の識別
➤ GANとの差分
- lossに自己正則化項を加える
- ピクセル単位でadversarial lossを求める
- 過去の識別器を学習させる

120
■ Deep Residual Learning for Image Recognition
➤ 当時困難とされてきたニューラルネットワークの訓練を容易なものにするために、残
差学習のフレームワークとしてResNetを提案．
➤ ImageNetデータセットに対してVGGNetよりも8倍深い152層までの深さの構造で評
価(18, 34, 50, 101, 152 layer)
➤ 大幅なネットワークのレイヤ数増加と精度向上を実現(ILSVRC 2015で優勝)
➤ shortcut connection付きのネットワークで、パラメータ数・計算コストの抑制に寄与

121
■ DynamicFusion: Reconstruction and Tracking of
Non-rigid Scenes in Real-Time
➤ 汎用のセンサから検出した深度画像を融合することで，リアルタイムでの動的な動
きを3次元復元する手法を提案．
➤ 対象物の位置を捉えて再構築するだけでなく，得られたモデルに対して最新の深度
画像と位置合わせをすることによって，カメラの姿勢を推定．
➤ Sampled TSDFによってwarp ﬁeldを疎なノードの重み付きノードで表現．
➤ KinectFusionで対象でなかった「動的かつ非剛体」なシーンへの適用をリアルタイ
ム性を維持しながら実現.

122
■ What Camera Motion Reveals About Shape with
Unknown BRDF
➤ 双方向反射分布関数（BRDF）が未知の場合でもShape from
Motion（SfM）を実行
- 小領域/差分モーション状況下でもOK
➤ 心理物理学の知見「反射率が未知の場合でも動きから形状復
元可能」を実証する形となった

123
■ Fast, Accurate Detection of 100,000 Object
Classes on a Single Machine
➤ 10万カテゴリ物体認識システムの構築
➤ DPMによる特徴表現で精度0.2@mAP
➤ 単一コアマシンで20秒以下の処理速度

124
■ Real-Time Human Pose Recognition in Parts
from Single Depth Images
➤ Kinectにも載った距離画像からの人物姿勢推定手法の提案
➤ Random Decision Forestsと距離画像のピクセルペア特徴に
て領域推定→関節位置推定
➤ Xboxのハードで200fpsにて処理可能，しかも高精度
距離画像から人物領域を姿勢ごとに切り分けてい
る．尤度を計算した後にジョイントの重心計算．

125
■ A Simple Prior-free Method for Non-Rigid
Structure-from-Motion Factorization
➤ non-rigidの構造と動きの因数分解問題を解決するために「prior free」のシンプルな
手法を提案
➤ 本論文の手法は実装が簡単で小さな固定サイズのSDP（半無限計画）と線形の
Least-SquaresまたはTrace-Norm mini-mizationを解くだけで済む
➤ 大規模な実験により，non-rigid因子分解の既存の線形手法を凌駕
➤ この論文は、非剛体構造の動きからの抽出において、理論的に新しい知見を提供
するだけでなく、日常的に使える実用的なソリューションを提供するものである．

126
■ Eﬃcient Computation of Robust Low-Rank
Matrix Approximations in the Presence of
Missing Data using the L1 Norm
➤ 特異値分解により低ランク近似する方法は欠損データや外れ
値がある場合には適用不可
➤ 上記の問題を解決すべく，欠損データがある場合にL1ノルム
を最小化するための低ランク近似の計算方法を提案
- Wibergアルゴリズムを一般化

127
■ Single Image Haze Removal Using Dark Channel
Prior
➤ 霧がかった画像（Haze Image）からノイズ除去（Dehaze）する方法
を提案
➤ 霧無し屋外画像（Haze-free outdoor image）のピクセル統計量
（Dark Channel Prior）を事前情報としてDehazeを実行
（左）入力画像、（中） Dehaze後の画像，（右）復
元された距離画像． Haze imageは少なくともひと
つのカラーチャンネルがかなり低い輝度値であ
ることを発見，ここから画像復元のためのモデ
ルを設計．
暗い輝度値を含むピ
クセル（Dark
Channel）の統計量．
75%のDark Channel
のピクセル値が25以
下．ここからDark
Channel Priorを提
案．

128
■ Beyond Sliding Windows: Object Localization by
Eﬃcient Subwindow Search
➤ 成功している物体認識の多くは，オブジェクトの位置に関する情報を提供しない２値
分類である．
➤ localizationを行うためにはsliding window法を用いた方法が考えられるが，分類
関数の膨大なサブウィンドウ候補セットで評価しなければならないためコストが大き
くなる．
➤ 本論文では可能な全ての部分画像に対して大規模な分類関数を効率的に最大化
することができる，シンプルで強力なbranch-and-bound法を提案．
➤ 高速化されたことにより、空間ピラミッドカーネルを用いたSVMや、χ2距離に基づく
最近傍分類法など、従来は遅すぎると考えられていた分類法を、位置検出に用いる
ことができる．(PASCAL VOC 2006データセットでSOTA)

129
■ Global Stereo Reconstruction under Second
Order Smoothness Priors
➤ 3D物体の滑らかさに関する2次事前分布はグラフカットによる
ステレオ再構成には適用できなかった
➤ triple cliquesが最適化困難
➤ 「QPBO」アルゴリズムに基づいてα拡張を拡張

130
■ Dynamic 3D Scene Analysis from a Moving
Vehicles
➤ 本論文では，移動する自動車からの動的なシーンの解釈のために，完全に自動化
されたシーン・ジオメトリ推定，2Dオブジェクト検出，3Dローカリゼーション，トラジェ
クトリ推定，トラッキングを統合したシステムを紹介
➤ 車の上に設置されたキャリブレーション済みのステレオリグからの2つのビデオを唯
一の入力としている
➤ これ等のビデオからStructure-from-Motion（SfM）とシーンジオメトリをリアルタイム
で推定
➤ 混雑した都市部を自動車が通過するという困難な実世界のデータを用いて、本シス
テムの性能を実証した

131
■ Putting Objects in Perspective
➤ 正確な物体検出を実現するために各シーンのcontextに沿っ
た検出手法を提案
- 道路があるから車，車があるから道路等
➤ 低解像度，scene context，カメラ位置の関係をモデル化
- カメラ位置までモデル化することで，遠近法による物体のスケール/解像
度に対して対処

132
■ Real-Time Non-Rigid Surface Detection
➤ 本研究では変形可能な表面をリアルタイムで検出する手法を提案
➤ この手法は，物体の変形していない画像と，物体を検出したい画像との間で，広い
ベースラインのポイントマッチを行うことから始める
➤ このマッチングは、物体の検出だけでなく、一方から他方への正確なマッピングを計
算するためにも使用される
➤ また，大きな変形，照明の変化，モーションブラー，オクルージョンに対してロバスト
で，2.8GHzのPCで10フレーム/秒の速度で動作する
➤ 変形可能なメッシュと適切に設計されたローバスト推定器を組み合わせることで
，95%のエラー率で誤ったマッチを拒否することができる

133
■ Programmable Imaging Using a Digital
Micromirror Array
➤ programmable imaging systemを提案することによる，カメラなどの幾何
学的特性を大幅に制御可能
- ハイダイナミックレンジ、全方位、多視点などのイメージングシステムは
機能変更に伴い，システムの大幅な変更が必要
➤ マイクロミラーをプログラムにより制御することで，必要に応じて光を選択
し、変調可能

134
■ Object Class Recognition by Unsupervised
Scale-Invariant Learning
➤ 本研究は，ラベルのない，セグメント化されてない複雑なシーンからスケールに依存
しない方法で物体クラスモデルを学習し，認識する手法を提案
➤ 物体は柔軟な部品の集りとしてモデル化され，物体の全ての側面(形状，外観，オク
ルージョン，相対的なスケール)に対して確率的な表現を用いる
➤ エントロピーベースの特徴検出器を用いて、画像内の領域とそのスケールを選択．
学習では，スケール不変オブジェクトモデルのパラメータを推定する
➤ これは最尤推定での期待値最大化を用いて行われ，認識ではベイズ方式を用いて
画像分類を行う．様々なデータで優れた結果を収めた

135
■ Morphable 3D Models From Video
➤ Nonrigid 3D structure-from-motionと2D optical flowは、どちらもテンソル分解問
題として定式化できる
➤ この2つの問題は、ノイズの多いアフィン変換によって等価にすることができ、構造
化された行列分解によって解く、強度から見た非剛体の構造問題を組み合わせるこ
とができる
➤ これらの問題は、ランク制約、ノルム制約、および強度値の不確実性に対する統合
を慎重に用いることで解決され、不確実性下のSVD、不確実性下のファシリティート
リゼーション、非剛体因子分解、および亜空間オプティカルフローに対する新しいソ
リューションが得られた
➤ 低解像度・低テクスチャの”founded video”を用いて，従来のアルゴリズムでは失
敗していたトラッキングや3D再構築の結果を得ることができた

136
■ Real-Time Tracking of Non-Rigid Objects using
Mean Shift
➤ 視覚的特徴に基づいて非剛体の物体をリアルタイムに追跡する手法を提案
➤ 手法
- 各フレームにおいてカラーヒストグラムを算出
- 隣接フレームにおいてBhattacharyyaにより類似度を算出
- Mean Shitに基づいて物体を探索
➤ カーネル幅を適切に設定することで、現実的な時間で物体追跡可能
➤ 多種多様な色やテクスチャを持つ物体に対して適応可能
➤ 部分的なオクルージョン，回転，カメラ位置の変化に対して頑健

137
■ Robust Hierarchical Algorithm for Constructing
a Mosaic from Images of the Curved Human
Retina
➤ 網膜手術を支援するアルゴリズムの提案
- 1999年時点で手術成功率50%，失明の原因となっていた
➤ 個体差がある網膜の曲率を2次曲面としてモデル化
➤ フレーム間の大きな動きを処理し、キャリブレーションを必要と
せず完全に自動化！

138
■ What is a Light Source?
➤ 本論文では、自由空間における光線のセットのディメンショナルな分析に基づ
いて、光源の種類を分類するためのフレームワークを提示
➤ 具体的には，4-0光源ハイパーキューブを導入し，その中に異なるタイプの光源
を組み込み，比較することができる
➤ また，標準的な光源の定義をエミッターとして一般化した，新しい光源の定義を
提示

139
■ DeepCap: Monocular Human Performance Capture Using Weak Supervision
➤ human perfofmance capture(HPC)は映画制作やVRなどで多くの応用方法がある
➤ これまでのHPCはフレーム間の対応関係を学習できてなくて人の動きを回復できなかっ
たりしていた
➤ 人の動きを完全に再構成するにはより厳密なgroud truthを付与する必要があるが本論
文はその必要性を否定し，single view を学習したPoseNetの結果をmulti-viewの弱教
師として利用し，HPCの精度を向上した
CVPR 2020 Best Paper Honorable Mention Award

140
■ A Style-Based Generator Architecture for Generative Adversarial Networks
➤ GANは品質の高い画像を再構成できる一方で，潜在空間という幾何学的な空間でデー
タを構造を理解しようとする試みがある．
➤ 現在のGANの構造は潜在変数空間に対しての理解が十分に進んでなく，良い潜在変数
空間を議論のための定量的な評価手法もない
➤ 本論文では，path length metricとlinear separabilityという二つのmetricを提案し，従来
のGANがstyleを生成するのに適してないことを示し，正則化としての役割を機能させる
ことを示す．また，中間層にノイズを加えたGAN構造がstyleを再構成するのに良いこと
を示した．
ノイズを入力したときの layerごとの効果
(a) :Noise is applied to all layers
(b) :No noise
(c) :Noise in fine layers only
(d) :Noise in coarse layers only

141
■ Learning the Depths of Moving People by Watching Frozen People
➤ 既存の物体のdepthを復元する手法は物体の動き強く制約があり，まばらなdepthしか
復元できなかった．
➤ 本論文では，背景は動いているけど，人間が多様なポーズで固まっている人々の何千も
のなインターネットビデオから学習することで，単眼のカメラとシーン内の人物が自由に
動いているシーンにおいて高密度のdepthを予測する方法を提案する．

142
■ Deep Learning of Graph Matching
➤ Graph matching の問題は組合せ最適化，機械学習，コンピュータビジョンなどの多様な
分野の基本問題であり，ノード間の関係とその近傍構造の両方の表現は極めて重要で
ある．
➤ 本論文ではGraph Matching のプロセスの全てのパラメータを学習することを可能にす
るEnd to End モデルを提案する．
➤ 本手法の課題としては損失関数からマッチング問題を解決するための最適化問題を考
え，それを勾配の伝搬を可能とする方法で定式化することにある．
➤ Deep Learning を用いたモデルは従来の特徴階層に基づくモデルより優れていることが
本論文で示された．

143
■ SPLATNet: Sparse Latticorks for Point Cloud Processing
➤ レーザースキャナーなどの3Dセンサーで得られたデータは，主に点群やメッシュといった
不規則なフォーマットであることが多い．
➤ 点群の解析は，ロボットの操作や自律走行などに使用される．
➤ 本研究は，点群処理のための新しいネットワーク構造を開発を目的とする
➤ 単純な畳み込み演算は点群データにおいてメモリと計算コストの面で問題である
➤ 本研究でBCLが点群データに適しを持っていることが判明
➤ この結果，点群データの2-3Dの共同推論が可能となった．

144
■ CodeSLAM - Learning a Compact, Optimisable Representation for Dense Visual
SLAM
➤ リアルタイム3D認識システムにおける形状表現は，重要な課題となっている．
➤ 密なマップは完全な表面形状をキャプチャは次元が高いため計算コストがかかり，厳密な確率
的推論には適さない．
➤ 疎な特徴に基づく表現は，これらの問題を回避するがシーンの情報の一部しか捉えられないの
で，位置特定にのみ有用である．
➤ 本論文では，一枚の強度画像と少数のパラメータで構成されるコードを用いて，コンパクトであり
ながら密なシーン形状である新しい表現を提案する．
➤ depthの特徴表現が将来のSLRMシステムに向けて重要な進歩をもたらすことを示した

145
■ Efficient Optimization for Rank-Based Loss Functions
➤ インターネットで使用される情報検索システムの精度は平均精度(AP)や正規化割引累
積利得(NDCG)などの複雑な損失関数を用いて測定されることが多い．
➤ 通常の機械学習手法では，損失関数を最小化することで最適なモデルのパラメータを推
定することができるがAPやNDCGは非微分・非分解な損失関数であるためSGDなどの
勾配ベースのアルゴリズムが使用できない．
➤ 本論文では，この問題を解決するために，APやNDCGの大規模なクラスい対する新しい
最適化アルゴリズムQuicksort Flavored Optimizationを提案する．
➤ 単純な損失関数と比較して，同等の学習時間を必要としながらも，非常に優れた結果を
得ることができた．
QSだと単純な0-1損失と同等の計算時間

146
■ Annotating Object Instances with a Polygon-RNN
➤ 画像のセマンティックセグメンテーションはCVで非常に注目されており，ほとんどの手法
がニューラルネットワークを用いている．
➤ モデルの性能はデータ量と強く相関する
➤ このため，大規模なデータセットのアノテーションを行う必要があるがセマンティックセグメ
ンテーションは，特に時間と費用がかかる
➤ 本論文では，対象物を含んだパッチを入力とすることで，対象物を囲むポリゴン頂点を順
次生成するようなネットワークを提案している．
➤ 本手法は必要に応じてポリゴンの頂点を変更することができ，アノテーたが望む正確な
セグメンテーションを実現できる

147
■ YOLO9000: Better, Faster, Stronger
➤ 汎用的な物体検出は，高速かつ正確で，様々な物体を認識できることが求められてい
る．
➤ 従来の物体検出は速度，精度の面で向上しているが少ない物体しか扱えない問題があ
る．またデータ作成のコストがかかる．
➤ そこで本稿では，物体検出を画像分類のレベルに拡張するために，画像分類データセッ
トと物体検出データセットを学習する共同学習とマルチスケール学習法により，速度と精
度のトレードオフが容易なった．(色々工夫をしている)
➤ その結果YOLOv2は物体検出で最先端の性能であることを実験的に示した．

148
■ Efficient Globally Optimal Consensus Maximisation with Tree Search
➤ Maximum consensusはコンピュータビジョンにおけるロバスト推定のための一般的な評
価基準の一つ．
➤ Maximum consensusはRandom sample consensus(RANSAC)が主流だったが，得ら
れた解が最適であるかどうかの絶対的な確信がなかった．そのため，BnBとうい手法が
活用されていたのだが，解を求めるのに時間がかかる．
➤ そこで，本稿ではA* 探索アルゴリズムを用いることで最速で最適な解を見つけ出す方法
を提案した．

149
■ Fully Convolutional Networks for Semantic Segmentation
➤ CNNは認識の進歩を促進し，画像全体の分類精度を向上させるだけでなく，構造化され
た出力がローカルタスクでも活用されている．
➤ CNNを発展させる自然な次のステップは粗い推論から細かい推論で，そのタスクとして
ピクセル単位で予測を行うことである．
➤ 本論文はピクセル単位にラベルがついた画像をFully Convolutional Networks(FCN)で
End to Endで学習することで，機械学習が追加の機械的処理無しに最先端のセグメン
テーション技術を超えることを示した．

150
■ Picture: A Probabilistic Programming Language for Scene Perception
➤ 生成的な確率モデル，すなわち「analysis by
synthesis」アプローチは、豊富なシーン構造を捉
えることができるが、識別的なモデルに比べて適
用範囲が狭い．
➤ 理由は，一般的に低速な近似推論が用いられる
ことと，の構築と推論には，ロバストで信頼性の高
い結果を得るために，問題に応じたかなりのエン
ジニアリングが必要であることである．
➤ そこで，本稿ではPictureというシーン理解のため
の確率的プログラミング言語を提案し，研究者が
複雑な生成的ビジョンモデルを表現しながら、高
速な汎用推論装置を用いて自動的に解決するこ
とを可能にした．

151
■ 3D Shape and Indirect Appearance by Structured Light Transport
➤ 光は反射や屈折，鏡面反射や拡散相互反射，体積散乱や因果関係の形成など，同じ
シーンの中でこれらすべての現象を起こすことがある．
➤ これらの現象を従来のカメラで分析することは難しく，光の移動が予測できないほど変化
する場合には，さらに難しい問題である．
➤ また，これらの問題は直接光や低周波光を前提とした構造光技術(3Dレーザースキャニ
ングや，active triangulation，フォトメトリックステレオなど)の普及を妨げる要因でもあ
る．
➤ 本研究は，複雑な光輸送を示すシーンを
解析するための一歩として，それらを
リアルタイムでイメージングするための
フレームワークを開発した
間接照明の生映像からのスナップショット→

152
■ Lost! Leveraging the Crowd for Probabilistic Visual Self-Localization
➤ 自己位置推定で最先端の技術はGPSであり，この技術は自動運転などの日常業務を支
援する自律システムを構築する上で重要である．
➤ しかし，GPU信号は常に利用できるわけでなく，高層ビルやトンネルなどで位置が不正
確になる可能性がある．
➤ この問題を解決するために3D点群と視覚的な特徴が利用されており，GPSとの組み合
わせで高性能であるが，計算，メモリ，通信の必要性を考えると世界規模での計算を維
持できるか不明である．
➤ 本稿では，車両に搭載されたカメラと，無料のオンライン地図を利用し低コストで自己位
置確認アプローチを提案した．
➤ 高速道路，郊外，混雑した都市のシーンなど，様々なシナリオでこのアプローチの有効
性を実証し，わずか20秒の走行で3mの精度で自車の位置を特定できることを示した．

153
■ Discrete-Continuous Optimization for Large-scale Structure from Motion
➤ 2D画像のような構造化されていない画像から3Dモデルを構築するためには「Structure
from Motion(SfM)」という技術が利用されている．
➤ 従来のSfMは小さな箇所からの再構築から始まり，カメラやシーンポイントの追加を繰り
返して，高精度にするインクリメンタルな手法が用いるが，画像数の増加に伴ってスケー
リングが困難になり，また，局所的にドリフトしたり，悪い極小状態に陥ったりする可能性
がある．
➤ 本論文では，離散-連続のハイブリッド最適化を用いて粗い初期解を見つけ、バンドル調
整を用いてその解を改善することに基づいた、SfMの代替的な定式化を提案する．
➤ いくつかの大規模な写真でテストをし，バンドルの増分調整で生成されたものと同等以上
のモデルを、よりロバストに、かつわずかな時間で生成できることを示した．

154
■ Understanding and evaluating blind deconvolution algorithms
➤
➤ Blind Deconvolutionとは，ぼかした核が未知の場
合に，ぼかした画像の鮮明なバージョンを復元する
こと．
➤ Blind Deconvolutionは，数多くの論文が発表してい
るが，実世界の画像での結果はほとんど得られてい
ない．
➤ また，最近の研究は、自然な画像統計を用いること
でぼかし前の画像を特徴づけることで不自然さを解
決した．
➤ そこで，本論文ではBlind Deconvolutionアルゴリズ
ムを理論的及び，実験的に分析・評価を行った．
➤ その結果，単純なMAPx,kの限界を説明し，明示的
なエッジ検出が解決策の1つであることを示した．
➤ 定量的な評価では，変分ベイズ近似法が既存の近
似法を大幅に上回っていることがわかった．

155
■ Spectral Matting
➤ Digital mattingとは，画像から前景となる物体を抽出し，その物体に覆われている核が
その不透明度を推定する作業であり，この操作は抽出された前景を新規の背景に合成
することを可能にするため，映画制作，映画の特殊効果において重要なツールである．
➤ 本研究は自然画像のMattingのための新しい手法として提案
➤ これは適切に定義されたラプラシアン行列の最小固有ベクトルから，曖昧なmat成分を
基底を自動的に計算する手法である．
➤ 教師なし，あるいは，少量のユーザー入力に基づいて，前景Mattingを簡単に構築する
手法として使用できる．

156
■ Human Detection via Classification on Riemannian Manifolds
➤ 静止画中の人物検出は，物体検出の中でも最も難しい例の一つと考えられている
➤ 理由は人体の関節構造や多様な外観，証明やポーズの複雑さが原因である．
➤ 本論文では，物体検出で使われている共分散行列をリーマン多様体上の特徴としてみ
なすことで，従来法のユークリッド空間上の特徴より性能が向上することを実験的に示し
た．
➤ 特徴空間の構造をリーマン多様体と仮定した方が精度が上がったため，別タスクへの精
度向上可能性についても述べている．
右の図は共分散記述子の説明図
入力画像IからマッピングΦを用いてd次元
の特徴画像Fを構築する．
検出窓をRとし，r_1，r_2は2つの可能な記
述子サブウィンドウである．

157
■ Incremental learning of object detectors using a visual shape alphabet
➤ 物体カテゴリ認識の論文では，各カテゴリとに個別に新しいモデルを学習するモデルや
学習方法が提案されている
➤ 本論文では複数の物体カテゴリ，または，1つのカテゴリを複数の側面に対するモデル化
を検討し，新しいモデルが段階的な恩恵を受けれるように工夫する．
➤ そのために，本論文では視覚的なアルファベット表現を導入
➤ この表現は段階的に学習することができ，物体の教会の破片とセントロイドとの関係を可
視化することができる．
➤ 形状特徴を共有することで必要な特徴数が減るだけでなく，detectionの精度も向上し
た．

158
■ A non-local algorithm for image denoising
➤ 画像のノイズ除去技術
➤ ノイズ除去のためにこれまでは局所的に平均を取ることを行っていた
➤ テンプレートマッチングを行いその結果と画像の畳み込み計算を行うことでエッジを残す
ことに成功した
pの周りで平均を取る際に、 q1,q2は似通っている
ため大きな重みを、q3とは異なるため小さな重み
をかけて平均を取る

159
■ Bi-layer segmentation of binocular stereo video
➤ ステレオカメラからの前景抽出
➤ ステレオカメラの差分情報での前景抽出、単画像のカラー・コントラストからの前景抽出
は行われていた
➤ ステレオカメラの差分情報と各画像のカラー・コントラスト情報を組み合わせて高精度な
前景抽出を行った

160
■ Video epitomes
➤ ビデオのepitome（短い、小さい抜き出し）の解説
➤ ビデオの重要部分を時間的、空間的に抜き出せることが分かっていた
➤ epitomeを用いることで映像処理が高速に行えること、欠損、ノイズ等に強い処理が行え
ることを実験的に証明した
epitomesの例
(a)のようなビデオからの抜き出し
(b)は空間的な抜き出し
(c) は空間次元を(a)と揃えたもの
(d)は(c)より構造化され分かりやすく
なったepitomes

161
■ Constraint on Five Points in Two Images
➤ 2台の同じ対象を撮影した時、カメラの位置関係を計算するエピポーラ幾何学
➤ 現実の問題で言うと特徴量抽出等で共通の点を探した後の話
➤ 7個の点があればカメラ位置が固定され、配置にも条件があることは知られていた
➤ 7個未満の点の配置には制限がないと思われていた
➤ 5個の点の配置にも制限があり、カメラ位置も拘束されることを証明した
5点の位置が対応するカメラ位置の存
在しない2枚の画像の例
5点から拘束されるカメラ位置の例
赤線のみがエピポーラ場所となりうる

163
■ SinGAN: Learning a Generative Model from a Single Natural Image
➤ GANは高次元のデータ分布をモデル化する上で，飛躍的な進歩を遂げていたが，複数
のオブジェクトクラスが存在する画像をモデル化するのは困難である．
➤ 本稿では，1枚の自然画像からパッチを切り出し，それをMulti-scaleで敵対的学習を行う
ことでパッチの分布を獲得．
➤ Multi-scaleの枠組みはグローバルな構造と微細なテクスチャを維持することができる．
ICCV 2019 Best Paper Award (Marr Prize)

164
■ Mask R-CNN
➤ インスタンスセグメンテーションは画像内の全てのオブジェクトを正しく検出すると同時に
，各インスタンスを正確にセグメンテーションするため困難である．
➤ そこで，本研究では物体検出とセマンティックセグメンテーションの要素を組み合わせる
ことで精度向上を試みた．
➤ この手法は従来法であるFaster R-CNNを拡張したもので，分類とバウンディングボック
スの予測として並行して，インスタンスセグメンテーションを加えたものである．
➤ 本手法はセグメンテーションタスクを増やしているにもかかわらず，推論速度が速く，従
来法より精度が高い．
ICCV 2017 Best Paper Award (Marr Prize)

High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文

High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文

Similar to High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文 (20)

Recently uploaded

Recently uploaded (11)

High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文