2. 【1】
S. Xie, T. Yang, X. Wang, Y. Lin, “Hyper-class Augumented and Regularized Deep Learning for Fine-grained Image
Classification”, in CVPR2015.
Fine-grained 認識(FGIC: Fine-Grained Image Classification)のための CNN 学習についての研究.Intra-class 内(車の車種や鳥の種類の認識など)の特
徴表現が重要であり,それらをいかに捉えて識別するかが詳細画像認識においては重要な課題である.
構造には super-type 表現(e.g. 犬の下にさらに下位の種類がある)と,factor-type 表現(e.g. 別角度から撮影された車)があると主張している.多タスク学習
の概念をディープラーニングに導入して super-type や factor-type な表現をいかに学習して詳細画像認識に有効な特徴量を取り出すかを基本的な課題と
する.下図は CNN の構造を示す.
Link(s) 論文ページ:
http://vcl.ucsd.edu/~sxie/pdf/hyper-cvpr2015.pdf
著者ページ:
http://homepage.cs.uiowa.edu/~tyng/
3. 【2】
Y. Yang, C. Fermuller, Y. Li, Y. Aloimonos, “Grasp Type Revisited: A Modern Perspective on A Classical Feature for Vision”, in
CVPR2015.
手で握ることを認識する問題.手を主体とした人物の行動はもちろん,人物意図推定にもつながるという枠組み.従来では身体全体から取得されていた
行動も,指先などの細かい動作も含めて認識できる可能性がある.ここで取り扱う人物の把持タイプは左図の通りである.例では Cylindrical, spherical,
hook, pinch, tripod, lumbrical というタイプがある.これらの認識は,CNN ベースの特徴量を用いることで 59%の精度で認識できている.(実験では
HOG+BoW+SVM/RF による比較を行っており,SVM では 42%, RF では 36%であった)クラスとしては 6 種類と,それ以外というクラス構成である.このタイ
プが認識できると,65%の確率で意図が推定できるとしている.意図のクラスとは force-oriented, skill-oriented, casual の 3 タイプである.右図が意図推定の
3 タイプである.
Link(s) 論文ページ:
http://www.umiacs.umd.edu/~yzyang/paper/CVPR2015Grasp.pdf
著者ページ:
http://www.umiacs.umd.edu/~yzyang/
4. 【3】
C. Gong, D. Tao, W. Liu, S. J. Maybank, M. Fang, K. Fu, J. Yang, “Saliency Propagation From Simple to Difficult”, in
CVPR2015.
Saliency は画像中でもっとも魅力のある物体のことを指している.現在,もっとも適用されている手法が propagation method である.superpixel が saliency
には採用されており,あらかじめラベル付けされた superpixel との対応により saliency を決定づけている印象である.しかし,これは画像の特性によっては
ミスが発生してしまう可能性もあり,モデルの再考が必要である.提案手法では,propagation の流れを,評価の質により最適化する必要があると述べている
.感覚的には複雑な領域よりもシンプルで信頼性の高い位置に関して顕著性を上げるという方法である.この枠組みは Teaching-to-Learn and Learning-to-
Teach (TLLT)と呼ばれており,こちらも superpixel を適用しているが,informativity, individuality, inhomogeneity, connectivity の評価値を統合により
superpixel のラベルを更新する.さらには更新したラベルをさらに最適化するために領域情報を教え込むことにより最適化の質を高める.この繰り返しにより
領域をより精度よく求めていく.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gong_Saliency_Propagation_From_2015_CVPR_paper.pdf
著者ページ:
https://sites.google.com/site/chengongshomepage/
5. 【4】
H. Possegger, T. Mauthner, H. Bischof, “In Defense of Color-based Model-free Tracking”, in CVPR2015.
Model-free(モデルを持たない)なカラー表現によるオンライントラッキングシステムを提案する.従来の画像ベースの追跡では類似するアピランスの物体
追跡が多数であったが,似たようなアピアランスの物体が画像中に存在する際には追跡が困難になってしまう.この問題を解決するためにあらかじめ識別
性能が高くなるような領域を囲んで追跡する.まずは追跡している物体をいかにその周囲の背景と切り離すかを考慮する.さらにはロバストに追跡するため
に進行方向に類似するアピアランスの物体がないか,のリスクを排除する必要がある.背景との分離性を良好にするために Bayes 識別器を適用する.さら
にはスケールを特定するために Tracking-by-detection ベースの追跡を行い,non-maximum supression を行うことでウインドウを統合し追跡物体へのフィッ
ティングを行う.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Possegger_In_Defense_of_2015_CVPR_paper.pdf
Vimeo:
https://vimeo.com/121649922
6. 【5】
R. Tao, A. W. M. Smeulders, S.-F. Chang,“Attributes and Categories for Generic Instance Search from One Example”, in
CVPR2015.
1つのクエリサンプルデータから,汎用的にサーチできるかという問題.想定としては,一枚の画像を入力として,類似する画像を検索する.建物などの大
規模な物体を想定した時の問題として,その裏側のデータがないことにある.人間はそれをイメージにより作り出すことが可能であるが,それをコンピュータ
にどうやって学習させるか.それは attribute を指標として検索をかけることであると説明している.ここで比較のためには VLAD や Fisher Vector, Deep
Feature などを Oxford5k dataset や著者らが用意したシューズのデータセット(CleanShoes, 6624 枚うち 1000 枚が CleanShoes ではない)にて評価した.結
果的には attribute による特徴表現は他の特徴ベクトルよりも低次元で高精度な識別性能を達成し,高精度に検索ができることがわかった.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Tao_Attributes_and_Categories_2015_CVPR_paper.pdf
著者ページ:
https://staff.fnwi.uva.nl/r.tao/publication.html
7. 【6】
H. Kwon, Y.-W. Tai, S. Lin, “Data-Driven Depth Map Refinement via Multi-scale Sparse Representation”, in CVPR2015.
Kinect の普及により簡易的に距離画像を取得できるに至っているが,その質の確保が困難である.低解像な距離画像からより高解像な距離画像を得る
ための手法を提案する.ここでは multi-scale dictionary learning を行う.ここで,辞書学習において,距離画像に連続性がないこと,辞書サイズが大きくな
ること,他の階層のデータにおいて特徴の幾何的な性質が変わることが挙げられる.このため,RGB-D における類似度計算の指標や degradation variation
の導入により密なスケール階層において適切に情報を削減することができる.また,スケール毎に辞書を用意して,さらには距離画像のリファインメントをす
る.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Kwon_Data-Driven_Depth_Map_2015_CVPR_paper.pdf
プロジェクトページ(コード):
https://sites.google.com/site/datadrivendepthcvpr2015/
8. 【7】
H. Kwon, Y.-W. Tai, S. Lin, “Data-Driven Depth Map Refinement via Multi-scale Sparse Representation”, in CVPR2015.
RGB-D を用いた物体の姿勢推定問題.RGB-D において,距離画像は RGB データよりもアピランス情報が少なく,グローバル特徴という面では識別性
能が低い.しかし,平面や 3 次元点群が取得できるという意味において有益な情報を取得可能である.
下図は処理フローである.RGB-D を入力画像としており,CAD をモデルとしてトラッキングを行う.ベストマッチの物体座標を描画,feature distance を計
算し,ピクセル毎の整合性を計算して姿勢を決定する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zach_A_Dynamic_Programming_2015_CVPR_paper.pdf
Vimeo:
https://vimeo.com/125366502
9. 【8】
J. Hosang, M. Omran, R. Benenson, B. Schiele, “Taking a Deeper Look at Pedestrians”, in CVPR2015.
歩行者検出に CNN を用いる.現在までの最高精度を出している手法はブースティングの概念における decision trees であるが,この可能性をさらに拡げ
るために CNN ベースの歩行者検出を提案する.ここでは convnet の構造を変更しながら歩行者検出のデータセット caltech や KITTI dataset にて試行す
る.ベースには CIFAR-10 や AlexNet のモデルを適用して,10^5~10^7 のパラメータ数で学習する.学習サンプル数が少ない場合には CIFAR-10(4 層)
の構造が性能が高かったが,より画像枚数が多くなってくると AlexNet(8 層)の方が良好な性能を示した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/2B_080_ext.pdf
著者ページ:
https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/people/jan-hosang/
10. 【9】
C. Ciliberto, L. Rosasco, S. Villa, “Learning Multiple Visual Tasks while Discovering their Structure”, in CVPR2015.
検出・識別,デノイジングやインペインティングなど,複数の課題があるが,個別に問題を解くよりも,同時に問題を解いた方がメリットが得られるという提案
.マルチタスク学習を導入して解くこととする.さらに,事前情報が全くない場合にも,パラメータを同時に解くことができるので非常に効果的であることがわ
かる.ここでは問題によってカーネルのパラメータを調整する separable kernels を適用する.相関ベクトルや,タスク間の関係性を評価指標として計算する
.このように,タスク間のパラメータを同時に解く手法として sparse kernel マルチタスク学習 (SKMTL)を提案している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/1A_015_ext.pdf
11. 【10】
Z. Huang, R. Wang, S. Shan, X. Chen,“Projection Metric Learning on Grassmann Manifold with Application to Video based Face
Recognition”, in CVPR2015.
映像からの顔認識問題に,projection metric learning を適用した.なお,多様体学習の手法 Grassmann 法も用いている.
旧来の手法では,Grassmann manifold により空間を生成した後に高次元のヒルベルト特徴空間に射影する.さらに,その高次元空間から低次元の空間
に落とし込むことで識別性能の高い特徴ベクトルが完成する.
提案手法においては,Grassmann manifold により空間を生成した後で直接識別性能の高い空間に落とし込む.Mahalanobis-like な行列を導入すること
で,カーネルヒルベルト空間のような高次元空間を経ずに識別性能が高い特徴空間を生成する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Huang_Projection_Metric_Learning_2015_CVPR_paper.pdf
12. 【11】
N. Naik, A. Kadambi, C. Rhemann, S. Izadi, R. Raskar, S. B. Kang, “A Light Transport Model for Mitigating Multipath
Interference in Time-of-flight Sensors”, in CVPR2015.
ToF カメラのエラーの主な原因は Multipath Inference (MPI)であり,これは複数の反射光がピクセルに映し出されることによるものである.MPI は自然な
シーンでも,複数の反射光が存在する環境や反射光が拡散する場面(顔など)にて発生する.これをダイレクトかつグローバルに phase と amplitude に分割
し,MPI による距離画像の誤差を小さくする.実験では Kinect と赤外線プロジェクタを用いている.複数の反射やサブ表面での分光を考慮してノイズを除
去した.高価なセンサを用いることなく,高精細な距離画像を生成できることを示した.
Link(s) 論文ページ:
http://web.mit.edu/naik/www/assets/pdf/naik_mpi_cvpr_15.pdf
著者ページ:
http://web.mit.edu/naik/www/
13. 【12】
S. Kaltwang, S. Todorovic, M. Pantic, “Latent Trees for Estimating Intensity of Facial Action Units”, in CVPR2015.
入力の動画像から,どの Facial Action Units (FAU: 顔のアクションユニット)がどれくらいの強度で生起しているかを推定する.Latent Tree (LT)を用いるこ
とで FAU の強度を推定することができるとしており,LT の構成は Tree の上位階層が隠れ変数でリーフノードにて観測情報である顔のランドマークを,また
非観測情報である FAU の強度を推定する.複数の FAU を同時に推定すること,構造学習であることが強みであるといえる.構造学習では顔から取得す
るランドマークと FAU,さらには潜在的な上位ノードのつながりを計算する.
Link(s) 論文ページ:
http://ibug.doc.ic.ac.uk/media/uploads/documents/kaltwang2015latent.pdf
ポスター:
http://web.engr.oregonstate.edu/~sinisa/talks/cvpr15_fau_poster.pdf
14. 【13】
S. Leonardos, R. Tron, K. Daniilidis, “A Metric Parametrization for Trifocal Tensors with Non-Colinear Pinholes”, in CVPR2015.
Trifocal Tensor は 3 カメラにて得られる拘束を用いたポイントや線の対応づけを行う手法である.この論文では,キャリブレーションされたカメラから
Trifocal Tensor の新しいパラメータ推定方法について調査する.
最適化により Trifocal Tensor の cost function を最小化し,Weizsfeld アルゴリズムを用いて trifocal manifold における点を推定する.RANSAC ほどは良
くならないが,パラメータの調整が必要なく良い推定地に到達できる.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Leonardos_A_Metric_Parametrization_2015_CVPR_paper.pdf
15. 【14】
C.-G. Li, R. Vidal,“Structured Sparse Subspace Clustering: A Unified Optimization Framework”, in CVPR2015.
画像は高次元空間ではあるが,低次元の空間に射影してクラスタリングが可能である.動物体の動線の association や複雑な光源での顔画像空間から部
分空間を取り出してクラスタリングする課題などが考えられる.この論文では,2 段階の最適化を統合するフレームワークを考案する.クラスタリングと
affinity matrix を同時に推定することで,それを実現しようとする試み.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_Structured_Sparse_Subspace_2015_CVPR_paper.pdf
16. 【15】
L. Mai, Feng Liu, “Kernel Fusion for Better Image Deblurring”, in CVPR2015.
カメラのデブラーに関する報告.より高度なブラー除去のための提案を行っている.アイディアとしては,複数のデブラー手法を合成する際に複数のカー
ネルを用いることである.従来では重み付き平均を行うことにより複数の手法を組み合わせてきたが,提案手法ではデータドリブンでいかに複数の結果を
統合するかを考案する.ここに Gaussian confitional random fields (GCRF)を用いることで,カーネルによる統合を学習ベースで行うことができる.下図では
従来法との結果を示しており,右の提案手法は効果的に文字まで含めて復元ができている.
Link(s) 論文ページ:
http://web.cecs.pdx.edu/~fliu/project/kernelfusion/
17. 【16】
C. Hane, L. Ladicky, M. Pollegeys, “Direction Matters: Depth Estimation with a Surface Normal Classifier”, in CVPR2015.
両眼ステレオマッチング(binocular stereo matching)や単眼距離画像推定(single-view depth estimation)のための改善.表面の法線方向推定については
問題意識が以前からありデータセットも提案されている.ここでは表面形状の法線方向を推定する識別器を用い,その応答により距離画像を推定するとい
うもの.両眼ステレオマッチングや単眼距離画像推定問題の両方に対して識別器を適用する.法線方向ベースの識別器を生成するわけだが,正規化項を
含めたものやさらには最適化を行い最終的な出力値を得る.
下図は KITTI dataset や NYU indoor dataset に適用した結果である。
Link(s) 論文ページ:
http://www.inf.ethz.ch/personal/ladickyl/normals_cvpr15.pdf
18. 【17】
R. Mottaghi, Y. Xiang, S. Savarese,“A Coarse-to-Fine Model for 3D Pose Estimation and Sub-Category Recognition”, in
CVPR2015.
物体の 3D 姿勢やそのカテゴリを求める問題設定.下図では Coarse-Fine-Finer と,より詳細なモデルやカテゴリ分類ができるようになっていく.Car
(coarse), Sedan (fine), Sedan Type I (finer)という対応付け.このように物体の検出,3 次元姿勢推定,サブカテゴリ認識までを一括で行うフレームワークを提
案する.違う階層では違う特徴量を用意するが,その情報の双方のやりとりによりメリットが得られる.モデルは Hybrid Random Field を用いることでランダム
かつ mixture な連続値・離散値を用いてパラメータ推定できる構造学習の枠組み.大域的な特徴には HOG,局所的な特徴には CNN 特徴量を適用する
.学習には Structured SVM を用いて viewpoint, sub-category, finer-sub-category それぞれの損失項を計算する.データセットは PASCAL 3D+を用いてお
り,位置推定,サブカテゴリ認識や 3 次元的な物体の姿勢まで推定している.
Link(s) 論文ページ:
http://cvgl.stanford.edu/papers/Mottaghi15cvpr.pdf
著者ページ:
http://www.cs.stanford.edu/~roozbeh/
ポスター:
http://yuxng.github.io/mottaghi_cvpr15_poster.pdf
19. 【18】
João Carreira, Abhishek Kar, Shubham Tulsiani and Jitendra Malik,“Virtual View Networks for Object Reconstruction”, in
CVPR2015.
仮想視点を作成することで,1 枚の画像から 3D 再構成を実現している.
“牛”というタグの多視点画像を事前に学習しておき,「牛とは得てしてこの形状である」というモデルを作成しておく.具体的には,ラベル付き特徴点を生
成し,多視点でマッチングすることでモデルを生成する.PASCAL VOC で実験した結果の一例を以下に示す.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/2A_078_ext.pdf
22. 【21】
V. Ramanathan, C. Li, J. Deng, W. Han, Z. Li, K. Gu, Y. Song, S. Bengio, C. Rossenberg, L. Fei-Fei, “Learning semantic
relationship for better action retrieval in images”, in CVPR2015.
人物は,人物間や物体とインタラクションをしている.しかし,このインタラクションのクラスは大きすぎて処理しきれない.しかし,ある行動はその周囲の行
動と関連性があるということがわかっている.ある行動がわかっている際に,周囲の行動のための事前情報とならないか,という提案.これに Neural
Network を用いて行動間の関係性からより検索精度の高いモデルを構築する.ここに言語や視覚,論理的な手法を導入して認証を効果的にする.ここで
は大規模なデータセットを用いて,人物行動の検索結果を改善した.提案手法では,3 つの関係性を表現するルールを用いた.1. implied by-, 2.type-of,
3. mutually exclusive. Neural Network にてこの 1-3 に適合するように loss function が最適化される.結果は 54.58% (27K), 45.82% (2.8K), 38.73% (Stan-
81)と行動の検索に対して良好な性能を示した.
Link(s) 論文ページ:
http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/43443.pdf
23. 【22】
J. Dong, S. Soatto, “Domain-Size Pooling in Local Descriptors: DSP-SIFT”, in CVPR2015.
下図において,上が SIFT,下が DSP-SIFT を示す.SIFT では選択されたスケールにおいて処理されるが,DSP-SIFT ではすべてのスケールの特徴をプ
ーリングしておき(a),すべてのパッチをリスケールする(b).複数のスケールにわたって輝度勾配を取得する.その後は SIFT と同様に勾配を連結して特徴
ベクトルを生成.
右図では各データセット(Oxford, Fischer)における識別性能を示している.次元数がもっとも低いに関わらず,高い精度を示している.CNN のそれよりも
良くなることが判明した.
Link(s) 論文ページ:
http://vision.ucla.edu/papers/dongS15.pdf
24. 【23】
G. Bertasius, J. Shi, L. Torresani, “DeepEdge: A Multi-Scale Bifurcated Deep Network for Top-Down Contour Detection”, in
CVPR2015.
エッジ検出はコンピュータビジョンにおける基礎的な課題である.セグメンテーションや物体検出問題においても非常に良く使われている.提案手法では
,Deep Learning を用いた高次な特徴量を用いることでエッジ検出をより高精度にする.ここでは,マルチスケールの Deep Learning を適用してエッジを検
出する.DeepEdge は 5 層の構成になっている.
下図は DeepEdge のアーキテクチャ.右図はエッジ検出した結果である.Canny edge がノイズが含んでいるのに対して,DeepEdges はより背景を除去し
つつ物体からのエッジを抽出している.
DeepEdge は物体認識とエッジ検出を同時に行うフレームワークと捉えることができる.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Bertasius_DeepEdge_A_Multi-
Scale_2015_CVPR_paper.pdf
25. 【24】
Philipp Krähenbühl,Vladlen Koltun, “Learning to Propose Objects”, in CVPR2015.
提案手法では,候補領域抽出を行う.
Microsoft COCO データセットの 3 つのイメージから候補領域抽出をする.提案手法によって生成された画像は左から右の順に:入力画像,Ground
Truth のセグメンテーション例,候補領域となる.図に示される,一番上と真ん中の行はインスタンスの色と模様の類似性に関わらず,正確なインスタンスの
候補領域を出力している.一番下の行では, 白いサーフボードと人物を見分けることに成功している.
最先端の候補領域抽出アルゴリズムと提案手法の性能を比較する.パスカル VOC2012 データセットと Microsoft COCO のデータセットを用いて実験を
行う.候補領域抽出の精度を評価した結果,形状の重なりがある VOC2012 データセットで 94%の再現率を実現.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Krahenbuhl_Learning_to_Propose_2015_CVPR_paper.pdf
26. 【25】
G. Rogez, J. S. Supancic, D. Ramanan, “First-Person Pose Recognition using Egocentric Workspaces”, in CVPR2015.
一人称ビジョンにおいて上半身の腕と手の部分の 3 次元姿勢推定を行う.この問題を解決するために胸の部分に取り付けた距離センサ(chest mounted
depth-camera)から撮影する.ここで重要なのは,日常的に接する物体とのインタラクション認識ができるかどうかということである.ここでのコントリビューショ
ンは Global の一人称ビジョン,Volumetric(3D ライク)な表現,Contextual (状況を加味した)な,人物の主に腕や手,物体のモデリングである.
RGB-D における HOG 特徴量を用いて Sparse Multiclass SVM で識別する.最終的には腕や手の中でも指の姿勢まで推定できることが判明した.結果
的には,70%前後での認識に成功.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Rogez_First-
Person_Pose_Recognition_2015_CVPR_paper.pdf
YouTube:
https://www.youtube.com/watch?v=u2LAGiHOEEw
28. 【27】
L. Gueguen, R. Hamid, “Large-Scale Damage Detection Using Satellite Imagery”, in CVPR2015.
世界的に災害などにより地表が変動することがある.災害などに関しては,近付けないこともあるので,衛星画像解析によりダメージの検出を行う.従来で
は,事前や事後の,人手による解析が行われてきたが,高精度かつ効率的にコンピュータが解析できれば,労力を減らすことができる.新規性としてはま
ず,包括的なデータセットの考案がある.4,665KM^2 の範囲にて事前・事後のペアが 86 種類含まれているデータセットを提案.特徴量の選択も有効であ
るとしている.shape-distributions (SD), trees-of-shapes features, SIFT+BoW の特徴抽出により精度が向上した.
Link(s) 論文ページ:
http://www.raffayhamid.com/gueguen_cvpr_2015.pdf
著者ページ:
http://www.raffayhamid.com/research.shtml
29. 【28】
D. Lin, X. Shen, C. Lu, J. Jia, “Deep LAC: Deep Localization, Alignment and Classification for Fine-grained Recognition”, in
CVPR2015.
Deep Neural Network を用いて,詳細画像認識のためのローカライズ,アラインメント,識別(DeepLAC)を同時に行う.主に,valve linkage function (VLC)
を用いて,誤差逆伝播法を行い,DeepLAC を学習する.
VLC による誤差逆伝播法により,識別やアラインメントの誤差がローカライズの部分まで伝播される.この仕組みにより,従来法よりも Head や Body の検
出率だけでなく,識別率に関しても向上した.なお,データセットには Caltech-UCSD Bird-200-2010 dataset を用いている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lin_Deep_LAC_Deep_2015_CVPR_paper.pdf
著者ページ:
http://xiaoyongshen.me/
30. 【29】
Yang Song , Weidong Cai1, Qing Li, Fan Zhang , David Dagan Feng, Heng Huang, “Fusing Subcategory Probabilities for Texture
Classification”, in CVPR, 2015.
テクスチャ内のサブカテゴリ推定モデルの提案.
著者らが改良した sparse subspace clustering(SSC)によりテクスチャのサブカテゴリーを生成する.サブカテゴリの分類確率はサブカテゴリ間の特殊性確率
とサブカテゴリ内の代表性確率に基づく 2 種類の確率を求める.そのサブカテゴリー確率に寄与率,クラスタの質の重みを乗算し重み付けを行い統合する
.統合結果をクラスラベルを得るためマルチクラス分類の確率分布に追加することで精度の高いテクスチャ分類をおこなっている.実験は KTH-TIPS2,
FMD, DTD により行い SVM を用いることで精度が高くなった.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Song_Fusing_Subcategory_Probabilities_2015_CVPR_paper.pdf
31. 【30】
Tal Hassner, Shai Harel, Eran Paz and Roee Enbar, “Effective Face Frontalization in Unconstrained Images”, in CVPR, 2015.
横や斜めから見た人物の顔面を正面からみた顔画像に変換する.
従来では各クエリ画像に対して 3D の顔形状を近似することで人物の顔画像の方向変換に成功した.本研究では単一の非拘束の 3 次元表面を使用し
てより簡単な顔画像変換方法(frontalization)を検証する.
実験結果より frontalization は新しい正面顔部位を生成し、顔認識と性別の推定に効果的であることを示した.以上より顔認識において 3 次元形状と 2
次元の外観の比較の役割としての、3D モデルによる形状推定が不要であることを示唆した.
図 1:Frontalized daces Top:入力画像, bottom:顔面の 3 次元形状推定をせずに取得した frontalizations 図 2:Frontalized のプロセス
(a)は(b)で検出された顔の特徴からクエリ面に及びテクスチャ付き 3D,CG モデル(c)を
レンダリ ングすることによって生成された基準顔
(d)の 2 次元のクエリは座標と 3D の対応してバックプロジェクトするために,クエリのテクスチャを
基準に座標系を使用し,推定射影行列をモデル座標の上に提供
(e)の frontalized 結果に重ねて示した推定自己閉塞は(暖かい色がより閉塞を反映している)
顔の外観が対称な顔領域を相当するため,これらの領域から借用する
(顔面は左右対称であるから隠れている領域は,隠れていない領域から取得される外観情報を取得し再現している?)
(f)最終的な frontalized 結果
Link(s) 論文ページ:
http://www.openu.ac.il/home/hassner/projects/frontalize/
プロジェクトページ:
http://www.openu.ac.il/home/hassner/projects/frontalize/
32. 【31】
L. Du, H. Ling, “Cross-Age Face Verification by Coordinating with Cross-Face Age Verification”, in CVPR2015.
Cross-age face verification (FV; 年齢をまたいだ顔の認識)の課題を,Cross-face age verification (AV; 個人の顔をまたいだ年齢の認識)の知識を用いるこ
とで解決する.例えば年齢が似たような二人の顔画像を用いることで特徴を取得する.FV と AV は一部共通の特徴量を持ち合わせているが,FV は年齢
変化に比較的頑健な手法が必要であり,AV の特徴の性質から FV に利用できるかもしれないという提案である.下図は顔のポジションとその importance
map であり,(a) 顔認識で一般的に用いられる特徴 (b) FV により投射される AV の特徴 (c) AV により投射される FV の特徴.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Du_Cross-Age_Face_Verification_2015_CVPR_paper.pdf
33. 【32】
Xianjie Chen and Alan Yuille,” Parsing Occluded People by Flexible Compositions”, in CVPR, 2015.
オクル―ジョンが大部分ある際に人物姿勢を推定する手法を提案する.従来では木構造を持つグラフィカルモデルを利用し,目に見えるノードとグラフィ
カルモデルの接続されたサブツリーを形成する直前のノードが接続されていることを利用している.本研究では,接続された各サブツリー部分の物体を軟
質組成物と呼び,推論から異なるフレキシブルなモデル間の混合を検索する必要があることがわかった.人体部分の共有を利用することにより,オブジェク
ト全体を検索する場合と比較して人体モデルの候補を 2 倍求めることができた.
図 1 : フレキシブルな組成物の図.完全グラフと接続された各サブツリーはフレキシブルな組成物である(完全グラフ自体も含む).特定の部分を持たない
フレキシブルな組成物を持つ人はオクル―ジョンの解析に適している.
図 2 : ある身体部位が無いことはオクル―ジョンを予測する手がかりになる.しかし複雑なシーンで失敗することがある.オクルージョン境界付近(すなわち、
右肘と左肩付近)の局所的な画像測定によって確実なオクル―ジョンの手がかりを提供する.
Link(s) 論文ページ:
http://www.stat.ucla.edu/~xianjie.chen/pdf/Chen_CVPR15.pdf
プロジェクトページ:
http://www.stat.ucla.edu/~xianjie.chen/projects/occluded_people/occluded_people.html
34. 【33】
Jia Xu , Alexander G. Schwing , Raquel Urtasun ,”Learning to Segment Under Various Forms of Weak Supervision”, in CVPR,
2015.
弱教師あり学習によるピクセルレベルの semantic segmentation (意味付け+セグメンテーション).従来の手法は,完全教師あり学習により,最大マージン
分類を用いてこの課題に取り組んできた.本手法では,より汎用性を高めるため,弱教師あり学習で実現する.
具体的には,Superpixel から特徴量を抽出し,C 次元に符号化する.そして,最大マージン分類を用いてピクセル毎のラベリングを実現する.
Link(s) http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xu_Learning_to_Segment_2015_CVPR_paper.pdf
35. 【34】
M. S. Ryoo, B. Rothrock, L. Matties, “Pooled Motion Features for First-Person Videos”, in CVPR2015.
一人称ビジョン(First-person vision)において,新しい特徴表現を考案した.CNN 特徴量を蓄積(pool)することにより時系列方向の特徴表現も行い,一人
称ビジョンの認識性能を向上させる.下図では総括的に提案手法を説明しており,まずは一人称ビジョンの映像から時系列フレームを取得して,CNN 特
徴を取得する.ここでは出力層の前の第 7 層から 4096 次元の特徴を抽出している.ここでは,特徴次元数を n,時系列フレーム数を m として,n*m 次元
の行列を生成している.時系列に並べたこの行列から,時系列プーリング(temporal pooling)を行うが, sum pooling, max pooling, ‘histogram of time series
gradients’ pooling を行うことで時系列表現を行う.k 種類のフィルタリング処理を通すことにより,4096*k 次元の時系列特徴量を取得できる.
UEC Park dataset や DogCentric dataset にて実験した結果,提案手法である時系列プーリングは非常に高い性能を示しただけでなく,THUMOS14 の
improved dense trajectories (iDT) + CNN を組み合わせることも有効であることが判明した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ryoo_Pooled_Motion_Features_2015_CVPR_paper.pdf
著者ページ:
http://michaelryoo.com/
ソースコード:
https://github.com/mryoo/pooled_time_series/
36. 【35】
Abel Gonzalez-Garcia, Alexander Vezhnevets, Vittorio Ferrari, “An Active Search Strategy for Efficient Object Class Detection”,
in CVPR2015.
物体検出において,物体の位置関係などからアクティブに探索する active search strategy の提案.外観と位置情報を基に context を抽出し,探索窓から
物体クラスのスコアを求めることで物体検出している.sontext は Random Forests によって求め,スコアは実験的に R-CNN と UvA を用いて求める.外観特
徴は,CNN 特徴を用いており,BoW で次元削減している.
SUN2012 と PASCAL VOC10 で実験した結果,提案手法は探索窓を低減しながら物体検出することができた.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gonzalez-
Garcia_An_Active_Search_2015_CVPR_paper.pdf
37. 【36】
L. Wan, D. Eigen, R. Fergus, “End-to-End Integration of a Convoluational Network, Deformable Parts Model and Non-Maximum
Suppression”, in CVPR2015.
DPM や CNN はどちらも物体認識の分野にて成功を収めている手法であるが,両者の特性の違いから,組み合わせによる改良はできないかを探った.
DPM は潜在変数にてパーツとその位置を保持する手法であり,CNN はニューラルネットの自動学習特徴量により非常に高度な特徴抽出を実現できる.
組み合わせてバウンディングボックスの位置ずれのエラーを最小化するために構造化された損失関数を定義する.これは,non-maximum supression
(NMS)を用いることでモデル化できることがわかった.
下図は提案手法のフローである.ピラミッド表現された画像から CNN の自動学習特徴量を取得して DPM への入力とする.別視点からキャプチャした各
モデルからの応答を返却し,NMS により最終的な出力を得る.Backpropagation により,検出のエラー値は各工程にフィードバックされる.
実験では VOC2007, 2011, 2012 を用いており,非常に高い精度を達成し HOG-dpm, HSC-dpm, DP-DPM や初期の R-CNN を上回る検出率を達成した
が,最新の R-CNN(v4)には及ばなかった.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wan_End-to-End_Integration_of_2015_CVPR_paper.pdf
スライド:
http://cs.nyu.edu/~wanli/thesis/slides_baidu.pdf
38. 【37】
B. Liu, M. Wang, H. Foroosh, M. Tappen, M. Pensky, “Sparse Convolutional Neural Networks”, in CVPR2015.
CNN は物体識別や物体検出問題に適用されて,非常に有効な手法として知られている.その中でも,VGG モデルは 16 層から構成されており,
ILSVRC2014 のデータセットにおいて top5 のエラー率が 7.4%になるなど,非常に高い性能を達成している一方で,その学習時間は 4 つのハイエンド
GPU を用いてもなお,学習時間が一ヶ月近くもあるのが現状である.ここでは,畳み込みのカーネルをスパースにすることにより,効果的に計算時間を削
減することができるという提案をする.ここでは,畳み込みの度に計算されるカーネルをよりスパースにすることで高速にする.
下図の左は従来の CNN,右は提案手法(Sparse CNN; SCNN)である.SCNN では,2 回に分割して sparse kernel matrix により畳み込む.精度は若干落
ちるものの,計算コストを減らし,CPU でも高速に動作するように改良した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Liu_Sparse_Convolutional_Neural_2015_CVPR_paper.pdf
39. 【38】
Sheng Chen, Alan Fern and Sinisa Todorovic, “Person Count Localization in Videos from Noisy Foreground and Detections ”, in
CVPR2015.
群衆から個人の位置とカウントを同時に行う問題(person count localization).
この問題を解決するため,errordriven graph revision(ERG)という手法を提案している.初めに前景のセグメンテーションをし,前景物体間の時空間関係を
表現する Flow Graph を生成する.この Flow Graph を時系列に合わせて逐次的更新していく.Graph 化することで,問題を線形問題に落としこんでいる.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chen_Person_Count_Localization_2015_CVPR_paper.pdf
41. 【40】
J. Sun, W. Cao, Z. Xu, J. Ponce, “Learning a Convolutional Neural Network for Non-uniform Motion Blur Removal”, in
CVPR2015.
カメラ撮影時の手ぶれなどにより発生する不規則なモーションブラーを,CNN を用いて解析し,補正する研究.ここではパッチを設定して,CNN を適用し
てモーションカーネルの確率を計算する.さらに,Markov Random Field (MRF)も用いることでパッチ内の確率場の計算をデンスに行うことができる.モー
ションフィールドを推定するために,パッチサイズはオーバーラップを含む 30x30pixels に設定する.このモーションを学習するために,140 万のブラーを含
むパッチとそのブラーの方向・強度をペアとして CNN の学習に与える.CNN は 6 層構成,出力層はソフトマックスにより構成され,361 種類のモーションカ
ーネルを推定できる.また,MRF により密なモーションフィールドを推定する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Sun_Learning_a_Convolutional_2015_CVPR_paper.pdf
42. 【41】
X. Zhu, Z. Lei, J. Yan, D. Yi, S. Z. Li, “High-Fidelity Pose and Expression Normalization for Face Recognition in the Wild”, in
CVPR2015.
非拘束(in the wild)の環境にて顔の 3 次元姿勢やその表情を保持しておくことで,正面から見たような顔画像や表情を再現することができる.この問題に
3D Morphable Model (3DMM)フィッティングや,個人を表現する正規化表現,見えない部分を補完する処理を加える.下図ではその処理の流れを示して
おり,step1 では 2 次元の顔画像からランドマークをフィッティンさせ,3DMM と対応づける.step2 では顔の 3 次元姿勢や表情の正規化を行い,
normalized mesh を当てはめレンダリングすることにより欠損を含むものの正面顏を生成する.step3 では欠損を補うことで射影した.正面顏を得る.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhu_High-Fidelity_Pose_and_2015_CVPR_paper.pdf
43. 【42】
Akihiko Torii, Relja Arandjelovic, Josef Sivic, Masatoshi Okutomi and Tomas Pajdla, “24/7 place recognition by view synthesis”,
in CVPR2015.
シーンが外観に大きな変化(照明(昼 / 夜),季節,老化,または時間の経過による建物の内装または建物などの構造的変化)を受ける場合の広い場所の
視覚認識の問題に対処した.
1. クエリ画像とデータベース画像の両方がほぼ同じ視点からのシーンを描くとき,シーンの外観において大きい変化を横切ることで照合が非常に容易
になることを示した.
2. 1.の観察結果に基づき、(ii)簡潔で割出し可能な(i)画像表現を有する新規視野の効率的な合成を組み合わせた新しい場所認識手法(PCA 圧縮が
続く密な SIFT 記述子の VLAD 符号器)を開発した.
3. 主要な照明の変化(日,日没,夜)とシーンの構造変化が含まれている東京の監視カメラ 1125 台のクエリ画像のデータセットを紹介した.
2 つのテストのクエリ画像(a, d)とオリジナルのストリートビュー画像の(b, e)における,ベースライン方式の(d, g)と私たちの場所の認識結果の(c, f) (合成視
野により拡張データベースとの密な VLAD 記述子)の比較を示す.本手法は困難な照明条件でも複雑なクエリを一致させることができた.
Link(s) 論文ページ:
http://www.ok.ctrl.titech.ac.jp/~torii/project/247/
44. 【43】
J. Xie, Y. Fang, F. Zhu, E. Wong, “DeepShape: Deep Learned Shape Descriptor for 3D Shape Matching and Retrieval“, in
CVPR2015.
3 次元物体のマッチングと検索問題.3D の形状記述に関しては,D2 shape distribution や statistical moments,が提案されており,BoF を用いている例も
ある.提案手法では,auto-encoder(自己符号化器)ベースの形状記述子を用いて 3 次元形状の検索に用いる.これにより,Hidden layer にて識別に有効な
特徴量を取り出すことができ,3 次元の幾何的な形状が複雑であったとしても識別が容易になる.auto-encoder は学習サンプルを用いてデータを表現する
特徴のパラメータを最適に学習してくれる仕組みのことであり,今回は 3 次元の物体形状を表現し,しかも他のクラスとの識別性能を良好にするようなパラ
メータを取り出す.auto-encoder の目的関数を最適化するために,back-propagation(誤差逆伝播法)を用いてパラメータを最適化する.
McGill shape dataset や SHREC’10 ShapeGoogle dataset を用いた実験の結果,剛体だけでなく非剛体においても高い精度を実現できることがわかった.
McGill dataset にて NN:98.8%, 1-Tier: 78.2%, 2-Tier: 83.4% (2-Tier は最高が Graph-based method の 91.1%),SHREC‘10 ShapeGoogle dataset にて
Isometry: 99.8%, Topology: 99.6%(VQ, UDL, SDL が 100%), Isometry+Topology: 98.2%, Partiality: 97.3%, Triangulation: 95.5%を達成した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xie_DeepShape_Deep_Learned_2015_CVPR_paper.pdf
45. 【44】
R. Zhao, W. Ouyang, H. Li, X. Wang, “Saliency Detection by Multi-Context Deep Learning“, in CVPR2015.
Multi-context deep learning を用いて,salient object detection を実現する.ここでは Globl なコンテクスト(context)や Local なコンテクストが統合され,Deep
Learning のアーキテクチャを構成する.下図は提案の deep learning のアーキテクチャを示す.上の流れが Global-context modeling であり,superpixel ベ
ースの手法を用いている.また,下の流れは Local-context modeling であり,物体レベルなどより細かい領域に関して評価を行う.
実験では,IS [5], GBVS [4], SF [10], GC [3], CEOS [8], PCAS[9], GBMR [12], HS [11], and DRFI [6] との比較を行っており,提案手法が最も高い精度
を達成した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xie_DeepShape_Deep_Learned_2015_CVPR_paper.pdf
著者ページ:
http://www.ee.cuhk.edu.hk/~rzhao/
46. 【45】
Marian George, “Image Parsing with a Wide Range of Classes and Scene-Level Context“, in CVPR2015.
Superpixel を用いて,画像に写っている物体の認識とセグメンテーションを行う.Superpixel ごとに特徴を抽出し,尤度を基に分類することで,精度を向上
させている.Superpixel で画像を分割し,色や形状,テキスチャ,位置といった 20 種類の特徴を抽出し.Fisher Vecotr で特徴表現する.さらに,SIFT 特徴
を抽出し,FV および PCA で 512 次元の特徴に削減する.そして,ラベルごとに尤度を算出し,MRF でラベルを推定している.
SIFT Flow dataset と LMsun dataset で実験した結果が以下の通り.
SIFT Flow LMSun
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/George_Image_Parsing_With_2015_CVPR_paper.pdf
47. 【46】
Hui Chen , Jiangdong Li , Fengjun Zhang , Yang Li , Hongan Wang, “3D Model-based Continuous Emotion Recognition“, in
CVPR2015.
時系列モデルを用いて,リアルタイムで感情推定する手法.感情のラベル付けされた画像から Facial Landmark を検出し,顔の 3D モデルを対応付ける
.3D モデルベースを用いて,連続感情表現(continuous emotion presentation; CEP)と個人の感情表現(user-independent emotion representation; UIEP)を
生成する.そして,RandomForest で感情を推定する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chen_3D_Model-
Based_Continuous_2015_CVPR_paper.pdf
48. 【47】
Fangyuan Jiang, Magnus Oskarsson, Kalle Åström, “On the Minimal Problems of Low-Rank Matrix Factorization “, in
CVPR2015.
アフィン変換やステレオカメラなどで利用することができる Low-rank 行列因子を最小限にする問題.Laman グラフ理論を用いて,最小限を解決している
.また,building-block scheme という新しいパラメータ化手法を提案している.
Link(s) http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Jiang_On_the_Minimal_2015_CVPR_paper.pdf
49. 【48】
V. Escorcia, J. C. Niebles, B. Ghanem, “On the Relationship between Visual Attributes and Convolutional Networks“, in
CVPR2015.
各 Attribute をニューラルネットのニューロンにて表現する方法.Deep Learning の Middle-level 特徴を用いており,attribute と特徴量をいかに対応づける
かにフォーカスしている.attribute を表現する ConvNet は Attribute Centric Nodes (ACNs)と呼ばれる(下図).このネットワークはスパースであり,attribute は
異なる層に分離されて表現されている.どうしても,CNN では最終層に注目されがちであるが,ソフトマックスによる出力層は物体に依存するため,中間層
にも着目して対応づけをしている.第 1 から第 5 層までが畳み込み層,第 6,7 層が全結合層,第 8 層が出力層と設定している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Escorcia_On_the_Relationship_2015_CVPR_paper.pdf
50. 【49】
T. Xiao, T. Xia, Y. Yang, C. Huang, X. Wang, “Learning from Massive Noisy Labeled Data for Image Classification“, in
CVPR2015.
Deep Learning は信頼度の高い手法であり,今後も有効な手法とみられているが,そのためには膨大なアノテーションが付けられたデータセットが必要で
ある.人手によるアノテーションは大変な労力を伴う.ここでは,効率的なラベル付けや学習のフレームワークを考案する.解決作のひとつとして,web デー
タから正解付きのデータを取得する(テキスト情報の近くから画像を取ってくる)ことや,Deep Learning の出力結果をそのまま使用することが挙げられる.し
かし,この方法はノイズを含むことになり信頼度が高いとは言えない.提案手法では,Deep Learning に完璧でないラベル付けやノイズを含むデータを入れ
たとしても学習ができることである.入力画像には多くの違うタイプのノイズを含んでおり,ラベルには誤りを含んでいるので修正する必要がある.1,000,000
枚のファッション画像を収集してアノテーションも付いている.CNN のソフトマックス層の出力を誤ったノイズデータを修正するために用いる.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xiao_Learning_From_Massive_2015_CVPR_paper.pdf
51. 【50】
Y. Taigman, M. Yang, M. A. Ranzato, L. Wolf, “Web-Scale Training for Face Identification“, in CVPR2015.
顔認識の精度は CNN の登場により飽和傾向にある.学習画像やそのアノテーションデータを効果的に増やす必要がある.提案手法では,ベンチマーク
とそれに対する最先端の手法を提供するだけでなく,transfer learing の問題や,ブートストラップ処理によるサブサンプリング手法を大規模データに適用す
る方法,ノルム表現・画像の質・識別の信頼度を結びつける方法を提案する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Taigman_Web-Scale_Training_for_2015_CVPR_paper.pdf
スライド:
http://www.cs.tau.ac.il/~wolf/deeplearningmeeting/pdfs/deepface_masterclass.pdf
52. 【51】
Supasorn Suwajanakorn, Carlos Hernandez, Steven M. Seitz, “Depth from Focus with Your Mobile Phone “, in CVPR2015.
携帯電話やその他のハンディカメラからの画像を処理することができるフォーカス(DfF)メソッドからの「first depth」を導入し,キャリブレーションされていな
い DfD の問題を定式化することで,シーンの視差を考慮した,新しい焦点スタック位置合わせアルゴリズムを提案する.
携帯電話から撮影した画像に対して,深度および焦点スタックによる全焦点画像の割り出しを行う.
データセットには,サムスンのギャラクシーで撮影した画像を使用している.
上図に示される画像は,左から植物(23),ボトル(31),金属(33)である.(括弧内の数字はフレーム数を表す) 上の行の画像は,全焦点ステッチを表す.下
の行の画像は,再構成された深度マップを表す.
上図の左の画像は,焦点スタック配列からの実像画像.上図の右の画像は,前景の物体を強調するために深度領域効果を広め,開口を増加させた, 合
54. 【52】
Phillip Isola, Joseph J. Lim and Edward H. Adelson, “Discovering States and Transformations in Image Collections”, in
CVPR2015.
シーン内の物体は様々な種類の状態,変形を持っている.これらはその物体の機能的特性を示す. 例えば「トマト」のデータベースにおいてトマトが完
熟,カビが生えているといった特性を推測できることも物体認識には不可欠である.従来の研究は 1 枚の画像に対して「属性」を識別していた.本研究で
は機械学習により,変形を定義ペアの状態(生↔調理,粗い↔滑らかな,収縮↔膨張を連結することにより,画像コレクション中の変形の種類(新鮮,溶けて
る,カラメルにされている等)ごとに記述した.状態と変形間の転写には畳み込みニューラルネットワークを用いる.(変形:溶かす→状態:溶けている) 本論
文での貢献は以下 3 つである.
(1)物理的状態と変形のセットを用いて画像コレクションを解析する新たな問題を導入した
(2)状態との変形が基本でありながら強力な技術を用いて学習することができることを示した
(3)形質転換された状態の様々な物体、シーン、および材料のデータセットを構築した
図 1: 入力と提案システムの自動出力の例。1 つの分類からの画像のコレクションを与えられた(左上に表示されたコレクションの部分集合)とき状態(右)のセ
ットによってコレクションを解析できる.また我々は画像が状態が対義語的なペア(新鮮←→しおれている,左下)との間の変形方法を示す.
Link(s) 論文ページ:
http://people.csail.mit.edu/lim/paper/state_cvpr15.pdf
55. 【53】
Andras Bodis-Szomoru, Hayko Riemenschneider, Luc Van Gool, “Superpixel Meshes for Fast Edge-Preserving Surface
Reconstruction”, in CVPR2015.
画像のエッジ,superpixel,平滑化を用いた平面再構成手法.
様々な手法を並列化させることで,高速かつ従来の MVS に匹敵する精度でメッシュを生成している.Spaese な Structure from Motion(SfM)と二次元画
像を入力とし,2 次元画像でドロネー三角分割を生成する.これは,superpixek や画像のエッジ,平滑化を用いて生成する.そして,メッシュを生成して再
構成を実現している.
Link(s) http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Bodis-
Szomoru_Superpixel_Meshes_for_2015_CVPR_paper.pdf
56. 【54】
Abhishek Kar , Shubham Tulsiani , João Carreira, Jitendra Malik, “Category-Specific Object Reconstruction from a Single Image
”, in CVPR2015.
Convolutional neural network の登場で,物体検出やセグメンテーションは急速に進歩している.本手法では,物体検出が完璧にできるという前提で,
single image から 3 次元物体の再構成を実現する.
手法の流れは上図-右の通りで,annotation 付きの画像セットから視点を推定する.そして,シルエットから 3D 形状モデルを学習し,形状の変形モデルを
生成する.
視点推定には NRSfM フレームワークを使用している.これは,物体の joint をモデルに当てはめることで視点推定する手法である.
Link(s) 【Youtube】
https://www.youtube.com/watch?v=5XDwkazszRE
【論文ページ】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Kar_Category-
Specific_Object_Reconstruction_2015_CVPR_paper.pdf
57. 【55】
Davide Conigliaro, Paolo Rota, Francesco Setti, Chiara Bassetti, Nicola Conci, Nicu Sebe, Marco Cristani, “The S-HOCK
Dataset: Analyzing Crowds at the Stadium ”, in CVPR2015.
混雑環境(ホッケーのスタジアム)での人物解析のためのデータセット(Spectators Hockey; S-HOCK).annotation とそれに含まれているタイプは以下の通り
である.実験では,人物の頭部姿勢推定を CNN ベースの手法などと比較している.
Link(s) 【論文ページ】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Conigliaro_The_S-Hock_Dataset_2015_CVPR_paper.pdf
58. 【56】
X. Song, S. Jiang, L. Herranz, “Joint Multi-feature Spatial Context for Scene Recognition in the Semantic Manifold“, in
CVPR2015.
グローバルで画像を見たときの共起性は重要であり,さらには異なる領域においては異なるカテゴリを持つという情報も重要である.提案手法ではローカ
ルなコンテクストの関係性を取得して,共起性を記述するだけでなくノイズを除去することができる.提案モデルはカテゴリを分類するために有効で識別性
に優れている共起特徴を構成している.
下図では(a) 複数特徴の統合 (b) 4 つのグリッドが繋がっている (c) 複数特徴が空間的に繋がっているモデルを示している.
結論では Intermediate semantic space は複雑なシーン認識に対して有効である(MIT67 dataset)としている.トピックモデルのような low- mid-level の特徴
抽出に比べるとより識別するための局所特徴に着目できるとしている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Song_Joint_Multi-Feature_Spatial_2015_CVPR_paper.pdf
59. 【57】
Z. Li, J. Chen, “Superpixel Segmentation using Linear Spectral Clustering“, in CVPR2015.
Linear Spectral Clustering (LSC)を適用して,新しい superpixel segmentation の手法を提案する.LSC を用いた superpixel は低コストである.superpixel
は従来,色や空間的類似度を指標として計算することが多いが,そのような固有値を用いる手法でなくカーネル関数を用いた高次特徴空間にて分割する
ことにより,さらに効果的な superpixel を提案できるとしている.LSC では画像のピクセル値を 10 次元特徴空間にマッピングし,weighted K-means を適用
して superpixel を実現する.
下図は superpixel の比較.(h)がよく適用される SLIC, (j)が提案の LSC である.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_Superpixel_Segmentation_Using_2015_CVPR_paper.pdf
著者ページ(exe ファイル,コードあり):
http://jschenthu.weebly.com/projects.html
60. 【58】
A.Royer, C. H. Lampert, “Classifier Adaptation at Prediction Time“, in CVPR2015.
現在,Convolutional Neural Network (CNN)を始めとする多くのモデルが大規模データにおいて学習をしている.しかし,例えばロボットガイドの場面では
椅子や机などのラベルが多用されて,動物などのラベルはあまり使用されない.さらには環境によるコンテキストが適用されるはずである.この学習と推定
時間の関係性の変化は domain adaptation である.提案手法では,ラベルの相関値を利用することで,精度を高めることとする.コントリビューションとしては
,ニューラルネットの pre-trained 識別きをリアルタイムに adaptation することである.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Royer_Classifier_Adaptation_at_2015_CVPR_paper.pdf
著者ページ:
https://sites.google.com/site/christophlampert/publications
61. 【59】
Q. Liu, C. Liu, “A Novel Locally Linear KNN Model for Visual Recognition“, in CVPR2015.
Locally Linear KNN モデルを提案し,効率的な表現や識別に役立てるだけでなく識別クラス間の法則を近似する(ベイズ決定則によるエラー最小化など
).下図は提案手法のフレームワークであり,次元削減や Locally Linear KNN (LLKNN)を用いて特徴表現を行う.次には特徴の構成や局所性,スパース
性を考慮した拘束を与える.最後に二つの識別器-- LLKNNC や LLNMC を用いて識別の処理を実施する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Liu_A_Novel_Locally_2015_CVPR_paper.pdf
62. 【60】
Ishan Misra, Abhinav Shrivastava, Martial Hebert, “Watch and Learn: Semi-Supervised Learning of Object Detectors From
Videos “, in CVPR2015.
ラベル付けされていないビデオに対して,semi-supervised 学習によって自動的にラベルを付加する課題.
自動的にラベルを付加することによって,データセット構築の効率化を図っている.
本研究では,駐車場の監視映像から車を検出し,ラベルを付加する,いわゆる車の Re-ID に取り組んでいる.
手法の流れは図の通りで,初めに映像から車を検出する.次に,時系列で車を追跡し,非相関エラー値から正しい検出のみを抽出する.そして,新しいラ
ベルを付加している.
VIRAT 2.0 Ground データセットを用いて,自動ラベル付けの精度評価実験を行った結果
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Misra_Watch_and_Learn_2015_CVPR_paper.pdf
63. 【61】
Shiyu Song, Manmohan Chandraker, “Joint SFM and Detection Cues for Monocular 3D Localization in Road Scenes “, in
CVPR2015.
車載カメラから車 3 次元位置を推定する手法.
単眼カメラで撮影された映像から疎な SfM と物体検出し,3D バウンディングボックスを生成する.バウンディングボックス内で 3D 特徴点をマッチングす
ることでより詳細な SfM を実現している.
実験結果より,遠くの物体の推定精度は低下しているものの,近くの物体の位置合わせは可能となっている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Song_Joint_SFM_and_2015_CVPR_paper.pdf
64. 【62】
Wen-Sheng Chu, Yale Song, Alejandro Jaimes, , “Video Co-summarization: Video Summarization by Visual Co-occurrence“, in
CVPR2015.
動画の概要を自動生成する手法.はじめに前処理として,HSV および RGB を用いた 2[frame]間の背景差分によってセグメンテーションする.次に単一
画像および 2[frame]連続から特徴を抽出し,クラスタリングする.そして,BoF の要領で動画の概要を自動生成する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Misra_Watch_and_Learn_2015_CVPR_paper.pdf
65. 【63】
D. Hall, P. Perona, “Fine-grained Classification of Pedestrians in Video: Benchmark and State of the Art“, in CVPR2015.
人物検出だけでなく,age, sex, activity, social status, health, pose, motion patterns などのタグを推定する問題を考える.ここでは,Caltech Roadside
Pedestrian (CRP) dataset を提案して,人物の fine-grained な認識のためのデータを提供する.このデータセットには,
1. 27.454 枚の人物画像とその bounding box や姿勢ラベルが付いている
2. 自然な動作の中から抽出されている(in the wild)
3. 視点が様々
4. カメラが動的
5. 屋外の様々な背景や環境光下で撮影
6. 複数のサブカテゴリ- 年齢,服装,体型
7. 詳細なアノテーション (年齢 5 種類,性別など)
8. 全て公開データ
なお,全ての映像は GoPro Hero3 にて撮影されている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Hall_Fine-Grained_Classification_of_2015_CVPR_paper.html
プロジェクトページ:
http://authors.library.caltech.edu/57921/
66. 【64】
V. Chari, S. Lacoste-Julien, I. Laptev, J. Sivic, “On Pairwise Costs for Network Flow Multi-Object Tracking“, in CVPR2015.
複数物体追跡の問題は,最近ではネットワークフローのコスト最小化問題としてアプローチされている.tracking-by-detectino では誤追跡してしまう問題も
,pairwise-cost を最小化するとを考えることで追跡を行う.NP-hard ではあるが,既存のネットワークフローや代数的アプローチ[Ahuja+, 1993]により効率的
に解くことができる.
Link(s) 論文ページ:
http://www.di.ens.fr/~josef/publications/Chari15.pdf
67. 【65】
R. Or-El, G. Rosman, A. Wetzler, R. Kimmel, A. M. Bruckstein, “RGBD-Fusion: Real-Time High Precision Depth Recovery“, in
CVPR2015.
RGB-D の高精細距離画像復元.Kinect の登場により,コンピュータビジョンの分野においてかなり多くの研究が RGB-D に取り組むようになったが,距離
画像が依然として精度が悪く,そのための弊害が生じていた.表面形状を際立たせることに成功し,なおかつリアルタイムに処理ができる.法線ベクトルを
計算し,光源モデルを推定することによりキャリブレーションを詳細にする必要がなくなる.shape-from-shading により高速かつ高精度な距離画像推定を可
能にした.
前処理には法線ベクトルの推定,光源モデル推定には[Grosse+, ICCV2009]の手法を用い,shading, 光源比(albedo), 人工光源に分離する.距離画像を
強調するために,その後にリファインメント処理を施す.右図が処理した結果であり,距離画像が精彩になっている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/El_RGBD-Fusion_Real-Time_High_2015_CVPR_paper.pdf
YouTube:
https://www.youtube.com/watch?v=5nLnOTyrd-s&feature=iv&src_vid=JvGeTHKljb0&annotation_id=annotation_1407526743
68. 【66】
S. Choi, Q.-Y. Zhou, V. Koltun, “Robust Reconstruction of Indoor Scenes“, in CVPR2015.
RGB-D センサを用いた屋内環境の復元問題.幾何的な屋内環境の断面レジストレーションによりセンサノイズを最小限にする.また,つなぎ目の曖昧な
部分をなくすことで高精度な 3 次元の屋内環境を構築できる.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Choi_Robust_Reconstruction_of_2015_CVPR_paper.pdf
プロジェクトページ(コードあり):
http://vladlen.info/publications/robust-reconstruction-of-indoor-scenes/
70. 【68】
I. Gkioulekas, B. Walter, E. H. Adelson, “On the Appearance of Translucent Edges“, in CVPR2015.
Translucency (半透明)というのは一般的な視覚的現象であり,光が内部にて錯乱している状態(internal scattering)で起こる.左図は半透明/不透明な物
体のプロファイルを可視化した例である.ここからエッジを取得できれば,物質の境界やオクルージョンなど多数のメリットが得られるため,半透明物体にお
けるエッジに着目して研究する.右図は single な錯乱や,より中間的な,さらには高次な反射も考えることでエッジを分離する.
フォトメトリックに半透明物体のエッジに関する考察を行った論文.半透明のエッジは錯乱,反射などに対して特徴的な質を持っている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gkioulekas_On_the_Appearance_2015_CVPR_paper.pdf
プロジェクトページ:
http://vision.seas.harvard.edu/translucentedges/
ポスター:
http://vision.seas.harvard.edu/translucentedges/poster.pdf
71. 【69】
G. Li, Y. Yu, “Visual Saliency Based on Multiscale Deep Features“, in CVPR2015.
視覚的顕著性に用いるマルチスケール特徴を,convolutional neural networks (CNN)の特徴により置き換え,精度を向上させる.3 種類の異なるスケール
にて,CNN の全結合層の特徴量を入力とすることにより顕著性のモデルを構築する.下図は顕著性を生成するためのモデルである.従来ではエッジや色
によるマルチスケール特徴量を計算していたが,それを CNN 特徴量により置き換える.
Figure 1: Visual comparison of saliency maps generated from 10 different methods, including ours (MDF). The ground truth (GT) is shown in the last column. MDF
consistently produces saliency maps closest to the ground truth. We compare MDF against spectral residual (SR[18]), frequency-tuned saliency (FT [1]), saliency filters (SF
[29]), geodesic saliency (GS [35]), hierarchical saliency (HS [37]), regional based contrast (RC [8]), manifold ranking (MR [38]), optimized weighted contrast (wCtr. [40])
and discriminative regional feature integration (DRFI [22]).
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_Visual_Saliency_Based_2015_CVPR_paper.pdf
プロジェクトページ:
https://sites.google.com/site/ligb86/mdfsaliency/
72. 【70】
K. I, Kim, J. Tompkin, H. Pfister, C. Theobalt, “Local High-order Regularization on Data Manifolds“, in CVPR2015.
Laplacian 正規化項は一次の正規化項であり,縮退関数により高次元の多様体へと射影する.繰り返しの Laplacian 正規化項は高次の正規化が可能で
あるが,計算コストが非常に高い.提案手法では大域的に高次で,縮退せずスパースであり計算も効率的である.
下図はある問題において多様体を可視化した論文である.Laplacian regularizer では正規化に失敗しているが,提案の Local Gaussian では効率的かつ
効果的に多様体が計算できている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Kim_Local_High-
Order_Regularization_2015_CVPR_paper.pdf
74. 【72】
Ohad Fried, Eli Shechtman, Dan B Goldman, Adam Finkelstein, “Finding Distractors In Images “, in CVPR2015.
画像に入った「余計なもの」を取り除く研究(distractor prediction & removal).写真を取るのは容易になったが,編集するのは非常に難しい.この難しさを
緩和する一例として,画像に入ってしまった余計なものを取り除く.
初めに,multi-scale combinatorial grouping(MCG)でセグメンテーションし,セグメントした各領域からピクセル毎に 60 の特徴を抽出する.それを基に除
去するものを least absolute selection and shrinkage(LASSO)で学習する.処理結果(中図).間違えると人が消える(右図).
Link(s) http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Fried_Finding_Distractors_In_2015_CVPR_paper.pdf
75. 【73】
Yuanjun Xiong, Kai Zhu, Dahua Lin1, Xiaoou Tang, “Recognize Complex Events from Static Images by Fusing Deep Channels
“, in CVPR2015.
静的画像からイベント認識する手法の提案.
全身が写っているのか,顔がいくつあるのか,どんな物体があるのか,といった情報を Fusion し,Deep Learning の要領で学習してイベント認識している.
Link(s) http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xiong_Recognize_Complex_Events_2015_CVPR_paper.pdf
76. 【74】
Yair Movshovitz-Attias, Qian Yu, Martin C. Stumpe, Vinay Shet, Sacha Arnoud, Liron Yatziv, “Ontological Supervision for Fine
Grained Classification of Street View Storefronts “, in CVPR2015.
お店の写真から,何を売っている店なのかを推定する fine-grained な問題.ストリートビューの画像から OCR で文字を抽出し,その文字列から ontology
を用いて推定していく.これを用いれば,ストリートビューでお店に迷うことがなくなる?
Link(s) http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Movshovitz-
Attias_Ontological_Supervision_for_2015_CVPR_paper.pdf
77. 【75】
A.Elhayek, E. de Aguiar, A. Jain, T. Tompson, L. Pishculin, M. Andriluka, C. Bregler, B. Shiele, C. Theobalt, “Efficient
ConvNet-based Marker-less Motion Capture in General Scenes with a Low Number of Cameras“, in CVPR2015.
CNN を用いたマーカレス Mocap についての研究.ここではさらに,できる限り少ないカメラの台数でモーションキャプチャを実現するという戦略で研究を
している.実用上は,2 から 3 台のカメラでマーカレス Mocap が実現すれば,設置のコストを減らすことができる.ここでは,CNN による learning-base な関
節位置の推定に挑戦する.カメラの台数が多すぎる(e.g. 8 台)と処理時間がかかり,単眼では精度が悪いという問題点があったので,2, 3 台で効率よく探
索するために ConvNet による関節位置の推定を行う.
データセットは屋内や屋外環境から,カメラや携帯カメラにて撮影された動画像を適用してから姿勢を推定する.事前情報を入れておき,CNN による尤
度計算により事後確率を計算するため,ロバストなマーカレス Mocap システムとなっている.屋外環境における照明が強い条件下においても姿勢の推定
ができている.結果はプロジェクトページの動画参照.
Link(s) 論文ページ:
http://gvv.mpi-inf.mpg.de/projects/convNet_moCap/vids/CVPR15.pdf
プロジェクトページ:
http://gvv.mpi-inf.mpg.de/projects/convNet_moCap/
78. 【76】
B. Resch, H. P. A. Lensch, O. Wang, M. Pollefeys, A. Sorkine-Hornung, “Scalable Structure from Motion for Densely Sampled
Videos“, in CVPR2015.
ビデオからの SfM や SLAM は困難な課題である.提案手法では外的なカメラ姿勢や 3 次元のシーン構造を同時に計算する.これに対して,ビデオに
おける密なサンプリング点を利用することが有効であることがわかった.コントリビューションとして,ロバストな追跡や信頼度の高い動画中の画像を選択す
ることである.バンドルアジャストメント,3 次元再構成,カメラ姿勢推定をする.この研究は,高解像(2-20megapixel)・高フレームレート(25-120Hz)動画にお
ける初めての SfM システムであると考える.まずは KLT により特徴点を追跡しておき,信頼度の高いフレームを選別する.バンドルアジャストメントを適用
して,window におけるパラメータを推定する.Global anchor constraints には SIFT を用いて違うフレーム間のマッチングを行う.カメラ姿勢推定を行い,最
終的なバンドルアジャストメントにより最終結果を得る.左図は構成結果であり,右図は処理フローを示す.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Resch_Scalable_Structure_From_2015_CVPR_paper.pdf
79. 【77】
Mohamed Elgharib, Mohamed Hefeeda, Frédo Durand, William T. Freeman, “Video Magnification in Presence of Large Motions
“, in CVPR2015.
人間の目では見ることが出来ない「微妙な揺れ」を検出する問題.Dymanic Video Motion Magnification(FVMAG)を提案している.
小さな揺れと,カメラモーションを推定し,より正確な小さな揺れを検出している.
Link(s) 【Youtube】
https://www.youtube.com/watch?v=AGA6eJXZAOw
【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Elgharib_Video_Magnification_in_2015_CVPR_paper.pdf
82. 【79】
Mohamed Elgharib, Mohamed Hefeeda, Frédo Durand, William T. Freeman, “Video Magnification in Presence of Large Motions
“, in CVPR2015.
テクスチャレスな物体を対象にステレオマッチングを実現する.この研究では,車を対象にしている.(テクスチャレス,反射などがあるため)
画像から直接特徴点をマッチングするのではなく,SuperPixel でのステレオマッチングしている.そして,マッチングした情報から CAD 情報に当てはめる
ことで,より高精度な 3D 再構成を実現している.
Link(s) 【Youtube】
https://www.youtube.com/watch?v=O2rADk19a84
【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Guney_Displets_Resolving_Stereo_2015_CVPR_paper.pdf
83. 【80】
C. Liu, H. Gomez, S. Narasimhan, A. Dubrawski, M. R. Pinsky, B. Zuckerbraun, “Real-time Visual Analysis of Microvascular
Blood Flow for Critical Care“, in CVPR2015.
低コントラスト,テクスチャのない,微小循環系(microcirculation)ビデオを入力として血流状態の変化を捉える.提案手法では,困難な環境からいかに血
流速度の分布や呼吸数,心拍数を推定する.微小循環系ビデオは SDF(side-stream dark field)イメージデバイスを用いて撮影する.
下図は処理の流れであり,(a) SDF を用いた血流を計測する概念図 (b) 撮影されたある画像 (c)脈菅を強調した画像 (d) 脈菅をスケルトンとして推定した
画像 (e) 血流のある部分を強調した画像 (f) 大域的なモーションから心拍と呼吸数を推定 (g) 血流速の分布を推定
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Liu_Real-Time_Visual_Analysis_2015_CVPR_paper.pdf
84. 【81】
YiChang Shih, Dilip Krishnan, Frédo Durand, William T. Freeman, “Reflection Removal using Ghosting Cues,“, in CVPR2015.
Ghosting Cues を用いた反射の除去を提案している.
上図に示される 1 行目の画像のように,ガラス越しにリンゴを撮影した際に,反射して後ろ背景が写りこんでしまう.この提案している手法により,撮影した
画像に望ましくない反射が発生した際にこれを除去する.窓ガラスを介して:(a)入力画像と反射のアーティファクト,(b) 反射層の上にゴーストクローズアッ
プ,(c)本手法を利用した回収透過層,(d) 本手法を利用した回収反射層.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Shih_Reflection_Removal_Using_2015_CVPR_paper.pdf