【2015.07】(1/2)cvpaper.challenge@CVPR2015

cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge

【1】
S. Xie, T. Yang, X. Wang, Y. Lin, “Hyper-class Augumented and Regularized Deep Learning for Fine-grained Image
Classification”, in CVPR2015.
Fine-grained 認識(FGIC: Fine-Grained Image Classification)のための CNN 学習についての研究．Intra-class 内(車の車種や鳥の種類の認識など)の特
徴表現が重要であり，それらをいかに捉えて識別するかが詳細画像認識においては重要な課題である．
構造には super-type 表現(e.g. 犬の下にさらに下位の種類がある)と，factor-type 表現(e.g. 別角度から撮影された車)があると主張している．多タスク学習
の概念をディープラーニングに導入して super-type や factor-type な表現をいかに学習して詳細画像認識に有効な特徴量を取り出すかを基本的な課題と
する．下図は CNN の構造を示す．
Link(s) 論文ページ:
http://vcl.ucsd.edu/~sxie/pdf/hyper-cvpr2015.pdf
著者ページ：
http://homepage.cs.uiowa.edu/~tyng/

【2】
Y. Yang, C. Fermuller, Y. Li, Y. Aloimonos, “Grasp Type Revisited: A Modern Perspective on A Classical Feature for Vision”, in
CVPR2015.
手で握ることを認識する問題．手を主体とした人物の行動はもちろん，人物意図推定にもつながるという枠組み．従来では身体全体から取得されていた
行動も，指先などの細かい動作も含めて認識できる可能性がある．ここで取り扱う人物の把持タイプは左図の通りである．例では Cylindrical, spherical,
hook, pinch, tripod, lumbrical というタイプがある．これらの認識は，CNN ベースの特徴量を用いることで 59%の精度で認識できている．(実験では
HOG+BoW+SVM/RF による比較を行っており，SVM では 42%, RF では 36%であった)クラスとしては 6 種類と，それ以外というクラス構成である．このタイ
プが認識できると，65%の確率で意図が推定できるとしている．意図のクラスとは force-oriented, skill-oriented, casual の 3 タイプである．右図が意図推定の
3 タイプである．
http://www.umiacs.umd.edu/~yzyang/paper/CVPR2015Grasp.pdf
著者ページ：
http://www.umiacs.umd.edu/~yzyang/

【3】
C. Gong, D. Tao, W. Liu, S. J. Maybank, M. Fang, K. Fu, J. Yang, “Saliency Propagation From Simple to Difficult”, in
CVPR2015.
Saliency は画像中でもっとも魅力のある物体のことを指している．現在，もっとも適用されている手法が propagation method である．superpixel が saliency
には採用されており，あらかじめラベル付けされた superpixel との対応により saliency を決定づけている印象である．しかし，これは画像の特性によっては
ミスが発生してしまう可能性もあり，モデルの再考が必要である．提案手法では，propagation の流れを，評価の質により最適化する必要があると述べている
．感覚的には複雑な領域よりもシンプルで信頼性の高い位置に関して顕著性を上げるという方法である．この枠組みは Teaching-to-Learn and Learning-to-
Teach (TLLT)と呼ばれており，こちらも superpixel を適用しているが，informativity, individuality, inhomogeneity, connectivity の評価値を統合により
superpixel のラベルを更新する．さらには更新したラベルをさらに最適化するために領域情報を教え込むことにより最適化の質を高める．この繰り返しにより
領域をより精度よく求めていく．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gong_Saliency_Propagation_From_2015_CVPR_paper.pdf
著者ページ：
https://sites.google.com/site/chengongshomepage/

【4】
H. Possegger, T. Mauthner, H. Bischof, “In Defense of Color-based Model-free Tracking”, in CVPR2015.
Model-free(モデルを持たない)なカラー表現によるオンライントラッキングシステムを提案する．従来の画像ベースの追跡では類似するアピランスの物体
追跡が多数であったが，似たようなアピアランスの物体が画像中に存在する際には追跡が困難になってしまう．この問題を解決するためにあらかじめ識別
性能が高くなるような領域を囲んで追跡する．まずは追跡している物体をいかにその周囲の背景と切り離すかを考慮する．さらにはロバストに追跡するため
に進行方向に類似するアピアランスの物体がないか，のリスクを排除する必要がある．背景との分離性を良好にするために Bayes 識別器を適用する．さら
にはスケールを特定するために Tracking-by-detection ベースの追跡を行い，non-maximum supression を行うことでウインドウを統合し追跡物体へのフィッ
ティングを行う．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Possegger_In_Defense_of_2015_CVPR_paper.pdf
Vimeo:
https://vimeo.com/121649922

【5】
R. Tao, A. W. M. Smeulders, S.-F. Chang,“Attributes and Categories for Generic Instance Search from One Example”, in
CVPR2015.
１つのクエリサンプルデータから，汎用的にサーチできるかという問題．想定としては，一枚の画像を入力として，類似する画像を検索する．建物などの大
規模な物体を想定した時の問題として，その裏側のデータがないことにある．人間はそれをイメージにより作り出すことが可能であるが，それをコンピュータ
にどうやって学習させるか．それは attribute を指標として検索をかけることであると説明している．ここで比較のためには VLAD や Fisher Vector, Deep
Feature などを Oxford5k dataset や著者らが用意したシューズのデータセット(CleanShoes, 6624 枚うち 1000 枚が CleanShoes ではない)にて評価した．結
果的には attribute による特徴表現は他の特徴ベクトルよりも低次元で高精度な識別性能を達成し，高精度に検索ができることがわかった．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Tao_Attributes_and_Categories_2015_CVPR_paper.pdf
著者ページ：
https://staff.fnwi.uva.nl/r.tao/publication.html

【6】
H. Kwon, Y.-W. Tai, S. Lin, “Data-Driven Depth Map Refinement via Multi-scale Sparse Representation”, in CVPR2015.
Kinect の普及により簡易的に距離画像を取得できるに至っているが，その質の確保が困難である．低解像な距離画像からより高解像な距離画像を得る
ための手法を提案する．ここでは multi-scale dictionary learning を行う．ここで，辞書学習において，距離画像に連続性がないこと，辞書サイズが大きくな
ること，他の階層のデータにおいて特徴の幾何的な性質が変わることが挙げられる．このため，RGB-D における類似度計算の指標や degradation variation
の導入により密なスケール階層において適切に情報を削減することができる．また，スケール毎に辞書を用意して，さらには距離画像のリファインメントをす
る．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Kwon_Data-Driven_Depth_Map_2015_CVPR_paper.pdf
プロジェクトページ(コード)：
https://sites.google.com/site/datadrivendepthcvpr2015/

【7】
H. Kwon, Y.-W. Tai, S. Lin, “Data-Driven Depth Map Refinement via Multi-scale Sparse Representation”, in CVPR2015.
RGB-D を用いた物体の姿勢推定問題．RGB-D において，距離画像は RGB データよりもアピランス情報が少なく，グローバル特徴という面では識別性
能が低い．しかし，平面や 3 次元点群が取得できるという意味において有益な情報を取得可能である．
下図は処理フローである．RGB-D を入力画像としており，CAD をモデルとしてトラッキングを行う．ベストマッチの物体座標を描画，feature distance を計
算し，ピクセル毎の整合性を計算して姿勢を決定する．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zach_A_Dynamic_Programming_2015_CVPR_paper.pdf
Vimeo:

【8】
J. Hosang, M. Omran, R. Benenson, B. Schiele, “Taking a Deeper Look at Pedestrians”, in CVPR2015.
歩行者検出に CNN を用いる．現在までの最高精度を出している手法はブースティングの概念における decision trees であるが，この可能性をさらに拡げ
るために CNN ベースの歩行者検出を提案する．ここでは convnet の構造を変更しながら歩行者検出のデータセット caltech や KITTI dataset にて試行す
る．ベースには CIFAR-10 や AlexNet のモデルを適用して，10^5~10^7 のパラメータ数で学習する．学習サンプル数が少ない場合には CIFAR-10(4 層)
の構造が性能が高かったが，より画像枚数が多くなってくると AlexNet(8 層)の方が良好な性能を示した．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/2B_080_ext.pdf
著者ページ：
https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/people/jan-hosang/

【9】
C. Ciliberto, L. Rosasco, S. Villa, “Learning Multiple Visual Tasks while Discovering their Structure”, in CVPR2015.
検出・識別，デノイジングやインペインティングなど，複数の課題があるが，個別に問題を解くよりも，同時に問題を解いた方がメリットが得られるという提案
．マルチタスク学習を導入して解くこととする．さらに，事前情報が全くない場合にも，パラメータを同時に解くことができるので非常に効果的であることがわ
かる．ここでは問題によってカーネルのパラメータを調整する separable kernels を適用する．相関ベクトルや，タスク間の関係性を評価指標として計算する
．このように，タスク間のパラメータを同時に解く手法として sparse kernel マルチタスク学習 (SKMTL)を提案している．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/1A_015_ext.pdf

【10】
Z. Huang, R. Wang, S. Shan, X. Chen,“Projection Metric Learning on Grassmann Manifold with Application to Video based Face
Recognition”, in CVPR2015.
映像からの顔認識問題に，projection metric learning を適用した．なお，多様体学習の手法 Grassmann 法も用いている．
旧来の手法では，Grassmann manifold により空間を生成した後に高次元のヒルベルト特徴空間に射影する．さらに，その高次元空間から低次元の空間
に落とし込むことで識別性能の高い特徴ベクトルが完成する．
提案手法においては，Grassmann manifold により空間を生成した後で直接識別性能の高い空間に落とし込む．Mahalanobis-like な行列を導入すること
で，カーネルヒルベルト空間のような高次元空間を経ずに識別性能が高い特徴空間を生成する．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Huang_Projection_Metric_Learning_2015_CVPR_paper.pdf

【11】
N. Naik, A. Kadambi, C. Rhemann, S. Izadi, R. Raskar, S. B. Kang, “A Light Transport Model for Mitigating Multipath
Interference in Time-of-flight Sensors”, in CVPR2015.
ToF カメラのエラーの主な原因は Multipath Inference (MPI)であり，これは複数の反射光がピクセルに映し出されることによるものである．MPI は自然な
シーンでも，複数の反射光が存在する環境や反射光が拡散する場面(顔など)にて発生する．これをダイレクトかつグローバルに phase と amplitude に分割
し，MPI による距離画像の誤差を小さくする．実験では Kinect と赤外線プロジェクタを用いている．複数の反射やサブ表面での分光を考慮してノイズを除
去した．高価なセンサを用いることなく，高精細な距離画像を生成できることを示した．
http://web.mit.edu/naik/www/assets/pdf/naik_mpi_cvpr_15.pdf
著者ページ：
http://web.mit.edu/naik/www/

【12】
S. Kaltwang, S. Todorovic, M. Pantic, “Latent Trees for Estimating Intensity of Facial Action Units”, in CVPR2015.
入力の動画像から，どの Facial Action Units (FAU: 顔のアクションユニット)がどれくらいの強度で生起しているかを推定する．Latent Tree (LT)を用いるこ
とで FAU の強度を推定することができるとしており，LT の構成は Tree の上位階層が隠れ変数でリーフノードにて観測情報である顔のランドマークを，また
非観測情報である FAU の強度を推定する．複数の FAU を同時に推定すること，構造学習であることが強みであるといえる．構造学習では顔から取得す
るランドマークと FAU，さらには潜在的な上位ノードのつながりを計算する．
http://ibug.doc.ic.ac.uk/media/uploads/documents/kaltwang2015latent.pdf
ポスター：
http://web.engr.oregonstate.edu/~sinisa/talks/cvpr15_fau_poster.pdf

【13】
S. Leonardos, R. Tron, K. Daniilidis, “A Metric Parametrization for Trifocal Tensors with Non-Colinear Pinholes”, in CVPR2015.
Trifocal Tensor は 3 カメラにて得られる拘束を用いたポイントや線の対応づけを行う手法である．この論文では，キャリブレーションされたカメラから
Trifocal Tensor の新しいパラメータ推定方法について調査する．
最適化により Trifocal Tensor の cost function を最小化し，Weizsfeld アルゴリズムを用いて trifocal manifold における点を推定する．RANSAC ほどは良
くならないが，パラメータの調整が必要なく良い推定地に到達できる．
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Leonardos_A_Metric_Parametrization_2015_CVPR_paper.pdf

【14】
C.-G. Li, R. Vidal,“Structured Sparse Subspace Clustering: A Unified Optimization Framework”, in CVPR2015.
画像は高次元空間ではあるが，低次元の空間に射影してクラスタリングが可能である．動物体の動線の association や複雑な光源での顔画像空間から部
分空間を取り出してクラスタリングする課題などが考えられる．この論文では，2 段階の最適化を統合するフレームワークを考案する．クラスタリングと
affinity matrix を同時に推定することで，それを実現しようとする試み．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_Structured_Sparse_Subspace_2015_CVPR_paper.pdf

【15】
L. Mai, Feng Liu, “Kernel Fusion for Better Image Deblurring”, in CVPR2015.
カメラのデブラーに関する報告．より高度なブラー除去のための提案を行っている．アイディアとしては，複数のデブラー手法を合成する際に複数のカー
ネルを用いることである．従来では重み付き平均を行うことにより複数の手法を組み合わせてきたが，提案手法ではデータドリブンでいかに複数の結果を
統合するかを考案する．ここに Gaussian confitional random fields (GCRF)を用いることで，カーネルによる統合を学習ベースで行うことができる．下図では
従来法との結果を示しており，右の提案手法は効果的に文字まで含めて復元ができている．
http://web.cecs.pdx.edu/~fliu/project/kernelfusion/

【16】
C. Hane, L. Ladicky, M. Pollegeys, “Direction Matters: Depth Estimation with a Surface Normal Classifier”, in CVPR2015.
両眼ステレオマッチング(binocular stereo matching)や単眼距離画像推定(single-view depth estimation)のための改善．表面の法線方向推定については
問題意識が以前からありデータセットも提案されている．ここでは表面形状の法線方向を推定する識別器を用い，その応答により距離画像を推定するとい
うもの．両眼ステレオマッチングや単眼距離画像推定問題の両方に対して識別器を適用する．法線方向ベースの識別器を生成するわけだが，正規化項を
含めたものやさらには最適化を行い最終的な出力値を得る．
下図は KITTI dataset や NYU indoor dataset に適用した結果である。
http://www.inf.ethz.ch/personal/ladickyl/normals_cvpr15.pdf

【17】
R. Mottaghi, Y. Xiang, S. Savarese,“A Coarse-to-Fine Model for 3D Pose Estimation and Sub-Category Recognition”, in
CVPR2015.
物体の 3D 姿勢やそのカテゴリを求める問題設定．下図では Coarse-Fine-Finer と，より詳細なモデルやカテゴリ分類ができるようになっていく．Car
(coarse), Sedan (fine), Sedan Type I (finer)という対応付け．このように物体の検出，3 次元姿勢推定，サブカテゴリ認識までを一括で行うフレームワークを提
案する．違う階層では違う特徴量を用意するが，その情報の双方のやりとりによりメリットが得られる．モデルは Hybrid Random Field を用いることでランダム
かつ mixture な連続値・離散値を用いてパラメータ推定できる構造学習の枠組み．大域的な特徴には HOG，局所的な特徴には CNN 特徴量を適用する
．学習には Structured SVM を用いて viewpoint, sub-category, finer-sub-category それぞれの損失項を計算する．データセットは PASCAL 3D+を用いてお
り，位置推定，サブカテゴリ認識や 3 次元的な物体の姿勢まで推定している．
http://cvgl.stanford.edu/papers/Mottaghi15cvpr.pdf
著者ページ：
http://www.cs.stanford.edu/~roozbeh/
ポスター：
http://yuxng.github.io/mottaghi_cvpr15_poster.pdf

【18】
João Carreira, Abhishek Kar, Shubham Tulsiani and Jitendra Malik,“Virtual View Networks for Object Reconstruction”, in
CVPR2015.
仮想視点を作成することで，1 枚の画像から 3D 再構成を実現している．
“牛”というタグの多視点画像を事前に学習しておき，「牛とは得てしてこの形状である」というモデルを作成しておく．具体的には，ラベル付き特徴点を生
成し，多視点でマッチングすることでモデルを生成する．PASCAL VOC で実験した結果の一例を以下に示す．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/2A_078_ext.pdf

【19】
T. Kobayashi, “Three Viewpoints Toward Exemplar SVM”, in CVPR2015.
Examplar-SVM には 3 つの視点があるとして，2 つの手法を提案．オリジナルの定式では 2 クラスのマージン最大化である．ひとつの視点は 1-クラスのマ
ージン最大化という識別であり，その他 least-square の構築である．
1 つのサンプルから得られたマージンを最大化する利点：パラメータが一つ(C)になる，C の範囲が 1/N から 1.0 になる．1/C によってサポートベクターの
数を調整する．よって，学習率のパラメータをチューニングする必要なく SVM を使える点にある．
Least-squares: 2 クラス問題のマージン最大化が 1 クラスと誤差最小化と等価．パラメータの設定が簡単になった
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/html/Kobayashi_Three_Viewpoints_Toward_2015_CVPR_paper.html
著者ページ：
https://staff.aist.go.jp/takumi.kobayashi/

【20】
M. Jas, D. Parikh, “Image Specificity”, in CVPR2015.
画像の特定度合い(曖昧性のなさ)を Image Specificity と呼ぶことにする．人が作成した画像の説明文を解析して，画像の特定度合いを指標化したもの
である．距離計算指標は cosine similarity などを用いている．この評価指標があることで，画像説明文の曖昧性が少なくなるという主張．データセットには
MEM-5S, ABSTRACT-50S, PASCAL-50S を適用しており，S の前の数字は 1 画像あたりの説明文の数である．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Jas_Image_Specificity_2015_CVPR_paper.pdf
著者ページ：
https://ltl.tkk.fi/wiki/Mainak_Jas
demo ページ：
http://godel.ece.vt.edu/image_specificity
github コード：
https://github.com/mainakjas/specificity

【21】
V. Ramanathan, C. Li, J. Deng, W. Han, Z. Li, K. Gu, Y. Song, S. Bengio, C. Rossenberg, L. Fei-Fei, “Learning semantic
relationship for better action retrieval in images”, in CVPR2015.
人物は，人物間や物体とインタラクションをしている．しかし，このインタラクションのクラスは大きすぎて処理しきれない．しかし，ある行動はその周囲の行
動と関連性があるということがわかっている．ある行動がわかっている際に，周囲の行動のための事前情報とならないか，という提案．これに Neural
Network を用いて行動間の関係性からより検索精度の高いモデルを構築する．ここに言語や視覚，論理的な手法を導入して認証を効果的にする．ここで
は大規模なデータセットを用いて，人物行動の検索結果を改善した．提案手法では，3 つの関係性を表現するルールを用いた．1. implied by-, 2.type-of,
3. mutually exclusive． Neural Network にてこの 1-3 に適合するように loss function が最適化される．結果は 54.58% (27K), 45.82% (2.8K), 38.73% (Stan-
81)と行動の検索に対して良好な性能を示した．
http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/43443.pdf

【22】
J. Dong, S. Soatto, “Domain-Size Pooling in Local Descriptors: DSP-SIFT”, in CVPR2015.
下図において，上が SIFT，下が DSP-SIFT を示す．SIFT では選択されたスケールにおいて処理されるが，DSP-SIFT ではすべてのスケールの特徴をプ
ーリングしておき(a)，すべてのパッチをリスケールする(b)．複数のスケールにわたって輝度勾配を取得する．その後は SIFT と同様に勾配を連結して特徴
ベクトルを生成．
右図では各データセット(Oxford, Fischer)における識別性能を示している．次元数がもっとも低いに関わらず，高い精度を示している．CNN のそれよりも
良くなることが判明した．
http://vision.ucla.edu/papers/dongS15.pdf

【23】
G. Bertasius, J. Shi, L. Torresani, “DeepEdge: A Multi-Scale Bifurcated Deep Network for Top-Down Contour Detection”, in
CVPR2015.
エッジ検出はコンピュータビジョンにおける基礎的な課題である．セグメンテーションや物体検出問題においても非常に良く使われている．提案手法では
，Deep Learning を用いた高次な特徴量を用いることでエッジ検出をより高精度にする．ここでは，マルチスケールの Deep Learning を適用してエッジを検
出する．DeepEdge は 5 層の構成になっている．
下図は DeepEdge のアーキテクチャ．右図はエッジ検出した結果である．Canny edge がノイズが含んでいるのに対して，DeepEdges はより背景を除去し
つつ物体からのエッジを抽出している．
DeepEdge は物体認識とエッジ検出を同時に行うフレームワークと捉えることができる．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Bertasius_DeepEdge_A_Multi-
Scale_2015_CVPR_paper.pdf

【24】
Philipp Krähenbühl,Vladlen Koltun, “Learning to Propose Objects”, in CVPR2015.
提案手法では，候補領域抽出を行う．
Microsoft COCO データセットの 3 つのイメージから候補領域抽出をする．提案手法によって生成された画像は左から右の順に：入力画像，Ground
Truth のセグメンテーション例，候補領域となる．図に示される，一番上と真ん中の行はインスタンスの色と模様の類似性に関わらず，正確なインスタンスの
候補領域を出力している．一番下の行では，白いサーフボードと人物を見分けることに成功している．
最先端の候補領域抽出アルゴリズムと提案手法の性能を比較する．パスカル VOC2012 データセットと Microsoft COCO のデータセットを用いて実験を
行う．候補領域抽出の精度を評価した結果，形状の重なりがある VOC2012 データセットで 94％の再現率を実現．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Krahenbuhl_Learning_to_Propose_2015_CVPR_paper.pdf

【25】
G. Rogez, J. S. Supancic, D. Ramanan, “First-Person Pose Recognition using Egocentric Workspaces”, in CVPR2015.
一人称ビジョンにおいて上半身の腕と手の部分の 3 次元姿勢推定を行う．この問題を解決するために胸の部分に取り付けた距離センサ(chest mounted
depth-camera)から撮影する．ここで重要なのは，日常的に接する物体とのインタラクション認識ができるかどうかということである．ここでのコントリビューショ
ンは Global の一人称ビジョン，Volumetric(3D ライク)な表現，Contextual (状況を加味した)な，人物の主に腕や手，物体のモデリングである．
RGB-D における HOG 特徴量を用いて Sparse Multiclass SVM で識別する．最終的には腕や手の中でも指の姿勢まで推定できることが判明した．結果
的には，70%前後での認識に成功．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Rogez_First-
Person_Pose_Recognition_2015_CVPR_paper.pdf
YouTube：
https://www.youtube.com/watch?v=u2LAGiHOEEw

【26】
Y.-W. Chao, Z. Wang, R. Mihalcea, J. Deng, “Mining Semantic Affordances of Visual Object Categories”, in CVPR2015.
物体とそのアフォーダンスの関連性を学習するという提案．アフォーダンスとは，例えば Bicycle なら accelerate, race, operate, manufacture, drive, ride を
連想する．ここでは，knowledge mining の話として，アフォーダンスの意味解析を提案．下図は affordance matrix であり，物体とそれを連想する行動が対
応づけられている．
最終的には Kernelized Probabilistic Matrix Factorization (KPMF) - collaborating filtering を用いた識別結果は他の手法を上回った．
http://www-personal.umich.edu/~ywchao/publications/chao_cvpr2015.pdf
著者ページ：
http://www-personal.umich.edu/~ywchao/publications.html

【27】
L. Gueguen, R. Hamid, “Large-Scale Damage Detection Using Satellite Imagery”, in CVPR2015.
世界的に災害などにより地表が変動することがある．災害などに関しては，近付けないこともあるので，衛星画像解析によりダメージの検出を行う．従来で
は，事前や事後の，人手による解析が行われてきたが，高精度かつ効率的にコンピュータが解析できれば，労力を減らすことができる．新規性としてはま
ず，包括的なデータセットの考案がある．4,665KM^2 の範囲にて事前・事後のペアが 86 種類含まれているデータセットを提案．特徴量の選択も有効であ
るとしている．shape-distributions (SD), trees-of-shapes features, SIFT+BoW の特徴抽出により精度が向上した．
http://www.raffayhamid.com/gueguen_cvpr_2015.pdf
著者ページ：
http://www.raffayhamid.com/research.shtml

【28】
D. Lin, X. Shen, C. Lu, J. Jia, “Deep LAC: Deep Localization, Alignment and Classification for Fine-grained Recognition”, in
CVPR2015.
Deep Neural Network を用いて，詳細画像認識のためのローカライズ，アラインメント，識別(DeepLAC)を同時に行う．主に，valve linkage function (VLC)
を用いて，誤差逆伝播法を行い，DeepLAC を学習する．
VLC による誤差逆伝播法により，識別やアラインメントの誤差がローカライズの部分まで伝播される．この仕組みにより，従来法よりも Head や Body の検
出率だけでなく，識別率に関しても向上した．なお，データセットには Caltech-UCSD Bird-200-2010 dataset を用いている．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lin_Deep_LAC_Deep_2015_CVPR_paper.pdf
著者ページ：
http://xiaoyongshen.me/

【29】
Yang Song , Weidong Cai1, Qing Li, Fan Zhang , David Dagan Feng, Heng Huang, “Fusing Subcategory Probabilities for Texture
Classification”, in CVPR, 2015.
テクスチャ内のサブカテゴリ推定モデルの提案．
著者らが改良した sparse subspace clustering(SSC)によりテクスチャのサブカテゴリーを生成する．サブカテゴリの分類確率はサブカテゴリ間の特殊性確率
とサブカテゴリ内の代表性確率に基づく 2 種類の確率を求める．そのサブカテゴリー確率に寄与率，クラスタの質の重みを乗算し重み付けを行い統合する
．統合結果をクラスラベルを得るためマルチクラス分類の確率分布に追加することで精度の高いテクスチャ分類をおこなっている．実験は KTH-TIPS2,
FMD, DTD により行い SVM を用いることで精度が高くなった．
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Song_Fusing_Subcategory_Probabilities_2015_CVPR_paper.pdf

【30】
Tal Hassner, Shai Harel, Eran Paz and Roee Enbar, “Effective Face Frontalization in Unconstrained Images”, in CVPR, 2015.
横や斜めから見た人物の顔面を正面からみた顔画像に変換する．
従来では各クエリ画像に対して 3D の顔形状を近似することで人物の顔画像の方向変換に成功した．本研究では単一の非拘束の 3 次元表面を使用し
てより簡単な顔画像変換方法(frontalization)を検証する．
実験結果より frontalization は新しい正面顔部位を生成し、顔認識と性別の推定に効果的であることを示した．以上より顔認識において 3 次元形状と 2
次元の外観の比較の役割としての、3D モデルによる形状推定が不要であることを示唆した．
図 1：Frontalized daces Top:入力画像, bottom：顔面の 3 次元形状推定をせずに取得した frontalizations 図 2:Frontalized のプロセス
（a）は（b）で検出された顔の特徴からクエリ面に及びテクスチャ付き 3D，CG モデル（c）を
レンダリングすることによって生成された基準顔
（d）の 2 次元のクエリは座標と 3D の対応してバックプロジェクトするために，クエリのテクスチャを
基準に座標系を使用し，推定射影行列をモデル座標の上に提供
（e）の frontalized 結果に重ねて示した推定自己閉塞は（暖かい色がより閉塞を反映している）
顔の外観が対称な顔領域を相当するため，これらの領域から借用する
(顔面は左右対称であるから隠れている領域は，隠れていない領域から取得される外観情報を取得し再現している?)
（f）最終的な frontalized 結果
http://www.openu.ac.il/home/hassner/projects/frontalize/
プロジェクトページ：
http://www.openu.ac.il/home/hassner/projects/frontalize/

【31】
L. Du, H. Ling, “Cross-Age Face Verification by Coordinating with Cross-Face Age Verification”, in CVPR2015.
Cross-age face verification (FV; 年齢をまたいだ顔の認識)の課題を，Cross-face age verification (AV; 個人の顔をまたいだ年齢の認識)の知識を用いるこ
とで解決する．例えば年齢が似たような二人の顔画像を用いることで特徴を取得する．FV と AV は一部共通の特徴量を持ち合わせているが，FV は年齢
変化に比較的頑健な手法が必要であり，AV の特徴の性質から FV に利用できるかもしれないという提案である．下図は顔のポジションとその importance
map であり，(a) 顔認識で一般的に用いられる特徴 (b) FV により投射される AV の特徴 (c) AV により投射される FV の特徴．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Du_Cross-Age_Face_Verification_2015_CVPR_paper.pdf

【32】
Xianjie Chen and Alan Yuille，” Parsing Occluded People by Flexible Compositions”, in CVPR, 2015.
オクル―ジョンが大部分ある際に人物姿勢を推定する手法を提案する．従来では木構造を持つグラフィカルモデルを利用し，目に見えるノードとグラフィ
カルモデルの接続されたサブツリーを形成する直前のノードが接続されていることを利用している．本研究では，接続された各サブツリー部分の物体を軟
質組成物と呼び，推論から異なるフレキシブルなモデル間の混合を検索する必要があることがわかった．人体部分の共有を利用することにより，オブジェク
ト全体を検索する場合と比較して人体モデルの候補を 2 倍求めることができた．
図 1 : フレキシブルな組成物の図．完全グラフと接続された各サブツリーはフレキシブルな組成物である（完全グラフ自体も含む）．特定の部分を持たない
フレキシブルな組成物を持つ人はオクル―ジョンの解析に適している．
図 2 : ある身体部位が無いことはオクル―ジョンを予測する手がかりになる．しかし複雑なシーンで失敗することがある．オクルージョン境界付近(すなわち、
右肘と左肩付近)の局所的な画像測定によって確実なオクル―ジョンの手がかりを提供する．
Link(s) 論文ページ：
http://www.stat.ucla.edu/~xianjie.chen/pdf/Chen_CVPR15.pdf
http://www.stat.ucla.edu/~xianjie.chen/projects/occluded_people/occluded_people.html

【33】
Jia Xu , Alexander G. Schwing , Raquel Urtasun ，”Learning to Segment Under Various Forms of Weak Supervision”, in CVPR,
2015.
弱教師あり学習によるピクセルレベルの semantic segmentation (意味付け+セグメンテーション)．従来の手法は，完全教師あり学習により，最大マージン
分類を用いてこの課題に取り組んできた．本手法では，より汎用性を高めるため，弱教師あり学習で実現する．
具体的には，Superpixel から特徴量を抽出し，C 次元に符号化する．そして，最大マージン分類を用いてピクセル毎のラベリングを実現する．
Link(s) http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xu_Learning_to_Segment_2015_CVPR_paper.pdf

【34】
M. S. Ryoo, B. Rothrock, L. Matties, “Pooled Motion Features for First-Person Videos”, in CVPR2015.
一人称ビジョン(First-person vision)において，新しい特徴表現を考案した．CNN 特徴量を蓄積(pool)することにより時系列方向の特徴表現も行い，一人
称ビジョンの認識性能を向上させる．下図では総括的に提案手法を説明しており，まずは一人称ビジョンの映像から時系列フレームを取得して，CNN 特
徴を取得する．ここでは出力層の前の第 7 層から 4096 次元の特徴を抽出している．ここでは，特徴次元数を n，時系列フレーム数を m として，n*m 次元
の行列を生成している．時系列に並べたこの行列から，時系列プーリング(temporal pooling)を行うが， sum pooling, max pooling, ‘histogram of time series
gradients’ pooling を行うことで時系列表現を行う．k 種類のフィルタリング処理を通すことにより，4096*k 次元の時系列特徴量を取得できる．
UEC Park dataset や DogCentric dataset にて実験した結果，提案手法である時系列プーリングは非常に高い性能を示しただけでなく，THUMOS14 の
improved dense trajectories (iDT) + CNN を組み合わせることも有効であることが判明した．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ryoo_Pooled_Motion_Features_2015_CVPR_paper.pdf
著者ページ：
http://michaelryoo.com/
ソースコード：
https://github.com/mryoo/pooled_time_series/

【35】
Abel Gonzalez-Garcia, Alexander Vezhnevets, Vittorio Ferrari, “An Active Search Strategy for Efficient Object Class Detection”,
in CVPR2015.
物体検出において，物体の位置関係などからアクティブに探索する active search strategy の提案．外観と位置情報を基に context を抽出し，探索窓から
物体クラスのスコアを求めることで物体検出している．sontext は Random Forests によって求め，スコアは実験的に R-CNN と UvA を用いて求める．外観特
徴は，CNN 特徴を用いており，BoW で次元削減している．
SUN2012 と PASCAL VOC10 で実験した結果，提案手法は探索窓を低減しながら物体検出することができた．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gonzalez-
Garcia_An_Active_Search_2015_CVPR_paper.pdf

【36】
L. Wan, D. Eigen, R. Fergus, “End-to-End Integration of a Convoluational Network, Deformable Parts Model and Non-Maximum
Suppression”, in CVPR2015.
DPM や CNN はどちらも物体認識の分野にて成功を収めている手法であるが，両者の特性の違いから，組み合わせによる改良はできないかを探った．
DPM は潜在変数にてパーツとその位置を保持する手法であり，CNN はニューラルネットの自動学習特徴量により非常に高度な特徴抽出を実現できる．
組み合わせてバウンディングボックスの位置ずれのエラーを最小化するために構造化された損失関数を定義する．これは，non-maximum supression
(NMS)を用いることでモデル化できることがわかった．
下図は提案手法のフローである．ピラミッド表現された画像から CNN の自動学習特徴量を取得して DPM への入力とする．別視点からキャプチャした各
モデルからの応答を返却し，NMS により最終的な出力を得る．Backpropagation により，検出のエラー値は各工程にフィードバックされる．
実験では VOC2007, 2011, 2012 を用いており，非常に高い精度を達成し HOG-dpm, HSC-dpm, DP-DPM や初期の R-CNN を上回る検出率を達成した
が，最新の R-CNN(v4)には及ばなかった．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wan_End-to-End_Integration_of_2015_CVPR_paper.pdf
スライド：
http://cs.nyu.edu/~wanli/thesis/slides_baidu.pdf

【37】
B. Liu, M. Wang, H. Foroosh, M. Tappen, M. Pensky, “Sparse Convolutional Neural Networks”, in CVPR2015.
CNN は物体識別や物体検出問題に適用されて，非常に有効な手法として知られている．その中でも，VGG モデルは 16 層から構成されており，
ILSVRC2014 のデータセットにおいて top5 のエラー率が 7.4%になるなど，非常に高い性能を達成している一方で，その学習時間は 4 つのハイエンド
GPU を用いてもなお，学習時間が一ヶ月近くもあるのが現状である．ここでは，畳み込みのカーネルをスパースにすることにより，効果的に計算時間を削
減することができるという提案をする．ここでは，畳み込みの度に計算されるカーネルをよりスパースにすることで高速にする．
下図の左は従来の CNN，右は提案手法(Sparse CNN; SCNN)である．SCNN では，2 回に分割して sparse kernel matrix により畳み込む．精度は若干落
ちるものの，計算コストを減らし，CPU でも高速に動作するように改良した．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Liu_Sparse_Convolutional_Neural_2015_CVPR_paper.pdf

【38】
Sheng Chen, Alan Fern and Sinisa Todorovic, “Person Count Localization in Videos from Noisy Foreground and Detections ”, in
CVPR2015.
群衆から個人の位置とカウントを同時に行う問題(person count localization)．
この問題を解決するため，errordriven graph revision(ERG)という手法を提案している．初めに前景のセグメンテーションをし，前景物体間の時空間関係を
表現する Flow Graph を生成する．この Flow Graph を時系列に合わせて逐次的更新していく．Graph 化することで，問題を線形問題に落としこんでいる．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chen_Person_Count_Localization_2015_CVPR_paper.pdf

【39】
C. Zhang, H. Li, X. Wang, X. Yang, “Cross-scene Crowd Counting via Deep Convoluational Neural Networks”, in CVPR2015.
群衆の人数カウントはオクルージョン，奥行きや視点変化，シーンにより分散があるためにチャレンジングな課題である．ある特定の場所に依存して学習
するのではなく，全く違うシーン(cross-scene)にて適用できるようなモデルを構築する．これにより，未学習シーンにおいても群衆のカウントができるという利
点を取ることができる．従来の hand-crafted 特徴の限界を超えるために群衆解析(crowd analysis)の場面におけるさらに有効な特徴量の生成を行う．また，
シーンが異なると視点変化による歪み，見え方が変わるため，人数カウントも困難になる．これを追加の学習なしに推定する手法を考案する．群衆解析用
の前景抽出も行っている研究が多いが，直接的に推定する手法とする．ここでは，CNN を用いて群衆解析の cross-scene 設定において人数カウントを実
現する．
CNN のモデルは，群衆の密度マップと人数カウントのモデルを切り替えられるようにしている．このふたつのモデルは異なるが，互いに相関関係にあり，
相補的によくする仕組みになっている．このモデルを表現するために，出力層が密度マップ(324 次元; 18x18pixels)か，1 次元の実数値に切り替えられるよ
うにした．CNN のモデルは群衆用に Fine-tune を施していることや前景抽出に頼らなくても結果を得られることも新しい．さらにはデータセット
WorldExpo’10 crowd counting dataset も提案しており，108 の異なるシーンにおいて約 200,000 人がアノテーションされている群衆解析の分野では最大規
模のデータも配布する．LBP + リッジ回帰，CNN 特徴，Fine-tuned CNN 特徴，[Chen+,BMVC2012]の手法， [Fiaschi+, ICPR2012]の手法との比較におい
ても，提案手法は概ねエラー率が最も低くなった．(Fine-tuned 含め)CNN との比較から見ても，提案の CNN とスイッチによる回帰モデルが有効であること
がわかる．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Cross-
Scene_Crowd_Counting_2015_CVPR_paper.pdf

【40】
J. Sun, W. Cao, Z. Xu, J. Ponce, “Learning a Convolutional Neural Network for Non-uniform Motion Blur Removal”, in
CVPR2015.
カメラ撮影時の手ぶれなどにより発生する不規則なモーションブラーを，CNN を用いて解析し，補正する研究．ここではパッチを設定して，CNN を適用し
てモーションカーネルの確率を計算する．さらに，Markov Random Field (MRF)も用いることでパッチ内の確率場の計算をデンスに行うことができる．モー
ションフィールドを推定するために，パッチサイズはオーバーラップを含む 30x30pixels に設定する．このモーションを学習するために，140 万のブラーを含
むパッチとそのブラーの方向・強度をペアとして CNN の学習に与える．CNN は 6 層構成，出力層はソフトマックスにより構成され，361 種類のモーションカ
ーネルを推定できる．また，MRF により密なモーションフィールドを推定する．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Sun_Learning_a_Convolutional_2015_CVPR_paper.pdf

【41】
X. Zhu, Z. Lei, J. Yan, D. Yi, S. Z. Li, “High-Fidelity Pose and Expression Normalization for Face Recognition in the Wild”, in
CVPR2015.
非拘束(in the wild)の環境にて顔の 3 次元姿勢やその表情を保持しておくことで，正面から見たような顔画像や表情を再現することができる．この問題に
3D Morphable Model (3DMM)フィッティングや，個人を表現する正規化表現，見えない部分を補完する処理を加える．下図ではその処理の流れを示して
おり，step1 では 2 次元の顔画像からランドマークをフィッティンさせ，3DMM と対応づける．step2 では顔の 3 次元姿勢や表情の正規化を行い，
normalized mesh を当てはめレンダリングすることにより欠損を含むものの正面顏を生成する．step3 では欠損を補うことで射影した．正面顏を得る．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhu_High-Fidelity_Pose_and_2015_CVPR_paper.pdf

【42】
Akihiko Torii, Relja Arandjelovic, Josef Sivic, Masatoshi Okutomi and Tomas Pajdla, “24/7 place recognition by view synthesis”,
in CVPR2015.
シーンが外観に大きな変化(照明(昼 / 夜)，季節，老化，または時間の経過による建物の内装または建物などの構造的変化)を受ける場合の広い場所の
視覚認識の問題に対処した．
1. クエリ画像とデータベース画像の両方がほぼ同じ視点からのシーンを描くとき，シーンの外観において大きい変化を横切ることで照合が非常に容易
になることを示した．
2. 1.の観察結果に基づき、(ii)簡潔で割出し可能な(i)画像表現を有する新規視野の効率的な合成を組み合わせた新しい場所認識手法(PCA 圧縮が
続く密な SIFT 記述子の VLAD 符号器)を開発した．
3. 主要な照明の変化(日，日没，夜)とシーンの構造変化が含まれている東京の監視カメラ 1125 台のクエリ画像のデータセットを紹介した．
2 つのテストのクエリ画像(a, d)とオリジナルのストリートビュー画像の(b, e)における，ベースライン方式の(d, g)と私たちの場所の認識結果の(c, f) (合成視
野により拡張データベースとの密な VLAD 記述子)の比較を示す．本手法は困難な照明条件でも複雑なクエリを一致させることができた．
http://www.ok.ctrl.titech.ac.jp/~torii/project/247/

【43】
J. Xie, Y. Fang, F. Zhu, E. Wong, “DeepShape: Deep Learned Shape Descriptor for 3D Shape Matching and Retrieval“, in
CVPR2015.
3 次元物体のマッチングと検索問題．3D の形状記述に関しては，D2 shape distribution や statistical moments，が提案されており，BoF を用いている例も
ある．提案手法では，auto-encoder(自己符号化器)ベースの形状記述子を用いて 3 次元形状の検索に用いる．これにより，Hidden layer にて識別に有効な
特徴量を取り出すことができ，3 次元の幾何的な形状が複雑であったとしても識別が容易になる．auto-encoder は学習サンプルを用いてデータを表現する
特徴のパラメータを最適に学習してくれる仕組みのことであり，今回は 3 次元の物体形状を表現し，しかも他のクラスとの識別性能を良好にするようなパラ
メータを取り出す．auto-encoder の目的関数を最適化するために，back-propagation(誤差逆伝播法)を用いてパラメータを最適化する．
McGill shape dataset や SHREC’10 ShapeGoogle dataset を用いた実験の結果，剛体だけでなく非剛体においても高い精度を実現できることがわかった．
McGill dataset にて NN:98.8%, 1-Tier: 78.2%, 2-Tier: 83.4% (2-Tier は最高が Graph-based method の 91.1%)，SHREC‘10 ShapeGoogle dataset にて
Isometry: 99.8%, Topology: 99.6%(VQ, UDL, SDL が 100%), Isometry+Topology: 98.2%, Partiality: 97.3%, Triangulation: 95.5%を達成した．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xie_DeepShape_Deep_Learned_2015_CVPR_paper.pdf

【44】
R. Zhao, W. Ouyang, H. Li, X. Wang, “Saliency Detection by Multi-Context Deep Learning“, in CVPR2015.
Multi-context deep learning を用いて，salient object detection を実現する．ここでは Globl なコンテクスト(context)や Local なコンテクストが統合され，Deep
Learning のアーキテクチャを構成する．下図は提案の deep learning のアーキテクチャを示す．上の流れが Global-context modeling であり，superpixel ベ
ースの手法を用いている．また，下の流れは Local-context modeling であり，物体レベルなどより細かい領域に関して評価を行う．
実験では，IS [5], GBVS [4], SF [10], GC [3], CEOS [8], PCAS[9], GBMR [12], HS [11], and DRFI [6] との比較を行っており，提案手法が最も高い精度
を達成した．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xie_DeepShape_Deep_Learned_2015_CVPR_paper.pdf
著者ページ：
http://www.ee.cuhk.edu.hk/~rzhao/

【45】
Marian George, “Image Parsing with a Wide Range of Classes and Scene-Level Context“, in CVPR2015.
Superpixel を用いて，画像に写っている物体の認識とセグメンテーションを行う．Superpixel ごとに特徴を抽出し，尤度を基に分類することで，精度を向上
させている．Superpixel で画像を分割し，色や形状，テキスチャ，位置といった 20 種類の特徴を抽出し．Fisher Vecotr で特徴表現する．さらに，SIFT 特徴
を抽出し，FV および PCA で 512 次元の特徴に削減する．そして，ラベルごとに尤度を算出し，MRF でラベルを推定している．
SIFT Flow dataset と LMsun dataset で実験した結果が以下の通り．
SIFT Flow LMSun
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/George_Image_Parsing_With_2015_CVPR_paper.pdf

【46】
Hui Chen , Jiangdong Li , Fengjun Zhang , Yang Li , Hongan Wang, “3D Model-based Continuous Emotion Recognition“, in
CVPR2015.
時系列モデルを用いて，リアルタイムで感情推定する手法．感情のラベル付けされた画像から Facial Landmark を検出し，顔の 3D モデルを対応付ける
．3D モデルベースを用いて，連続感情表現(continuous emotion presentation; CEP)と個人の感情表現(user-independent emotion representation; UIEP)を
生成する．そして，RandomForest で感情を推定する．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chen_3D_Model-
Based_Continuous_2015_CVPR_paper.pdf

【47】
Fangyuan Jiang, Magnus Oskarsson, Kalle Åström, “On the Minimal Problems of Low-Rank Matrix Factorization “, in
CVPR2015.
アフィン変換やステレオカメラなどで利用することができる Low-rank 行列因子を最小限にする問題．Laman グラフ理論を用いて，最小限を解決している
．また，building-block scheme という新しいパラメータ化手法を提案している．
Link(s) http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Jiang_On_the_Minimal_2015_CVPR_paper.pdf

【48】
V. Escorcia, J. C. Niebles, B. Ghanem, “On the Relationship between Visual Attributes and Convolutional Networks“, in
CVPR2015.
各 Attribute をニューラルネットのニューロンにて表現する方法．Deep Learning の Middle-level 特徴を用いており，attribute と特徴量をいかに対応づける
かにフォーカスしている．attribute を表現する ConvNet は Attribute Centric Nodes (ACNs)と呼ばれる(下図)．このネットワークはスパースであり，attribute は
異なる層に分離されて表現されている．どうしても，CNN では最終層に注目されがちであるが，ソフトマックスによる出力層は物体に依存するため，中間層
にも着目して対応づけをしている．第 1 から第 5 層までが畳み込み層，第 6,7 層が全結合層，第 8 層が出力層と設定している．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Escorcia_On_the_Relationship_2015_CVPR_paper.pdf

【49】
T. Xiao, T. Xia, Y. Yang, C. Huang, X. Wang, “Learning from Massive Noisy Labeled Data for Image Classification“, in
CVPR2015.
Deep Learning は信頼度の高い手法であり，今後も有効な手法とみられているが，そのためには膨大なアノテーションが付けられたデータセットが必要で
ある．人手によるアノテーションは大変な労力を伴う．ここでは，効率的なラベル付けや学習のフレームワークを考案する．解決作のひとつとして，web デー
タから正解付きのデータを取得する(テキスト情報の近くから画像を取ってくる)ことや，Deep Learning の出力結果をそのまま使用することが挙げられる．し
かし，この方法はノイズを含むことになり信頼度が高いとは言えない．提案手法では，Deep Learning に完璧でないラベル付けやノイズを含むデータを入れ
たとしても学習ができることである．入力画像には多くの違うタイプのノイズを含んでおり，ラベルには誤りを含んでいるので修正する必要がある．1,000,000
枚のファッション画像を収集してアノテーションも付いている．CNN のソフトマックス層の出力を誤ったノイズデータを修正するために用いる．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xiao_Learning_From_Massive_2015_CVPR_paper.pdf

【50】
Y. Taigman, M. Yang, M. A. Ranzato, L. Wolf, “Web-Scale Training for Face Identification“, in CVPR2015.
顔認識の精度は CNN の登場により飽和傾向にある．学習画像やそのアノテーションデータを効果的に増やす必要がある．提案手法では，ベンチマーク
とそれに対する最先端の手法を提供するだけでなく，transfer learing の問題や，ブートストラップ処理によるサブサンプリング手法を大規模データに適用す
る方法，ノルム表現・画像の質・識別の信頼度を結びつける方法を提案する．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Taigman_Web-Scale_Training_for_2015_CVPR_paper.pdf
スライド：
http://www.cs.tau.ac.il/~wolf/deeplearningmeeting/pdfs/deepface_masterclass.pdf

【51】
Supasorn Suwajanakorn, Carlos Hernandez, Steven M. Seitz, “Depth from Focus with Your Mobile Phone “, in CVPR2015.
携帯電話やその他のハンディカメラからの画像を処理することができるフォーカス（DfF）メソッドからの「first depth」を導入し，キャリブレーションされていな
い DfD の問題を定式化することで，シーンの視差を考慮した，新しい焦点スタック位置合わせアルゴリズムを提案する．
携帯電話から撮影した画像に対して，深度および焦点スタックによる全焦点画像の割り出しを行う.
データセットには，サムスンのギャラクシーで撮影した画像を使用している．
上図に示される画像は，左から植物(23)，ボトル(31)，金属(33)である．(括弧内の数字はフレーム数を表す) 上の行の画像は，全焦点ステッチを表す．下
の行の画像は，再構成された深度マップを表す．
上図の左の画像は，焦点スタック配列からの実像画像．上図の右の画像は，前景の物体を強調するために深度領域効果を広め，開口を増加させた，合

成レンタリング画像．
提案した手法の結果．
アフィン位置合わせの結果．シーンの視差があると深度の推定に失敗している．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Suwajanakorn_Depth_From_Focus_2015_CVPR_paper.pdf

【52】
Phillip Isola, Joseph J. Lim and Edward H. Adelson, “Discovering States and Transformations in Image Collections”, in
CVPR2015.
シーン内の物体は様々な種類の状態，変形を持っている．これらはその物体の機能的特性を示す．例えば「トマト」のデータベースにおいてトマトが完
熟，カビが生えているといった特性を推測できることも物体認識には不可欠である．従来の研究は 1 枚の画像に対して「属性」を識別していた．本研究で
は機械学習により，変形を定義ペアの状態(生↔調理，粗い↔滑らかな，収縮↔膨張を連結することにより，画像コレクション中の変形の種類(新鮮，溶けて
る，カラメルにされている等)ごとに記述した．状態と変形間の転写には畳み込みニューラルネットワークを用いる．(変形：溶かす→状態：溶けている) 本論
文での貢献は以下 3 つである．
（1）物理的状態と変形のセットを用いて画像コレクションを解析する新たな問題を導入した
（2）状態との変形が基本でありながら強力な技術を用いて学習することができることを示した
（3）形質転換された状態の様々な物体、シーン、および材料のデータセットを構築した
図 1: 入力と提案システムの自動出力の例。1 つの分類からの画像のコレクションを与えられた(左上に表示されたコレクションの部分集合)とき状態(右)のセ
ットによってコレクションを解析できる．また我々は画像が状態が対義語的なペア(新鮮←→しおれている，左下)との間の変形方法を示す．
http://people.csail.mit.edu/lim/paper/state_cvpr15.pdf

【53】
Andras Bodis-Szomoru, Hayko Riemenschneider, Luc Van Gool, “Superpixel Meshes for Fast Edge-Preserving Surface
Reconstruction”, in CVPR2015.
画像のエッジ，superpixel，平滑化を用いた平面再構成手法．
様々な手法を並列化させることで，高速かつ従来の MVS に匹敵する精度でメッシュを生成している．Spaese な Structure from Motion(SfM)と二次元画
像を入力とし，2 次元画像でドロネー三角分割を生成する．これは，superpixek や画像のエッジ，平滑化を用いて生成する．そして，メッシュを生成して再
構成を実現している．
Link(s) http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Bodis-
Szomoru_Superpixel_Meshes_for_2015_CVPR_paper.pdf

【54】
Abhishek Kar , Shubham Tulsiani , João Carreira, Jitendra Malik, “Category-Specific Object Reconstruction from a Single Image
”, in CVPR2015.
Convolutional neural network の登場で，物体検出やセグメンテーションは急速に進歩している．本手法では，物体検出が完璧にできるという前提で，
single image から 3 次元物体の再構成を実現する．
手法の流れは上図-右の通りで，annotation 付きの画像セットから視点を推定する．そして，シルエットから 3D 形状モデルを学習し，形状の変形モデルを
生成する．
視点推定には NRSfM フレームワークを使用している．これは，物体の joint をモデルに当てはめることで視点推定する手法である．
Link(s) 【Youtube】
https://www.youtube.com/watch?v=5XDwkazszRE
【論文ページ】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Kar_Category-
Specific_Object_Reconstruction_2015_CVPR_paper.pdf

【55】
Davide Conigliaro, Paolo Rota, Francesco Setti, Chiara Bassetti, Nicola Conci, Nicu Sebe, Marco Cristani, “The S-HOCK
Dataset: Analyzing Crowds at the Stadium ”, in CVPR2015.
混雑環境(ホッケーのスタジアム)での人物解析のためのデータセット(Spectators Hockey; S-HOCK)．annotation とそれに含まれているタイプは以下の通り
である．実験では，人物の頭部姿勢推定を CNN ベースの手法などと比較している．
Link(s) 【論文ページ】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Conigliaro_The_S-Hock_Dataset_2015_CVPR_paper.pdf

【56】
X. Song, S. Jiang, L. Herranz, “Joint Multi-feature Spatial Context for Scene Recognition in the Semantic Manifold“, in
CVPR2015.
グローバルで画像を見たときの共起性は重要であり，さらには異なる領域においては異なるカテゴリを持つという情報も重要である．提案手法ではローカ
ルなコンテクストの関係性を取得して，共起性を記述するだけでなくノイズを除去することができる．提案モデルはカテゴリを分類するために有効で識別性
に優れている共起特徴を構成している．
下図では(a) 複数特徴の統合 (b) 4 つのグリッドが繋がっている (c) 複数特徴が空間的に繋がっているモデルを示している．
結論では Intermediate semantic space は複雑なシーン認識に対して有効である(MIT67 dataset)としている．トピックモデルのような low- mid-level の特徴
抽出に比べるとより識別するための局所特徴に着目できるとしている．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Song_Joint_Multi-Feature_Spatial_2015_CVPR_paper.pdf

【57】
Z. Li, J. Chen, “Superpixel Segmentation using Linear Spectral Clustering“, in CVPR2015.
Linear Spectral Clustering (LSC)を適用して，新しい superpixel segmentation の手法を提案する．LSC を用いた superpixel は低コストである．superpixel
は従来，色や空間的類似度を指標として計算することが多いが，そのような固有値を用いる手法でなくカーネル関数を用いた高次特徴空間にて分割する
ことにより，さらに効果的な superpixel を提案できるとしている．LSC では画像のピクセル値を 10 次元特徴空間にマッピングし，weighted K-means を適用
して superpixel を実現する．
下図は superpixel の比較．(h)がよく適用される SLIC, (j)が提案の LSC である．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_Superpixel_Segmentation_Using_2015_CVPR_paper.pdf
著者ページ(exe ファイル，コードあり)：
http://jschenthu.weebly.com/projects.html

【58】
A.Royer, C. H. Lampert, “Classifier Adaptation at Prediction Time“, in CVPR2015.
現在，Convolutional Neural Network (CNN)を始めとする多くのモデルが大規模データにおいて学習をしている．しかし，例えばロボットガイドの場面では
椅子や机などのラベルが多用されて，動物などのラベルはあまり使用されない．さらには環境によるコンテキストが適用されるはずである．この学習と推定
時間の関係性の変化は domain adaptation である．提案手法では，ラベルの相関値を利用することで，精度を高めることとする．コントリビューションとしては
，ニューラルネットの pre-trained 識別きをリアルタイムに adaptation することである．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Royer_Classifier_Adaptation_at_2015_CVPR_paper.pdf
著者ページ：
https://sites.google.com/site/christophlampert/publications

【59】
Q. Liu, C. Liu, “A Novel Locally Linear KNN Model for Visual Recognition“, in CVPR2015.
Locally Linear KNN モデルを提案し，効率的な表現や識別に役立てるだけでなく識別クラス間の法則を近似する(ベイズ決定則によるエラー最小化など
)．下図は提案手法のフレームワークであり，次元削減や Locally Linear KNN (LLKNN)を用いて特徴表現を行う．次には特徴の構成や局所性，スパース
性を考慮した拘束を与える．最後に二つの識別器-- LLKNNC や LLNMC を用いて識別の処理を実施する．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Liu_A_Novel_Locally_2015_CVPR_paper.pdf

【60】
Ishan Misra, Abhinav Shrivastava, Martial Hebert, “Watch and Learn: Semi-Supervised Learning of Object Detectors From
Videos “, in CVPR2015.
ラベル付けされていないビデオに対して，semi-supervised 学習によって自動的にラベルを付加する課題．
自動的にラベルを付加することによって，データセット構築の効率化を図っている．
本研究では，駐車場の監視映像から車を検出し，ラベルを付加する，いわゆる車の Re-ID に取り組んでいる．
手法の流れは図の通りで，初めに映像から車を検出する．次に，時系列で車を追跡し，非相関エラー値から正しい検出のみを抽出する．そして，新しいラ
ベルを付加している．
VIRAT 2.0 Ground データセットを用いて，自動ラベル付けの精度評価実験を行った結果
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Misra_Watch_and_Learn_2015_CVPR_paper.pdf

【61】
Shiyu Song, Manmohan Chandraker, “Joint SFM and Detection Cues for Monocular 3D Localization in Road Scenes “, in
CVPR2015.
車載カメラから車 3 次元位置を推定する手法．
単眼カメラで撮影された映像から疎な SfM と物体検出し，3D バウンディングボックスを生成する．バウンディングボックス内で 3D 特徴点をマッチングす
ることでより詳細な SfM を実現している．
実験結果より，遠くの物体の推定精度は低下しているものの，近くの物体の位置合わせは可能となっている．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Song_Joint_SFM_and_2015_CVPR_paper.pdf

【62】
Wen-Sheng Chu, Yale Song, Alejandro Jaimes, , “Video Co-summarization: Video Summarization by Visual Co-occurrence“, in
CVPR2015.
動画の概要を自動生成する手法．はじめに前処理として，HSV および RGB を用いた 2[frame]間の背景差分によってセグメンテーションする．次に単一
画像および 2[frame]連続から特徴を抽出し，クラスタリングする．そして，BoF の要領で動画の概要を自動生成する．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Misra_Watch_and_Learn_2015_CVPR_paper.pdf

【63】
D. Hall, P. Perona, “Fine-grained Classification of Pedestrians in Video: Benchmark and State of the Art“, in CVPR2015.
人物検出だけでなく，age, sex, activity, social status, health, pose, motion patterns などのタグを推定する問題を考える．ここでは，Caltech Roadside
Pedestrian (CRP) dataset を提案して，人物の fine-grained な認識のためのデータを提供する．このデータセットには，
1. 27.454 枚の人物画像とその bounding box や姿勢ラベルが付いている
2. 自然な動作の中から抽出されている(in the wild)
3. 視点が様々
4. カメラが動的
5. 屋外の様々な背景や環境光下で撮影
6. 複数のサブカテゴリ- 年齢，服装，体型
7. 詳細なアノテーション (年齢 5 種類，性別など)
8. 全て公開データ
なお，全ての映像は GoPro Hero3 にて撮影されている．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Hall_Fine-Grained_Classification_of_2015_CVPR_paper.html
http://authors.library.caltech.edu/57921/

【64】
V. Chari, S. Lacoste-Julien, I. Laptev, J. Sivic, “On Pairwise Costs for Network Flow Multi-Object Tracking“, in CVPR2015.
複数物体追跡の問題は，最近ではネットワークフローのコスト最小化問題としてアプローチされている．tracking-by-detectino では誤追跡してしまう問題も
，pairwise-cost を最小化するとを考えることで追跡を行う．NP-hard ではあるが，既存のネットワークフローや代数的アプローチ[Ahuja+, 1993]により効率的
に解くことができる．
http://www.di.ens.fr/~josef/publications/Chari15.pdf

【65】
R. Or-El, G. Rosman, A. Wetzler, R. Kimmel, A. M. Bruckstein, “RGBD-Fusion: Real-Time High Precision Depth Recovery“, in
CVPR2015.
RGB-D の高精細距離画像復元．Kinect の登場により，コンピュータビジョンの分野においてかなり多くの研究が RGB-D に取り組むようになったが，距離
画像が依然として精度が悪く，そのための弊害が生じていた．表面形状を際立たせることに成功し，なおかつリアルタイムに処理ができる．法線ベクトルを
計算し，光源モデルを推定することによりキャリブレーションを詳細にする必要がなくなる．shape-from-shading により高速かつ高精度な距離画像推定を可
能にした．
前処理には法線ベクトルの推定，光源モデル推定には[Grosse+, ICCV2009]の手法を用い，shading, 光源比(albedo), 人工光源に分離する．距離画像を
強調するために，その後にリファインメント処理を施す．右図が処理した結果であり，距離画像が精彩になっている．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/El_RGBD-Fusion_Real-Time_High_2015_CVPR_paper.pdf
YouTube:
https://www.youtube.com/watch?v=5nLnOTyrd-s&feature=iv&src_vid=JvGeTHKljb0&annotation_id=annotation_1407526743

【66】
S. Choi, Q.-Y. Zhou, V. Koltun, “Robust Reconstruction of Indoor Scenes“, in CVPR2015.
RGB-D センサを用いた屋内環境の復元問題．幾何的な屋内環境の断面レジストレーションによりセンサノイズを最小限にする．また，つなぎ目の曖昧な
部分をなくすことで高精度な 3 次元の屋内環境を構築できる．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Choi_Robust_Reconstruction_of_2015_CVPR_paper.pdf
プロジェクトページ(コードあり)：
http://vladlen.info/publications/robust-reconstruction-of-indoor-scenes/

【67】
J.-F. Hu, W.-S. Zheng, J. Lai, J. Zhang, “Jointly Learning Heterogeneous Features for RGB-D Activity Recognition“, in
CVPR2015.
RGB-D の行動認識において，複数チャネルの特徴量(RGB + D)を統合して学習する問題．RGB(可視画像)と D(距離画像)はその特性の違いから，組
み合わせる方がメリットがある．それぞれの部分空間を構成し，その中からマイニングしアクセスして組み合わせられるような線形変換による projection
matrix を求める．下は提案手法の概念図であり，projection matrix {Θ_i}i=1,2,3,4 は統合した特徴を学習するために重要であり，特徴量を投影した先で学
習する．表は state-of-the-art な手法との比較である．HON4D[O. Oreifej+, CVPR2013]や Actionlets[J. Wang+, TPAMI2014]との比較を行い，いずれのデ
ータセット(MSR Daily, CAD60, SYSU 3DHOI s-1, s-2)においても精度が高くなることを実証した．
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Hu_Jointly_Learning_Heterogeneous_2015_CVPR_paper.pdf

【68】
I. Gkioulekas, B. Walter, E. H. Adelson, “On the Appearance of Translucent Edges“, in CVPR2015.
Translucency (半透明)というのは一般的な視覚的現象であり，光が内部にて錯乱している状態(internal scattering)で起こる．左図は半透明/不透明な物
体のプロファイルを可視化した例である．ここからエッジを取得できれば，物質の境界やオクルージョンなど多数のメリットが得られるため，半透明物体にお
けるエッジに着目して研究する．右図は single な錯乱や，より中間的な，さらには高次な反射も考えることでエッジを分離する．
フォトメトリックに半透明物体のエッジに関する考察を行った論文．半透明のエッジは錯乱，反射などに対して特徴的な質を持っている．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gkioulekas_On_the_Appearance_2015_CVPR_paper.pdf
http://vision.seas.harvard.edu/translucentedges/
ポスター：
http://vision.seas.harvard.edu/translucentedges/poster.pdf

【69】
G. Li, Y. Yu, “Visual Saliency Based on Multiscale Deep Features“, in CVPR2015.
視覚的顕著性に用いるマルチスケール特徴を，convolutional neural networks (CNN)の特徴により置き換え，精度を向上させる．3 種類の異なるスケール
にて，CNN の全結合層の特徴量を入力とすることにより顕著性のモデルを構築する．下図は顕著性を生成するためのモデルである．従来ではエッジや色
によるマルチスケール特徴量を計算していたが，それを CNN 特徴量により置き換える．
Figure 1: Visual comparison of saliency maps generated from 10 different methods, including ours (MDF). The ground truth (GT) is shown in the last column. MDF
consistently produces saliency maps closest to the ground truth. We compare MDF against spectral residual (SR[18]), frequency-tuned saliency (FT [1]), saliency filters (SF
[29]), geodesic saliency (GS [35]), hierarchical saliency (HS [37]), regional based contrast (RC [8]), manifold ranking (MR [38]), optimized weighted contrast (wCtr. [40])
and discriminative regional feature integration (DRFI [22]).
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_Visual_Saliency_Based_2015_CVPR_paper.pdf
https://sites.google.com/site/ligb86/mdfsaliency/

【70】
K. I, Kim, J. Tompkin, H. Pfister, C. Theobalt, “Local High-order Regularization on Data Manifolds“, in CVPR2015.
Laplacian 正規化項は一次の正規化項であり，縮退関数により高次元の多様体へと射影する．繰り返しの Laplacian 正規化項は高次の正規化が可能で
あるが，計算コストが非常に高い．提案手法では大域的に高次で，縮退せずスパースであり計算も効率的である．
下図はある問題において多様体を可視化した論文である．Laplacian regularizer では正規化に失敗しているが，提案の Local Gaussian では効率的かつ
効果的に多様体が計算できている．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Kim_Local_High-
Order_Regularization_2015_CVPR_paper.pdf

【71】
E. Antonakos, J. Alabort-i-Medina, S. Zafeiriou, “Active Pictorial Structures“, in CVPR2015.
一般物体における非拘束のランドマーク位置推定は CV においてチャレンジングな課題である．この内容において，最も成功している手法が(i)Pictorial
Structures (PS)と(ii) Active Appearance Models (AAMs)である．提案手法では，Active Pictorial Structures (APS)を提案することで，お互いの弱点を相補的
に補う．
PS はツリー構造ベースになっており，バネモデルにてランドマーク間を繋いでいる．各ノードとエッジをつなぐエネルギーを最小化することにより，適切な
ランドマークの配置が決定される．しかし，PS の位置合わせはグローバルであり，弱点は推定が遅いことが挙げられる．一方，AAM は PCA の部分空間に
よる形状の表現である．AAM はリアルタイムに耐えうるほど高速ではないことと，PCA を適用する空間が多変量の正規分布なので，フィッティングの精度
に制約がある．提案の APS では PS に似たコスト関数を持ち，AAM に似た shape と appearance モデルを持つこととする．PS や AAM とのモデルの最大の
違いは，Gaussian Markov Random Fileld (GMRF)を持っていることであり，shape や appearance だけでなく，配置の変化にも耐えうるモデルになっている．
写真はコードが手に入るという Menpo project のページからである．
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Antonakos_Active_Pictorial_Structures_2015_CVPR_paper.pdf
Menpo project (コードあり)：
http://www.menpo.org/

【72】
Ohad Fried, Eli Shechtman, Dan B Goldman, Adam Finkelstein, “Finding Distractors In Images “, in CVPR2015.
画像に入った「余計なもの」を取り除く研究(distractor prediction & removal)．写真を取るのは容易になったが，編集するのは非常に難しい．この難しさを
緩和する一例として，画像に入ってしまった余計なものを取り除く．
初めに，multi-scale combinatorial grouping(MCG)でセグメンテーションし，セグメントした各領域からピクセル毎に 60 の特徴を抽出する．それを基に除
去するものを least absolute selection and shrinkage(LASSO)で学習する．処理結果(中図)．間違えると人が消える(右図)．
Link(s) http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Fried_Finding_Distractors_In_2015_CVPR_paper.pdf

【73】
Yuanjun Xiong, Kai Zhu, Dahua Lin1, Xiaoou Tang, “Recognize Complex Events from Static Images by Fusing Deep Channels
“, in CVPR2015.
静的画像からイベント認識する手法の提案．
全身が写っているのか，顔がいくつあるのか，どんな物体があるのか，といった情報を Fusion し，Deep Learning の要領で学習してイベント認識している．
Link(s) http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xiong_Recognize_Complex_Events_2015_CVPR_paper.pdf

【74】
Yair Movshovitz-Attias, Qian Yu, Martin C. Stumpe, Vinay Shet, Sacha Arnoud, Liron Yatziv, “Ontological Supervision for Fine
Grained Classification of Street View Storefronts “, in CVPR2015.
お店の写真から，何を売っている店なのかを推定する fine-grained な問題．ストリートビューの画像から OCR で文字を抽出し，その文字列から ontology
を用いて推定していく．これを用いれば，ストリートビューでお店に迷うことがなくなる？
Link(s) http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Movshovitz-
Attias_Ontological_Supervision_for_2015_CVPR_paper.pdf

【75】
A.Elhayek, E. de Aguiar, A. Jain, T. Tompson, L. Pishculin, M. Andriluka, C. Bregler, B. Shiele, C. Theobalt, “Efficient
ConvNet-based Marker-less Motion Capture in General Scenes with a Low Number of Cameras“, in CVPR2015.
CNN を用いたマーカレス Mocap についての研究．ここではさらに，できる限り少ないカメラの台数でモーションキャプチャを実現するという戦略で研究を
している．実用上は，2 から 3 台のカメラでマーカレス Mocap が実現すれば，設置のコストを減らすことができる．ここでは，CNN による learning-base な関
節位置の推定に挑戦する．カメラの台数が多すぎる(e.g. 8 台)と処理時間がかかり，単眼では精度が悪いという問題点があったので，2, 3 台で効率よく探
索するために ConvNet による関節位置の推定を行う．
データセットは屋内や屋外環境から，カメラや携帯カメラにて撮影された動画像を適用してから姿勢を推定する．事前情報を入れておき，CNN による尤
度計算により事後確率を計算するため，ロバストなマーカレス Mocap システムとなっている．屋外環境における照明が強い条件下においても姿勢の推定
ができている．結果はプロジェクトページの動画参照．
http://gvv.mpi-inf.mpg.de/projects/convNet_moCap/vids/CVPR15.pdf
http://gvv.mpi-inf.mpg.de/projects/convNet_moCap/

【76】
B. Resch, H. P. A. Lensch, O. Wang, M. Pollefeys, A. Sorkine-Hornung, “Scalable Structure from Motion for Densely Sampled
Videos“, in CVPR2015.
ビデオからの SfM や SLAM は困難な課題である．提案手法では外的なカメラ姿勢や 3 次元のシーン構造を同時に計算する．これに対して，ビデオに
おける密なサンプリング点を利用することが有効であることがわかった．コントリビューションとして，ロバストな追跡や信頼度の高い動画中の画像を選択す
ることである．バンドルアジャストメント，3 次元再構成，カメラ姿勢推定をする．この研究は，高解像(2-20megapixel)・高フレームレート(25-120Hz)動画にお
ける初めての SfM システムであると考える．まずは KLT により特徴点を追跡しておき，信頼度の高いフレームを選別する．バンドルアジャストメントを適用
して，window におけるパラメータを推定する．Global anchor constraints には SIFT を用いて違うフレーム間のマッチングを行う．カメラ姿勢推定を行い，最
終的なバンドルアジャストメントにより最終結果を得る．左図は構成結果であり，右図は処理フローを示す．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Resch_Scalable_Structure_From_2015_CVPR_paper.pdf

【77】
Mohamed Elgharib, Mohamed Hefeeda, Frédo Durand, William T. Freeman, “Video Magnification in Presence of Large Motions
“, in CVPR2015.
人間の目では見ることが出来ない「微妙な揺れ」を検出する問題．Dymanic Video Motion Magnification(FVMAG)を提案している．
小さな揺れと，カメラモーションを推定し，より正確な小さな揺れを検出している．
https://www.youtube.com/watch?v=AGA6eJXZAOw
【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Elgharib_Video_Magnification_in_2015_CVPR_paper.pdf

【78】
Bolei Zhou, Vignesh Jagadeesh, Robinson Piramuthu, “ConceptLearner: Discovering Visual Concepts from Weakly Labeled
Image Collections, “, in CVPR2015.
ConceptLearner は，弱ラベル付けした収集画像に対して，視覚的に得られる concepts を見つけ出すことである．様々なカテゴリ毎に，いくつもの完成さ
れた高価なラベル付け(強ラベル)を得ることは困難であると考えられる．そのため，低価なラベル付け(弱ラベル)がなされたデータから視覚的な考えを得る
ことが重要という考え．弱ラベルの収集画像から視覚的な concepts を得るために，scalable approach である ConceptLearner の提案をしている．
追加の注釈データは人間を必要としないループにより，数千の視覚的な concepts のデータは自動的に学習される，学習したデータに対して，正確な画
像領域レベル(region-level)の concepts を見つけ，画像レベル(image-level)の concepts を認識することに適用されると考える．SUN database，Pascal VOC
2007 をデータセットとして使用する．
Concept Detection:
高い検出器精度で，トップ 20 のバウンディングボックスが表示されていることがわかる．

Concept Recognition:
それぞれのトップ 5 および 15 ランクの concepts を表示している．これらの予測された concepts のほとんどは，画像内の物体，シーンの文脈(contexts)，動き
(activities)について説明している．
supervision の様々な種類の方法の比較．CVPR’14[12]は R-CNN によるものである．
Link(s) 【論文】
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Zhou_ConceptLearner_Discovering_Visual_2015_CVPR_paper.pdf
【Bolei Zhou】
http://people.csail.mit.edu/bzhou/

【79】
Mohamed Elgharib, Mohamed Hefeeda, Frédo Durand, William T. Freeman, “Video Magnification in Presence of Large Motions
“, in CVPR2015.
テクスチャレスな物体を対象にステレオマッチングを実現する．この研究では，車を対象にしている．(テクスチャレス，反射などがあるため)
画像から直接特徴点をマッチングするのではなく，SuperPixel でのステレオマッチングしている．そして，マッチングした情報から CAD 情報に当てはめる
ことで，より高精度な 3D 再構成を実現している．
https://www.youtube.com/watch?v=O2rADk19a84
【論文】
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Guney_Displets_Resolving_Stereo_2015_CVPR_paper.pdf

【80】
C. Liu, H. Gomez, S. Narasimhan, A. Dubrawski, M. R. Pinsky, B. Zuckerbraun, “Real-time Visual Analysis of Microvascular
Blood Flow for Critical Care“, in CVPR2015.
低コントラスト，テクスチャのない，微小循環系(microcirculation)ビデオを入力として血流状態の変化を捉える．提案手法では，困難な環境からいかに血
流速度の分布や呼吸数，心拍数を推定する．微小循環系ビデオは SDF(side-stream dark field)イメージデバイスを用いて撮影する．
下図は処理の流れであり，(a) SDF を用いた血流を計測する概念図 (b) 撮影されたある画像 (c)脈菅を強調した画像 (d) 脈菅をスケルトンとして推定した
画像 (e) 血流のある部分を強調した画像 (f) 大域的なモーションから心拍と呼吸数を推定 (g) 血流速の分布を推定
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Liu_Real-Time_Visual_Analysis_2015_CVPR_paper.pdf

【81】
YiChang Shih, Dilip Krishnan, Frédo Durand, William T. Freeman, “Reflection Removal using Ghosting Cues,“, in CVPR2015.
Ghosting Cues を用いた反射の除去を提案している．
上図に示される 1 行目の画像のように，ガラス越しにリンゴを撮影した際に，反射して後ろ背景が写りこんでしまう．この提案している手法により，撮影した
画像に望ましくない反射が発生した際にこれを除去する．窓ガラスを介して：(a)入力画像と反射のアーティファクト，(b) 反射層の上にゴーストクローズアッ
プ，(c)本手法を利用した回収透過層，(d) 本手法を利用した回収反射層．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Shih_Reflection_Removal_Using_2015_CVPR_paper.pdf

【83】
Qiang Chen, Junshi Huang, Rogerio Feris, Lisa M Brown, Jian Dong, Shuicheng Yan, “Deep Domain Adaptation for Describing
People Based on Fine-Grained Clothing Attributes”, inCVPR2015
CNN 特徴をマスクを介して形状情報に利用する手法を提案する．提案するセグメント(例えば superpixel)は CNN 特徴マップ上のマスクとして扱われる．
マップからマスクされた CNN の特徴は認識のための分類器を訓練するために使用する．さらに同じフレームワーク内のオブジェクト及び"stuff"（例えば、
草、空、水）を処理するための共通手法を提案する．
畳み込み特徴マスキング層(CFM)
CFM 層とは最終的な畳み込み層の後に使用する層である．CNN 特徴マップの計算には画像をすべて畳み込みレイヤに適用する必要がある．提案手
法は R-CNN ベースの手法よりも桁違いに高速であった．
Fig.1 CFM 層のイメージ
関節オブジェクトおよびスタッフセマンティック領域分割
自然画像中の意味カテゴリは，オブジェクトや stuff に分けられる．オブジェクトとは一貫性のある形状を持つが，stuff は一貫した色やテクスチャや任意
の形状(例えば，草，空，水)である．そのため，stuff 領域は矩形領域または boundry box として表現することが適切ではない．提案手法では学習中にサン
プル下層の確率分布を修正によってフレームワークを一般化しこの問題に対処した．Fig. 2 は CFM フレームワークを用いた，オブジェクトと stuff のセグメ
ンテーション結果を示している．

Fig. 2 CFM フレームワークを用いたオブジェクトと stuff のセグメンテーション結果
Link(s) 著者ページ：
http://research.microsoft.com/en-us/people/jifdai/
論文ページ：
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Dai_Convolutional_Feature_Masking_2015_CVPR_paper.pdf

【84】
Juliet Fiss, Brian Curless and Richard Szeliski, “Light Field Layer Matting”, in CVPR2015
色が薄くて半透明な遮蔽物(粉塵)によるボケを艶消する手法の提案である．前景レイヤと背景レイヤの 2 層の複合体として入力ライトフィールド L をモデ
ル化する． L は背景レイヤの明領域 K，一定の深さ(ユーザが指定)を持つ前景レイヤにおいて空間的に色 F 変化させる(空間的に変化する)α というパラメ
ータでモデル化されている．提案手法は自動的に背景の明領域，前景色と前景の α を回復することによって背景レイヤからの明領域を艶消する．深さの
パラメータ df(フォーカス中で前景レイヤにおける深さの最大値)，dt は(背景レイヤから前景レイヤを分離する閾値)ユーザの目視で選択をする．これらはユ
ーザに「どのようなコンテンツを前景の一部分とし，それは背景のどの部分である必要があるか?」という意図を通知するために必要である．Lytro カメラから
の画像に対して，提案手法と Lytro の透視変換機能によるレンダリングを比較する．
Fig.1(左) 窓から入った明領域から塵埃を除去した結果．左上：レンダリング元の明領域において鳥の胸や顔を塵埃が閉塞している．右上：提案手法によ
る鳥の背景の明領域を描画結果．左下：レンダリング元の粉塵による明領域．右下：上段の画像を詳細な比較結果
Fig.2(右) 金網がゴム製のアヒルを閉塞している．提案手法と Lytro の透視変換機能によるレンダリングを比較する．
Link(s) プロジェクトページ：
http://research.microsoft.com/apps/pubs/default.aspx?id=244365

【85】
Jimei Yang, Brian Price, Scott Cohen, Zhe Lin, Ming-Hsuan Yang, “PatchCut: Data-Driven Object Segmentation via Local Shape
Transfer “, in CVPR2015.
パッチ単位で高性能なセグメントを可能とした手法．
事前に作成されたセグメント画像と，セグメントしたい画像の同じような部分をパッチで検出する．そのパッチ内でさらに細かくセグメント画像と対象画像を
マッチングし，MRF で定義したエネルギーが高いデータを参考にセグメント結果を返す．
手法の流れ
実験の結果，GrabCut などよりはるかに高性能なセグメントを可能にした．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Yang_PatchCut_Data-
Driven_Object_2015_CVPR_paper.pdf

【86】
Li Shen, Teck Wee Chua, Karianto Leman, “Shadow Optimization from Structured Deep Edge Detection “, in CVPR2015.
CNN を用いた影推定手法の提案．パッチ単位で CNN 特徴を抽出し，影のエッジを検出している．パッチの大きさを 1×1 と 5×5 のサイズで検討しており
，5×5 のほうが高性能だった．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Shen_Shadow_Optimization_From_2015_CVPR_paper.pdf

【87】
Yixin Zhu, Yibiao Zhao, Song-Chun Zhu , “Understanding Tools: Task-Oriented Object Modeling, Learning and Recognition “,
in CVPR2015.
「道具」を用いてどのような「タスク」を完了するのかを考慮した物体認識．こうした認識を可能にすることで，タスクの方向性を定めることもできる．
具体的には，3D センサ(Kinect?)で物体のモデルを事前に再構成しておく．次に，人物の関節角度をなどから人物が道具のどこを持ち，どこでタスクを行
うのかを計測する．この計測には 2D や 3D 画像の情報だけでなく，音の大きさも計測している．音を計測することで，インパルスの強さを算出している．
そして，関節角度の軌跡も情報として追加し，Ranking SVM の枠組みで道具の使い道を推定している．インパクトある研究．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhu_Understanding_Tools_Task-
Oriented_2015_CVPR_paper.pdf
【動画】

【88】
Xiangyu Zhang, Jianhua Zou, Xiang Ming, Kaiming He, Jian Sun, “Efficient and Accurate Approximations of Nonlinear
Convolutional Networks“, in CVPR2015.
CNN の効率的なテスト時間計算に取り組む．規模の大きいクラス分類のために CNN が成功して以来，新たなネットワークの精度は向上し続けている．し
かし，ネットワークの計算コスト(特に大きなモデルでより高精度な課題)は深刻である．モデルのコストの高いテスト時間評価は実世界のシステムで困難で
ある．そのため，CNN のテスト時間計算を加速することは非常に重要である．
以下の点を工夫している．
(i)Nonlinear Approximation(非線形近似値)
(ii)Asymmetric Reconstruction for Multi-layer (非対称な複数層の再構成)
(iii)Rank selection for Whole-model Acceleration (全てのモデル加速のためのランク選択)
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Efficient_and_Accurate_2015_CVPR_paper.pdf

【89】
Till Kroeger, Dengxin Dai, Luc Van Gool, “Joint Vanishing Point Extraction and Tracking“, in CVPR2015.
連続画像から消失点(vanishing point)を検出し，追跡する手法．
画像上から建築物や道路の直線を検出し，その直線を追跡アルゴリズムで用いられている Gaussian sphere に投影することで，連続フレームから消失点
を検出することができる．
また，検出にあたって，以下の課題を解決することで Linear Program を解いている．
(i)Flow conservation
(ii)Line-VP association
(ii)Non-Macimum Suppression
(iv)Angle preservation
(v)Orthogonality
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Kroeger_Joint_Vanishing_Point_2015_CVPR_paper.pdf
【プロジェクトページ】
http://www.vision.ee.ethz.ch/~kroegert/VPTrack/

【90】
Georgios Georgiadis, Alessandro Chiuso, Stefano Soatto, “Texture Representations for Image and Video Synthesis“, in
CVPR2015.
テクスチャの圧縮および合成をする研究．
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Georgiadis_Texture_Representations_for_2015_CVPR_paper.pdf
【Youtube】
http://vision.ucla.edu/~giorgos/cvpr2015/

【2015.07】(1/2)cvpaper.challenge@CVPR2015

【2015.07】(1/2)cvpaper.challenge@CVPR2015

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (11)

Similar to 【2015.07】(1/2)cvpaper.challenge@CVPR2015

Similar to 【2015.07】(1/2)cvpaper.challenge@CVPR2015 (20)

【2015.07】(1/2)cvpaper.challenge@CVPR2015