CVPR2017 参加報告速報版本会議3日目

CVPR2017参加報告
(速報版・三日目）
2017.7.24(現地時間)
@a_hasimoto

このスライドについて
1. 本会議での発表の内容を
2. 印象に残ったものだけ
3. その時の印象と，あとでのreferenceをたどるために
メモしたものです．
9/18(月・祝)，関西CVPRML勉強会にて，解説を予定．
→ https://twitter.com/kansaicvprml
私の理解が深まるので，勘違いの指摘や質問，リンクの紹介，そ
の他議論大歓迎．

三日目総評
• 今日は午前中だけ．
• 人が少ないことを見越したのか，Deep Learningではない研究（3D
visionやPhotometry，クラスタリングなど）がこの日に集められてい
る印象→ Organizerの悪意を若干，というか結構感じてしまう．
• Deep Learning関連でも，余り面白いものが少ない？
• Clusteringについては，Deep Learning旋風は吹き荒れていな
い．
• ただし，前提知識が無いとoralの長い発表でも数式を追えず，全然わ
からない(><)
• Subspace Clusteringばかり．まぁ，当然か．
• CNNの大域解への収束に関する面白い研究が一番印象に残った．

会議のBooklet無くしました(T T)
• 昨日までと違って，計画的に回れていません．
• ポスターに関してのメモ（手書きだった）なども残せていませ
ん(><)
• 昨日までの内容をこっちに残しておいて良かった．

夕方にCaffe2のmeetupイベントが有った
• 言ったら，宣伝ばかりで，実装してみよう，とかは無かった．
• 主な特徴
• PC間の通信の最適化→台数を増やしても効率が落ちにくい(90%程度を
保持）
• 専用のハードウェアは不要．安価なGPUをたくさんつなげて大量の
データを処理できる．
• 16bit浮動小数点数に対応(普通は32bit）→モデルサイズやメモリ消費
を効率化．binaryと違って，精度も維持できる！
• NvidiaのTensorRTも使ってね☆
• 学習済みのモデルをHWに合わせて最適化したりできる！
→組み込みの製品化に非常に役立つ！

Global Optimality in Neural Network
Training, Benjamin D. Haeffele, René Vidal
• みんな不思議に思ってる: なんでdeep learning 動くの?
• 局所解に落ちないの？
• 最適化と汎化とアーキテクチャ(ネットの構造)は互いに関係し
ているはず．
• ネットの構造で，最適化のしやすさ/しにくさってあるの？
• 大事なのは下記の3つだ，という論文．
• positive homogeneity: sigmoid layer以外は大体なんでも成り立つ．
• parallel subnetworks: まぁ，成り立つよね．
• Weight Decay: positive homogeneityとregularizationのそれぞれのス
ケール（詳細は図が無いと説明しにくい）が合っていないと良くない．

Compact Matrix Factorization With Dependent
Subspaces, Viktor Larsson, Carl Olsson Program
• rankベースのMF→missing dataに強い．SfMとかに重要．
• low-rank embedding が当たり前になってきた印象．
• matrixがpoint trajectoriesを含むとき．
• シーンが複雑であるほどrankが高くなる．
• 一方で，設定したrankが高すぎるとoverfitting
• 行列のrankを上手く決めることが大事．
• point trajectoriesは複数のsubspaceに分布する，と仮定．
• union-of-subspace(subspaceの分布するsubspaceみたいなも
の?)に対してもrankの拘束をいれるといい感じになる
• missing dataがない場合は普通にやった方が誤差が少ない???
• Compact matrix factorization
• overparametrizationを避けながらmissingデータに対処できる．

Age Progression/Regression by Conditional
Adversarial Autoencoder
Zhifei Zhang, Yang Song, Hairong Qi
• 従来手法は，Age groupに分けて，labelとして年齢を推定（回
帰でも良いと思うけれど)→ Group-wised learning．←これは
しない．
• Manifold Traversing
• 人の顔の経年変化を学習して，任意の顔について経年変化を
GANで生成させる.
• 年齢推定は下記の手順?詳細は発表やポスターでは不明
1. 推定対象人物の各年代として予測される顔を生成
2. 入力に一番近い顔を選ぶ．
• 人毎の経年変化のしかたの違いがモデルに組み込まれている
→従来より良い．
• 印象としては問題の難しさに対してオーバーキル…

On the Global Geometry of Sphere-Constrained
Sparse Blind Deconvolution
Yuqian Zhang et al.
• 顕微鏡画像とかでは特にdeblurは重要．
• The activation signals are sparse (細胞とかエッジとかそうい
うの(?) )
• motion blurではなく，ボケですね．
• symmetric solution creates a local optima
• 議論から落ちた…わかりません…．

Probabilistic Temporal Subspace Clustering,
Behnam Gholami, Vladimir Pavlovic Clustering Time Series Data
• Subspace Clustering: 同じsubspaceに属する→同じクラスタ
• Time Dependency: ガウス分布
• Number of Subspaces: stick-breaking process
• Dimensionality: Beta-Bernoulli Process
• Missing data: Marginalization
• 肝心な部分を聴き逃しました…，むぅ．集中力が落ちてきています．
• Mocap Datasetで実験
• Missing Dataに対しても良いパフォーマンス．

Provable Self-Representation Based Outlier
Detection in a Union of Subspaces,
Chong You, Daniel P. Robinson, René Vidal
• 同じくSubspace クラスタリング．
• Outlierが面倒くさい．
• outlierを一つのsubspaceに押し込める！←あれ？？
• Computer self-representation
• inlierは顔，outliersは顔以外
• 多分，問題として簡単すぎるので，査読がちょっとゆるくない？
# 自分はoutlier detection + クラスタ数推定で，これより上手く動き
そうなのに落とされたので不満がある…．
• random walkで，ぐるぐる廻れるならinlier
• outlierでもinlierに近ければグルグル回れそうなのだが，詳細不明．

Learning to Extract Semantic Structure From
Documents Using Multimodal Fully
Convolutional Neural Networks Xiao Yang et al.
• 文書画像をブロックや見出しなどの領域に分ける．
• Text Embedding Mapというものを作成し，最終層(FC)の前に
追加．
• 一方で，手前の方で分岐しておいて，元の画像を復元するよう
に学習（←predictの時は使わない）
• 実装自体は，論文の図を見れば一発でわかる．

FFTLasso: Large-Scale LASSO in the Fourier
Domain
Adel Bibi, Hani Itani, Bernard Ghanem
• L1正則化の計算
• 提案手法は計算時間が早い
• 計算量的には O(m^3)→O(mnlog m)
• m^2 > n log m なら早い．正方行列はこれを満たす．n^2>n log n?
• 計算量の理論値に対して，実験結果から得られる，実際の速度
の改善幅が小さいようにも見える．
• コード: https://github.com/adelbibi/FFTLasso

ポスターまで記述するのは力尽きました
• 希望があれば関西CVPRML勉強会で解説．
• 良く見て聴いてきたリスト（面白いと思ったもののみ掲載）
• Deeply Supervised Salient Object Detection with Short Connections, Qibin Hou, Ming-
Ming Cheng, Xiaowei Hu, Ali Borji, Zhuowen Tu, Philip Torr
• 抽象度の高い層のfeature mapを浅い層のfeature mapにくっつけて(short connections)，各層でsaliency
mapを作成し，それらのmapをlinear sumすると良い結果を得られるらしい．
• 抽象度が高すぎると物体のディテールが失われる?，ということだと思う．
• それぞれの層の寄与度がよくわからないから，本当にそれが利いているのかポスターからも，質問しても，
よくわからなかった．
• Learning Cross-Modal Deep Representations for Robust Pedestrian Detection, Dan Xu,
Wanli Ouyang, Elisa Ricci, Xiaogang Wang, Nicu Sebe
• 可視光画像と温度画像のデータを相互に利用して，それぞれのセンサが苦手なところを，補うような学習
ができる→RGB画像のみでの精度があがる．
• Annotating Object Instances with a Polygon-RNN, Lluís Castrejón, Kaustav Kundu, Raquel
Urtasun, Sanja Fidler [Best Paper Honorable Mention Awards]
• 詳細な領域形状のアノテーションを楽にするために，物体を囲むPolygonの編集点をRNNで出力するような学習を行った
• 人間がacceptableなレベル(どうやって決めた??)まで精度が出た

続き
• 希望があれば関西CVPRML勉強会で解説
• 良く見て聴いてきたリスト（面白いと思ったもののみ掲載）
• Online Graph Completion: Multivariate Signal Recovery in Computer Vision, Won Hwa Kim,
Mona Jalal, Seongjae Hwang, Sterling C. Johnson, Vikas Singh
• グラフ信号処理を利用しているように思える．
• 点群の欠損を上手く保管しているみたい．
• やはり，グラフ信号処理の勉強が足りない…．
• A Message Passing Algorithm for the Minimum Cost Multicut Problem, Paul Swoboda,
Bjoern Andres
• 普通のgraph cutはグラフを2つにしか分けられない．multicut(3つ以上に分ける)はNP-hard
• 近似非(lower bound)などの詳細がポスターにはなかったが，linearで動くらしい．
• Depth from Defocus in the Wild, Huixuan Tang, Scott Cohen, Brian Price, Stephen Schiller,
Kiriakos N. Kutulakos
• 手法の詳細は不明だが，CNN使ってない！？しかし，かなり出来ていそうだった．スマホ画像に対して動作さ
せていた模様．一見すると，そこまでdefocusが目立つようには見えない画像．

CVPR2017 参加報告速報版本会議3日目

Recommended

Recommended

More Related Content

What's hot

What's hot (16)

Similar to CVPR2017 参加報告速報版本会議3日目

Similar to CVPR2017 参加報告速報版本会議3日目 (20)

More from Atsushi Hashimoto

More from Atsushi Hashimoto (8)

Recently uploaded

Recently uploaded (10)