CVPR2017 参加報告速報版本会議 1日目

CVPR2017参加報告
(速報版・一日目）
2017.7.22(現地時間)
@a_hasimoto

このスライドについて
1. 本会議での発表の内容を
2. 印象に残ったものだけ
3. その時の印象と，あとでのreferenceをたどるために
メモしたものです．
9/18(月・祝)，関西CVPRML勉強会にて，解説を予定．
→ https://twitter.com/kansaicvprml
私の理解が深まるので，勘違いの指摘や質問，リンクの紹介，そ
の他議論大歓迎．

Best Paper Awards (x2)
• “Densely Connected Convolutional Networks”
Gao Huang et al.
• https://arxiv.org/abs/1608.06993
• https://github.com/liuzhuang13/DenseNet
• https://github.com/titu1994/DenseNet
• “Learning from Simulated and Unsupervised Images through
Adversarial Training”
Ashish Shrivastaba et al.
• https://github.com/carpedm20/simulated-unsupervised-tensorflow

Best Honorable mention award (x2)
• “Annotating Object Instances with a Polygon-RNN”
Lius Castrejon et al.
• “Yolo9000: Better, Faster, Stronger”
Joseph Redmon & Ali Farhadi
• https://github.com/philipperemy/yolo-9000
• https://github.com/allanzelener/YAD2K

Best Student Paper Award
• “Computational Imaging on the Electric Grid”
Mark Sheinin et al.
• http://webee.technion.ac.il/~yoav/publications/ACam_CVPR.pdf

Longuet-Higgins Prize (test of time award)
• Object Retrieval with Large Vocabularies and Fast Spatial
Matching, J Philbin et al., CVPR2007
• http://vc.cs.nthu.edu.tw/home/paper/codfiles/hywang/2008010815
43/Object_retrieval_with_large_vocabularies_and_fast_spatial.ppt
• http://ieeexplore.ieee.org/document/4270197/

PointNet: Deep Learning on Point Sets for 3D
Classification and Segmentation
(Oral)
• R. Qi Charles, Hao Su, Mo Kaichun, Leonidas J. Guibas
• Supplemental Material
• code: https://github.com/charlesq34/pointnet
• 3次元データの表現形式として，他の形式への変換が用意なポ
イントクラウドをCNNに入れて深層学習の恩恵を3次元データ
いも取り入れる
• 技術的課題: 点群は画像のようにxyのような構造（並び）がない
• アイディア: ちょっと読みきれなかった．後で読む価値大．

Universal Adversarial Perturbations
• Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Omar Fawzi, Pascal
Frossard
• Supplemental Material
• code: https://github.com/LTS4/universal
• 多くのモデル，多くの画像で誤認識を引き起こすような画像歪み(=CNN共通
の脆弱性)の発見に関する論文
• ランダムノイズで同程度の精度低下を起こすには10倍の強度が必要
• Data Augmentationに取り入れても，似たような歪みパターンが見つかる
• 橋本の理解
• 人間の直感と違う認識結果の原因？
• ある種のバグが論文になる→人間の病気の存在が論文になるようなもの？
→誰も中身がわかっていないことの証左…．

Photo-Realistic Single Image Super-Resolution
Using a Generative Adversarial Network
• Christian Ledig, Lucas Theis, Ferenc Huszár, Jose Caballero,
Andrew Cunningham, Alejandro Acosta, Andrew Aitken,
Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi
• ResNetベースの超解像に対して，GANで，それを騙すような
入力を作成して学習を強化した手法，と理解．
• GANで学習サンプル水増し系が，今回のCVPRで何個か見かけた．
• 4x4倍の解像度の画像がかなり綺麗．
• 人間にかろうじて読める程度のナンバープレートも綺麗に復元
絶対認識要素入っている感じ満載．
• ここまで来たか，という感じ．

Deep Reinforcement Learning-Based
Image Captioning With Embedding Reward
• Zhou Ren, Xiaoyu Wang, Ning Zhang, Xutao Lv, Li-Jia Li
• RNNでの文生成プロセスはビームサーチ的．
• 数個先までの文生成を時系列と考えて報酬ベースの強化学習の
枠組みをいれたら良いのでは？

From Red Wine to Red Tomato:
Composition With Context
• Ishan Misra, Abhinav Gupta, Martial Hebert
• 形容詞の学習と認識
• 精度はmAPが6%弱．まだまだ改善の余地あり．
• 私がPRMUグランドチャレンジで予想したネタがもう出てき始
めた(というか下記の発表をしていた頃に投稿されてた）．
• https://www.slideshare.net/atsushihasimoto/prmu-gc
• 名詞と形容詞を独立に識別するCNNと，セットになったアノ
テーションに対して学習したCNNの積が一致するように学習→
名詞・形容詞認識器が独立に，かつ，組合せが出力となるよう
に学習される→未知の名詞・形容詞の組合せが認識できる可能
性？？

Weakly Supervised Action Learning With
RNN Based Fine-To-Coarse Modeling,
• Alexander Richard, Hilde Kuehne, Juergen Gall
• 複数のアクションが入っているVideo Clipに，自然言語のキャ
プションがアノテーションされている入力を仮定．
• 文の記述順とビデオ内の動作の順序は同一であることが前提．
• 自動的にアクションの区切り（場合によってはbackground
actionクラス）を推定しつつ，動作認識を学習．
• 編集済みの映像を前提としているので監視カメラとかでは辛い
とのこと．

Captioning Images With Diverse Objects,
• Subhashini Venugopalan, Lisa Anne Hendricks, Marcus
Rohrbach, Raymond Mooney, Trevor Darrell, Kate Saenko
• Video Captioningのデータセットは語彙が少ないので，Image
Captioning用のデータセットの恩恵を受けましょう．
• このために色々苦労してモデルを作っている感じ．
• 下記のposter発表とネタが被っていた??
• “Video Captioning with Transferred Semantic Attributes”, Yingwei Pn et al.

Self-Critical Sequence Training for Image
Captioning,
• Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, Jerret
Ross, Vaibhava Goel
• ちょっと集中力切れてしまった．
• こういう人間でも説明が難しい画像へのキャプショニングが少
しはできるようになる，らしい．
https://www.kenya-getaways.com/6-day-fossil-
hunting/

Realtime Multi-Person 2D Pose Estimation
Using Part Affinity Fields,
• Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh
• 発表は裏のoral sessionにいたので聞いていない．
• 研究室の論文読み会で既読．
• 関節位置の検出だけでなく，関節a→関節bのflowのようなもの
も学習．
• それぞれの関節(および関節対）毎にCNNで検出→Full Connection層
で他の関節位置の情報を取り入れる→再検出→Full Connection層で2
次以上の関節位置の関係を取り入れ... と7次まで行う
• ほぼ関節間の対応付けも取れているので，2部グラフマッチングをかな
り適当に解いても正解となる→リアルタイムで複数人物の検出！

Unsupervised Visual-Linguistic Reference
Resolution in Instructional Videos,
• De-An Huang, Joseph J. Lim, Li Fei- Fei, Juan Carlos Niebles
• 言語処理側で，教師なしで作業のワークフロー(tree)を抽出す
る手法に対して，映像側でも類似のワークフロー(tree)を出し
て，グラフのズレなどに対してEMアルゴリズムで最適化．
• やろうとしていたことを(unsupervisedで)先にやられて過呼吸
になりそう．でも精度は50%くらいなのでかなり低い？

Temporal Convolutional Networks for
Action Segmentation and Detection,
• Colin Lea, Michael D. Flynn, René Vidal, Austin Reiter,
Gregory D. Hager
• 全フレームの特徴量を抽出後に，それを入力としてAuto
Encoder的に動作認識をする．かなり力技な印象．
• それでもLSTMより良い精度がでる←オフライン処理だから??

FlowNet2.0:EvolutionofOpticalFlowEstimati
onWith Deep Networks,
• Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, Margret Keuper,
Alexey Dosovitskiy, Thomas Brox
• 変位が大きい場合と小さい場合にわけてネットワークを作り，
統合．
• データを食わせる順番とかが精度向上に繋がったりしていて，
かなり黒魔術的な印象．
• 動作認識の特徴量にいいのかも．これを上流に持ってきてEnd-
to-Endとか

Visual Dialog
• Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh,
Deshraj Yadav, José M. F. Moura, Devi Parikh, Dhruv Batra
• 画像についての対話を元に，画像についての自然言語での質問
に対して応答ができるようにしたもの．

Fully-Adaptive Feature Sharing in Multi-Task
Networks With Applications in Person Attribute
Classification
• Yongxi Lu, Abhishek Kumar, Shuangfei Zhai, Yu Cheng, Tara
Javidi, Rogerio Feris
• https://github.com/samim23/GitXiv/issues/55
• Multi-task CNNを作成する際に，どの層を連結させたら良いの
か？という問題に対するアプローチ．
• 昔の特徴量選択と一緒で，全通り試すと組合せ爆発．
• 学習の結果，特徴が似ているものをまとめていくと精度が高
い？ということを経験的に発見した模様．

CLEVR: A Diagnostic Dataset for
Compositional Language and Elementary
Visual Reasoning
• Justin Johnson, Bharath Hariharan, Laurens van der Maaten,
Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick
• 色や形，場所(Elementary Visual Reason)で，環境中の物体を
指示するための文を生成するための合成データセットを作成．
• 左にある金属球，赤い立方体，みたいなの．

まとめ
• 他にも何個か見たり聞いたり尋ねたりしたけど，書ききれませ
ん…．
• 純粋にCNNの精度をあげる研究は少数派
• どの問題にCNNを適用するにしても，教師信号が無い問題をど
うするか，が多い印象．
• 純粋CV成分が足りない．
• 黒魔術っぷりが他の会議より濃い気がするのは気の所為？？
• 全部ではなく，一部の性能の良い手法が，黒魔術的．
• 性能が良い≠正義，だが，現行の査読基準の限界か．
• 生物系の国際会議みたいにトピック毎のバランスをとって抽選，とい
う会議があっても良いと思う→投稿者のモチベーションの問題?

CVPR2017 参加報告速報版本会議 1日目

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (9)

Similar to CVPR2017 参加報告速報版本会議 1日目

Similar to CVPR2017 参加報告速報版本会議 1日目 (20)

More from Atsushi Hashimoto

More from Atsushi Hashimoto (9)