SlideShare a Scribd company logo
1 of 27
Download to read offline
CVPR2017参加報告
(速報版・一日目)
2017.7.22(現地時間)
@a_hasimoto
このスライドについて
1. 本会議での発表の内容を
2. 印象に残ったものだけ
3. その時の印象と,あとでのreferenceをたどるために
メモしたものです.
9/18(月・祝),関西CVPRML勉強会にて,解説を予定.
→ https://twitter.com/kansaicvprml
私の理解が深まるので,勘違いの指摘や質問,リンクの紹介,そ
の他議論大歓迎.
CVPR2017 Statistics
CVPR2017 Statistics
CVPR2017 Statistics
スポンサー
Best Paper Awards (x2)
• “Densely Connected Convolutional Networks”
Gao Huang et al.
• https://arxiv.org/abs/1608.06993
• https://github.com/liuzhuang13/DenseNet
• https://github.com/titu1994/DenseNet
• “Learning from Simulated and Unsupervised Images through
Adversarial Training”
Ashish Shrivastaba et al.
• https://arxiv.org/abs/1612.07828
• https://github.com/carpedm20/simulated-unsupervised-tensorflow
Best Honorable mention award (x2)
• “Annotating Object Instances with a Polygon-RNN”
Lius Castrejon et al.
• https://arxiv.org/abs/1704.05548
• “Yolo9000: Better, Faster, Stronger”
Joseph Redmon & Ali Farhadi
• https://arxiv.org/abs/1612.08242
• https://github.com/philipperemy/yolo-9000
• https://github.com/allanzelener/YAD2K
Best Student Paper Award
• “Computational Imaging on the Electric Grid”
Mark Sheinin et al.
• http://webee.technion.ac.il/~yoav/publications/ACam_CVPR.pdf
Longuet-Higgins Prize (test of time award)
• Object Retrieval with Large Vocabularies and Fast Spatial
Matching, J Philbin et al., CVPR2007
• http://vc.cs.nthu.edu.tw/home/paper/codfiles/hywang/2008010815
43/Object_retrieval_with_large_vocabularies_and_fast_spatial.ppt
• http://ieeexplore.ieee.org/document/4270197/
PointNet: Deep Learning on Point Sets for 3D
Classification and Segmentation
(Oral)
• R. Qi Charles, Hao Su, Mo Kaichun, Leonidas J. Guibas
• Supplemental Material
• code: https://github.com/charlesq34/pointnet
• 3次元データの表現形式として,他の形式への変換が用意なポ
イントクラウドをCNNに入れて深層学習の恩恵を3次元データ
いも取り入れる
• 技術的課題: 点群は画像のようにxyのような構造(並び)がない
• アイディア: ちょっと読みきれなかった.後で読む価値大.
Universal Adversarial Perturbations
• Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Omar Fawzi, Pascal
Frossard
• Supplemental Material
• code: https://github.com/LTS4/universal
• 多くのモデル,多くの画像で誤認識を引き起こすような画像歪み(=CNN共通
の脆弱性)の発見に関する論文
• ランダムノイズで同程度の精度低下を起こすには10倍の強度が必要
• Data Augmentationに取り入れても,似たような歪みパターンが見つかる
• 橋本の理解
• 人間の直感と違う認識結果の原因?
• ある種のバグが論文になる→人間の病気の存在が論文になるようなもの?
→誰も中身がわかっていないことの証左….
Photo-Realistic Single Image Super-Resolution
Using a Generative Adversarial Network
• Christian Ledig, Lucas Theis, Ferenc Huszár, Jose Caballero,
Andrew Cunningham, Alejandro Acosta, Andrew Aitken,
Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi
• ResNetベースの超解像に対して,GANで,それを騙すような
入力を作成して学習を強化した手法,と理解.
• GANで学習サンプル水増し系が,今回のCVPRで何個か見かけた.
• 4x4倍の解像度の画像がかなり綺麗.
• 人間にかろうじて読める程度のナンバープレートも綺麗に復元
絶対認識要素入っている感じ満載.
• ここまで来たか,という感じ.
Deep Reinforcement Learning-Based
Image Captioning With Embedding Reward
• Zhou Ren, Xiaoyu Wang, Ning Zhang, Xutao Lv, Li-Jia Li
• RNNでの文生成プロセスはビームサーチ的.
• 数個先までの文生成を時系列と考えて報酬ベースの強化学習の
枠組みをいれたら良いのでは?
From Red Wine to Red Tomato:
Composition With Context
• Ishan Misra, Abhinav Gupta, Martial Hebert
• 形容詞の学習と認識
• 精度はmAPが6%弱.まだまだ改善の余地あり.
• 私がPRMUグランドチャレンジで予想したネタがもう出てき始
めた(というか下記の発表をしていた頃に投稿されてた).
• https://www.slideshare.net/atsushihasimoto/prmu-gc
• 名詞と形容詞を独立に識別するCNNと,セットになったアノ
テーションに対して学習したCNNの積が一致するように学習→
名詞・形容詞認識器が独立に,かつ,組合せが出力となるよう
に学習される→未知の名詞・形容詞の組合せが認識できる可能
性??
Weakly Supervised Action Learning With
RNN Based Fine-To-Coarse Modeling,
• Alexander Richard, Hilde Kuehne, Juergen Gall
• 複数のアクションが入っているVideo Clipに,自然言語のキャ
プションがアノテーションされている入力を仮定.
• 文の記述順とビデオ内の動作の順序は同一であることが前提.
• 自動的にアクションの区切り(場合によってはbackground
actionクラス)を推定しつつ,動作認識を学習.
• 編集済みの映像を前提としているので監視カメラとかでは辛い
とのこと.
Captioning Images With Diverse Objects,
• Subhashini Venugopalan, Lisa Anne Hendricks, Marcus
Rohrbach, Raymond Mooney, Trevor Darrell, Kate Saenko
• Video Captioningのデータセットは語彙が少ないので,Image
Captioning用のデータセットの恩恵を受けましょう.
• このために色々苦労してモデルを作っている感じ.
• 下記のposter発表とネタが被っていた??
• “Video Captioning with Transferred Semantic Attributes”, Yingwei Pn et al.
Self-Critical Sequence Training for Image
Captioning,
• Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, Jerret
Ross, Vaibhava Goel
• ちょっと集中力切れてしまった.
• こういう人間でも説明が難しい画像へのキャプショニングが少
しはできるようになる,らしい.
https://www.kenya-getaways.com/6-day-fossil-
hunting/
ここからポスター
Realtime Multi-Person 2D Pose Estimation
Using Part Affinity Fields,
• Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh
• 発表は裏のoral sessionにいたので聞いていない.
• 研究室の論文読み会で既読.
• 関節位置の検出だけでなく,関節a→関節bのflowのようなもの
も学習.
• それぞれの関節(および関節対)毎にCNNで検出→Full Connection層
で他の関節位置の情報を取り入れる→再検出→Full Connection層で2
次以上の関節位置の関係を取り入れ... と7次まで行う
• ほぼ関節間の対応付けも取れているので,2部グラフマッチングをかな
り適当に解いても正解となる→リアルタイムで複数人物の検出!
Unsupervised Visual-Linguistic Reference
Resolution in Instructional Videos,
• De-An Huang, Joseph J. Lim, Li Fei- Fei, Juan Carlos Niebles
• 言語処理側で,教師なしで作業のワークフロー(tree)を抽出す
る手法に対して,映像側でも類似のワークフロー(tree)を出し
て,グラフのズレなどに対してEMアルゴリズムで最適化.
• やろうとしていたことを(unsupervisedで)先にやられて過呼吸
になりそう.でも精度は50%くらいなのでかなり低い?
Temporal Convolutional Networks for
Action Segmentation and Detection,
• Colin Lea, Michael D. Flynn, René Vidal, Austin Reiter,
Gregory D. Hager
• 全フレームの特徴量を抽出後に,それを入力としてAuto
Encoder的に動作認識をする.かなり力技な印象.
• それでもLSTMより良い精度がでる←オフライン処理だから??
FlowNet2.0:EvolutionofOpticalFlowEstimati
onWith Deep Networks,
• Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, Margret Keuper,
Alexey Dosovitskiy, Thomas Brox
• 変位が大きい場合と小さい場合にわけてネットワークを作り,
統合.
• データを食わせる順番とかが精度向上に繋がったりしていて,
かなり黒魔術的な印象.
• 動作認識の特徴量にいいのかも.これを上流に持ってきてEnd-
to-Endとか
Visual Dialog
• Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh,
Deshraj Yadav, José M. F. Moura, Devi Parikh, Dhruv Batra
• 画像についての対話を元に,画像についての自然言語での質問
に対して応答ができるようにしたもの.
Fully-Adaptive Feature Sharing in Multi-Task
Networks With Applications in Person Attribute
Classification
• Yongxi Lu, Abhishek Kumar, Shuangfei Zhai, Yu Cheng, Tara
Javidi, Rogerio Feris
• https://github.com/samim23/GitXiv/issues/55
• Multi-task CNNを作成する際に,どの層を連結させたら良いの
か?という問題に対するアプローチ.
• 昔の特徴量選択と一緒で,全通り試すと組合せ爆発.
• 学習の結果,特徴が似ているものをまとめていくと精度が高
い?ということを経験的に発見した模様.
CLEVR: A Diagnostic Dataset for
Compositional Language and Elementary
Visual Reasoning
• Justin Johnson, Bharath Hariharan, Laurens van der Maaten,
Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick
• 色や形,場所(Elementary Visual Reason)で,環境中の物体を
指示するための文を生成するための合成データセットを作成.
• 左にある金属球,赤い立方体,みたいなの.
まとめ
• 他にも何個か見たり聞いたり尋ねたりしたけど,書ききれませ
ん….
• 純粋にCNNの精度をあげる研究は少数派
• どの問題にCNNを適用するにしても,教師信号が無い問題をど
うするか,が多い印象.
• 純粋CV成分が足りない.
• 黒魔術っぷりが他の会議より濃い気がするのは気の所為??
• 全部ではなく,一部の性能の良い手法が,黒魔術的.
• 性能が良い≠正義,だが,現行の査読基準の限界か.
• 生物系の国際会議みたいにトピック毎のバランスをとって抽選,とい
う会議があっても良いと思う→投稿者のモチベーションの問題?

More Related Content

What's hot

Cvpr2018 参加報告(速報版)3日目
Cvpr2018 参加報告(速報版)3日目Cvpr2018 参加報告(速報版)3日目
Cvpr2018 参加報告(速報版)3日目Atsushi Hashimoto
 
2017年の研究戦略 -cvpaper.challenge 2017-
2017年の研究戦略 -cvpaper.challenge 2017-2017年の研究戦略 -cvpaper.challenge 2017-
2017年の研究戦略 -cvpaper.challenge 2017-cvpaper. challenge
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文cvpaper. challenge
 
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) cvpaper. challenge
 
【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalitiescvpaper. challenge
 
ECCV2020 Oral論文 完全読破(1/2)
ECCV2020 Oral論文 完全読破(1/2)ECCV2020 Oral論文 完全読破(1/2)
ECCV2020 Oral論文 完全読破(1/2)cvpaper. challenge
 
コンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のりコンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のりcvpaper. challenge
 
Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術
Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術
Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術Takeaki Imai
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617Jun Okumura
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Modelscvpaper. challenge
 
卒論執筆・スライド作成のポイント
卒論執筆・スライド作成のポイント卒論執筆・スライド作成のポイント
卒論執筆・スライド作成のポイントTsubasa Hirakawa
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日Atsushi Hashimoto
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目Atsushi Hashimoto
 
[DL輪読会]Efficient Video Generation on Complex Datasets
[DL輪読会]Efficient Video Generation on Complex Datasets[DL輪読会]Efficient Video Generation on Complex Datasets
[DL輪読会]Efficient Video Generation on Complex DatasetsDeep Learning JP
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 

What's hot (20)

cvpaper.challengeについて
cvpaper.challengeについてcvpaper.challengeについて
cvpaper.challengeについて
 
Cvpr2018 参加報告(速報版)3日目
Cvpr2018 参加報告(速報版)3日目Cvpr2018 参加報告(速報版)3日目
Cvpr2018 参加報告(速報版)3日目
 
2017年の研究戦略 -cvpaper.challenge 2017-
2017年の研究戦略 -cvpaper.challenge 2017-2017年の研究戦略 -cvpaper.challenge 2017-
2017年の研究戦略 -cvpaper.challenge 2017-
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
 
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2)
 
【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities
 
ECCV 2016 速報
ECCV 2016 速報ECCV 2016 速報
ECCV 2016 速報
 
ECCV2020 Oral論文 完全読破(1/2)
ECCV2020 Oral論文 完全読破(1/2)ECCV2020 Oral論文 完全読破(1/2)
ECCV2020 Oral論文 完全読破(1/2)
 
CVPR 2016 速報
CVPR 2016 速報CVPR 2016 速報
CVPR 2016 速報
 
コンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のりコンピュータビジョン分野メジャー国際会議 Award までの道のり
コンピュータビジョン分野メジャー国際会議 Award までの道のり
 
CVPR 2017 報告
CVPR 2017 報告CVPR 2017 報告
CVPR 2017 報告
 
Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術
Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術
Edge Computing 「あらゆるものが考える」世界を作るのに必要な技術
 
ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617ICLR読み会 奥村純 20170617
ICLR読み会 奥村純 20170617
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
 
卒論執筆・スライド作成のポイント
卒論執筆・スライド作成のポイント卒論執筆・スライド作成のポイント
卒論執筆・スライド作成のポイント
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目
 
[DL輪読会]Efficient Video Generation on Complex Datasets
[DL輪読会]Efficient Video Generation on Complex Datasets[DL輪読会]Efficient Video Generation on Complex Datasets
[DL輪読会]Efficient Video Generation on Complex Datasets
 
ICRA 2018 速報
ICRA 2018 速報ICRA 2018 速報
ICRA 2018 速報
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 

Viewers also liked

PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識Atsushi Hashimoto
 
FOSS4Gで地理院タイルを使ってみよう!
FOSS4Gで地理院タイルを使ってみよう!FOSS4Gで地理院タイルを使ってみよう!
FOSS4Gで地理院タイルを使ってみよう!IWASAKI NOBUSUKE
 
こまった時のOpenJump(デジタイジング編)
こまった時のOpenJump(デジタイジング編)こまった時のOpenJump(デジタイジング編)
こまった時のOpenJump(デジタイジング編)IWASAKI NOBUSUKE
 
Building GUI App with Electron and Lisp
Building GUI App with Electron and LispBuilding GUI App with Electron and Lisp
Building GUI App with Electron and Lispfukamachi
 
ドライバハッキング。UMPC、Windowsタブレット にLinux、*BSDを入れて遊ぼう  2017年度京都版 #osckyoto
ドライバハッキング。UMPC、Windowsタブレット にLinux、*BSDを入れて遊ぼう  2017年度京都版 #osckyotoドライバハッキング。UMPC、Windowsタブレット にLinux、*BSDを入れて遊ぼう  2017年度京都版 #osckyoto
ドライバハッキング。UMPC、Windowsタブレット にLinux、*BSDを入れて遊ぼう  2017年度京都版 #osckyotoNetwalker lab kapper
 
Hacking with x86 Windows Tablet and mobile devices on openSUSE #opensuseasia17
 Hacking with x86 Windows Tablet and mobile devices on openSUSE #opensuseasia17 Hacking with x86 Windows Tablet and mobile devices on openSUSE #opensuseasia17
Hacking with x86 Windows Tablet and mobile devices on openSUSE #opensuseasia17Netwalker lab kapper
 

Viewers also liked (9)

Cvpr2017事前読み会
Cvpr2017事前読み会Cvpr2017事前読み会
Cvpr2017事前読み会
 
ICCV2017一人読み会
ICCV2017一人読み会ICCV2017一人読み会
ICCV2017一人読み会
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識
 
FOSS4Gで地理院タイルを使ってみよう!
FOSS4Gで地理院タイルを使ってみよう!FOSS4Gで地理院タイルを使ってみよう!
FOSS4Gで地理院タイルを使ってみよう!
 
こまった時のOpenJump(デジタイジング編)
こまった時のOpenJump(デジタイジング編)こまった時のOpenJump(デジタイジング編)
こまった時のOpenJump(デジタイジング編)
 
Building GUI App with Electron and Lisp
Building GUI App with Electron and LispBuilding GUI App with Electron and Lisp
Building GUI App with Electron and Lisp
 
ドライバハッキング。UMPC、Windowsタブレット にLinux、*BSDを入れて遊ぼう  2017年度京都版 #osckyoto
ドライバハッキング。UMPC、Windowsタブレット にLinux、*BSDを入れて遊ぼう  2017年度京都版 #osckyotoドライバハッキング。UMPC、Windowsタブレット にLinux、*BSDを入れて遊ぼう  2017年度京都版 #osckyoto
ドライバハッキング。UMPC、Windowsタブレット にLinux、*BSDを入れて遊ぼう  2017年度京都版 #osckyoto
 
Hacking with x86 Windows Tablet and mobile devices on openSUSE #opensuseasia17
 Hacking with x86 Windows Tablet and mobile devices on openSUSE #opensuseasia17 Hacking with x86 Windows Tablet and mobile devices on openSUSE #opensuseasia17
Hacking with x86 Windows Tablet and mobile devices on openSUSE #opensuseasia17
 
ICCV 2017 速報
ICCV 2017 速報 ICCV 2017 速報
ICCV 2017 速報
 

Similar to CVPR2017 参加報告 速報版 本会議 1日目

XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」Shuji Morisaki
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video GenerationDeep Learning JP
 
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper. challenge
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
Compressed Video Action Recognition
Compressed Video Action RecognitionCompressed Video Action Recognition
Compressed Video Action Recognitionharmonylab
 
(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめ(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめMitsutoshi Kiuchi
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )cvpaper. challenge
 
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with StylesDeep Learning JP
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)Yamato OKAMOTO
 
[DL輪読会]Freehand-Sketch to Image Synthesis 2018
[DL輪読会]Freehand-Sketch to Image Synthesis 2018[DL輪読会]Freehand-Sketch to Image Synthesis 2018
[DL輪読会]Freehand-Sketch to Image Synthesis 2018Deep Learning JP
 
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-ResolutionDeep Learning JP
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationKento Doi
 
Elasticsearch 変わり種プラグインの作り方
Elasticsearch 変わり種プラグインの作り方Elasticsearch 変わり種プラグインの作り方
Elasticsearch 変わり種プラグインの作り方Ryoji Kurosawa
 
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action RecognitionToru Tamaki
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Tatsuya Tojima
 
VPSやめてHerokuに移行したお話
VPSやめてHerokuに移行したお話VPSやめてHerokuに移行したお話
VPSやめてHerokuに移行したお話Hiroyuki Hayashi
 
Drupal、group、quiz、webformを利用したeラーニングサイト「sqt」
Drupal、group、quiz、webformを利用したeラーニングサイト「sqt」Drupal、group、quiz、webformを利用したeラーニングサイト「sqt」
Drupal、group、quiz、webformを利用したeラーニングサイト「sqt」Kenji Shirane
 

Similar to CVPR2017 参加報告 速報版 本会議 1日目 (20)

XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
 
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
Compressed Video Action Recognition
Compressed Video Action RecognitionCompressed Video Action Recognition
Compressed Video Action Recognition
 
(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめ(2017.6.9) Neo4jの可視化ライブラリまとめ
(2017.6.9) Neo4jの可視化ライブラリまとめ
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
 
[DL輪読会]Freehand-Sketch to Image Synthesis 2018
[DL輪読会]Freehand-Sketch to Image Synthesis 2018[DL輪読会]Freehand-Sketch to Image Synthesis 2018
[DL輪読会]Freehand-Sketch to Image Synthesis 2018
 
JavaOne2017参加報告 Microservices topic & approach #jjug
JavaOne2017参加報告 Microservices topic & approach #jjugJavaOne2017参加報告 Microservices topic & approach #jjug
JavaOne2017参加報告 Microservices topic & approach #jjug
 
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
【DL輪読会】Investigating Tradeoffs in Real-World Video Super-Resolution
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
 
Elasticsearch 変わり種プラグインの作り方
Elasticsearch 変わり種プラグインの作り方Elasticsearch 変わり種プラグインの作り方
Elasticsearch 変わり種プラグインの作り方
 
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
 
分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
VPSやめてHerokuに移行したお話
VPSやめてHerokuに移行したお話VPSやめてHerokuに移行したお話
VPSやめてHerokuに移行したお話
 
Drupal、group、quiz、webformを利用したeラーニングサイト「sqt」
Drupal、group、quiz、webformを利用したeラーニングサイト「sqt」Drupal、group、quiz、webformを利用したeラーニングサイト「sqt」
Drupal、group、quiz、webformを利用したeラーニングサイト「sqt」
 

More from Atsushi Hashimoto

人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- Atsushi Hashimoto
 
ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)Atsushi Hashimoto
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationAtsushi Hashimoto
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告Atsushi Hashimoto
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本Atsushi Hashimoto
 

More from Atsushi Hashimoto (9)

Ocha 20191204
Ocha 20191204Ocha 20191204
Ocha 20191204
 
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
 
Eccv2018 report day4
Eccv2018 report day4Eccv2018 report day4
Eccv2018 report day4
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
Eccv2018 report day2
Eccv2018 report day2Eccv2018 report day2
Eccv2018 report day2
 
ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)ECCV2018参加速報(一日目)
ECCV2018参加速報(一日目)
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food Preparation
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
 

CVPR2017 参加報告 速報版 本会議 1日目

  • 2. このスライドについて 1. 本会議での発表の内容を 2. 印象に残ったものだけ 3. その時の印象と,あとでのreferenceをたどるために メモしたものです. 9/18(月・祝),関西CVPRML勉強会にて,解説を予定. → https://twitter.com/kansaicvprml 私の理解が深まるので,勘違いの指摘や質問,リンクの紹介,そ の他議論大歓迎.
  • 7. Best Paper Awards (x2) • “Densely Connected Convolutional Networks” Gao Huang et al. • https://arxiv.org/abs/1608.06993 • https://github.com/liuzhuang13/DenseNet • https://github.com/titu1994/DenseNet • “Learning from Simulated and Unsupervised Images through Adversarial Training” Ashish Shrivastaba et al. • https://arxiv.org/abs/1612.07828 • https://github.com/carpedm20/simulated-unsupervised-tensorflow
  • 8. Best Honorable mention award (x2) • “Annotating Object Instances with a Polygon-RNN” Lius Castrejon et al. • https://arxiv.org/abs/1704.05548 • “Yolo9000: Better, Faster, Stronger” Joseph Redmon & Ali Farhadi • https://arxiv.org/abs/1612.08242 • https://github.com/philipperemy/yolo-9000 • https://github.com/allanzelener/YAD2K
  • 9. Best Student Paper Award • “Computational Imaging on the Electric Grid” Mark Sheinin et al. • http://webee.technion.ac.il/~yoav/publications/ACam_CVPR.pdf
  • 10. Longuet-Higgins Prize (test of time award) • Object Retrieval with Large Vocabularies and Fast Spatial Matching, J Philbin et al., CVPR2007 • http://vc.cs.nthu.edu.tw/home/paper/codfiles/hywang/2008010815 43/Object_retrieval_with_large_vocabularies_and_fast_spatial.ppt • http://ieeexplore.ieee.org/document/4270197/
  • 11. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation (Oral) • R. Qi Charles, Hao Su, Mo Kaichun, Leonidas J. Guibas • Supplemental Material • code: https://github.com/charlesq34/pointnet • 3次元データの表現形式として,他の形式への変換が用意なポ イントクラウドをCNNに入れて深層学習の恩恵を3次元データ いも取り入れる • 技術的課題: 点群は画像のようにxyのような構造(並び)がない • アイディア: ちょっと読みきれなかった.後で読む価値大.
  • 12. Universal Adversarial Perturbations • Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Omar Fawzi, Pascal Frossard • Supplemental Material • code: https://github.com/LTS4/universal • 多くのモデル,多くの画像で誤認識を引き起こすような画像歪み(=CNN共通 の脆弱性)の発見に関する論文 • ランダムノイズで同程度の精度低下を起こすには10倍の強度が必要 • Data Augmentationに取り入れても,似たような歪みパターンが見つかる • 橋本の理解 • 人間の直感と違う認識結果の原因? • ある種のバグが論文になる→人間の病気の存在が論文になるようなもの? →誰も中身がわかっていないことの証左….
  • 13. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network • Christian Ledig, Lucas Theis, Ferenc Huszár, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi • ResNetベースの超解像に対して,GANで,それを騙すような 入力を作成して学習を強化した手法,と理解. • GANで学習サンプル水増し系が,今回のCVPRで何個か見かけた. • 4x4倍の解像度の画像がかなり綺麗. • 人間にかろうじて読める程度のナンバープレートも綺麗に復元 絶対認識要素入っている感じ満載. • ここまで来たか,という感じ.
  • 14. Deep Reinforcement Learning-Based Image Captioning With Embedding Reward • Zhou Ren, Xiaoyu Wang, Ning Zhang, Xutao Lv, Li-Jia Li • RNNでの文生成プロセスはビームサーチ的. • 数個先までの文生成を時系列と考えて報酬ベースの強化学習の 枠組みをいれたら良いのでは?
  • 15. From Red Wine to Red Tomato: Composition With Context • Ishan Misra, Abhinav Gupta, Martial Hebert • 形容詞の学習と認識 • 精度はmAPが6%弱.まだまだ改善の余地あり. • 私がPRMUグランドチャレンジで予想したネタがもう出てき始 めた(というか下記の発表をしていた頃に投稿されてた). • https://www.slideshare.net/atsushihasimoto/prmu-gc • 名詞と形容詞を独立に識別するCNNと,セットになったアノ テーションに対して学習したCNNの積が一致するように学習→ 名詞・形容詞認識器が独立に,かつ,組合せが出力となるよう に学習される→未知の名詞・形容詞の組合せが認識できる可能 性??
  • 16. Weakly Supervised Action Learning With RNN Based Fine-To-Coarse Modeling, • Alexander Richard, Hilde Kuehne, Juergen Gall • 複数のアクションが入っているVideo Clipに,自然言語のキャ プションがアノテーションされている入力を仮定. • 文の記述順とビデオ内の動作の順序は同一であることが前提. • 自動的にアクションの区切り(場合によってはbackground actionクラス)を推定しつつ,動作認識を学習. • 編集済みの映像を前提としているので監視カメラとかでは辛い とのこと.
  • 17. Captioning Images With Diverse Objects, • Subhashini Venugopalan, Lisa Anne Hendricks, Marcus Rohrbach, Raymond Mooney, Trevor Darrell, Kate Saenko • Video Captioningのデータセットは語彙が少ないので,Image Captioning用のデータセットの恩恵を受けましょう. • このために色々苦労してモデルを作っている感じ. • 下記のposter発表とネタが被っていた?? • “Video Captioning with Transferred Semantic Attributes”, Yingwei Pn et al.
  • 18. Self-Critical Sequence Training for Image Captioning, • Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, Vaibhava Goel • ちょっと集中力切れてしまった. • こういう人間でも説明が難しい画像へのキャプショニングが少 しはできるようになる,らしい. https://www.kenya-getaways.com/6-day-fossil- hunting/
  • 20. Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields, • Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh • 発表は裏のoral sessionにいたので聞いていない. • 研究室の論文読み会で既読. • 関節位置の検出だけでなく,関節a→関節bのflowのようなもの も学習. • それぞれの関節(および関節対)毎にCNNで検出→Full Connection層 で他の関節位置の情報を取り入れる→再検出→Full Connection層で2 次以上の関節位置の関係を取り入れ... と7次まで行う • ほぼ関節間の対応付けも取れているので,2部グラフマッチングをかな り適当に解いても正解となる→リアルタイムで複数人物の検出!
  • 21. Unsupervised Visual-Linguistic Reference Resolution in Instructional Videos, • De-An Huang, Joseph J. Lim, Li Fei- Fei, Juan Carlos Niebles • 言語処理側で,教師なしで作業のワークフロー(tree)を抽出す る手法に対して,映像側でも類似のワークフロー(tree)を出し て,グラフのズレなどに対してEMアルゴリズムで最適化. • やろうとしていたことを(unsupervisedで)先にやられて過呼吸 になりそう.でも精度は50%くらいなのでかなり低い?
  • 22. Temporal Convolutional Networks for Action Segmentation and Detection, • Colin Lea, Michael D. Flynn, René Vidal, Austin Reiter, Gregory D. Hager • 全フレームの特徴量を抽出後に,それを入力としてAuto Encoder的に動作認識をする.かなり力技な印象. • それでもLSTMより良い精度がでる←オフライン処理だから??
  • 23. FlowNet2.0:EvolutionofOpticalFlowEstimati onWith Deep Networks, • Eddy Ilg, Nikolaus Mayer, Tonmoy Saikia, Margret Keuper, Alexey Dosovitskiy, Thomas Brox • 変位が大きい場合と小さい場合にわけてネットワークを作り, 統合. • データを食わせる順番とかが精度向上に繋がったりしていて, かなり黒魔術的な印象. • 動作認識の特徴量にいいのかも.これを上流に持ってきてEnd- to-Endとか
  • 24. Visual Dialog • Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh, Deshraj Yadav, José M. F. Moura, Devi Parikh, Dhruv Batra • 画像についての対話を元に,画像についての自然言語での質問 に対して応答ができるようにしたもの.
  • 25. Fully-Adaptive Feature Sharing in Multi-Task Networks With Applications in Person Attribute Classification • Yongxi Lu, Abhishek Kumar, Shuangfei Zhai, Yu Cheng, Tara Javidi, Rogerio Feris • https://github.com/samim23/GitXiv/issues/55 • Multi-task CNNを作成する際に,どの層を連結させたら良いの か?という問題に対するアプローチ. • 昔の特徴量選択と一緒で,全通り試すと組合せ爆発. • 学習の結果,特徴が似ているものをまとめていくと精度が高 い?ということを経験的に発見した模様.
  • 26. CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning • Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick • 色や形,場所(Elementary Visual Reason)で,環境中の物体を 指示するための文を生成するための合成データセットを作成. • 左にある金属球,赤い立方体,みたいなの.
  • 27. まとめ • 他にも何個か見たり聞いたり尋ねたりしたけど,書ききれませ ん…. • 純粋にCNNの精度をあげる研究は少数派 • どの問題にCNNを適用するにしても,教師信号が無い問題をど うするか,が多い印象. • 純粋CV成分が足りない. • 黒魔術っぷりが他の会議より濃い気がするのは気の所為?? • 全部ではなく,一部の性能の良い手法が,黒魔術的. • 性能が良い≠正義,だが,現行の査読基準の限界か. • 生物系の国際会議みたいにトピック毎のバランスをとって抽選,とい う会議があっても良いと思う→投稿者のモチベーションの問題?