13. TrackingNet: A Large Scale Dataset and
Benchmark for Object Tracking in the wild
• CVPR2018でも見かけた気がする…workshop??
• Tracking用のImageNet(ActivityNet)的なデータセット構築
• これでECCV通すような論文の書き方を学ぶためには読んで見
るべきかも.
Poster
15. DeepPhys: Video-Based Physiological
Measurement Using Convolutional Attention
Networks
• 脈拍を画像のみ(皮膚の微弱な色変化)から推定する問題を
Deep Neural Netで解いたっぽい研究.
• あまりDNNが向いていないタスクのようにも思えるが,これも
近寄ることすら無理.
行列にならんで通り抜けながら
撮影.
Poster
16. Unsupervised Video Object Segmentation
using Motion Saliency-Guided Spatio-Temporal
Propagation
• タイトルだけで,大体何をやっているかはおおよそわかる?
• これも近寄れず.こんな研究もあるよと,メモ代わりに撮影.
Poster
17. Attention-GAN for Object Transfiguration
in Wild Images
• CycleGANなどで変換する物体に対してAttention Maskをかけ
よう,という論文.
• 発表者が不在だったため,ポスター以上の情報はなし.
Poster
18. How good is my GAN
• 従来手法のGANで生成された画像は,じつはそれのみを使って
クラス分類器を学習させたときに,リアルな画像で学習したク
ラス分類器より精度が落ちる.
⇢つまりGANは真の分布に基づいた生成になっていない
• 逆に言えば,GANの評価に,
「生成画像を使って学習した
モデルによるリアル画像の
識別精度」が使えるのでは?という
研究.
• 某知り合いが出発前にこれが面白そうと
いっていた奴かも.
Poster
19. Oral Session 1B
O-1B-01 Light Structure from Pin Motion: Simple and Accurate
Point Light Calibration for Physics-based Modeling
Hiroaki Santo*, Osaka University; Michael Waechter,
Osaka University; Masaki Samejima, Osaka University;
Yusuke Sugano, Osaka University; Yasuyuki Matsushita,
Osaka University
O-1B-02 Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe Bartels,
Carnegie Mellon University; William Whittaker, Carnegie
Mellon University; Aswin Sankaranarayanan, Carnegie
Mellon University; Srinivasa Narasimhan, Carnegie
Mellon University
O-1B-03 Learning to Separate Object Sounds by Watching
Unlabeled Video
Ruohan Gao*, University of Texas at Austin; Rogerio
Feris, IBM Research; Kristen Grauman, University of
Texas
O-1B-04 Coded Two-Bucket Cameras for Computer Vision Mian Wei, University of Toronto; Navid Navid
Sarhangnejad, University of Toronto; Zhengfan Xia,
University of Toronto; Nikola Katic, University of
Toronto; Roman Genov, University of Toronto; Kyros
Kutulakos*, University of Toronto
O-1B-05 Materials for Masses: SVBRDF Acquisition with a Single
Mobile Phone Image
Zhengqin Li*, UC San Diego; Manmohan Chandraker,
UC San Diego; Sunkavalli Kalyan, Adobe Research
20. O-1B-
01
Light Structure from Pin Motion: Simple and
Accurate Point Light Calibration for Physics-
based Modeling
Hiroaki Santo*, Osaka University; Michael
Waechter, Osaka University; Masaki
Samejima, Osaka University; Yusuke Sugano,
Osaka University; Yasuyuki Matsushita,
Osaka University
O-1B-
02
Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe
Bartels, Carnegie Mellon University; William
Whittaker, Carnegie Mellon University; Aswin
Sankaranarayanan, Carnegie Mellon
University; Srinivasa Narasimhan, Carnegie
Mellon University
O-1B-
03
Learning to Separate Object Sounds by
Watching Unlabeled Video
Ruohan Gao*, University of Texas at Austin;
Rogerio Feris, IBM Research; Kristen
Grauman, University of Texas
O-1B-
04
Coded Two-Bucket Cameras for Computer
Vision
Mian Wei, University of Toronto; Navid Navid
Sarhangnejad, University of Toronto;
Zhengfan Xia, University of Toronto; Nikola
Katic, University of Toronto; Roman Genov,
University of Toronto; Kyros Kutulakos*,
University of Toronto
O-1B-
05
Materials for Masses: SVBRDF Acquisition
with a Single Mobile Phone Image
Zhengqin Li*, UC San Diego; Manmohan
Chandraker, UC San Diego; Sunkavalli Kalyan,
Adobe Research
Oral 1B
21. Light Structure from Pin Motion: Simple
and Accurate Point Light Calibration for
Physics-based Modeling, H. Santo et al.
• 従来の光源位置キャリブレーションは,球形の反射物体を空間
条に配置⇢ハイライト領域が大きくなる場合(光源が大きいな
ど)では光源方向推定精度が低下.
• ARマーカにより姿勢が検出可能なキャリブレーションボード上
にピンを指す.ピンの先端に球があり,その球と影の位置を使
うとSfM的なアプローチで(?)上記の問題を起こさずに,点光源
の位置や平行光源の方向を精度良く推定できる.
Oral
23. Learning to Separate Object Sounds by
Watching Unlabeled Video, R. Gao et al.
• 音を音源に応じて分離して取り出す問題.
• 音源の種類の学習に物体検出結果を利用⇢unlabeled条件を視覚
情報により克服
• 学習データが足りないのか,多少混ざったままとなっている
• 音源と映像中の動きとの同期性などはまだ使われていない.
Oral
24. Coded Two-Bucket Cameras for Computer
Vision, M. Wei et al.
• 発表がわかりにくかった気がする.多分やりたいことは
Structured Lightによる3次元形状復元の高フレームレート化
• CCDセンサなどの電荷を貯めるbucketを1受光面あたり2つにす
る⇢隣接する受光面との間で0101,0011,1100,1010のような
コード割当でどの時間帯に受光していたかをずらしておく.
• ベイヤーパターンのように周辺の受光面から光量を推定⇢解像
度を犠牲にしてフレームレートを上げた???
Oral
25. Materials for Masses: SVBRDF Acquisition
with a Single Mobile Phone Image, Z. Li et al.
• 携帯のカメラ画像で移した床面などのAlbedo, Normal, Depth
を学習ベースで推定.
• 事前にAdobeが出しているmaterialのBRDFに関するデータセッ
トを利用して学習.
• Albedo, Normal, Depthの推定をmaterialの識別と同時にmulti-
taskで解かせることによってmaterial識別の精度が大幅に向上
Oral
26. O-1C-01 End-to-End Joint Semantic Segmentation of Actors
and Actions in Video
Jingwei Ji*, Stanford University; Shyamal Buch,
Stanford University; Alvaro Soto, Universidad
Catolica de Chile; Juan Carlos Niebles, Stanford
University
O-1C-02 Learning-based Video Motion Magnification Tae-Hyun Oh, MIT CSAIL; Ronnachai Jaroensri*,
MIT CSAIL; Changil Kim, MIT CSAIL; Mohamed A.
Elghareb, Qatar Computing Research Institute;
Fredo Durand, MIT; Bill Freeman, MIT; Wojciech
Matusik, MIT CSAIL
O-1C-03 Massively Parallel Video Networks Viorica Patraucean*, DeepMind; Joao Carreira,
DeepMind; Laurent Mazare, DeepMind; Simon
Osindero, DeepMind; Andrew Zisserman, University
of Oxford
O-1C-04 DeepWrinkles: Accurate and Realistic Clothing
Modeling
Zorah Laehner, TU Munich; Tony Tung*, Facebook /
Oculus Research; Daniel Cremers, TUM
O-1C-05 Learning Discriminative Video Representations
Using Adversarial Perturbations
Jue Wang*, ANU; Anoop Cherian, MERL
Oral 1C
27. End-to-End Joint Semantic Segmentation
of Actors and Actions in Video J. Ji et al.
• Actor識別とAction識別とActor領域のSemantic segmentation
を初めてEnd-to-Endで学習した論文.
Oral
28. Learning-based Video Motion Magnification
T. H. Oh et al.
• 動画中の動きの強さ(?)を編集可能にしたい.
• 動きの強さって何かわからないという根源的な問いがある…
• 少なくとも,空間的なscaleとかを考慮する手法にはなっていない.
• 走っている人の動きが激しくなればとりあえず良いっぽい?何をしたいんだ
ろうか.
• Magnitudeの正解がないので,自分たちで適当に物体を映像に貼っ
て動きの幅だけで合成⇢ますます何したいかわからない…
• 結果,プルプルする動画が完成….これは論文でどういう書き方を
して通ったのか逆に興味があるかも.
Oral
29. Massively Parallel Video Networks
V. Patraucean et al.
• 動画に対してonlineで処理するには,計算量が大きすぎて
latencyが問題になる.
• とりあえず,ネットワークの並列度は上げて深さを減らす.
• 直前のフレームがCNNの第2層(ブロック?)にいるときに今のフ
レームの処理を第1層にいれて,並列化したら良い(図)
• オフライン処理をupper boundとして,
精度はちょっと落ちるが高速化成功.
• 自分で実装する気にはならない系論文.
Oral
30. DeepWrinkles: Accurate and Realistic
Clothing Modeling Laehner et al.
• 服のシワをDeep Learningで再現しよう.
• 法線方向マップを,3Dモデルに対するテクスチャマップのよう
に表現
• 材料・しわの初期状態・体型に応じたシワを生成できるよう学習.
• 対象を観察し,原理原則をしっかり抑えて議論したのであろう,
シンプルながらお手本のような研究に思える.
• 一時期京大松山研におられたTony TungさんがSecond Author.
納得の内容.
Oral
31. Learning Discriminative Video Representations Using
Adversarial Perturbations, J. Wang et al.
• Adversarial Perturbationによって貼られる部分空間のようなも
の(理解が危うい)を使って,頑健な特徴を学習する手法の提案.
• ちょっと数学的知識が足りなくて落ちました,南無.
• 結構動作認識の精度が向上している?5%くらい.
Oral