SlideShare a Scribd company logo
1 of 41
ECCV2018参加速報
(1日目)
橋本敦史
京大美濃研⇢OMRON SINIC X Corp. (OSX)
2018.4より研究職に転職しました
使用上の注意
• これは個人的なメモ資料です.いわば「チラシの裏」です.こ
の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳
ありません.もっと素敵な資料はたくさんあると思いますので,
そっと閉じて,他をあたって頂ければ幸いです.
• この資料は「チラシの裏」ですが,下記はまんまチラシです.
• 弊社ではインターン生を年中募集しています.東京から遠隔にお住ま
いの方で も長期休みを利用してフレキシブルにインターンしていただ
けます.東京に お住まいの方でも,週に数回など,授業・研究の合間
に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪
しいURLですが,弊社のスタートアップ感の迸りです)
Oral Session 1A
Convolutional Networks with Adaptive
Computation Graphs, Andreas Veit et al.
• 識別しやすい物体,しにくい物体がある.一つのネットワーク
構造の中で,どの部分を使うか(使わないか)を決めながら処
理するCNNを作りたい.
• 簡単なものは早く,難しいものは時間をかける,など.
• Gumbel-Maxで頑張る
• ぐぐって最初にでてきたそれらしき記事(未読)
http://peluigi.hatenablog.com/entry/2018/06/21/142753
Oral
Progressive Neural Architecture Search
Chenxi Liu
• AutoMLなどの系統の研究
• 探索時間が長いのをなんとかしたい.
• 精度を余り落とさずに,時間は大分早くなった.
Oral
Diverse Image-to-Image Translation via
Disentangled Representations, Hsin-Ying Lee et al.
• CycleGANの派生.
• ドメインを別画像やノイズ信号から指定できるようにする.
• Encoderを2つ用意.
• ドメイン非依存な特徴を抽出するエンコーダ
• ドメイン依存な特徴を抽出するエンコーダ
• これを入れ替えてドメイン変換を達成する
• 出力を正規分布にMappingしておくことでノイズからも生成できるようにする
• 通常のCycleGANのlossに加えて,ドメイン依存特徴を入れ替えた場
合の再構築lossやドメイン非依存にするためのadversarial lossが増
えている.
• Diversityはあがっているかもしれないが,改善幅はincrementalかも
しれない.
Oral
Lifting Layers: Analysis and Applications
Michael Moeller et al.
• ちょっと理解できなかったが,新しいActivation層の提案?
• 各レイヤーを線形spline近似によって凸最適化できる形に変換
• 質疑応答によれば,結果としてモデル全体が(近似的に)凸最適化の形
になって,最適化しやすくなって精度向上した,ということぽい.
• 著者実装: https://github.com/michimoeller/liftingLayers
Oral
Learning with Biased Complementary
Labels, Xiyu Yu et al.
• 負のラベル(サンプルxはカテゴリyではない)によって学習す
る手法の提案
• 著者らは,そのようなラベルはつけやすい,と仮定している.
• 結局,情報量のあるラベルをつけるのは難しいから,そんなことで問題が簡単に
はならないのでは?と思った.
• 数式の展開の中で,nC2個の2クラス分類をモデル化しているよ
うに見える⇢他クラスSVMとかの話と一緒にならない?
• 結局,それなりにnC2個の組み合わせを識別するためのサンプ
ルの数が必要⇢簡単になっているように見えない…よくわから
なかった.
Oral
Poster Session
TrackingNet: A Large Scale Dataset and
Benchmark for Object Tracking in the wild
• CVPR2018でも見かけた気がする…workshop??
• Tracking用のImageNet(ActivityNet)的なデータセット構築
• これでECCV通すような論文の書き方を学ぶためには読んで見
るべきかも.
Poster
Grounding Visual Explanation
• そこそこsupervisedされている条件でのword(phrase?)-image
segment allignment問題っぽい.
• 最近みかけるrank lossの差を使っているぽい.
• 人が多すぎて近寄ることすら
無理(右の写真で精一杯)
Poster
DeepPhys: Video-Based Physiological
Measurement Using Convolutional Attention
Networks
• 脈拍を画像のみ(皮膚の微弱な色変化)から推定する問題を
Deep Neural Netで解いたっぽい研究.
• あまりDNNが向いていないタスクのようにも思えるが,これも
近寄ることすら無理.
行列にならんで通り抜けながら
撮影.
Poster
Unsupervised Video Object Segmentation
using Motion Saliency-Guided Spatio-Temporal
Propagation
• タイトルだけで,大体何をやっているかはおおよそわかる?
• これも近寄れず.こんな研究もあるよと,メモ代わりに撮影.
Poster
Attention-GAN for Object Transfiguration
in Wild Images
• CycleGANなどで変換する物体に対してAttention Maskをかけ
よう,という論文.
• 発表者が不在だったため,ポスター以上の情報はなし.
Poster
How good is my GAN
• 従来手法のGANで生成された画像は,じつはそれのみを使って
クラス分類器を学習させたときに,リアルな画像で学習したク
ラス分類器より精度が落ちる.
⇢つまりGANは真の分布に基づいた生成になっていない
• 逆に言えば,GANの評価に,
「生成画像を使って学習した
モデルによるリアル画像の
識別精度」が使えるのでは?という
研究.
• 某知り合いが出発前にこれが面白そうと
いっていた奴かも.
Poster
Oral Session 1B
O-1B-01 Light Structure from Pin Motion: Simple and Accurate
Point Light Calibration for Physics-based Modeling
Hiroaki Santo*, Osaka University; Michael Waechter,
Osaka University; Masaki Samejima, Osaka University;
Yusuke Sugano, Osaka University; Yasuyuki Matsushita,
Osaka University
O-1B-02 Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe Bartels,
Carnegie Mellon University; William Whittaker, Carnegie
Mellon University; Aswin Sankaranarayanan, Carnegie
Mellon University; Srinivasa Narasimhan, Carnegie
Mellon University
O-1B-03 Learning to Separate Object Sounds by Watching
Unlabeled Video
Ruohan Gao*, University of Texas at Austin; Rogerio
Feris, IBM Research; Kristen Grauman, University of
Texas
O-1B-04 Coded Two-Bucket Cameras for Computer Vision Mian Wei, University of Toronto; Navid Navid
Sarhangnejad, University of Toronto; Zhengfan Xia,
University of Toronto; Nikola Katic, University of
Toronto; Roman Genov, University of Toronto; Kyros
Kutulakos*, University of Toronto
O-1B-05 Materials for Masses: SVBRDF Acquisition with a Single
Mobile Phone Image
Zhengqin Li*, UC San Diego; Manmohan Chandraker,
UC San Diego; Sunkavalli Kalyan, Adobe Research
O-1B-
01
Light Structure from Pin Motion: Simple and
Accurate Point Light Calibration for Physics-
based Modeling
Hiroaki Santo*, Osaka University; Michael
Waechter, Osaka University; Masaki
Samejima, Osaka University; Yusuke Sugano,
Osaka University; Yasuyuki Matsushita,
Osaka University
O-1B-
02
Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe
Bartels, Carnegie Mellon University; William
Whittaker, Carnegie Mellon University; Aswin
Sankaranarayanan, Carnegie Mellon
University; Srinivasa Narasimhan, Carnegie
Mellon University
O-1B-
03
Learning to Separate Object Sounds by
Watching Unlabeled Video
Ruohan Gao*, University of Texas at Austin;
Rogerio Feris, IBM Research; Kristen
Grauman, University of Texas
O-1B-
04
Coded Two-Bucket Cameras for Computer
Vision
Mian Wei, University of Toronto; Navid Navid
Sarhangnejad, University of Toronto;
Zhengfan Xia, University of Toronto; Nikola
Katic, University of Toronto; Roman Genov,
University of Toronto; Kyros Kutulakos*,
University of Toronto
O-1B-
05
Materials for Masses: SVBRDF Acquisition
with a Single Mobile Phone Image
Zhengqin Li*, UC San Diego; Manmohan
Chandraker, UC San Diego; Sunkavalli Kalyan,
Adobe Research
Oral 1B
Light Structure from Pin Motion: Simple
and Accurate Point Light Calibration for
Physics-based Modeling, H. Santo et al.
• 従来の光源位置キャリブレーションは,球形の反射物体を空間
条に配置⇢ハイライト領域が大きくなる場合(光源が大きいな
ど)では光源方向推定精度が低下.
• ARマーカにより姿勢が検出可能なキャリブレーションボード上
にピンを指す.ピンの先端に球があり,その球と影の位置を使
うとSfM的なアプローチで(?)上記の問題を起こさずに,点光源
の位置や平行光源の方向を精度良く推定できる.
Oral
Programmable Light Curtains
Jian Wang et al.
• エレベータなどで使われているLight Curtainを拡張!
• 赤外レーザと受光器の組み合わせで,レーザが届かなかったらモノが
あると検知する奴.
• 従来:レーザと受光器は向かい合わせでなければならない.
• 提案手法: 向かい合わせでなくてよい.ミラーで反射させて好
きな位置をScan.(レーザが物体に反射して観測できたらモノ
があると検知)
• 複雑な画像処理が不要というところが良い.
• とはいえ,機械的な動作(ミラーを動かす)があるのでどこまで高速
化できるか不明.結局,Depth Cameraで良いのでは?
• 他の赤外光レーザによる干渉や,検出面の厚さの制御が課題
Oral/Demo
Learning to Separate Object Sounds by
Watching Unlabeled Video, R. Gao et al.
• 音を音源に応じて分離して取り出す問題.
• 音源の種類の学習に物体検出結果を利用⇢unlabeled条件を視覚
情報により克服
• 学習データが足りないのか,多少混ざったままとなっている
• 音源と映像中の動きとの同期性などはまだ使われていない.
Oral
Coded Two-Bucket Cameras for Computer
Vision, M. Wei et al.
• 発表がわかりにくかった気がする.多分やりたいことは
Structured Lightによる3次元形状復元の高フレームレート化
• CCDセンサなどの電荷を貯めるbucketを1受光面あたり2つにす
る⇢隣接する受光面との間で0101,0011,1100,1010のような
コード割当でどの時間帯に受光していたかをずらしておく.
• ベイヤーパターンのように周辺の受光面から光量を推定⇢解像
度を犠牲にしてフレームレートを上げた???
Oral
Materials for Masses: SVBRDF Acquisition
with a Single Mobile Phone Image, Z. Li et al.
• 携帯のカメラ画像で移した床面などのAlbedo, Normal, Depth
を学習ベースで推定.
• 事前にAdobeが出しているmaterialのBRDFに関するデータセッ
トを利用して学習.
• Albedo, Normal, Depthの推定をmaterialの識別と同時にmulti-
taskで解かせることによってmaterial識別の精度が大幅に向上
Oral
O-1C-01 End-to-End Joint Semantic Segmentation of Actors
and Actions in Video
Jingwei Ji*, Stanford University; Shyamal Buch,
Stanford University; Alvaro Soto, Universidad
Catolica de Chile; Juan Carlos Niebles, Stanford
University
O-1C-02 Learning-based Video Motion Magnification Tae-Hyun Oh, MIT CSAIL; Ronnachai Jaroensri*,
MIT CSAIL; Changil Kim, MIT CSAIL; Mohamed A.
Elghareb, Qatar Computing Research Institute;
Fredo Durand, MIT; Bill Freeman, MIT; Wojciech
Matusik, MIT CSAIL
O-1C-03 Massively Parallel Video Networks Viorica Patraucean*, DeepMind; Joao Carreira,
DeepMind; Laurent Mazare, DeepMind; Simon
Osindero, DeepMind; Andrew Zisserman, University
of Oxford
O-1C-04 DeepWrinkles: Accurate and Realistic Clothing
Modeling
Zorah Laehner, TU Munich; Tony Tung*, Facebook /
Oculus Research; Daniel Cremers, TUM
O-1C-05 Learning Discriminative Video Representations
Using Adversarial Perturbations
Jue Wang*, ANU; Anoop Cherian, MERL
Oral 1C
End-to-End Joint Semantic Segmentation
of Actors and Actions in Video J. Ji et al.
• Actor識別とAction識別とActor領域のSemantic segmentation
を初めてEnd-to-Endで学習した論文.
Oral
Learning-based Video Motion Magnification
T. H. Oh et al.
• 動画中の動きの強さ(?)を編集可能にしたい.
• 動きの強さって何かわからないという根源的な問いがある…
• 少なくとも,空間的なscaleとかを考慮する手法にはなっていない.
• 走っている人の動きが激しくなればとりあえず良いっぽい?何をしたいんだ
ろうか.
• Magnitudeの正解がないので,自分たちで適当に物体を映像に貼っ
て動きの幅だけで合成⇢ますます何したいかわからない…
• 結果,プルプルする動画が完成….これは論文でどういう書き方を
して通ったのか逆に興味があるかも.
Oral
Massively Parallel Video Networks
V. Patraucean et al.
• 動画に対してonlineで処理するには,計算量が大きすぎて
latencyが問題になる.
• とりあえず,ネットワークの並列度は上げて深さを減らす.
• 直前のフレームがCNNの第2層(ブロック?)にいるときに今のフ
レームの処理を第1層にいれて,並列化したら良い(図)
• オフライン処理をupper boundとして,
精度はちょっと落ちるが高速化成功.
• 自分で実装する気にはならない系論文.
Oral
DeepWrinkles: Accurate and Realistic
Clothing Modeling Laehner et al.
• 服のシワをDeep Learningで再現しよう.
• 法線方向マップを,3Dモデルに対するテクスチャマップのよう
に表現
• 材料・しわの初期状態・体型に応じたシワを生成できるよう学習.
• 対象を観察し,原理原則をしっかり抑えて議論したのであろう,
シンプルながらお手本のような研究に思える.
• 一時期京大松山研におられたTony TungさんがSecond Author.
納得の内容.
Oral
Learning Discriminative Video Representations Using
Adversarial Perturbations, J. Wang et al.
• Adversarial Perturbationによって貼られる部分空間のようなも
の(理解が危うい)を使って,頑健な特徴を学習する手法の提案.
• ちょっと数学的知識が足りなくて落ちました,南無.
• 結構動作認識の精度が向上している?5%くらい.
Oral
前ページのoral発表のポスター
Poster Session
W-TALC: Weakly-supervised Temporal
Activity Localization and Classification
• 動画にはなんのActionが含まれているかだけアノテーションさ
れている条件でのTemporal Activity Localization
• 同じActionラベルを持っている動画の中で,似ているSegment
を上からk個とってくる
⇢ランクロス的アプローチ.
Long-term Tracking in the wild
• ぶっちゃけ物体追跡って実用レベルではない.
• 1分も追跡できたら良い方?
• データセットとbaselineを提供.
• https://oxuva.github.io/long-term-tracking-benchmark/
Poster
Learning to Detect and Track Visible and
Occluded Body Joints in a Virtual World
• メモ代わりに写真撮影.内容は見れてないです.
Poster
Online Detection of Action Start in
Untrimmed, Streaming Videos
Poster
発表者がいなかった?メモ代わりに撮影.
Diagnosing Error in Temporal Action
Detectors
• Temporal Action Localizationで失敗している部分を分析した論
文ぽい.結構当たり前な気がする.
• 著者に説明してもらったが,特段新しい知見が不明だった.
• 逆にどういう書き方をした
のか論文を読んでみたい.
Poster
Stacked Cross Attention for Image-Text
Matching
• Vision & Languageぽかったので,遠くから通り際に撮影.
• 詳細はポスターみれてないですので不明.
Poster
Spatio-temporal Transformer Network for
Video Restoration
• LSTMの代わりにTransfomerを使った動画修復?
• タイトル以上の情報は得られず,通り過ぎました(混雑過多)
Poster
BSN: Boundary Sensitive Network for
Temporal Action Proposal Generation
• Temporal Action Localizationの論文.
• 動作区間の開始・終了を,動作の内容そのものとは別に学習し,
結果を統合することで
改善を図ったもの.
Poster

More Related Content

More from Atsushi Hashimoto

人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- Atsushi Hashimoto
 
Cvpr2018 参加報告(速報版)3日目
Cvpr2018 参加報告(速報版)3日目Cvpr2018 参加報告(速報版)3日目
Cvpr2018 参加報告(速報版)3日目Atsushi Hashimoto
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目Atsushi Hashimoto
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日Atsushi Hashimoto
 
関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料Atsushi Hashimoto
 
CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目Atsushi Hashimoto
 
CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目Atsushi Hashimoto
 
CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目Atsushi Hashimoto
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目Atsushi Hashimoto
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識Atsushi Hashimoto
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationAtsushi Hashimoto
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告Atsushi Hashimoto
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本Atsushi Hashimoto
 

More from Atsushi Hashimoto (15)

人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示- 人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
人の行動をモデル化して予測する -調理作業支援を題材とした行動予測と情報提示-
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
Eccv2018 report day2
Eccv2018 report day2Eccv2018 report day2
Eccv2018 report day2
 
Cvpr2018 参加報告(速報版)3日目
Cvpr2018 参加報告(速報版)3日目Cvpr2018 参加報告(速報版)3日目
Cvpr2018 参加報告(速報版)3日目
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料関西Cvprml勉強会2017.9資料
関西Cvprml勉強会2017.9資料
 
CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目
 
CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目CVPR2017 参加報告 速報版 本会議3日目
CVPR2017 参加報告 速報版 本会議3日目
 
CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
 
PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識PRMU GC第二期 無形概念認識
PRMU GC第二期 無形概念認識
 
Kusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food PreparationKusk Object Dataset: Recording Access to Objects in Food Preparation
Kusk Object Dataset: Recording Access to Objects in Food Preparation
 
人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告人工知能研究振興財団研究助成に対する成果報告
人工知能研究振興財団研究助成に対する成果報告
 
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本
 

ECCV2018参加速報(一日目)

  • 1. ECCV2018参加速報 (1日目) 橋本敦史 京大美濃研⇢OMRON SINIC X Corp. (OSX) 2018.4より研究職に転職しました
  • 2. 使用上の注意 • これは個人的なメモ資料です.いわば「チラシの裏」です.こ の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳 ありません.もっと素敵な資料はたくさんあると思いますので, そっと閉じて,他をあたって頂ければ幸いです. • この資料は「チラシの裏」ですが,下記はまんまチラシです. • 弊社ではインターン生を年中募集しています.東京から遠隔にお住ま いの方で も長期休みを利用してフレキシブルにインターンしていただ けます.東京に お住まいの方でも,週に数回など,授業・研究の合間 に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪 しいURLですが,弊社のスタートアップ感の迸りです)
  • 3.
  • 4.
  • 5.
  • 7. Convolutional Networks with Adaptive Computation Graphs, Andreas Veit et al. • 識別しやすい物体,しにくい物体がある.一つのネットワーク 構造の中で,どの部分を使うか(使わないか)を決めながら処 理するCNNを作りたい. • 簡単なものは早く,難しいものは時間をかける,など. • Gumbel-Maxで頑張る • ぐぐって最初にでてきたそれらしき記事(未読) http://peluigi.hatenablog.com/entry/2018/06/21/142753 Oral
  • 8. Progressive Neural Architecture Search Chenxi Liu • AutoMLなどの系統の研究 • 探索時間が長いのをなんとかしたい. • 精度を余り落とさずに,時間は大分早くなった. Oral
  • 9. Diverse Image-to-Image Translation via Disentangled Representations, Hsin-Ying Lee et al. • CycleGANの派生. • ドメインを別画像やノイズ信号から指定できるようにする. • Encoderを2つ用意. • ドメイン非依存な特徴を抽出するエンコーダ • ドメイン依存な特徴を抽出するエンコーダ • これを入れ替えてドメイン変換を達成する • 出力を正規分布にMappingしておくことでノイズからも生成できるようにする • 通常のCycleGANのlossに加えて,ドメイン依存特徴を入れ替えた場 合の再構築lossやドメイン非依存にするためのadversarial lossが増 えている. • Diversityはあがっているかもしれないが,改善幅はincrementalかも しれない. Oral
  • 10. Lifting Layers: Analysis and Applications Michael Moeller et al. • ちょっと理解できなかったが,新しいActivation層の提案? • 各レイヤーを線形spline近似によって凸最適化できる形に変換 • 質疑応答によれば,結果としてモデル全体が(近似的に)凸最適化の形 になって,最適化しやすくなって精度向上した,ということぽい. • 著者実装: https://github.com/michimoeller/liftingLayers Oral
  • 11. Learning with Biased Complementary Labels, Xiyu Yu et al. • 負のラベル(サンプルxはカテゴリyではない)によって学習す る手法の提案 • 著者らは,そのようなラベルはつけやすい,と仮定している. • 結局,情報量のあるラベルをつけるのは難しいから,そんなことで問題が簡単に はならないのでは?と思った. • 数式の展開の中で,nC2個の2クラス分類をモデル化しているよ うに見える⇢他クラスSVMとかの話と一緒にならない? • 結局,それなりにnC2個の組み合わせを識別するためのサンプ ルの数が必要⇢簡単になっているように見えない…よくわから なかった. Oral
  • 13. TrackingNet: A Large Scale Dataset and Benchmark for Object Tracking in the wild • CVPR2018でも見かけた気がする…workshop?? • Tracking用のImageNet(ActivityNet)的なデータセット構築 • これでECCV通すような論文の書き方を学ぶためには読んで見 るべきかも. Poster
  • 14. Grounding Visual Explanation • そこそこsupervisedされている条件でのword(phrase?)-image segment allignment問題っぽい. • 最近みかけるrank lossの差を使っているぽい. • 人が多すぎて近寄ることすら 無理(右の写真で精一杯) Poster
  • 15. DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks • 脈拍を画像のみ(皮膚の微弱な色変化)から推定する問題を Deep Neural Netで解いたっぽい研究. • あまりDNNが向いていないタスクのようにも思えるが,これも 近寄ることすら無理. 行列にならんで通り抜けながら 撮影. Poster
  • 16. Unsupervised Video Object Segmentation using Motion Saliency-Guided Spatio-Temporal Propagation • タイトルだけで,大体何をやっているかはおおよそわかる? • これも近寄れず.こんな研究もあるよと,メモ代わりに撮影. Poster
  • 17. Attention-GAN for Object Transfiguration in Wild Images • CycleGANなどで変換する物体に対してAttention Maskをかけ よう,という論文. • 発表者が不在だったため,ポスター以上の情報はなし. Poster
  • 18. How good is my GAN • 従来手法のGANで生成された画像は,じつはそれのみを使って クラス分類器を学習させたときに,リアルな画像で学習したク ラス分類器より精度が落ちる. ⇢つまりGANは真の分布に基づいた生成になっていない • 逆に言えば,GANの評価に, 「生成画像を使って学習した モデルによるリアル画像の 識別精度」が使えるのでは?という 研究. • 某知り合いが出発前にこれが面白そうと いっていた奴かも. Poster
  • 19. Oral Session 1B O-1B-01 Light Structure from Pin Motion: Simple and Accurate Point Light Calibration for Physics-based Modeling Hiroaki Santo*, Osaka University; Michael Waechter, Osaka University; Masaki Samejima, Osaka University; Yusuke Sugano, Osaka University; Yasuyuki Matsushita, Osaka University O-1B-02 Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe Bartels, Carnegie Mellon University; William Whittaker, Carnegie Mellon University; Aswin Sankaranarayanan, Carnegie Mellon University; Srinivasa Narasimhan, Carnegie Mellon University O-1B-03 Learning to Separate Object Sounds by Watching Unlabeled Video Ruohan Gao*, University of Texas at Austin; Rogerio Feris, IBM Research; Kristen Grauman, University of Texas O-1B-04 Coded Two-Bucket Cameras for Computer Vision Mian Wei, University of Toronto; Navid Navid Sarhangnejad, University of Toronto; Zhengfan Xia, University of Toronto; Nikola Katic, University of Toronto; Roman Genov, University of Toronto; Kyros Kutulakos*, University of Toronto O-1B-05 Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone Image Zhengqin Li*, UC San Diego; Manmohan Chandraker, UC San Diego; Sunkavalli Kalyan, Adobe Research
  • 20. O-1B- 01 Light Structure from Pin Motion: Simple and Accurate Point Light Calibration for Physics- based Modeling Hiroaki Santo*, Osaka University; Michael Waechter, Osaka University; Masaki Samejima, Osaka University; Yusuke Sugano, Osaka University; Yasuyuki Matsushita, Osaka University O-1B- 02 Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe Bartels, Carnegie Mellon University; William Whittaker, Carnegie Mellon University; Aswin Sankaranarayanan, Carnegie Mellon University; Srinivasa Narasimhan, Carnegie Mellon University O-1B- 03 Learning to Separate Object Sounds by Watching Unlabeled Video Ruohan Gao*, University of Texas at Austin; Rogerio Feris, IBM Research; Kristen Grauman, University of Texas O-1B- 04 Coded Two-Bucket Cameras for Computer Vision Mian Wei, University of Toronto; Navid Navid Sarhangnejad, University of Toronto; Zhengfan Xia, University of Toronto; Nikola Katic, University of Toronto; Roman Genov, University of Toronto; Kyros Kutulakos*, University of Toronto O-1B- 05 Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone Image Zhengqin Li*, UC San Diego; Manmohan Chandraker, UC San Diego; Sunkavalli Kalyan, Adobe Research Oral 1B
  • 21. Light Structure from Pin Motion: Simple and Accurate Point Light Calibration for Physics-based Modeling, H. Santo et al. • 従来の光源位置キャリブレーションは,球形の反射物体を空間 条に配置⇢ハイライト領域が大きくなる場合(光源が大きいな ど)では光源方向推定精度が低下. • ARマーカにより姿勢が検出可能なキャリブレーションボード上 にピンを指す.ピンの先端に球があり,その球と影の位置を使 うとSfM的なアプローチで(?)上記の問題を起こさずに,点光源 の位置や平行光源の方向を精度良く推定できる. Oral
  • 22. Programmable Light Curtains Jian Wang et al. • エレベータなどで使われているLight Curtainを拡張! • 赤外レーザと受光器の組み合わせで,レーザが届かなかったらモノが あると検知する奴. • 従来:レーザと受光器は向かい合わせでなければならない. • 提案手法: 向かい合わせでなくてよい.ミラーで反射させて好 きな位置をScan.(レーザが物体に反射して観測できたらモノ があると検知) • 複雑な画像処理が不要というところが良い. • とはいえ,機械的な動作(ミラーを動かす)があるのでどこまで高速 化できるか不明.結局,Depth Cameraで良いのでは? • 他の赤外光レーザによる干渉や,検出面の厚さの制御が課題 Oral/Demo
  • 23. Learning to Separate Object Sounds by Watching Unlabeled Video, R. Gao et al. • 音を音源に応じて分離して取り出す問題. • 音源の種類の学習に物体検出結果を利用⇢unlabeled条件を視覚 情報により克服 • 学習データが足りないのか,多少混ざったままとなっている • 音源と映像中の動きとの同期性などはまだ使われていない. Oral
  • 24. Coded Two-Bucket Cameras for Computer Vision, M. Wei et al. • 発表がわかりにくかった気がする.多分やりたいことは Structured Lightによる3次元形状復元の高フレームレート化 • CCDセンサなどの電荷を貯めるbucketを1受光面あたり2つにす る⇢隣接する受光面との間で0101,0011,1100,1010のような コード割当でどの時間帯に受光していたかをずらしておく. • ベイヤーパターンのように周辺の受光面から光量を推定⇢解像 度を犠牲にしてフレームレートを上げた??? Oral
  • 25. Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone Image, Z. Li et al. • 携帯のカメラ画像で移した床面などのAlbedo, Normal, Depth を学習ベースで推定. • 事前にAdobeが出しているmaterialのBRDFに関するデータセッ トを利用して学習. • Albedo, Normal, Depthの推定をmaterialの識別と同時にmulti- taskで解かせることによってmaterial識別の精度が大幅に向上 Oral
  • 26. O-1C-01 End-to-End Joint Semantic Segmentation of Actors and Actions in Video Jingwei Ji*, Stanford University; Shyamal Buch, Stanford University; Alvaro Soto, Universidad Catolica de Chile; Juan Carlos Niebles, Stanford University O-1C-02 Learning-based Video Motion Magnification Tae-Hyun Oh, MIT CSAIL; Ronnachai Jaroensri*, MIT CSAIL; Changil Kim, MIT CSAIL; Mohamed A. Elghareb, Qatar Computing Research Institute; Fredo Durand, MIT; Bill Freeman, MIT; Wojciech Matusik, MIT CSAIL O-1C-03 Massively Parallel Video Networks Viorica Patraucean*, DeepMind; Joao Carreira, DeepMind; Laurent Mazare, DeepMind; Simon Osindero, DeepMind; Andrew Zisserman, University of Oxford O-1C-04 DeepWrinkles: Accurate and Realistic Clothing Modeling Zorah Laehner, TU Munich; Tony Tung*, Facebook / Oculus Research; Daniel Cremers, TUM O-1C-05 Learning Discriminative Video Representations Using Adversarial Perturbations Jue Wang*, ANU; Anoop Cherian, MERL Oral 1C
  • 27. End-to-End Joint Semantic Segmentation of Actors and Actions in Video J. Ji et al. • Actor識別とAction識別とActor領域のSemantic segmentation を初めてEnd-to-Endで学習した論文. Oral
  • 28. Learning-based Video Motion Magnification T. H. Oh et al. • 動画中の動きの強さ(?)を編集可能にしたい. • 動きの強さって何かわからないという根源的な問いがある… • 少なくとも,空間的なscaleとかを考慮する手法にはなっていない. • 走っている人の動きが激しくなればとりあえず良いっぽい?何をしたいんだ ろうか. • Magnitudeの正解がないので,自分たちで適当に物体を映像に貼っ て動きの幅だけで合成⇢ますます何したいかわからない… • 結果,プルプルする動画が完成….これは論文でどういう書き方を して通ったのか逆に興味があるかも. Oral
  • 29. Massively Parallel Video Networks V. Patraucean et al. • 動画に対してonlineで処理するには,計算量が大きすぎて latencyが問題になる. • とりあえず,ネットワークの並列度は上げて深さを減らす. • 直前のフレームがCNNの第2層(ブロック?)にいるときに今のフ レームの処理を第1層にいれて,並列化したら良い(図) • オフライン処理をupper boundとして, 精度はちょっと落ちるが高速化成功. • 自分で実装する気にはならない系論文. Oral
  • 30. DeepWrinkles: Accurate and Realistic Clothing Modeling Laehner et al. • 服のシワをDeep Learningで再現しよう. • 法線方向マップを,3Dモデルに対するテクスチャマップのよう に表現 • 材料・しわの初期状態・体型に応じたシワを生成できるよう学習. • 対象を観察し,原理原則をしっかり抑えて議論したのであろう, シンプルながらお手本のような研究に思える. • 一時期京大松山研におられたTony TungさんがSecond Author. 納得の内容. Oral
  • 31. Learning Discriminative Video Representations Using Adversarial Perturbations, J. Wang et al. • Adversarial Perturbationによって貼られる部分空間のようなも の(理解が危うい)を使って,頑健な特徴を学習する手法の提案. • ちょっと数学的知識が足りなくて落ちました,南無. • 結構動作認識の精度が向上している?5%くらい. Oral
  • 34. W-TALC: Weakly-supervised Temporal Activity Localization and Classification • 動画にはなんのActionが含まれているかだけアノテーションさ れている条件でのTemporal Activity Localization • 同じActionラベルを持っている動画の中で,似ているSegment を上からk個とってくる ⇢ランクロス的アプローチ.
  • 35. Long-term Tracking in the wild • ぶっちゃけ物体追跡って実用レベルではない. • 1分も追跡できたら良い方? • データセットとbaselineを提供. • https://oxuva.github.io/long-term-tracking-benchmark/ Poster
  • 36. Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World • メモ代わりに写真撮影.内容は見れてないです. Poster
  • 37. Online Detection of Action Start in Untrimmed, Streaming Videos Poster 発表者がいなかった?メモ代わりに撮影.
  • 38. Diagnosing Error in Temporal Action Detectors • Temporal Action Localizationで失敗している部分を分析した論 文ぽい.結構当たり前な気がする. • 著者に説明してもらったが,特段新しい知見が不明だった. • 逆にどういう書き方をした のか論文を読んでみたい. Poster
  • 39. Stacked Cross Attention for Image-Text Matching • Vision & Languageぽかったので,遠くから通り際に撮影. • 詳細はポスターみれてないですので不明. Poster
  • 40. Spatio-temporal Transformer Network for Video Restoration • LSTMの代わりにTransfomerを使った動画修復? • タイトル以上の情報は得られず,通り過ぎました(混雑過多) Poster
  • 41. BSN: Boundary Sensitive Network for Temporal Action Proposal Generation • Temporal Action Localizationの論文. • 動作区間の開始・終了を,動作の内容そのものとは別に学習し, 結果を統合することで 改善を図ったもの. Poster