ECCV2018参加速報(一日目)

ECCV2018参加速報
(1日目)
橋本敦史
京大美濃研⇢OMRON SINIC X Corp. (OSX)
2018.4より研究職に転職しました

使用上の注意
• これは個人的なメモ資料です．いわば「チラシの裏」です．こ
の資料をみて，なんじゃこりゃ…と思われた方には大変申し訳
ありません．もっと素敵な資料はたくさんあると思いますので，
そっと閉じて，他をあたって頂ければ幸いです．
• この資料は「チラシの裏」ですが，下記はまんまチラシです．
• 弊社ではインターン生を年中募集しています．東京から遠隔にお住ま
いの方でも長期休みを利用してフレキシブルにインターンしていただ
けます．東京にお住まいの方でも，週に数回など，授業・研究の合間
に働きながらスキルを身に着けていただけます．詳しくはこちら(怪
しいURLですが，弊社のスタートアップ感の迸りです)

Convolutional Networks with Adaptive
Computation Graphs, Andreas Veit et al.
• 識別しやすい物体，しにくい物体がある．一つのネットワーク
構造の中で，どの部分を使うか（使わないか）を決めながら処
理するCNNを作りたい．
• 簡単なものは早く，難しいものは時間をかける，など．
• Gumbel-Maxで頑張る
• ぐぐって最初にでてきたそれらしき記事（未読）
http://peluigi.hatenablog.com/entry/2018/06/21/142753
Oral

Progressive Neural Architecture Search
Chenxi Liu
• AutoMLなどの系統の研究
• 探索時間が長いのをなんとかしたい．
• 精度を余り落とさずに，時間は大分早くなった．
Oral

Diverse Image-to-Image Translation via
Disentangled Representations, Hsin-Ying Lee et al.
• CycleGANの派生．
• ドメインを別画像やノイズ信号から指定できるようにする．
• Encoderを2つ用意．
• ドメイン非依存な特徴を抽出するエンコーダ
• ドメイン依存な特徴を抽出するエンコーダ
• これを入れ替えてドメイン変換を達成する
• 出力を正規分布にMappingしておくことでノイズからも生成できるようにする
• 通常のCycleGANのlossに加えて，ドメイン依存特徴を入れ替えた場
合の再構築lossやドメイン非依存にするためのadversarial lossが増
えている．
• Diversityはあがっているかもしれないが，改善幅はincrementalかも
しれない．
Oral

Lifting Layers: Analysis and Applications
Michael Moeller et al.
• ちょっと理解できなかったが，新しいActivation層の提案？
• 各レイヤーを線形spline近似によって凸最適化できる形に変換
• 質疑応答によれば，結果としてモデル全体が(近似的に)凸最適化の形
になって，最適化しやすくなって精度向上した，ということぽい．
• 著者実装: https://github.com/michimoeller/liftingLayers
Oral

Learning with Biased Complementary
Labels, Xiyu Yu et al.
• 負のラベル（サンプルxはカテゴリyではない）によって学習す
る手法の提案
• 著者らは，そのようなラベルはつけやすい，と仮定している．
• 結局，情報量のあるラベルをつけるのは難しいから，そんなことで問題が簡単に
はならないのでは？と思った．
• 数式の展開の中で，nC2個の2クラス分類をモデル化しているよ
うに見える⇢他クラスSVMとかの話と一緒にならない？
• 結局，それなりにnC2個の組み合わせを識別するためのサンプ
ルの数が必要⇢簡単になっているように見えない…よくわから
なかった．
Oral

TrackingNet: A Large Scale Dataset and
Benchmark for Object Tracking in the wild
• CVPR2018でも見かけた気がする…workshop??
• Tracking用のImageNet(ActivityNet)的なデータセット構築
• これでECCV通すような論文の書き方を学ぶためには読んで見
るべきかも．
Poster

Grounding Visual Explanation
• そこそこsupervisedされている条件でのword(phrase?)-image
segment allignment問題っぽい．
• 最近みかけるrank lossの差を使っているぽい．
• 人が多すぎて近寄ることすら
無理（右の写真で精一杯）
Poster

DeepPhys: Video-Based Physiological
Measurement Using Convolutional Attention
Networks
• 脈拍を画像のみ（皮膚の微弱な色変化）から推定する問題を
Deep Neural Netで解いたっぽい研究．
• あまりDNNが向いていないタスクのようにも思えるが，これも
近寄ることすら無理．
行列にならんで通り抜けながら
撮影．
Poster

Unsupervised Video Object Segmentation
using Motion Saliency-Guided Spatio-Temporal
Propagation
• タイトルだけで，大体何をやっているかはおおよそわかる？
• これも近寄れず．こんな研究もあるよと，メモ代わりに撮影．
Poster

Attention-GAN for Object Transfiguration
in Wild Images
• CycleGANなどで変換する物体に対してAttention Maskをかけ
よう，という論文．
• 発表者が不在だったため，ポスター以上の情報はなし．
Poster

How good is my GAN
• 従来手法のGANで生成された画像は，じつはそれのみを使って
クラス分類器を学習させたときに，リアルな画像で学習したク
ラス分類器より精度が落ちる．
⇢つまりGANは真の分布に基づいた生成になっていない
• 逆に言えば，GANの評価に，
「生成画像を使って学習した
モデルによるリアル画像の
識別精度」が使えるのでは？という
研究．
• 某知り合いが出発前にこれが面白そうと
いっていた奴かも．
Poster

Oral Session 1B
O-1B-01 Light Structure from Pin Motion: Simple and Accurate
Point Light Calibration for Physics-based Modeling
Hiroaki Santo*, Osaka University; Michael Waechter,
Osaka University; Masaki Samejima, Osaka University;
Yusuke Sugano, Osaka University; Yasuyuki Matsushita,
Osaka University
O-1B-02 Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe Bartels,
Carnegie Mellon University; William Whittaker, Carnegie
Mellon University; Aswin Sankaranarayanan, Carnegie
Mellon University; Srinivasa Narasimhan, Carnegie
Mellon University
O-1B-03 Learning to Separate Object Sounds by Watching
Unlabeled Video
Ruohan Gao*, University of Texas at Austin; Rogerio
Feris, IBM Research; Kristen Grauman, University of
Texas
O-1B-04 Coded Two-Bucket Cameras for Computer Vision Mian Wei, University of Toronto; Navid Navid
Sarhangnejad, University of Toronto; Zhengfan Xia,
University of Toronto; Nikola Katic, University of
Toronto; Roman Genov, University of Toronto; Kyros
Kutulakos*, University of Toronto
O-1B-05 Materials for Masses: SVBRDF Acquisition with a Single
Mobile Phone Image
Zhengqin Li*, UC San Diego; Manmohan Chandraker,
UC San Diego; Sunkavalli Kalyan, Adobe Research

O-1B-
01
Light Structure from Pin Motion: Simple and
Accurate Point Light Calibration for Physics-
based Modeling
Hiroaki Santo*, Osaka University; Michael
Waechter, Osaka University; Masaki
Samejima, Osaka University; Yusuke Sugano,
Osaka University; Yasuyuki Matsushita,
Osaka University
O-1B-
02
Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe
Bartels, Carnegie Mellon University; William
Whittaker, Carnegie Mellon University; Aswin
Sankaranarayanan, Carnegie Mellon
University; Srinivasa Narasimhan, Carnegie
Mellon University
O-1B-
03
Learning to Separate Object Sounds by
Watching Unlabeled Video
Ruohan Gao*, University of Texas at Austin;
Rogerio Feris, IBM Research; Kristen
Grauman, University of Texas
O-1B-
04
Coded Two-Bucket Cameras for Computer
Vision
Mian Wei, University of Toronto; Navid Navid
Sarhangnejad, University of Toronto;
Zhengfan Xia, University of Toronto; Nikola
Katic, University of Toronto; Roman Genov,
University of Toronto; Kyros Kutulakos*,
University of Toronto
O-1B-
05
Materials for Masses: SVBRDF Acquisition
with a Single Mobile Phone Image
Zhengqin Li*, UC San Diego; Manmohan
Chandraker, UC San Diego; Sunkavalli Kalyan,
Adobe Research
Oral 1B

Light Structure from Pin Motion: Simple
and Accurate Point Light Calibration for
Physics-based Modeling, H. Santo et al.
• 従来の光源位置キャリブレーションは，球形の反射物体を空間
条に配置⇢ハイライト領域が大きくなる場合（光源が大きいな
ど）では光源方向推定精度が低下．
• ARマーカにより姿勢が検出可能なキャリブレーションボード上
にピンを指す．ピンの先端に球があり，その球と影の位置を使
うとSfM的なアプローチで(?)上記の問題を起こさずに，点光源
の位置や平行光源の方向を精度良く推定できる．
Oral

Programmable Light Curtains
Jian Wang et al.
• エレベータなどで使われているLight Curtainを拡張！
• 赤外レーザと受光器の組み合わせで，レーザが届かなかったらモノが
あると検知する奴．
• 従来：レーザと受光器は向かい合わせでなければならない．
• 提案手法: 向かい合わせでなくてよい．ミラーで反射させて好
きな位置をScan．(レーザが物体に反射して観測できたらモノ
があると検知）
• 複雑な画像処理が不要というところが良い．
• とはいえ，機械的な動作（ミラーを動かす）があるのでどこまで高速
化できるか不明．結局，Depth Cameraで良いのでは？
• 他の赤外光レーザによる干渉や，検出面の厚さの制御が課題
Oral/Demo

Learning to Separate Object Sounds by
Watching Unlabeled Video, R. Gao et al.
• 音を音源に応じて分離して取り出す問題．
• 音源の種類の学習に物体検出結果を利用⇢unlabeled条件を視覚
情報により克服
• 学習データが足りないのか，多少混ざったままとなっている
• 音源と映像中の動きとの同期性などはまだ使われていない．
Oral

Coded Two-Bucket Cameras for Computer
Vision, M. Wei et al.
• 発表がわかりにくかった気がする．多分やりたいことは
Structured Lightによる3次元形状復元の高フレームレート化
• CCDセンサなどの電荷を貯めるbucketを1受光面あたり2つにす
る⇢隣接する受光面との間で0101,0011,1100,1010のような
コード割当でどの時間帯に受光していたかをずらしておく．
• ベイヤーパターンのように周辺の受光面から光量を推定⇢解像
度を犠牲にしてフレームレートを上げた???
Oral

Materials for Masses: SVBRDF Acquisition
with a Single Mobile Phone Image, Z. Li et al.
• 携帯のカメラ画像で移した床面などのAlbedo, Normal, Depth
を学習ベースで推定．
• 事前にAdobeが出しているmaterialのBRDFに関するデータセッ
トを利用して学習．
• Albedo, Normal, Depthの推定をmaterialの識別と同時にmulti-
taskで解かせることによってmaterial識別の精度が大幅に向上
Oral

O-1C-01 End-to-End Joint Semantic Segmentation of Actors
and Actions in Video
Jingwei Ji*, Stanford University; Shyamal Buch,
Stanford University; Alvaro Soto, Universidad
Catolica de Chile; Juan Carlos Niebles, Stanford
University
O-1C-02 Learning-based Video Motion Magnification Tae-Hyun Oh, MIT CSAIL; Ronnachai Jaroensri*,
MIT CSAIL; Changil Kim, MIT CSAIL; Mohamed A.
Elghareb, Qatar Computing Research Institute;
Fredo Durand, MIT; Bill Freeman, MIT; Wojciech
Matusik, MIT CSAIL
O-1C-03 Massively Parallel Video Networks Viorica Patraucean*, DeepMind; Joao Carreira,
DeepMind; Laurent Mazare, DeepMind; Simon
Osindero, DeepMind; Andrew Zisserman, University
of Oxford
O-1C-04 DeepWrinkles: Accurate and Realistic Clothing
Modeling
Zorah Laehner, TU Munich; Tony Tung*, Facebook /
Oculus Research; Daniel Cremers, TUM
O-1C-05 Learning Discriminative Video Representations
Using Adversarial Perturbations
Jue Wang*, ANU; Anoop Cherian, MERL
Oral 1C

End-to-End Joint Semantic Segmentation
of Actors and Actions in Video J. Ji et al.
• Actor識別とAction識別とActor領域のSemantic segmentation
を初めてEnd-to-Endで学習した論文．
Oral

Learning-based Video Motion Magnification
T. H. Oh et al.
• 動画中の動きの強さ(?)を編集可能にしたい．
• 動きの強さって何かわからないという根源的な問いがある…
• 少なくとも，空間的なscaleとかを考慮する手法にはなっていない．
• 走っている人の動きが激しくなればとりあえず良いっぽい？何をしたいんだ
ろうか．
• Magnitudeの正解がないので，自分たちで適当に物体を映像に貼っ
て動きの幅だけで合成⇢ますます何したいかわからない…
• 結果，プルプルする動画が完成…．これは論文でどういう書き方を
して通ったのか逆に興味があるかも．
Oral

Massively Parallel Video Networks
V. Patraucean et al.
• 動画に対してonlineで処理するには，計算量が大きすぎて
latencyが問題になる．
• とりあえず，ネットワークの並列度は上げて深さを減らす．
• 直前のフレームがCNNの第2層(ブロック?)にいるときに今のフ
レームの処理を第1層にいれて，並列化したら良い(図)
• オフライン処理をupper boundとして，
精度はちょっと落ちるが高速化成功．
• 自分で実装する気にはならない系論文．
Oral

DeepWrinkles: Accurate and Realistic
Clothing Modeling Laehner et al.
• 服のシワをDeep Learningで再現しよう．
• 法線方向マップを，3Dモデルに対するテクスチャマップのよう
に表現
• 材料・しわの初期状態・体型に応じたシワを生成できるよう学習．
• 対象を観察し，原理原則をしっかり抑えて議論したのであろう，
シンプルながらお手本のような研究に思える．
• 一時期京大松山研におられたTony TungさんがSecond Author．
納得の内容．
Oral

Learning Discriminative Video Representations Using
Adversarial Perturbations, J. Wang et al.
• Adversarial Perturbationによって貼られる部分空間のようなも
の(理解が危うい）を使って，頑健な特徴を学習する手法の提案．
• ちょっと数学的知識が足りなくて落ちました，南無．
• 結構動作認識の精度が向上している?5%くらい．
Oral

前ページのoral発表のポスター

W-TALC: Weakly-supervised Temporal
Activity Localization and Classification
• 動画にはなんのActionが含まれているかだけアノテーションさ
れている条件でのTemporal Activity Localization
• 同じActionラベルを持っている動画の中で，似ているSegment
を上からk個とってくる
⇢ランクロス的アプローチ．

Long-term Tracking in the wild
• ぶっちゃけ物体追跡って実用レベルではない．
• 1分も追跡できたら良い方?
• データセットとbaselineを提供．
• https://oxuva.github.io/long-term-tracking-benchmark/
Poster

Learning to Detect and Track Visible and
Occluded Body Joints in a Virtual World
• メモ代わりに写真撮影．内容は見れてないです．
Poster

Online Detection of Action Start in
Untrimmed, Streaming Videos
Poster
発表者がいなかった？メモ代わりに撮影．

Diagnosing Error in Temporal Action
Detectors
• Temporal Action Localizationで失敗している部分を分析した論
文ぽい．結構当たり前な気がする．
• 著者に説明してもらったが，特段新しい知見が不明だった．
• 逆にどういう書き方をした
のか論文を読んでみたい．
Poster

Stacked Cross Attention for Image-Text
Matching
• Vision & Languageぽかったので，遠くから通り際に撮影．
• 詳細はポスターみれてないですので不明．
Poster

Spatio-temporal Transformer Network for
Video Restoration
• LSTMの代わりにTransfomerを使った動画修復？
• タイトル以上の情報は得られず，通り過ぎました(混雑過多）
Poster

BSN: Boundary Sensitive Network for
Temporal Action Proposal Generation
• Temporal Action Localizationの論文．
• 動作区間の開始・終了を，動作の内容そのものとは別に学習し，
結果を統合することで
改善を図ったもの．
Poster

ECCV2018参加速報(一日目)

Recommended

Recommended

More Related Content

More from Atsushi Hashimoto

More from Atsushi Hashimoto (15)

ECCV2018参加速報(一日目)