Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

3

Share

Download to read offline

ECCV2018参加速報(一日目)

Download to read offline

ECCV2018の発表に対する橋本の個人的なメモです.

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

ECCV2018参加速報(一日目)

  1. 1. ECCV2018参加速報 (1日目) 橋本敦史 京大美濃研⇢OMRON SINIC X Corp. (OSX) 2018.4より研究職に転職しました
  2. 2. 使用上の注意 • これは個人的なメモ資料です.いわば「チラシの裏」です.こ の資料をみて,なんじゃこりゃ…と思われた方には大変申し訳 ありません.もっと素敵な資料はたくさんあると思いますので, そっと閉じて,他をあたって頂ければ幸いです. • この資料は「チラシの裏」ですが,下記はまんまチラシです. • 弊社ではインターン生を年中募集しています.東京から遠隔にお住ま いの方で も長期休みを利用してフレキシブルにインターンしていただ けます.東京に お住まいの方でも,週に数回など,授業・研究の合間 に働きながらスキルを 身に着けていただけます. 詳しくはこちら(怪 しいURLですが,弊社のスタートアップ感の迸りです)
  3. 3. Oral Session 1A
  4. 4. Convolutional Networks with Adaptive Computation Graphs, Andreas Veit et al. • 識別しやすい物体,しにくい物体がある.一つのネットワーク 構造の中で,どの部分を使うか(使わないか)を決めながら処 理するCNNを作りたい. • 簡単なものは早く,難しいものは時間をかける,など. • Gumbel-Maxで頑張る • ぐぐって最初にでてきたそれらしき記事(未読) http://peluigi.hatenablog.com/entry/2018/06/21/142753 Oral
  5. 5. Progressive Neural Architecture Search Chenxi Liu • AutoMLなどの系統の研究 • 探索時間が長いのをなんとかしたい. • 精度を余り落とさずに,時間は大分早くなった. Oral
  6. 6. Diverse Image-to-Image Translation via Disentangled Representations, Hsin-Ying Lee et al. • CycleGANの派生. • ドメインを別画像やノイズ信号から指定できるようにする. • Encoderを2つ用意. • ドメイン非依存な特徴を抽出するエンコーダ • ドメイン依存な特徴を抽出するエンコーダ • これを入れ替えてドメイン変換を達成する • 出力を正規分布にMappingしておくことでノイズからも生成できるようにする • 通常のCycleGANのlossに加えて,ドメイン依存特徴を入れ替えた場 合の再構築lossやドメイン非依存にするためのadversarial lossが増 えている. • Diversityはあがっているかもしれないが,改善幅はincrementalかも しれない. Oral
  7. 7. Lifting Layers: Analysis and Applications Michael Moeller et al. • ちょっと理解できなかったが,新しいActivation層の提案? • 各レイヤーを線形spline近似によって凸最適化できる形に変換 • 質疑応答によれば,結果としてモデル全体が(近似的に)凸最適化の形 になって,最適化しやすくなって精度向上した,ということぽい. • 著者実装: https://github.com/michimoeller/liftingLayers Oral
  8. 8. Learning with Biased Complementary Labels, Xiyu Yu et al. • 負のラベル(サンプルxはカテゴリyではない)によって学習す る手法の提案 • 著者らは,そのようなラベルはつけやすい,と仮定している. • 結局,情報量のあるラベルをつけるのは難しいから,そんなことで問題が簡単に はならないのでは?と思った. • 数式の展開の中で,nC2個の2クラス分類をモデル化しているよ うに見える⇢他クラスSVMとかの話と一緒にならない? • 結局,それなりにnC2個の組み合わせを識別するためのサンプ ルの数が必要⇢簡単になっているように見えない…よくわから なかった. Oral
  9. 9. Poster Session
  10. 10. TrackingNet: A Large Scale Dataset and Benchmark for Object Tracking in the wild • CVPR2018でも見かけた気がする…workshop?? • Tracking用のImageNet(ActivityNet)的なデータセット構築 • これでECCV通すような論文の書き方を学ぶためには読んで見 るべきかも. Poster
  11. 11. Grounding Visual Explanation • そこそこsupervisedされている条件でのword(phrase?)-image segment allignment問題っぽい. • 最近みかけるrank lossの差を使っているぽい. • 人が多すぎて近寄ることすら 無理(右の写真で精一杯) Poster
  12. 12. DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks • 脈拍を画像のみ(皮膚の微弱な色変化)から推定する問題を Deep Neural Netで解いたっぽい研究. • あまりDNNが向いていないタスクのようにも思えるが,これも 近寄ることすら無理. 行列にならんで通り抜けながら 撮影. Poster
  13. 13. Unsupervised Video Object Segmentation using Motion Saliency-Guided Spatio-Temporal Propagation • タイトルだけで,大体何をやっているかはおおよそわかる? • これも近寄れず.こんな研究もあるよと,メモ代わりに撮影. Poster
  14. 14. Attention-GAN for Object Transfiguration in Wild Images • CycleGANなどで変換する物体に対してAttention Maskをかけ よう,という論文. • 発表者が不在だったため,ポスター以上の情報はなし. Poster
  15. 15. How good is my GAN • 従来手法のGANで生成された画像は,じつはそれのみを使って クラス分類器を学習させたときに,リアルな画像で学習したク ラス分類器より精度が落ちる. ⇢つまりGANは真の分布に基づいた生成になっていない • 逆に言えば,GANの評価に, 「生成画像を使って学習した モデルによるリアル画像の 識別精度」が使えるのでは?という 研究. • 某知り合いが出発前にこれが面白そうと いっていた奴かも. Poster
  16. 16. Oral Session 1B O-1B-01 Light Structure from Pin Motion: Simple and Accurate Point Light Calibration for Physics-based Modeling Hiroaki Santo*, Osaka University; Michael Waechter, Osaka University; Masaki Samejima, Osaka University; Yusuke Sugano, Osaka University; Yasuyuki Matsushita, Osaka University O-1B-02 Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe Bartels, Carnegie Mellon University; William Whittaker, Carnegie Mellon University; Aswin Sankaranarayanan, Carnegie Mellon University; Srinivasa Narasimhan, Carnegie Mellon University O-1B-03 Learning to Separate Object Sounds by Watching Unlabeled Video Ruohan Gao*, University of Texas at Austin; Rogerio Feris, IBM Research; Kristen Grauman, University of Texas O-1B-04 Coded Two-Bucket Cameras for Computer Vision Mian Wei, University of Toronto; Navid Navid Sarhangnejad, University of Toronto; Zhengfan Xia, University of Toronto; Nikola Katic, University of Toronto; Roman Genov, University of Toronto; Kyros Kutulakos*, University of Toronto O-1B-05 Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone Image Zhengqin Li*, UC San Diego; Manmohan Chandraker, UC San Diego; Sunkavalli Kalyan, Adobe Research
  17. 17. O-1B- 01 Light Structure from Pin Motion: Simple and Accurate Point Light Calibration for Physics- based Modeling Hiroaki Santo*, Osaka University; Michael Waechter, Osaka University; Masaki Samejima, Osaka University; Yusuke Sugano, Osaka University; Yasuyuki Matsushita, Osaka University O-1B- 02 Programmable Light Curtains Jian Wang*, Carnegie Mellon University; Joe Bartels, Carnegie Mellon University; William Whittaker, Carnegie Mellon University; Aswin Sankaranarayanan, Carnegie Mellon University; Srinivasa Narasimhan, Carnegie Mellon University O-1B- 03 Learning to Separate Object Sounds by Watching Unlabeled Video Ruohan Gao*, University of Texas at Austin; Rogerio Feris, IBM Research; Kristen Grauman, University of Texas O-1B- 04 Coded Two-Bucket Cameras for Computer Vision Mian Wei, University of Toronto; Navid Navid Sarhangnejad, University of Toronto; Zhengfan Xia, University of Toronto; Nikola Katic, University of Toronto; Roman Genov, University of Toronto; Kyros Kutulakos*, University of Toronto O-1B- 05 Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone Image Zhengqin Li*, UC San Diego; Manmohan Chandraker, UC San Diego; Sunkavalli Kalyan, Adobe Research Oral 1B
  18. 18. Light Structure from Pin Motion: Simple and Accurate Point Light Calibration for Physics-based Modeling, H. Santo et al. • 従来の光源位置キャリブレーションは,球形の反射物体を空間 条に配置⇢ハイライト領域が大きくなる場合(光源が大きいな ど)では光源方向推定精度が低下. • ARマーカにより姿勢が検出可能なキャリブレーションボード上 にピンを指す.ピンの先端に球があり,その球と影の位置を使 うとSfM的なアプローチで(?)上記の問題を起こさずに,点光源 の位置や平行光源の方向を精度良く推定できる. Oral
  19. 19. Programmable Light Curtains Jian Wang et al. • エレベータなどで使われているLight Curtainを拡張! • 赤外レーザと受光器の組み合わせで,レーザが届かなかったらモノが あると検知する奴. • 従来:レーザと受光器は向かい合わせでなければならない. • 提案手法: 向かい合わせでなくてよい.ミラーで反射させて好 きな位置をScan.(レーザが物体に反射して観測できたらモノ があると検知) • 複雑な画像処理が不要というところが良い. • とはいえ,機械的な動作(ミラーを動かす)があるのでどこまで高速 化できるか不明.結局,Depth Cameraで良いのでは? • 他の赤外光レーザによる干渉や,検出面の厚さの制御が課題 Oral/Demo
  20. 20. Learning to Separate Object Sounds by Watching Unlabeled Video, R. Gao et al. • 音を音源に応じて分離して取り出す問題. • 音源の種類の学習に物体検出結果を利用⇢unlabeled条件を視覚 情報により克服 • 学習データが足りないのか,多少混ざったままとなっている • 音源と映像中の動きとの同期性などはまだ使われていない. Oral
  21. 21. Coded Two-Bucket Cameras for Computer Vision, M. Wei et al. • 発表がわかりにくかった気がする.多分やりたいことは Structured Lightによる3次元形状復元の高フレームレート化 • CCDセンサなどの電荷を貯めるbucketを1受光面あたり2つにす る⇢隣接する受光面との間で0101,0011,1100,1010のような コード割当でどの時間帯に受光していたかをずらしておく. • ベイヤーパターンのように周辺の受光面から光量を推定⇢解像 度を犠牲にしてフレームレートを上げた??? Oral
  22. 22. Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone Image, Z. Li et al. • 携帯のカメラ画像で移した床面などのAlbedo, Normal, Depth を学習ベースで推定. • 事前にAdobeが出しているmaterialのBRDFに関するデータセッ トを利用して学習. • Albedo, Normal, Depthの推定をmaterialの識別と同時にmulti- taskで解かせることによってmaterial識別の精度が大幅に向上 Oral
  23. 23. O-1C-01 End-to-End Joint Semantic Segmentation of Actors and Actions in Video Jingwei Ji*, Stanford University; Shyamal Buch, Stanford University; Alvaro Soto, Universidad Catolica de Chile; Juan Carlos Niebles, Stanford University O-1C-02 Learning-based Video Motion Magnification Tae-Hyun Oh, MIT CSAIL; Ronnachai Jaroensri*, MIT CSAIL; Changil Kim, MIT CSAIL; Mohamed A. Elghareb, Qatar Computing Research Institute; Fredo Durand, MIT; Bill Freeman, MIT; Wojciech Matusik, MIT CSAIL O-1C-03 Massively Parallel Video Networks Viorica Patraucean*, DeepMind; Joao Carreira, DeepMind; Laurent Mazare, DeepMind; Simon Osindero, DeepMind; Andrew Zisserman, University of Oxford O-1C-04 DeepWrinkles: Accurate and Realistic Clothing Modeling Zorah Laehner, TU Munich; Tony Tung*, Facebook / Oculus Research; Daniel Cremers, TUM O-1C-05 Learning Discriminative Video Representations Using Adversarial Perturbations Jue Wang*, ANU; Anoop Cherian, MERL Oral 1C
  24. 24. End-to-End Joint Semantic Segmentation of Actors and Actions in Video J. Ji et al. • Actor識別とAction識別とActor領域のSemantic segmentation を初めてEnd-to-Endで学習した論文. Oral
  25. 25. Learning-based Video Motion Magnification T. H. Oh et al. • 動画中の動きの強さ(?)を編集可能にしたい. • 動きの強さって何かわからないという根源的な問いがある… • 少なくとも,空間的なscaleとかを考慮する手法にはなっていない. • 走っている人の動きが激しくなればとりあえず良いっぽい?何をしたいんだ ろうか. • Magnitudeの正解がないので,自分たちで適当に物体を映像に貼っ て動きの幅だけで合成⇢ますます何したいかわからない… • 結果,プルプルする動画が完成….これは論文でどういう書き方を して通ったのか逆に興味があるかも. Oral
  26. 26. Massively Parallel Video Networks V. Patraucean et al. • 動画に対してonlineで処理するには,計算量が大きすぎて latencyが問題になる. • とりあえず,ネットワークの並列度は上げて深さを減らす. • 直前のフレームがCNNの第2層(ブロック?)にいるときに今のフ レームの処理を第1層にいれて,並列化したら良い(図) • オフライン処理をupper boundとして, 精度はちょっと落ちるが高速化成功. • 自分で実装する気にはならない系論文. Oral
  27. 27. DeepWrinkles: Accurate and Realistic Clothing Modeling Laehner et al. • 服のシワをDeep Learningで再現しよう. • 法線方向マップを,3Dモデルに対するテクスチャマップのよう に表現 • 材料・しわの初期状態・体型に応じたシワを生成できるよう学習. • 対象を観察し,原理原則をしっかり抑えて議論したのであろう, シンプルながらお手本のような研究に思える. • 一時期京大松山研におられたTony TungさんがSecond Author. 納得の内容. Oral
  28. 28. Learning Discriminative Video Representations Using Adversarial Perturbations, J. Wang et al. • Adversarial Perturbationによって貼られる部分空間のようなも の(理解が危うい)を使って,頑健な特徴を学習する手法の提案. • ちょっと数学的知識が足りなくて落ちました,南無. • 結構動作認識の精度が向上している?5%くらい. Oral
  29. 29. 前ページのoral発表のポスター
  30. 30. Poster Session
  31. 31. W-TALC: Weakly-supervised Temporal Activity Localization and Classification • 動画にはなんのActionが含まれているかだけアノテーションさ れている条件でのTemporal Activity Localization • 同じActionラベルを持っている動画の中で,似ているSegment を上からk個とってくる ⇢ランクロス的アプローチ.
  32. 32. Long-term Tracking in the wild • ぶっちゃけ物体追跡って実用レベルではない. • 1分も追跡できたら良い方? • データセットとbaselineを提供. • https://oxuva.github.io/long-term-tracking-benchmark/ Poster
  33. 33. Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World • メモ代わりに写真撮影.内容は見れてないです. Poster
  34. 34. Online Detection of Action Start in Untrimmed, Streaming Videos Poster 発表者がいなかった?メモ代わりに撮影.
  35. 35. Diagnosing Error in Temporal Action Detectors • Temporal Action Localizationで失敗している部分を分析した論 文ぽい.結構当たり前な気がする. • 著者に説明してもらったが,特段新しい知見が不明だった. • 逆にどういう書き方をした のか論文を読んでみたい. Poster
  36. 36. Stacked Cross Attention for Image-Text Matching • Vision & Languageぽかったので,遠くから通り際に撮影. • 詳細はポスターみれてないですので不明. Poster
  37. 37. Spatio-temporal Transformer Network for Video Restoration • LSTMの代わりにTransfomerを使った動画修復? • タイトル以上の情報は得られず,通り過ぎました(混雑過多) Poster
  38. 38. BSN: Boundary Sensitive Network for Temporal Action Proposal Generation • Temporal Action Localizationの論文. • 動作区間の開始・終了を,動作の内容そのものとは別に学習し, 結果を統合することで 改善を図ったもの. Poster
  • TakayukiShinohara

    Oct. 5, 2018
  • TakayukiShinohara

    Oct. 5, 2018
  • yasutomo57jp

    Sep. 11, 2018

ECCV2018の発表に対する橋本の個人的なメモです.

Views

Total views

1,297

On Slideshare

0

From embeds

0

Number of embeds

47

Actions

Downloads

13

Shares

0

Comments

0

Likes

3

×