SlideShare a Scribd company logo
1 of 22
Download to read offline
cvpaper.challenge
	
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Samarth Brahmbhatt, James Hays, “DeepNav: Learning to Navigate Large Cities”, in arXiv 1701.09135,
2017.
【1】
Keywords: StreetView, CNN, DeepNavigation
新規性・差分
概要
ストリートビューから画像を⼤量に採取して道案内のためのCNNを構築した。提案の
データセットには10都市から100万画像を超えるストリートビューの画像が含まれ
る。ナビゲーションの課題において3種類の教師あり学習を提案し、A*-searchがどの
程度学習の⽣成に有効かを検証した。データセットは完全にストリートビューのタグ
を使⽤した。CNNアーキテクチャに関してはDeepNav-{distance, direction, pair}を提
案。-distanceはVGG16の特徴から⽬的地までの距離を返却(fc8が距離を算出)、-
directionは同特徴から⽅向を返却(fc8が各⽬的地・各⽅向のスコアを算出)、-pairは
SiameseNetにより構成され、画像のペアから⽅向を算出。
・⽶国の10都市から100万枚のストリートビュー
の画像を収集してデータセットを構成した。本デ
ータセットには5種類の⽬的地(Bank of
America, Church, Gas Station, High School and
McDonald’s)を含む。
・⼿法としては3つのCNNアーキテクチャを提案
した。従来⼿法[Khosla+, CVPR14]と⽐較の結
果、有効性を⽰した。
・A*-searchにより経路⽣成を⾏い、これをCNN
の教師と設定した
Links
論⽂ https://arxiv.org/pdf/1701.09135.pdf
著者 https://samarth-robo.github.io/
サンフランシスコの経路(ノード)と
⽬的地(ピン)
DB中に含まれるデータ数と各統計
←各アルゴリズムの平均ステップ数
Florian Schroff, Dmitry Kalenichenko, James Philbin, “FaceNet: A Unified Embedding for Face
Recognition and Clustering”, in CVPR, 2015.
【2】
Keywords: Face Recognition, TripletLoss, FaceNet
新規性・差分
概要
顔画像をユークリッド空間として扱えるような特徴マッピング(Embedding)を実
⾏する。GoogLeNetをベースにしたCNNを、Tripletにより学習することで、128
次元のベクトルで顔画像を扱えるようになり、さらにユークリッド空間において
顔同⼠を⽐較可能。Tripletは(アンカー、ポジティブ(アンカーと同⼀クラ
ス)、ネガティブ(アンカーと異なるクラス))により構成され、ユークリッド
空間においてポジティブとできるだけ近くに、ネガティブとできるだけ遠くに配
置するように学習。
・TripletLossにより顔認識の特徴を計算可能
・⾮常に単純な特徴でありながら顔認識において(当時の)
State-of-the-artを達成した:Labeled Face in the Wild (LFW)で
99.63%、YouTube Faces DBで95.12%を実現した。
・現在では、TensorFlowやTorchの学習やテストコードが提供さ
れている。
Links
論⽂ https://arxiv.org/pdf/1503.03832v3.pdf
プロジェクト
資料 http://www.slideshare.net/kaorunasuno/20150611-nasuno
TensorFlow実装 https://github.com/davidsandberg/facenet
Torch実装 https://github.com/Atcold/torch-TripletEmbedding
顔認識におい
て、同⼀⼈物の
距離をできる限
り近く、他⼈と
の距離をできる
だけ遠くにした
い。FaceNetは
TripletLossを⽤い
ることによりこ
れを実現する。
Min-batchによりTripletを⼊⼒、CNNにより特徴を計算してアンカー・ポ
ジティブ、アンカー・ネガティブによりTripletLossを学習。
5つのCNNアーキテクチャを考案。
AlexNetをベースにしたZFNetも良好
な精度を出しているが、GoogLeNet
がもっとも良い結果となった。ま
た、⼊⼒画像も224x224[pixel]が良い
という結果に。
Abhijit Kundu,Yin Li,Frank Daellert,Fuxin Li,James M. Rehg “Joint Semantic Segmentation and 3D
Reconstruction from Monocular Video”, in ECCV, 2014.
【3】
Keywords: 3次元再構成、セマンティックセグメンテーション
新規性・差分
概要
・⼤規模な屋外シーンのビデオから、3Dコンストラクショ
ンとセマンティックセグメンテーション同時に⾏う⼿法を
提案した。左上の図は提案⼿法のイメージ図です。
・流れとしては、提案⼿法はまず、まず標準的なvisual
slam と2Dセマンティックセグメンテーションを⾏う。そ
して、そういった情報を利⽤して、データ駆動型の図形モ
デルコンストラクションを⾏う。最後に、マップ推定法を
⽤いて、ボクセルごとにラベルを配分する。
・3dボリュームモデルの3dコンストラクションとセマンティックの
新たに⾼次なcrfモデルを提案した。デンスなデプス情報が必要な
し。
・ダイナミックにcrfモデルのpotentialsをインスタンス化するデータ
駆動型のカテゴリ固定的プロセスを提案した。
・挑戦的な前進モノクロ序列データセットのcamvidと leuvenで提案
⼿法を検証した 。検証の結果は右下の図で⽰しているようです。
伝統的なスパースSFMよりデンスで、セマンティックセグメンテー
ションの部分は従来⼿法と⽐べて不⼀致の問題を解決した。そし
て、ピクセルごとの正確さも⾼いです。
Links
論⽂ http://www.cc.gatech.edu/~dellaert/pubs/Kundu14eccv.pdf
Yann N. Dauphin, Angela Fan, Michael Auli, David Grangier, “Language Modeling with Gated
Convolutional Networks”, in arXiv 1612.08083, 2016.
【4】
Keywords: Gated CNN, Language Model
新規性・差分
概要
⾔語モデルの記述は LSTMが多いが、本論⽂では畳み込みを⽤いた
⾔語モデルを提案する。特に、ゲーティングの仕組みを提案し、勾
配の伝播を実⾏する。LSTMを⽤いたOord et al. (2016b)の⼿法と
⽐較するとWikiText-103にて⾼精度かつシンプルなモデルを提供す
る。
・提案されたGated ConvNetを適⽤して、LSTMなど再帰的な構造
を⽤いずに構造化された再帰的構造を破る結果を実現した。
Google Billion Word test setにおいてもっとも良い性能を出した(下
表参照)。
Links
論⽂ https://arxiv.org/pdf/1612.08083.pdf
コード https://github.com/YueDayu/gated-cnn
Gated ConvNetのアーキテクチ
ャ。⼊⼒はテキストをルックアッ
プテーブルにて型変換し、ワード
数N x ベクトル次元数
(Embedding) mの空間に投影した
もの。隠れ層 h0, … h_Lは
の処理を⾏う。X (Nxm次元)は各
層h_lにおける⼊⼒、W (k x m x n
次元)、b (n次元)、V(k x m x n)、c
(n次元)は学習するパラメータで、
σはシグモイド関数、⊗はテンソ
ル積を表す。
Martin Arjovsky, Soumith Chintala, Leon Bottou, “Wasserstein GAN”, in arXiv, 2017.【5】
Keywords: GAN, Generative Model
新規性・差分
概要
モデルの距離計算を新しいモデルで定義。具体的には、
Earth Mover (EM)distanceにより分布を解析するものを提
案した。この、EM distanceを効率的に最⼩化するモデル
はWasserstein-GANと呼ばれる。右式は2つの分布の距離
を⽰し、その下式の最⼤化を⾏うことによりWassetstein
距離の近似を⾏う。
・右の図はLSUNによるシーンの⽣成結果である
・WGANは⽣成画像の崩壊を防ぐとされている
・PyTorchやChainerによるコードが公開されているので、
すぐに試すことができる
Links
論⽂ https://arxiv.org/pdf/1611.03530.pdf
PyTorchコード
https://github.com/martinarjovsky/WassersteinGAN
Chainerコード https://github.com/musyoku/wasserstein-gan
Geoffrey Hinton, Oriol Vinyals, Jeff Dean, “Distilling the Knowledge in a Neural Network”, in NIPS, 2014.
【6】
Keywords: Knowledge Distillation, CNN
新規性・差分
概要
⼤きなDNNネットワークのパラメータを⽤いて、⼩さな
DNNネットワークのパラメータを更新し、⼩さなモデルで
も⼤きなネットワークと同じような精度を実現す
る”Knowledge Distillation”を実現した。
・MNISTにて学習した結果、CNN(⼤; 精度99.3%)のパラ
メータをCNN(⼩; 精度98.6%)に教⽰した結果、CNN(⼩)の
精度が99.2%まで向上した。
・同じタスクを解く際に、⼤きなネットワークから⼩さな
ネットワークに転移学習する⽅法を確⽴した。
Links
論⽂ https://arxiv.org/pdf/1503.02531.pdf
プロジェクト
JFTのテストセットにおいても精度の向上が⾒られた。
Yonghui Wu, et al., “Google’s Neural Machine Translation System: Bridging the Gap between Human
and Machine Translation”, in arXiv 1609.08144, 2016.
【7】
Keywords: Machine Transtation, Goolge翻訳
新規性・差分
概要
グーグル翻訳の新機能であるGoogle’s Neural Machine Translation (GNMT)
の論⽂。NMTでは⼤規模なデータにおいて翻訳速度が遅くなってしまう問
題があったが、本論⽂ではそれも解決している。翻訳モデルGNMTは
Encoder-Decorderの構造を保有し、Residual Connectionを導⼊した8のエ
ンコーダ、8のデコーダから構成される。エンコーダもデコーダも深い構造
の⽅がよく、ResNetの枠組みを⽤いると⾔語処理において8層でも勾配消
失を防ぐことができた。
学習は初期段階では最尤訓練を⾏い、次に強化学習を繰り返す。
・⾼速化のための演算の⼯夫や、レアな単語に対応するためサブワード分割
や⼊⼒を出⼒にコピーして扱う。
・従来の グーグル翻訳と⽐較するとエラー率を相対的に60%低減することに
成功した。
・NVIDIA K80 GPU x 96により6⽇間学習@最尤訓練、3⽇間学習@強化学習
を⾏った。
Links
論⽂ https://arxiv.org/pdf/1609.08144.pdf
⽇本語資料 http://www.slideshare.net/ToshiakiNakazawa/gnmt-66491745
Google Research Blog https://research.googleblog.com/2016/09/a-neural-network-for-machine.html
図はGNMTシステムを⽰す。左側はエンコーダ、右はデコー
ダネットワーク、中央にはアテンションモジュールが存在。
下層のエンコーダ層は双⽅向(bi-directional)の構造である。
ピンクのエンコーダは順⽅向、緑のエンコーダは逆⽅向の処
理を⽰している。エンコーダ・デコーダにおいてResidual
Connectionは3層から開始している。エンコーダ・デコーダ
はいずれも8層のLSTMから構成される。分散処理が可能な部
分においては独⽴してGPUを割り当て⾼速化を図る。
Emin Orhan, “Skip Connections as Effective Symmetry-Breaking”, in arXiv 1701.09175, 2017.【8】
Keywords: Skip Connection, Residual Learning, Symmetry-Breaking
新規性・差分
概要
ResNetによるスキップコネクションはVeryDeepなDNNを学習するための有
効な⽅法となったが、さらに改善を施すために、Symmetry-Breakingを提案
し、学習⽅法についても⾔及した。(ここで、Symmetry-Breakingとは畳み
込みのカーネルを交換すること?)
Dense-Connectionでは残差を多数統合して勾配を強調するため精度は上がる
が、理想的な向上は⾒られなかった。⼀⽅でSymmetry-Breakingによる最適
化は勾配爆発・消失問題を解決し、認識タスクにおいて有効であることがわ
かった。(が、常に有効であるとは限らない)
・Symmetry-Breakingにより勾配爆発・消失を解決した
・Residual Connectionの仕組みを解明したわけではない
が、理想的な学習に近づいた
Links
論⽂ https://arxiv.org/pdf/1701.09175v3.pdf
プロジェクト
(a)通常のFeedforward network (b) Residual netwrok (c)
Hyper-residual network:複数の階層をスキップした特徴
マップを統合 (d) Path-residual:相互的にスキップ
Wenpeng Yin, Katharina Kann, Mo Yu, Hinrich Schutze, “Comparative Study of CNN and RNN for
Natural Language Processing”, in 1702.01923, 2017.
【9】
Keywords: NLP, CNN, RNN
新規性・差分
概要
NLPにおけるCNNやRNNの解析論⽂。
タスクとしてはSentiment Classification, Relation
Classification, Textual Entailment, Question Relation
Match, Path Query Answering, Part-of-Speech Tagging,
ContextDepを含む。
・CNN, GRU, LSTM (RNN)に加え、タスクによってはBi-
directional GRUやBi-directional LSTMを採⽤。右表は各タ
スクにおける精度を⽰す。
・「深さ」と「最適化のバッチサイズ」が性能に影響を与
えることを実証した。
Links
論⽂ https://arxiv.org/pdf/1702.01923v1.pdf
プロジェクト
NLPにて頻出のDNNフレームワークであるCNN (Convolutional Neural
Network), GRU (Gated Recurrent Unit)やRNN (Recurrent Neural Network)
Yevhen Kuznietsov, Jorg Stuckler, Bastian Leibe, “Semi-Supervised Deep Learning for Monocular Depth
Map Prediction”, in arXiv 1702.02706, 2017.
【10】
Keywords: Semi-supervised learning, depth prediction, ResNet, CNN
新規性・差分
概要
半教師あり学習による⾞載画像のデプスマップ推定をDeep Learning
により⾏う。学習時にはステレオ画像やLiDARなどの3次元情報を抽
出・教師としてRGB画像と対応づけることで、テスト時に⾼精度な距
離画像を⽣成することができる。
教師あり/教師なしが混ざっていてもシームレスに学習可能な誤差関
数を提案した。式(5)は誤差関数を⽰し、トレードオフパラメータは教
師あり(第⼀項)、教師なし(第⼆項)、正規化項(第三項)に存
在。θはCNNのパラメータであり、I_l, I_rは左右ステレオ画像、Z_l,
Z_rは左右に対応するLiDARの3次元情報である。ネットワーク構造は
ResNet-50をベースとしてエンコーダとして⽤いるが、さらに
Upsampling層も追加してデコーダとして動作する。
・教師あり・教師なし学習により距離画像を推定する枠
組みを提案し、さらには誤差関数を提案した。
・ResNet-50をベースとしたエンコーダ・デコーダによ
るアーキテクチャにより距離画像推定においてもっとも
良い値を出した。
Links
論⽂ https://arxiv.org/pdf/1702.02706.pdf
プロジェクト
RGBからの距離画
像推定と、その教
師である「ステレ
オ画像」や
「LiDARの距離情
報」。Semi-
supervised学習が
可能となる。
Xiang Zhang, Yann LeCun, “Text Understanding from Scratch”, in arXiv 1502.01710, 2015.
【11】
Keywords: Language Model, Text Understanding
新規性・差分
概要
⾔語モデルについて、単語レベルの⼊⼒ではなく、(ちょ
うど画像に対するピクセルのように)⽂章を⽂字という
Low-levelな特徴の集合体として扱うことにより、画像のよ
うな解析ができるのはないかという発想。
・形態素解析や単語の分割、意味レベルの辞書を使⽤する
ことなく⾔語モデルを構築することができる(ルックアッ
プテーブルやWord2Vecを⽤いることなく⽂章解析ができ
る)
・DBPediaによるwikipediaのオントロジー判別にて98%
・Amazon Review Sentiment Analysis (評判推定)にてフル
スコア59%、Polarity dataにて95%を達成。
・Yahoo! Answers dataにて71%を達成。
Links
論⽂ https://arxiv.org/pdf/1502.01710v5.pdf
GitHub https://github.com/zhangxiangxiao/Crepe
著者 http://xzh.me/
図は本論⽂におけるCNNの概念図である。ひとつのネットワークは9層によ
り構成され、うち6層が畳み込みやプーリング、3層が全結合層と出⼒層によ
るものである。単語単位ではなく⽂字単位で畳み込みを⾏い、特徴抽出を⾏
う。
表はCNNアーキテクチャの構成について
Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C. Lawrence Zitnick, Ross
Girshick, “CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual
Reasoning”, in arXiv 1612.06890, 2016.
【12】
Keywords: VQA
新規性・差分
概要
画像による質問回答 (VQA; Visual Question Answering)の
ための新しい取り組みで、回答に対する診断(Reasoning)を詳細にできるよ
うにし、さらにデータセットも提案する。データセットであるCLEVRは多
側⾯からの質問が⽤意されており、属性・カウント・⽐較・空間的な位置
関係・論理的な操作がそれにあたる。質問は⾃然⾔語により構成され、画
像解析により質問への回答を⽣成する。
・従来のVQAでは画像やテキストの学
習を⾏い、画像の意味を理解していな
いまま回答していたが、本論⽂のデー
タセットでは詳細な理由付けまで⾏え
るようにした
・この問題を設定するために、
Compositional Language and
Elementary Visual Reasoning
diagnostics dataset (CLEVR)を提供。
同データは100Kの画像や1M(うち853K
はオリジナル)の⾃動⽣成された質問⽂
を含んでいる。
Links
論⽂ https://arxiv.org/pdf/1612.06890v1.pdf
プロジェクト(データセットあり)
http://cs.stanford.edu/people/jcjohns/clevr/
下の精度⽐較のグラフでは、
LSTMやCNN+BoW, CNN
+LSTM (+MCB, +SA)による⽐
較を⾏っている。
Sergey Ioffe, “Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized
Models”, in arXiv 1702.03275, 2017.
【13】
Keywords: Batch Renormalization
新規性・差分
概要
ミニバッチのサイズが⼩さい場合や、学習とテスト時の活性化の値の
値域に差異が⽣じる問題を解決するため、Batch Renormalizationを提
案。移動平均を使ってシフトを⾏い、徐々にバッチ内からデータ全体
へ正規化を⾏うことで、互いに独⽴で同⼀の分布に従わない(Non-
i.i.d.)もしくは⼩さいバッチにおいても正規化が⾏えるよう改善し
た。また、従来のBatch Norm.の際の初期値によらない最適化や学習
の効率という利点も残している。
・右図参照
Links
論⽂ https://arxiv.org/pdf/1702.03275.pdf
PyTorch実装
https://github.com/rarilurelo/batch_renormalization
Dayong Wang, Charles Otto, Anil K. Jain, “Face Search at Scale: 80 Million Gallery”, in arXiv
1507.07242, 2015.
【14】
Keywords: Face Recognition, Large-scale database
新規性・差分
概要
Facebookでは2013年の時点ですでに2500億の写真が、そ
して毎⽇3.5億枚の画像が追加されている。本論⽂では
8000万枚の画像データベースを構築し、顔画像検索を実利
⽤するための条件について検討した。
・LFWにて98.23% (accuracy)、
verification rate 87.65%を実現
・IJB-A benchmarkではrank-1の検索精
度が82.0%を実現
・⼤規模データにおける精度やスケール
性において良好なトレードオフを実現
・ボストンマラソンの爆破事件における
犯⼈探索問題において500万の顔画像か
らrank-1を1秒で検索、8000万の顔画像
からrank-8を7秒で検索を実現した。
Links
論⽂ https://arxiv.org/pdf/1507.07242v2.pdf
プロジェクト
Andrew Zhai, Dmitry Kislyuk, Yushi Jing, Michael Feng, Eric Tzeng, Jeff Donahue, Yue Li Du, Trevor
Darrell, “Visual Discovery at Pinterest”, in arXiv 1702.04680, 2017.
【15】
Keywords: Object Detection, Pinterest, SNS
新規性・差分
概要
Pinterestは過去数年に渡りRelated Pins (2014), Similar
Looks (2015), Flashlight (2016), Lens (2017)とサービスを
向上させてきた。それらの機能紹介について書かれてい
る。
・Pinterestの機能について紹介する
とともに実験についても詳細に⾏っ
た。論⽂中ではAlexNet,
GoogLeNet, VGG16, ResNet-101,
-152などの活性化特徴と精度につい
ての対応表が⽰されている。また、
物体検出においてもFaster R-CNN
やSSDについて検討を⾏った。
Links
論⽂ https://arxiv.org/pdf/1702.04680.pdf
プロジェクト
Pinterest Flashlight(左): ユーザは画像
中に含まれる物体を選択して検索するこ
とができる。Flashlight(下): 物体が⾃動検
出された際に、クリック可能なドットが
表⽰されナビを⾏う。
Pinterest Lens(左): 画像単位ではな
く、物体単位にクリップして検索を⾏い
やすくする。画像内の物体を検出・クロ
ップして検索可能な形式にする。
Keita Higuchi, Ryo Yonetani, Yoichi Sato, “EgoScanning: Quickly Scanning First-Person Videos with
Egocentric Elastic Timelines”, in CHI, 2017.
【16】
Keywords: First-Person Videos, User Interfaces
新規性・差分
概要
⼀⼈称カメラにて、⼤量のビデオから重要なイベントを検索する⽅法
について提案。ビデオのタイムラインにて、重要なイベントの速度を
適応的に変換してプレイバック・⼀⼈称の重要な⼿がかりをピックア
ップするため、⼈物の操作、動作、会話を認識する。
・適応的な動画再⽣速度の変換により、より多くのビデオ
を短時間で閲覧可能となった
・ビデオを部分的に強調することによりユーザーに対して
より効果的な視聴を可能とする
・ユーザの興味に応じてより適応的にイベントを⾒せる事
ができるようになった
Links
論⽂ http://keihigu.github.io/preprint/HYS-CHI2017-preprint.pdf
著者 http://keihigu.github.io/
Vlad Firoiu, William F. Whitney, Joshua B. Tenenbaum, “Beating the World’s Best at Super Smash Bros.
Melee with Deep Reinforcement Learning”, in arXiv 1702.06230, 2017.
【17】
Keywords: Deep Reinforcement Learning, Super Smash Brothers (Nintendo)
新規性・差分
概要
任天堂スーパースマッシュブラザーズを強化学習してプレイするコンピュー
タを研究開発した。強化学習にはDeep Reinforcement Learningを適⽤。学習
には⾏動と将来の報酬をマッピングする関数を学習するQ-Learningを採⽤
(式1)。Riはゲームのルールに従い内的に依存関係にある。式2が⽬的関
数であり、Qはニューラルネットにより推定、バッチによるSGDによりLの
パラメータを学習する。式2の2番⽬のQは将来の報酬が最⼤になるよう勾
配を計算する。キャラクターはもっともポピュラーであることから、キャプ
テンファルコンを選択した。提案法は2時間くらいで報酬を効率的に学習し
た(右グラフ)。
・⼈間のプロフェッショナル(なゲーマー?)を倒すくらいのコンピ
ュータゲーマーが爆誕した
・複数⼈物がプレイするゲームにおいても強化学習が有効であることを
⽰した
Links
論⽂ https://arxiv.org/pdf/1702.06230v1.pdf
ベースライン(OpenAI Gym)
https://github.com/openai/universe-starter-agent
Timnit Gebru, Jonathan Krause, Yilun Wang, Duyun Chen, Jia Deng, Erez Lieberman Aiden, Li Fei-Fei,
“Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US”, in arXiv
1702.06683, 2017.
【18】
Keywords:
新規性・差分
概要
アメリカの経済など社会的な動向をGoogle Street Viewに
おける5000万枚の画像から明らかにするという研究。アメ
リカの200以上の都市から⾃動⾞により収集された。本研
究ではCNNにより⾃動⾞の⾞種(2,657カテゴリ)を推
定。
・アメリカの⾃動⾞の推定やその動向から、アメリカの社
会学的な動きを推定する事ができると主張した
Links
論⽂ https://arxiv.org/pdf/1702.06683v1.pdf
プロジェクト
, “Barcode Imaging using a Light Field Camera”, in LF4CV, 2014.
【19】
Keywords: Light field camera, Barcode imaging, Spatial frequency
新規性・差分
概要
・従来2Dバーコードの読み取りに使⽤される2Dスキャ
ナは固定焦点であり、ユーザは、バーコードを⼿動でスキ
ャナに近づけたり遠ざけたりしてスキャナの被写界深度内
に確実に移動させる必要があった。
本稿ではライトフィールドカメラを⽤いたバーコードスキ
ャニングシステムを提案する。LytroやRaytrixなどのライ
トフィールドカメラでは、マイクロレンズアレイを使⽤し
て、シーンの複数のビューを取得することで、キャプチ
ャー後に複数のフォーカスを合成ことができる。
・ライトフィールドカメラによるバーコードスキャニング
を提案した
・2Dイメージャと⽐較して、深さの推定という計算コス
トがかかるが、従来のカメラに⽐べて3倍近くの被写界深
度が得られた。
・バーコードイメージレンダリングを⾏うことにより計算
コストを低減している。
Links
論⽂
http://vigir.missouri.edu/~gdesouza/Research/Conference_CDs/ECCV_2014/
workshops/w14/Guo-et-al-LF4CV2014.pdf
バーコード領域のレンダリングの結果
歪みが⼤きいと失敗する場合もある
Carl Vondrick, Hamed Pirsiavash, Antonio Torralba, “Anticipating Visual Representations from Unlabeled
Video”, in CVPR, 2016.
【20】
Keywords: Action Prediction
新規性・差分
概要
⾏動予測のためのラベル付けが⾏われていないビデオから、ハイレベ
ルな⾏動ラベルや物体ラベルを予測する。⾏動ラベルについては⼀
秒、物体ラベルについては五秒先まで予測できた。式(1)は誤差w
を⽰し、誤差を最⼩化することで特徴表現を学習する。φ(x)は未来の
特徴表現(正解値)、g(x)は与えられた特徴表現から未来の特徴表現
を予測する関数。特徴表現にはAlexNetのfc7を⽤いる。誤差関数には
ユークリッド誤差を⽤いる。複数のありうる未来に対応すべく、
Mixture of K Networksの表現を採⽤。学習には600時間もの動画を含
むTelevision Shows DataとTHUMOSにより学習する。
・新規性としては、ピクセルの予測やカテゴリの予測より
も、特徴表現を予測することである。
・予測した特徴表現から、⾏動ラベルや物体のラベルを推
定可能。⾏動は1秒、物体は5秒先まで予測が可能。
Links
論⽂ http://web.mit.edu/vondrick/prediction.pdf
プロジェクト http://web.mit.edu/vondrick/prediction/
(右図)ラベルなしのビデ
オからいかに⼈物⾏動を予
測するかを考える。(下
図)ビデオに対する⾏動予
測のダイアグラム。現在フ
レームと未来のフレームか
ら特徴表現を⾏い、その差
分により誤差を計算する。
ラベルをちょくせつよそく
するのではなく、特徴量を
予測し、同特徴から⾏動や
物体を推定する。
ご質問・コメント等ありましたら,cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします.

More Related Content

What's hot

【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper. challenge
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016cvpaper. challenge
 
【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016cvpaper. challenge
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper. challenge
 
【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015cvpaper. challenge
 
グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編順也 山口
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017cvpaper. challenge
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph GenerationDeep Learning JP
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)cvpaper. challenge
 
【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper. challenge
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016cvpaper. challenge
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況cvpaper. challenge
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究Hirokatsu Kataoka
 

What's hot (20)

【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
 
cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)
 
ECCV 2016 まとめ
ECCV 2016 まとめECCV 2016 まとめ
ECCV 2016 まとめ
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016
 
【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016
 
cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)
 
【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015
 
グラフデータ分析 入門編
グラフデータ分析 入門編グラフデータ分析 入門編
グラフデータ分析 入門編
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016
 
cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)
 
【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015【2015.08】(3/5)cvpaper.challenge@CVPR2015
【2015.08】(3/5)cvpaper.challenge@CVPR2015
 
cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究
 

Viewers also liked

【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017cvpaper. challenge
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)cvpaper. challenge
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016cvpaper. challenge
 
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper. challenge
 
人工知能のための哲学塾 東洋哲学篇 第一夜 「荘子と人工知能の解体」
人工知能のための哲学塾 東洋哲学篇 第一夜 「荘子と人工知能の解体」人工知能のための哲学塾 東洋哲学篇 第一夜 「荘子と人工知能の解体」
人工知能のための哲学塾 東洋哲学篇 第一夜 「荘子と人工知能の解体」Youichiro Miyake
 
No borders innovation: how to build a remote working-based “liquid company”
No borders innovation: how to build a remote working-based “liquid company”No borders innovation: how to build a remote working-based “liquid company”
No borders innovation: how to build a remote working-based “liquid company”Emanuela Zaccone
 
3 Things Every Sales Team Needs to Be Thinking About in 2017
3 Things Every Sales Team Needs to Be Thinking About in 20173 Things Every Sales Team Needs to Be Thinking About in 2017
3 Things Every Sales Team Needs to Be Thinking About in 2017Drift
 
Node-express 채팅 서버 개발기
Node-express 채팅 서버 개발기Node-express 채팅 서버 개발기
Node-express 채팅 서버 개발기정웅 박
 
CRO y Neuromarketing
CRO y Neuromarketing CRO y Neuromarketing
CRO y Neuromarketing Mister Kiwi
 
Developing effective research proposal
Developing effective research proposalDeveloping effective research proposal
Developing effective research proposalKhalid Mahmood
 
How to Become a Thought Leader in Your Niche
How to Become a Thought Leader in Your NicheHow to Become a Thought Leader in Your Niche
How to Become a Thought Leader in Your NicheLeslie Samuel
 
Keynote - AIIM17 -- Forces of Change in Content Management
Keynote - AIIM17 -- Forces of Change in Content ManagementKeynote - AIIM17 -- Forces of Change in Content Management
Keynote - AIIM17 -- Forces of Change in Content ManagementJohn Mancini
 
The CMO's Greatest Enemy -- delivered at SxSW 2017
The CMO's Greatest Enemy -- delivered at SxSW 2017The CMO's Greatest Enemy -- delivered at SxSW 2017
The CMO's Greatest Enemy -- delivered at SxSW 2017Proof Analytics
 
HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017Bastian Grimm
 

Viewers also liked (18)

【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016
 
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
 
CVPR 2016 速報
CVPR 2016 速報CVPR 2016 速報
CVPR 2016 速報
 
人工知能のための哲学塾 東洋哲学篇 第一夜 「荘子と人工知能の解体」
人工知能のための哲学塾 東洋哲学篇 第一夜 「荘子と人工知能の解体」人工知能のための哲学塾 東洋哲学篇 第一夜 「荘子と人工知能の解体」
人工知能のための哲学塾 東洋哲学篇 第一夜 「荘子と人工知能の解体」
 
cvpaper.challengeについて
cvpaper.challengeについてcvpaper.challengeについて
cvpaper.challengeについて
 
No borders innovation: how to build a remote working-based “liquid company”
No borders innovation: how to build a remote working-based “liquid company”No borders innovation: how to build a remote working-based “liquid company”
No borders innovation: how to build a remote working-based “liquid company”
 
3 Things Every Sales Team Needs to Be Thinking About in 2017
3 Things Every Sales Team Needs to Be Thinking About in 20173 Things Every Sales Team Needs to Be Thinking About in 2017
3 Things Every Sales Team Needs to Be Thinking About in 2017
 
computer network OSI layer
computer network OSI layercomputer network OSI layer
computer network OSI layer
 
Node-express 채팅 서버 개발기
Node-express 채팅 서버 개발기Node-express 채팅 서버 개발기
Node-express 채팅 서버 개발기
 
Systematic review
Systematic reviewSystematic review
Systematic review
 
CRO y Neuromarketing
CRO y Neuromarketing CRO y Neuromarketing
CRO y Neuromarketing
 
Developing effective research proposal
Developing effective research proposalDeveloping effective research proposal
Developing effective research proposal
 
How to Become a Thought Leader in Your Niche
How to Become a Thought Leader in Your NicheHow to Become a Thought Leader in Your Niche
How to Become a Thought Leader in Your Niche
 
Keynote - AIIM17 -- Forces of Change in Content Management
Keynote - AIIM17 -- Forces of Change in Content ManagementKeynote - AIIM17 -- Forces of Change in Content Management
Keynote - AIIM17 -- Forces of Change in Content Management
 
The CMO's Greatest Enemy -- delivered at SxSW 2017
The CMO's Greatest Enemy -- delivered at SxSW 2017The CMO's Greatest Enemy -- delivered at SxSW 2017
The CMO's Greatest Enemy -- delivered at SxSW 2017
 
HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017HTTPs Migration How To - SMX München 2017
HTTPs Migration How To - SMX München 2017
 

Similar to 【2017.02】cvpaper.challenge2017

[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a MapDeep Learning JP
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
Res netと派生研究の紹介
Res netと派生研究の紹介Res netと派生研究の紹介
Res netと派生研究の紹介masataka nishimori
 
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Masayoshi Kondo
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...Yuki Tomo
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17Masayoshi Kondo
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDeep Learning JP
 
効果的なXPの導入を目的とした プラクティス間の相互作用の分析
効果的なXPの導入を目的とした プラクティス間の相互作用の分析効果的なXPの導入を目的とした プラクティス間の相互作用の分析
効果的なXPの導入を目的とした プラクティス間の相互作用の分析Makoto SAKAI
 
[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation
[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation
[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine TranslationDeep Learning JP
 
Query and output generating words by querying distributed word representatio...
Query and output  generating words by querying distributed word representatio...Query and output  generating words by querying distributed word representatio...
Query and output generating words by querying distributed word representatio...ryoma yoshimura
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)cvpaper. challenge
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...MasanoriSuganuma
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object DetectionDeep Learning JP
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)MasanoriSuganuma
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介Narihira Takuya
 

Similar to 【2017.02】cvpaper.challenge2017 (20)

[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
Res netと派生研究の紹介
Res netと派生研究の紹介Res netと派生研究の紹介
Res netと派生研究の紹介
 
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
Graph-to-Sequence Learning using Gated Graph Neural Networks. [ACL'18] 論文紹介
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
効果的なXPの導入を目的とした プラクティス間の相互作用の分析
効果的なXPの導入を目的とした プラクティス間の相互作用の分析効果的なXPの導入を目的とした プラクティス間の相互作用の分析
効果的なXPの導入を目的とした プラクティス間の相互作用の分析
 
[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation
[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation
[DL輪読会]GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation
 
Query and output generating words by querying distributed word representatio...
Query and output  generating words by querying distributed word representatio...Query and output  generating words by querying distributed word representatio...
Query and output generating words by querying distributed word representatio...
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
 

【2017.02】cvpaper.challenge2017

  • 2. Samarth Brahmbhatt, James Hays, “DeepNav: Learning to Navigate Large Cities”, in arXiv 1701.09135, 2017. 【1】 Keywords: StreetView, CNN, DeepNavigation 新規性・差分 概要 ストリートビューから画像を⼤量に採取して道案内のためのCNNを構築した。提案の データセットには10都市から100万画像を超えるストリートビューの画像が含まれ る。ナビゲーションの課題において3種類の教師あり学習を提案し、A*-searchがどの 程度学習の⽣成に有効かを検証した。データセットは完全にストリートビューのタグ を使⽤した。CNNアーキテクチャに関してはDeepNav-{distance, direction, pair}を提 案。-distanceはVGG16の特徴から⽬的地までの距離を返却(fc8が距離を算出)、- directionは同特徴から⽅向を返却(fc8が各⽬的地・各⽅向のスコアを算出)、-pairは SiameseNetにより構成され、画像のペアから⽅向を算出。 ・⽶国の10都市から100万枚のストリートビュー の画像を収集してデータセットを構成した。本デ ータセットには5種類の⽬的地(Bank of America, Church, Gas Station, High School and McDonald’s)を含む。 ・⼿法としては3つのCNNアーキテクチャを提案 した。従来⼿法[Khosla+, CVPR14]と⽐較の結 果、有効性を⽰した。 ・A*-searchにより経路⽣成を⾏い、これをCNN の教師と設定した Links 論⽂ https://arxiv.org/pdf/1701.09135.pdf 著者 https://samarth-robo.github.io/ サンフランシスコの経路(ノード)と ⽬的地(ピン) DB中に含まれるデータ数と各統計 ←各アルゴリズムの平均ステップ数
  • 3. Florian Schroff, Dmitry Kalenichenko, James Philbin, “FaceNet: A Unified Embedding for Face Recognition and Clustering”, in CVPR, 2015. 【2】 Keywords: Face Recognition, TripletLoss, FaceNet 新規性・差分 概要 顔画像をユークリッド空間として扱えるような特徴マッピング(Embedding)を実 ⾏する。GoogLeNetをベースにしたCNNを、Tripletにより学習することで、128 次元のベクトルで顔画像を扱えるようになり、さらにユークリッド空間において 顔同⼠を⽐較可能。Tripletは(アンカー、ポジティブ(アンカーと同⼀クラ ス)、ネガティブ(アンカーと異なるクラス))により構成され、ユークリッド 空間においてポジティブとできるだけ近くに、ネガティブとできるだけ遠くに配 置するように学習。 ・TripletLossにより顔認識の特徴を計算可能 ・⾮常に単純な特徴でありながら顔認識において(当時の) State-of-the-artを達成した:Labeled Face in the Wild (LFW)で 99.63%、YouTube Faces DBで95.12%を実現した。 ・現在では、TensorFlowやTorchの学習やテストコードが提供さ れている。 Links 論⽂ https://arxiv.org/pdf/1503.03832v3.pdf プロジェクト 資料 http://www.slideshare.net/kaorunasuno/20150611-nasuno TensorFlow実装 https://github.com/davidsandberg/facenet Torch実装 https://github.com/Atcold/torch-TripletEmbedding 顔認識におい て、同⼀⼈物の 距離をできる限 り近く、他⼈と の距離をできる だけ遠くにした い。FaceNetは TripletLossを⽤い ることによりこ れを実現する。 Min-batchによりTripletを⼊⼒、CNNにより特徴を計算してアンカー・ポ ジティブ、アンカー・ネガティブによりTripletLossを学習。 5つのCNNアーキテクチャを考案。 AlexNetをベースにしたZFNetも良好 な精度を出しているが、GoogLeNet がもっとも良い結果となった。ま た、⼊⼒画像も224x224[pixel]が良い という結果に。
  • 4. Abhijit Kundu,Yin Li,Frank Daellert,Fuxin Li,James M. Rehg “Joint Semantic Segmentation and 3D Reconstruction from Monocular Video”, in ECCV, 2014. 【3】 Keywords: 3次元再構成、セマンティックセグメンテーション 新規性・差分 概要 ・⼤規模な屋外シーンのビデオから、3Dコンストラクショ ンとセマンティックセグメンテーション同時に⾏う⼿法を 提案した。左上の図は提案⼿法のイメージ図です。 ・流れとしては、提案⼿法はまず、まず標準的なvisual slam と2Dセマンティックセグメンテーションを⾏う。そ して、そういった情報を利⽤して、データ駆動型の図形モ デルコンストラクションを⾏う。最後に、マップ推定法を ⽤いて、ボクセルごとにラベルを配分する。 ・3dボリュームモデルの3dコンストラクションとセマンティックの 新たに⾼次なcrfモデルを提案した。デンスなデプス情報が必要な し。 ・ダイナミックにcrfモデルのpotentialsをインスタンス化するデータ 駆動型のカテゴリ固定的プロセスを提案した。 ・挑戦的な前進モノクロ序列データセットのcamvidと leuvenで提案 ⼿法を検証した 。検証の結果は右下の図で⽰しているようです。 伝統的なスパースSFMよりデンスで、セマンティックセグメンテー ションの部分は従来⼿法と⽐べて不⼀致の問題を解決した。そし て、ピクセルごとの正確さも⾼いです。 Links 論⽂ http://www.cc.gatech.edu/~dellaert/pubs/Kundu14eccv.pdf
  • 5. Yann N. Dauphin, Angela Fan, Michael Auli, David Grangier, “Language Modeling with Gated Convolutional Networks”, in arXiv 1612.08083, 2016. 【4】 Keywords: Gated CNN, Language Model 新規性・差分 概要 ⾔語モデルの記述は LSTMが多いが、本論⽂では畳み込みを⽤いた ⾔語モデルを提案する。特に、ゲーティングの仕組みを提案し、勾 配の伝播を実⾏する。LSTMを⽤いたOord et al. (2016b)の⼿法と ⽐較するとWikiText-103にて⾼精度かつシンプルなモデルを提供す る。 ・提案されたGated ConvNetを適⽤して、LSTMなど再帰的な構造 を⽤いずに構造化された再帰的構造を破る結果を実現した。 Google Billion Word test setにおいてもっとも良い性能を出した(下 表参照)。 Links 論⽂ https://arxiv.org/pdf/1612.08083.pdf コード https://github.com/YueDayu/gated-cnn Gated ConvNetのアーキテクチ ャ。⼊⼒はテキストをルックアッ プテーブルにて型変換し、ワード 数N x ベクトル次元数 (Embedding) mの空間に投影した もの。隠れ層 h0, … h_Lは の処理を⾏う。X (Nxm次元)は各 層h_lにおける⼊⼒、W (k x m x n 次元)、b (n次元)、V(k x m x n)、c (n次元)は学習するパラメータで、 σはシグモイド関数、⊗はテンソ ル積を表す。
  • 6. Martin Arjovsky, Soumith Chintala, Leon Bottou, “Wasserstein GAN”, in arXiv, 2017.【5】 Keywords: GAN, Generative Model 新規性・差分 概要 モデルの距離計算を新しいモデルで定義。具体的には、 Earth Mover (EM)distanceにより分布を解析するものを提 案した。この、EM distanceを効率的に最⼩化するモデル はWasserstein-GANと呼ばれる。右式は2つの分布の距離 を⽰し、その下式の最⼤化を⾏うことによりWassetstein 距離の近似を⾏う。 ・右の図はLSUNによるシーンの⽣成結果である ・WGANは⽣成画像の崩壊を防ぐとされている ・PyTorchやChainerによるコードが公開されているので、 すぐに試すことができる Links 論⽂ https://arxiv.org/pdf/1611.03530.pdf PyTorchコード https://github.com/martinarjovsky/WassersteinGAN Chainerコード https://github.com/musyoku/wasserstein-gan
  • 7. Geoffrey Hinton, Oriol Vinyals, Jeff Dean, “Distilling the Knowledge in a Neural Network”, in NIPS, 2014. 【6】 Keywords: Knowledge Distillation, CNN 新規性・差分 概要 ⼤きなDNNネットワークのパラメータを⽤いて、⼩さな DNNネットワークのパラメータを更新し、⼩さなモデルで も⼤きなネットワークと同じような精度を実現す る”Knowledge Distillation”を実現した。 ・MNISTにて学習した結果、CNN(⼤; 精度99.3%)のパラ メータをCNN(⼩; 精度98.6%)に教⽰した結果、CNN(⼩)の 精度が99.2%まで向上した。 ・同じタスクを解く際に、⼤きなネットワークから⼩さな ネットワークに転移学習する⽅法を確⽴した。 Links 論⽂ https://arxiv.org/pdf/1503.02531.pdf プロジェクト JFTのテストセットにおいても精度の向上が⾒られた。
  • 8. Yonghui Wu, et al., “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”, in arXiv 1609.08144, 2016. 【7】 Keywords: Machine Transtation, Goolge翻訳 新規性・差分 概要 グーグル翻訳の新機能であるGoogle’s Neural Machine Translation (GNMT) の論⽂。NMTでは⼤規模なデータにおいて翻訳速度が遅くなってしまう問 題があったが、本論⽂ではそれも解決している。翻訳モデルGNMTは Encoder-Decorderの構造を保有し、Residual Connectionを導⼊した8のエ ンコーダ、8のデコーダから構成される。エンコーダもデコーダも深い構造 の⽅がよく、ResNetの枠組みを⽤いると⾔語処理において8層でも勾配消 失を防ぐことができた。 学習は初期段階では最尤訓練を⾏い、次に強化学習を繰り返す。 ・⾼速化のための演算の⼯夫や、レアな単語に対応するためサブワード分割 や⼊⼒を出⼒にコピーして扱う。 ・従来の グーグル翻訳と⽐較するとエラー率を相対的に60%低減することに 成功した。 ・NVIDIA K80 GPU x 96により6⽇間学習@最尤訓練、3⽇間学習@強化学習 を⾏った。 Links 論⽂ https://arxiv.org/pdf/1609.08144.pdf ⽇本語資料 http://www.slideshare.net/ToshiakiNakazawa/gnmt-66491745 Google Research Blog https://research.googleblog.com/2016/09/a-neural-network-for-machine.html 図はGNMTシステムを⽰す。左側はエンコーダ、右はデコー ダネットワーク、中央にはアテンションモジュールが存在。 下層のエンコーダ層は双⽅向(bi-directional)の構造である。 ピンクのエンコーダは順⽅向、緑のエンコーダは逆⽅向の処 理を⽰している。エンコーダ・デコーダにおいてResidual Connectionは3層から開始している。エンコーダ・デコーダ はいずれも8層のLSTMから構成される。分散処理が可能な部 分においては独⽴してGPUを割り当て⾼速化を図る。
  • 9. Emin Orhan, “Skip Connections as Effective Symmetry-Breaking”, in arXiv 1701.09175, 2017.【8】 Keywords: Skip Connection, Residual Learning, Symmetry-Breaking 新規性・差分 概要 ResNetによるスキップコネクションはVeryDeepなDNNを学習するための有 効な⽅法となったが、さらに改善を施すために、Symmetry-Breakingを提案 し、学習⽅法についても⾔及した。(ここで、Symmetry-Breakingとは畳み 込みのカーネルを交換すること?) Dense-Connectionでは残差を多数統合して勾配を強調するため精度は上がる が、理想的な向上は⾒られなかった。⼀⽅でSymmetry-Breakingによる最適 化は勾配爆発・消失問題を解決し、認識タスクにおいて有効であることがわ かった。(が、常に有効であるとは限らない) ・Symmetry-Breakingにより勾配爆発・消失を解決した ・Residual Connectionの仕組みを解明したわけではない が、理想的な学習に近づいた Links 論⽂ https://arxiv.org/pdf/1701.09175v3.pdf プロジェクト (a)通常のFeedforward network (b) Residual netwrok (c) Hyper-residual network:複数の階層をスキップした特徴 マップを統合 (d) Path-residual:相互的にスキップ
  • 10. Wenpeng Yin, Katharina Kann, Mo Yu, Hinrich Schutze, “Comparative Study of CNN and RNN for Natural Language Processing”, in 1702.01923, 2017. 【9】 Keywords: NLP, CNN, RNN 新規性・差分 概要 NLPにおけるCNNやRNNの解析論⽂。 タスクとしてはSentiment Classification, Relation Classification, Textual Entailment, Question Relation Match, Path Query Answering, Part-of-Speech Tagging, ContextDepを含む。 ・CNN, GRU, LSTM (RNN)に加え、タスクによってはBi- directional GRUやBi-directional LSTMを採⽤。右表は各タ スクにおける精度を⽰す。 ・「深さ」と「最適化のバッチサイズ」が性能に影響を与 えることを実証した。 Links 論⽂ https://arxiv.org/pdf/1702.01923v1.pdf プロジェクト NLPにて頻出のDNNフレームワークであるCNN (Convolutional Neural Network), GRU (Gated Recurrent Unit)やRNN (Recurrent Neural Network)
  • 11. Yevhen Kuznietsov, Jorg Stuckler, Bastian Leibe, “Semi-Supervised Deep Learning for Monocular Depth Map Prediction”, in arXiv 1702.02706, 2017. 【10】 Keywords: Semi-supervised learning, depth prediction, ResNet, CNN 新規性・差分 概要 半教師あり学習による⾞載画像のデプスマップ推定をDeep Learning により⾏う。学習時にはステレオ画像やLiDARなどの3次元情報を抽 出・教師としてRGB画像と対応づけることで、テスト時に⾼精度な距 離画像を⽣成することができる。 教師あり/教師なしが混ざっていてもシームレスに学習可能な誤差関 数を提案した。式(5)は誤差関数を⽰し、トレードオフパラメータは教 師あり(第⼀項)、教師なし(第⼆項)、正規化項(第三項)に存 在。θはCNNのパラメータであり、I_l, I_rは左右ステレオ画像、Z_l, Z_rは左右に対応するLiDARの3次元情報である。ネットワーク構造は ResNet-50をベースとしてエンコーダとして⽤いるが、さらに Upsampling層も追加してデコーダとして動作する。 ・教師あり・教師なし学習により距離画像を推定する枠 組みを提案し、さらには誤差関数を提案した。 ・ResNet-50をベースとしたエンコーダ・デコーダによ るアーキテクチャにより距離画像推定においてもっとも 良い値を出した。 Links 論⽂ https://arxiv.org/pdf/1702.02706.pdf プロジェクト RGBからの距離画 像推定と、その教 師である「ステレ オ画像」や 「LiDARの距離情 報」。Semi- supervised学習が 可能となる。
  • 12. Xiang Zhang, Yann LeCun, “Text Understanding from Scratch”, in arXiv 1502.01710, 2015. 【11】 Keywords: Language Model, Text Understanding 新規性・差分 概要 ⾔語モデルについて、単語レベルの⼊⼒ではなく、(ちょ うど画像に対するピクセルのように)⽂章を⽂字という Low-levelな特徴の集合体として扱うことにより、画像のよ うな解析ができるのはないかという発想。 ・形態素解析や単語の分割、意味レベルの辞書を使⽤する ことなく⾔語モデルを構築することができる(ルックアッ プテーブルやWord2Vecを⽤いることなく⽂章解析ができ る) ・DBPediaによるwikipediaのオントロジー判別にて98% ・Amazon Review Sentiment Analysis (評判推定)にてフル スコア59%、Polarity dataにて95%を達成。 ・Yahoo! Answers dataにて71%を達成。 Links 論⽂ https://arxiv.org/pdf/1502.01710v5.pdf GitHub https://github.com/zhangxiangxiao/Crepe 著者 http://xzh.me/ 図は本論⽂におけるCNNの概念図である。ひとつのネットワークは9層によ り構成され、うち6層が畳み込みやプーリング、3層が全結合層と出⼒層によ るものである。単語単位ではなく⽂字単位で畳み込みを⾏い、特徴抽出を⾏ う。 表はCNNアーキテクチャの構成について
  • 13. Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick, “CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning”, in arXiv 1612.06890, 2016. 【12】 Keywords: VQA 新規性・差分 概要 画像による質問回答 (VQA; Visual Question Answering)の ための新しい取り組みで、回答に対する診断(Reasoning)を詳細にできるよ うにし、さらにデータセットも提案する。データセットであるCLEVRは多 側⾯からの質問が⽤意されており、属性・カウント・⽐較・空間的な位置 関係・論理的な操作がそれにあたる。質問は⾃然⾔語により構成され、画 像解析により質問への回答を⽣成する。 ・従来のVQAでは画像やテキストの学 習を⾏い、画像の意味を理解していな いまま回答していたが、本論⽂のデー タセットでは詳細な理由付けまで⾏え るようにした ・この問題を設定するために、 Compositional Language and Elementary Visual Reasoning diagnostics dataset (CLEVR)を提供。 同データは100Kの画像や1M(うち853K はオリジナル)の⾃動⽣成された質問⽂ を含んでいる。 Links 論⽂ https://arxiv.org/pdf/1612.06890v1.pdf プロジェクト(データセットあり) http://cs.stanford.edu/people/jcjohns/clevr/ 下の精度⽐較のグラフでは、 LSTMやCNN+BoW, CNN +LSTM (+MCB, +SA)による⽐ 較を⾏っている。
  • 14. Sergey Ioffe, “Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models”, in arXiv 1702.03275, 2017. 【13】 Keywords: Batch Renormalization 新規性・差分 概要 ミニバッチのサイズが⼩さい場合や、学習とテスト時の活性化の値の 値域に差異が⽣じる問題を解決するため、Batch Renormalizationを提 案。移動平均を使ってシフトを⾏い、徐々にバッチ内からデータ全体 へ正規化を⾏うことで、互いに独⽴で同⼀の分布に従わない(Non- i.i.d.)もしくは⼩さいバッチにおいても正規化が⾏えるよう改善し た。また、従来のBatch Norm.の際の初期値によらない最適化や学習 の効率という利点も残している。 ・右図参照 Links 論⽂ https://arxiv.org/pdf/1702.03275.pdf PyTorch実装 https://github.com/rarilurelo/batch_renormalization
  • 15. Dayong Wang, Charles Otto, Anil K. Jain, “Face Search at Scale: 80 Million Gallery”, in arXiv 1507.07242, 2015. 【14】 Keywords: Face Recognition, Large-scale database 新規性・差分 概要 Facebookでは2013年の時点ですでに2500億の写真が、そ して毎⽇3.5億枚の画像が追加されている。本論⽂では 8000万枚の画像データベースを構築し、顔画像検索を実利 ⽤するための条件について検討した。 ・LFWにて98.23% (accuracy)、 verification rate 87.65%を実現 ・IJB-A benchmarkではrank-1の検索精 度が82.0%を実現 ・⼤規模データにおける精度やスケール 性において良好なトレードオフを実現 ・ボストンマラソンの爆破事件における 犯⼈探索問題において500万の顔画像か らrank-1を1秒で検索、8000万の顔画像 からrank-8を7秒で検索を実現した。 Links 論⽂ https://arxiv.org/pdf/1507.07242v2.pdf プロジェクト
  • 16. Andrew Zhai, Dmitry Kislyuk, Yushi Jing, Michael Feng, Eric Tzeng, Jeff Donahue, Yue Li Du, Trevor Darrell, “Visual Discovery at Pinterest”, in arXiv 1702.04680, 2017. 【15】 Keywords: Object Detection, Pinterest, SNS 新規性・差分 概要 Pinterestは過去数年に渡りRelated Pins (2014), Similar Looks (2015), Flashlight (2016), Lens (2017)とサービスを 向上させてきた。それらの機能紹介について書かれてい る。 ・Pinterestの機能について紹介する とともに実験についても詳細に⾏っ た。論⽂中ではAlexNet, GoogLeNet, VGG16, ResNet-101, -152などの活性化特徴と精度につい ての対応表が⽰されている。また、 物体検出においてもFaster R-CNN やSSDについて検討を⾏った。 Links 論⽂ https://arxiv.org/pdf/1702.04680.pdf プロジェクト Pinterest Flashlight(左): ユーザは画像 中に含まれる物体を選択して検索するこ とができる。Flashlight(下): 物体が⾃動検 出された際に、クリック可能なドットが 表⽰されナビを⾏う。 Pinterest Lens(左): 画像単位ではな く、物体単位にクリップして検索を⾏い やすくする。画像内の物体を検出・クロ ップして検索可能な形式にする。
  • 17. Keita Higuchi, Ryo Yonetani, Yoichi Sato, “EgoScanning: Quickly Scanning First-Person Videos with Egocentric Elastic Timelines”, in CHI, 2017. 【16】 Keywords: First-Person Videos, User Interfaces 新規性・差分 概要 ⼀⼈称カメラにて、⼤量のビデオから重要なイベントを検索する⽅法 について提案。ビデオのタイムラインにて、重要なイベントの速度を 適応的に変換してプレイバック・⼀⼈称の重要な⼿がかりをピックア ップするため、⼈物の操作、動作、会話を認識する。 ・適応的な動画再⽣速度の変換により、より多くのビデオ を短時間で閲覧可能となった ・ビデオを部分的に強調することによりユーザーに対して より効果的な視聴を可能とする ・ユーザの興味に応じてより適応的にイベントを⾒せる事 ができるようになった Links 論⽂ http://keihigu.github.io/preprint/HYS-CHI2017-preprint.pdf 著者 http://keihigu.github.io/
  • 18. Vlad Firoiu, William F. Whitney, Joshua B. Tenenbaum, “Beating the World’s Best at Super Smash Bros. Melee with Deep Reinforcement Learning”, in arXiv 1702.06230, 2017. 【17】 Keywords: Deep Reinforcement Learning, Super Smash Brothers (Nintendo) 新規性・差分 概要 任天堂スーパースマッシュブラザーズを強化学習してプレイするコンピュー タを研究開発した。強化学習にはDeep Reinforcement Learningを適⽤。学習 には⾏動と将来の報酬をマッピングする関数を学習するQ-Learningを採⽤ (式1)。Riはゲームのルールに従い内的に依存関係にある。式2が⽬的関 数であり、Qはニューラルネットにより推定、バッチによるSGDによりLの パラメータを学習する。式2の2番⽬のQは将来の報酬が最⼤になるよう勾 配を計算する。キャラクターはもっともポピュラーであることから、キャプ テンファルコンを選択した。提案法は2時間くらいで報酬を効率的に学習し た(右グラフ)。 ・⼈間のプロフェッショナル(なゲーマー?)を倒すくらいのコンピ ュータゲーマーが爆誕した ・複数⼈物がプレイするゲームにおいても強化学習が有効であることを ⽰した Links 論⽂ https://arxiv.org/pdf/1702.06230v1.pdf ベースライン(OpenAI Gym) https://github.com/openai/universe-starter-agent
  • 19. Timnit Gebru, Jonathan Krause, Yilun Wang, Duyun Chen, Jia Deng, Erez Lieberman Aiden, Li Fei-Fei, “Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US”, in arXiv 1702.06683, 2017. 【18】 Keywords: 新規性・差分 概要 アメリカの経済など社会的な動向をGoogle Street Viewに おける5000万枚の画像から明らかにするという研究。アメ リカの200以上の都市から⾃動⾞により収集された。本研 究ではCNNにより⾃動⾞の⾞種(2,657カテゴリ)を推 定。 ・アメリカの⾃動⾞の推定やその動向から、アメリカの社 会学的な動きを推定する事ができると主張した Links 論⽂ https://arxiv.org/pdf/1702.06683v1.pdf プロジェクト
  • 20. , “Barcode Imaging using a Light Field Camera”, in LF4CV, 2014. 【19】 Keywords: Light field camera, Barcode imaging, Spatial frequency 新規性・差分 概要 ・従来2Dバーコードの読み取りに使⽤される2Dスキャ ナは固定焦点であり、ユーザは、バーコードを⼿動でスキ ャナに近づけたり遠ざけたりしてスキャナの被写界深度内 に確実に移動させる必要があった。 本稿ではライトフィールドカメラを⽤いたバーコードスキ ャニングシステムを提案する。LytroやRaytrixなどのライ トフィールドカメラでは、マイクロレンズアレイを使⽤し て、シーンの複数のビューを取得することで、キャプチ ャー後に複数のフォーカスを合成ことができる。 ・ライトフィールドカメラによるバーコードスキャニング を提案した ・2Dイメージャと⽐較して、深さの推定という計算コス トがかかるが、従来のカメラに⽐べて3倍近くの被写界深 度が得られた。 ・バーコードイメージレンダリングを⾏うことにより計算 コストを低減している。 Links 論⽂ http://vigir.missouri.edu/~gdesouza/Research/Conference_CDs/ECCV_2014/ workshops/w14/Guo-et-al-LF4CV2014.pdf バーコード領域のレンダリングの結果 歪みが⼤きいと失敗する場合もある
  • 21. Carl Vondrick, Hamed Pirsiavash, Antonio Torralba, “Anticipating Visual Representations from Unlabeled Video”, in CVPR, 2016. 【20】 Keywords: Action Prediction 新規性・差分 概要 ⾏動予測のためのラベル付けが⾏われていないビデオから、ハイレベ ルな⾏動ラベルや物体ラベルを予測する。⾏動ラベルについては⼀ 秒、物体ラベルについては五秒先まで予測できた。式(1)は誤差w を⽰し、誤差を最⼩化することで特徴表現を学習する。φ(x)は未来の 特徴表現(正解値)、g(x)は与えられた特徴表現から未来の特徴表現 を予測する関数。特徴表現にはAlexNetのfc7を⽤いる。誤差関数には ユークリッド誤差を⽤いる。複数のありうる未来に対応すべく、 Mixture of K Networksの表現を採⽤。学習には600時間もの動画を含 むTelevision Shows DataとTHUMOSにより学習する。 ・新規性としては、ピクセルの予測やカテゴリの予測より も、特徴表現を予測することである。 ・予測した特徴表現から、⾏動ラベルや物体のラベルを推 定可能。⾏動は1秒、物体は5秒先まで予測が可能。 Links 論⽂ http://web.mit.edu/vondrick/prediction.pdf プロジェクト http://web.mit.edu/vondrick/prediction/ (右図)ラベルなしのビデ オからいかに⼈物⾏動を予 測するかを考える。(下 図)ビデオに対する⾏動予 測のダイアグラム。現在フ レームと未来のフレームか ら特徴表現を⾏い、その差 分により誤差を計算する。 ラベルをちょくせつよそく するのではなく、特徴量を 予測し、同特徴から⾏動や 物体を推定する。