2. Samarth Brahmbhatt, James Hays, “DeepNav: Learning to Navigate Large Cities”, in arXiv 1701.09135,
2017.
【1】
Keywords: StreetView, CNN, DeepNavigation
新規性・差分
概要
ストリートビューから画像を⼤量に採取して道案内のためのCNNを構築した。提案の
データセットには10都市から100万画像を超えるストリートビューの画像が含まれ
る。ナビゲーションの課題において3種類の教師あり学習を提案し、A*-searchがどの
程度学習の⽣成に有効かを検証した。データセットは完全にストリートビューのタグ
を使⽤した。CNNアーキテクチャに関してはDeepNav-{distance, direction, pair}を提
案。-distanceはVGG16の特徴から⽬的地までの距離を返却(fc8が距離を算出)、-
directionは同特徴から⽅向を返却(fc8が各⽬的地・各⽅向のスコアを算出)、-pairは
SiameseNetにより構成され、画像のペアから⽅向を算出。
・⽶国の10都市から100万枚のストリートビュー
の画像を収集してデータセットを構成した。本デ
ータセットには5種類の⽬的地(Bank of
America, Church, Gas Station, High School and
McDonald’s)を含む。
・⼿法としては3つのCNNアーキテクチャを提案
した。従来⼿法[Khosla+, CVPR14]と⽐較の結
果、有効性を⽰した。
・A*-searchにより経路⽣成を⾏い、これをCNN
の教師と設定した
Links
論⽂ https://arxiv.org/pdf/1701.09135.pdf
著者 https://samarth-robo.github.io/
サンフランシスコの経路(ノード)と
⽬的地(ピン)
DB中に含まれるデータ数と各統計
←各アルゴリズムの平均ステップ数
3. Florian Schroff, Dmitry Kalenichenko, James Philbin, “FaceNet: A Unified Embedding for Face
Recognition and Clustering”, in CVPR, 2015.
【2】
Keywords: Face Recognition, TripletLoss, FaceNet
新規性・差分
概要
顔画像をユークリッド空間として扱えるような特徴マッピング(Embedding)を実
⾏する。GoogLeNetをベースにしたCNNを、Tripletにより学習することで、128
次元のベクトルで顔画像を扱えるようになり、さらにユークリッド空間において
顔同⼠を⽐較可能。Tripletは(アンカー、ポジティブ(アンカーと同⼀クラ
ス)、ネガティブ(アンカーと異なるクラス))により構成され、ユークリッド
空間においてポジティブとできるだけ近くに、ネガティブとできるだけ遠くに配
置するように学習。
・TripletLossにより顔認識の特徴を計算可能
・⾮常に単純な特徴でありながら顔認識において(当時の)
State-of-the-artを達成した:Labeled Face in the Wild (LFW)で
99.63%、YouTube Faces DBで95.12%を実現した。
・現在では、TensorFlowやTorchの学習やテストコードが提供さ
れている。
Links
論⽂ https://arxiv.org/pdf/1503.03832v3.pdf
プロジェクト
資料 http://www.slideshare.net/kaorunasuno/20150611-nasuno
TensorFlow実装 https://github.com/davidsandberg/facenet
Torch実装 https://github.com/Atcold/torch-TripletEmbedding
顔認識におい
て、同⼀⼈物の
距離をできる限
り近く、他⼈と
の距離をできる
だけ遠くにした
い。FaceNetは
TripletLossを⽤い
ることによりこ
れを実現する。
Min-batchによりTripletを⼊⼒、CNNにより特徴を計算してアンカー・ポ
ジティブ、アンカー・ネガティブによりTripletLossを学習。
5つのCNNアーキテクチャを考案。
AlexNetをベースにしたZFNetも良好
な精度を出しているが、GoogLeNet
がもっとも良い結果となった。ま
た、⼊⼒画像も224x224[pixel]が良い
という結果に。
4. Abhijit Kundu,Yin Li,Frank Daellert,Fuxin Li,James M. Rehg “Joint Semantic Segmentation and 3D
Reconstruction from Monocular Video”, in ECCV, 2014.
【3】
Keywords: 3次元再構成、セマンティックセグメンテーション
新規性・差分
概要
・⼤規模な屋外シーンのビデオから、3Dコンストラクショ
ンとセマンティックセグメンテーション同時に⾏う⼿法を
提案した。左上の図は提案⼿法のイメージ図です。
・流れとしては、提案⼿法はまず、まず標準的なvisual
slam と2Dセマンティックセグメンテーションを⾏う。そ
して、そういった情報を利⽤して、データ駆動型の図形モ
デルコンストラクションを⾏う。最後に、マップ推定法を
⽤いて、ボクセルごとにラベルを配分する。
・3dボリュームモデルの3dコンストラクションとセマンティックの
新たに⾼次なcrfモデルを提案した。デンスなデプス情報が必要な
し。
・ダイナミックにcrfモデルのpotentialsをインスタンス化するデータ
駆動型のカテゴリ固定的プロセスを提案した。
・挑戦的な前進モノクロ序列データセットのcamvidと leuvenで提案
⼿法を検証した 。検証の結果は右下の図で⽰しているようです。
伝統的なスパースSFMよりデンスで、セマンティックセグメンテー
ションの部分は従来⼿法と⽐べて不⼀致の問題を解決した。そし
て、ピクセルごとの正確さも⾼いです。
Links
論⽂ http://www.cc.gatech.edu/~dellaert/pubs/Kundu14eccv.pdf
5. Yann N. Dauphin, Angela Fan, Michael Auli, David Grangier, “Language Modeling with Gated
Convolutional Networks”, in arXiv 1612.08083, 2016.
【4】
Keywords: Gated CNN, Language Model
新規性・差分
概要
⾔語モデルの記述は LSTMが多いが、本論⽂では畳み込みを⽤いた
⾔語モデルを提案する。特に、ゲーティングの仕組みを提案し、勾
配の伝播を実⾏する。LSTMを⽤いたOord et al. (2016b)の⼿法と
⽐較するとWikiText-103にて⾼精度かつシンプルなモデルを提供す
る。
・提案されたGated ConvNetを適⽤して、LSTMなど再帰的な構造
を⽤いずに構造化された再帰的構造を破る結果を実現した。
Google Billion Word test setにおいてもっとも良い性能を出した(下
表参照)。
Links
論⽂ https://arxiv.org/pdf/1612.08083.pdf
コード https://github.com/YueDayu/gated-cnn
Gated ConvNetのアーキテクチ
ャ。⼊⼒はテキストをルックアッ
プテーブルにて型変換し、ワード
数N x ベクトル次元数
(Embedding) mの空間に投影した
もの。隠れ層 h0, … h_Lは
の処理を⾏う。X (Nxm次元)は各
層h_lにおける⼊⼒、W (k x m x n
次元)、b (n次元)、V(k x m x n)、c
(n次元)は学習するパラメータで、
σはシグモイド関数、⊗はテンソ
ル積を表す。
6. Martin Arjovsky, Soumith Chintala, Leon Bottou, “Wasserstein GAN”, in arXiv, 2017.【5】
Keywords: GAN, Generative Model
新規性・差分
概要
モデルの距離計算を新しいモデルで定義。具体的には、
Earth Mover (EM)distanceにより分布を解析するものを提
案した。この、EM distanceを効率的に最⼩化するモデル
はWasserstein-GANと呼ばれる。右式は2つの分布の距離
を⽰し、その下式の最⼤化を⾏うことによりWassetstein
距離の近似を⾏う。
・右の図はLSUNによるシーンの⽣成結果である
・WGANは⽣成画像の崩壊を防ぐとされている
・PyTorchやChainerによるコードが公開されているので、
すぐに試すことができる
Links
論⽂ https://arxiv.org/pdf/1611.03530.pdf
PyTorchコード
https://github.com/martinarjovsky/WassersteinGAN
Chainerコード https://github.com/musyoku/wasserstein-gan
7. Geoffrey Hinton, Oriol Vinyals, Jeff Dean, “Distilling the Knowledge in a Neural Network”, in NIPS, 2014.
【6】
Keywords: Knowledge Distillation, CNN
新規性・差分
概要
⼤きなDNNネットワークのパラメータを⽤いて、⼩さな
DNNネットワークのパラメータを更新し、⼩さなモデルで
も⼤きなネットワークと同じような精度を実現す
る”Knowledge Distillation”を実現した。
・MNISTにて学習した結果、CNN(⼤; 精度99.3%)のパラ
メータをCNN(⼩; 精度98.6%)に教⽰した結果、CNN(⼩)の
精度が99.2%まで向上した。
・同じタスクを解く際に、⼤きなネットワークから⼩さな
ネットワークに転移学習する⽅法を確⽴した。
Links
論⽂ https://arxiv.org/pdf/1503.02531.pdf
プロジェクト
JFTのテストセットにおいても精度の向上が⾒られた。
8. Yonghui Wu, et al., “Google’s Neural Machine Translation System: Bridging the Gap between Human
and Machine Translation”, in arXiv 1609.08144, 2016.
【7】
Keywords: Machine Transtation, Goolge翻訳
新規性・差分
概要
グーグル翻訳の新機能であるGoogle’s Neural Machine Translation (GNMT)
の論⽂。NMTでは⼤規模なデータにおいて翻訳速度が遅くなってしまう問
題があったが、本論⽂ではそれも解決している。翻訳モデルGNMTは
Encoder-Decorderの構造を保有し、Residual Connectionを導⼊した8のエ
ンコーダ、8のデコーダから構成される。エンコーダもデコーダも深い構造
の⽅がよく、ResNetの枠組みを⽤いると⾔語処理において8層でも勾配消
失を防ぐことができた。
学習は初期段階では最尤訓練を⾏い、次に強化学習を繰り返す。
・⾼速化のための演算の⼯夫や、レアな単語に対応するためサブワード分割
や⼊⼒を出⼒にコピーして扱う。
・従来の グーグル翻訳と⽐較するとエラー率を相対的に60%低減することに
成功した。
・NVIDIA K80 GPU x 96により6⽇間学習@最尤訓練、3⽇間学習@強化学習
を⾏った。
Links
論⽂ https://arxiv.org/pdf/1609.08144.pdf
⽇本語資料 http://www.slideshare.net/ToshiakiNakazawa/gnmt-66491745
Google Research Blog https://research.googleblog.com/2016/09/a-neural-network-for-machine.html
図はGNMTシステムを⽰す。左側はエンコーダ、右はデコー
ダネットワーク、中央にはアテンションモジュールが存在。
下層のエンコーダ層は双⽅向(bi-directional)の構造である。
ピンクのエンコーダは順⽅向、緑のエンコーダは逆⽅向の処
理を⽰している。エンコーダ・デコーダにおいてResidual
Connectionは3層から開始している。エンコーダ・デコーダ
はいずれも8層のLSTMから構成される。分散処理が可能な部
分においては独⽴してGPUを割り当て⾼速化を図る。
18. Vlad Firoiu, William F. Whitney, Joshua B. Tenenbaum, “Beating the World’s Best at Super Smash Bros.
Melee with Deep Reinforcement Learning”, in arXiv 1702.06230, 2017.
【17】
Keywords: Deep Reinforcement Learning, Super Smash Brothers (Nintendo)
新規性・差分
概要
任天堂スーパースマッシュブラザーズを強化学習してプレイするコンピュー
タを研究開発した。強化学習にはDeep Reinforcement Learningを適⽤。学習
には⾏動と将来の報酬をマッピングする関数を学習するQ-Learningを採⽤
(式1)。Riはゲームのルールに従い内的に依存関係にある。式2が⽬的関
数であり、Qはニューラルネットにより推定、バッチによるSGDによりLの
パラメータを学習する。式2の2番⽬のQは将来の報酬が最⼤になるよう勾
配を計算する。キャラクターはもっともポピュラーであることから、キャプ
テンファルコンを選択した。提案法は2時間くらいで報酬を効率的に学習し
た(右グラフ)。
・⼈間のプロフェッショナル(なゲーマー?)を倒すくらいのコンピ
ュータゲーマーが爆誕した
・複数⼈物がプレイするゲームにおいても強化学習が有効であることを
⽰した
Links
論⽂ https://arxiv.org/pdf/1702.06230v1.pdf
ベースライン(OpenAI Gym)
https://github.com/openai/universe-starter-agent
19. Timnit Gebru, Jonathan Krause, Yilun Wang, Duyun Chen, Jia Deng, Erez Lieberman Aiden, Li Fei-Fei,
“Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US”, in arXiv
1702.06683, 2017.
【18】
Keywords:
新規性・差分
概要
アメリカの経済など社会的な動向をGoogle Street Viewに
おける5000万枚の画像から明らかにするという研究。アメ
リカの200以上の都市から⾃動⾞により収集された。本研
究ではCNNにより⾃動⾞の⾞種(2,657カテゴリ)を推
定。
・アメリカの⾃動⾞の推定やその動向から、アメリカの社
会学的な動きを推定する事ができると主張した
Links
論⽂ https://arxiv.org/pdf/1702.06683v1.pdf
プロジェクト
20. , “Barcode Imaging using a Light Field Camera”, in LF4CV, 2014.
【19】
Keywords: Light field camera, Barcode imaging, Spatial frequency
新規性・差分
概要
・従来2Dバーコードの読み取りに使⽤される2Dスキャ
ナは固定焦点であり、ユーザは、バーコードを⼿動でスキ
ャナに近づけたり遠ざけたりしてスキャナの被写界深度内
に確実に移動させる必要があった。
本稿ではライトフィールドカメラを⽤いたバーコードスキ
ャニングシステムを提案する。LytroやRaytrixなどのライ
トフィールドカメラでは、マイクロレンズアレイを使⽤し
て、シーンの複数のビューを取得することで、キャプチ
ャー後に複数のフォーカスを合成ことができる。
・ライトフィールドカメラによるバーコードスキャニング
を提案した
・2Dイメージャと⽐較して、深さの推定という計算コス
トがかかるが、従来のカメラに⽐べて3倍近くの被写界深
度が得られた。
・バーコードイメージレンダリングを⾏うことにより計算
コストを低減している。
Links
論⽂
http://vigir.missouri.edu/~gdesouza/Research/Conference_CDs/ECCV_2014/
workshops/w14/Guo-et-al-LF4CV2014.pdf
バーコード領域のレンダリングの結果
歪みが⼤きいと失敗する場合もある
21. Carl Vondrick, Hamed Pirsiavash, Antonio Torralba, “Anticipating Visual Representations from Unlabeled
Video”, in CVPR, 2016.
【20】
Keywords: Action Prediction
新規性・差分
概要
⾏動予測のためのラベル付けが⾏われていないビデオから、ハイレベ
ルな⾏動ラベルや物体ラベルを予測する。⾏動ラベルについては⼀
秒、物体ラベルについては五秒先まで予測できた。式(1)は誤差w
を⽰し、誤差を最⼩化することで特徴表現を学習する。φ(x)は未来の
特徴表現(正解値)、g(x)は与えられた特徴表現から未来の特徴表現
を予測する関数。特徴表現にはAlexNetのfc7を⽤いる。誤差関数には
ユークリッド誤差を⽤いる。複数のありうる未来に対応すべく、
Mixture of K Networksの表現を採⽤。学習には600時間もの動画を含
むTelevision Shows DataとTHUMOSにより学習する。
・新規性としては、ピクセルの予測やカテゴリの予測より
も、特徴表現を予測することである。
・予測した特徴表現から、⾏動ラベルや物体のラベルを推
定可能。⾏動は1秒、物体は5秒先まで予測が可能。
Links
論⽂ http://web.mit.edu/vondrick/prediction.pdf
プロジェクト http://web.mit.edu/vondrick/prediction/
(右図)ラベルなしのビデ
オからいかに⼈物⾏動を予
測するかを考える。(下
図)ビデオに対する⾏動予
測のダイアグラム。現在フ
レームと未来のフレームか
ら特徴表現を⾏い、その差
分により誤差を計算する。
ラベルをちょくせつよそく
するのではなく、特徴量を
予測し、同特徴から⾏動や
物体を推定する。