SlideShare a Scribd company logo
1 of 42
Download to read offline
宇土 敬祐
February 23, 2016
Denso IT Laboratory
NIPS2015 参加報告
2/23/2016 @utotch 1
http://papers.nips.cc/book/advances-in-neural-
information-processing-systems-28-2015
[出典]
当文書内の図・グラフ等は以下の
各論文から引用したものです
NIPS2015 基本情報
NIPS(Neural Information Processin System)
機械学習分野のトップカンファレンス(毎年開催)
開催日時
2015/12/6-12/14
場所
Montreal Convention and Exhibition Center (モントリ
オール@カナダ。昨年と同じ)
2/23/2016 @utotch 2
NIPS2015 概要
 参加者が激増
 約2500人@2014 → 3500超@2015
 企業からの聴講者多数
 Deep Learning バブル的様相
 Invited Talk
 Vapnik さん、 川人光男さん
 ポスター発表
 例年通り 深夜24:00 まで盛況
 盛況すぎて見れない程..
2/23/2016 @utotch 3
研究動向(私見)
 Deep Learning は”基本ツール”として定着
Recurrent NN も含め、あの手この手で使いこなすネタが
沢山
長期記憶的なものを実現する試みがトレンド?
 定番化してきたもの
Submodular Optimization, Submodular 構造の活用・拡張
Bayesian Optimization
 萌芽しつつあるもの
Optimal Transport 系 (Wasserstein Distance, etc)
 Game 理論系の話が増えた?
 時系列解析等 non-i.i.d なデータを扱うテーマも着目
度が向上
非定常時系列解析の理論, Time Series Workshop
2/23/2016 @utotch 4
Best papers
Competitive Distribution Estimation- Why is Good-
Turing Good(Alon Orlitsky, Ananda Theertha
Suresh)
離散事象の確率分布推定アルゴリズムの理論解析
(後述)
Fast Convergence of Regularized Learning in
Games(Vasilis Syrgkanis, Alekh Agarwal, Haipeng
Luo, Robert E. Schapire)
マルチプレイヤーゲームの No-Regret Learning
2/23/2016 @utotch 5
2/23/2016 @utotch 6
着目した論文の紹介
End-To-End Memory Networks
7
【分野】記憶機能のある neural network
【概要】事実が記述された文章を記憶し、過去の事実を参照するタスクを実行できる neural
network の提案。入出力のペアから学習できる(End-To-End)。
【着目ポイント】長期記憶的な機能を実現する技術動向の一つとして注目した。
Sainbayar Sukhbaatar, arthur szlam, Jason Weston, Rob Fergus
Sukhbaatar, Sainbayar, Jason Weston, and Rob Fergus. "End-to-end memory networks." Advances in Neural Information Processing Systems.
2015.
[出典]
2/23/2016 @utotch
End-To-End Memory Networks
8
Sainbayar Sukhbaatar, arthur szlam, Jason Weston, Rob Fergus
事実を記述した文章リスト、「クエリ文章」と「回答単語」のペア、から 行列 A,B,C,W を学習
事実を記述した文章
リスト(離散値表現)
各文章𝑥𝑥𝑖𝑖を連続値表現𝑚𝑚𝑖𝑖, 𝑐𝑐𝑖𝑖 , に変換。
時系列情報を保ったまま保持
しくみの概要
2/23/2016 @utotch
End-To-End Memory Networks
 前ページの構造を多層にする(Multipl Memory Hop)
9
Sainbayar Sukhbaatar, arthur szlam, Jason Weston, Rob Fergus
事実を記述した文章
リスト(離散値表現)
各文章𝑥𝑥𝑖𝑖を連続値表現𝑚𝑚𝑖𝑖に変換。
時系列情報を保ったまま保持
Single Memory Hop Multiple Memory Hop
2/23/2016 @utotch
End-To-End Memory Networks
10
Sainbayar Sukhbaatar, arthur szlam, Jason Weston, Rob Fergus
各Hop で参照された Sentence と確率
各メモリ位置の Average Acitivation weight
2/23/2016 @utotch
Deep Visual Analogy-Making
11
【要約】画像と画像の高次の対応(アナロジー)をDeep Neural Network で学習。入力画像に
アナロジーで対応する出力画像を直接生成できる。
【着目ポイント】明示的な特徴量設計を行わずに、高次の対応(異なる視点でのキャラクター
間の対応など)を学習できている点は興味深い
Scott E. Reed, Yi Zhang, Yuting Zhang, Honglak Lee
A : B = C : ?
Reed, Scott E., et al. "Deep Visual Analogy-Making." Advances in Neural Information Processing Systems. 2015.
[出典]
2/23/2016 @utotch
Deep Visual Analogy-Making
12
Scott E. Reed, Yi Zhang, Yuting Zhang, Honglak Lee
実際の処理結果例
2/23/2016 @utotch
Deep Visual Analogy-Making
13
Scott E. Reed, Yi Zhang, Yuting Zhang, Honglak Lee
実際の処理結果
2/23/2016 @utotch
Deep Visual Analogy-Making
14
Scott E. Reed, Yi Zhang, Yuting Zhang, Honglak Lee
ネットワーク構造
2/23/2016 @utotch
Deep Visual Analogy-Making
15
Scott E. Reed, Yi Zhang, Yuting Zhang, Honglak Lee
Shape Analogy の実験結果 Add と mul は Rotation の性能が低い
2/23/2016 @utotch
Spectral Representations for Convolutional Neural Networks
16
【要約】(空間表現ではなく)周波数表現で CNN を構成することで、画像分類タスクを高精度
に実現し、また学習を高速化することができた。Max-Pooling の部分を Spectral Pooling で置
き換えてネットワークを構成することで実現。
【着目理由】周波数表現を使うだけで、改善効果が得られるのは驚き。シンプルな着眼だが、
非常に実用的な方法になりうるかもしれない。
Oren Rippel, Jasper Snoek, Ryan P. Adams
[出典]
Rippel, Oren, Jasper Snoek, and Ryan P. Adams. "Spectral Representations for Convolutional Neural Networks." Advances in Neural
Information Processing Systems. 2015.
2/23/2016 @utotch
Spectral Representations for Convolutional Neural Networks
17
Oren Rippel, Jasper Snoek, Ryan P. Adams
画像分類タスクの性能改善例
2/23/2016 @utotch
Spectral Representations for Convolutional Neural Networks
18
Oren Rippel, Jasper Snoek, Ryan P. Adams
学習曲線の空間表現との比較
2/23/2016 @utotch
Interactive Control of Diverse Complex Characters with Neural Networks
19
【背景】様々なキャラクターの制御を個別に作り込んで設計するのではなく、同じ枠組みで
制御器を自動生成したい
【概要】Recurrent Neural Network による状態フィードバック制御器を学習する枠組みの提案。
モーションキャプチャ・タスク個別の特徴量設計等なしに、異なる制御対象の制御器を自動
生成できる。
【着目理由】NNによる学習で制御を実現している例として興味深い。異なるダイナミクスの
制御対象を統一的な枠組みで制御できている点が興味深い。
※正確には、Control Policy の学習ではなく、Policy を実現する Dynamics を学習している
Igor Mordatch, Kendall Lowrey, Galen Andrew, Zoran Popovic, Emanuel V. Todorov
Mordatch, Igor, et al. "Interactive Control of Diverse Complex Characters with Neural Networks." Advances in Neural
Information Processing Systems. 2015.
[出典]
2/23/2016 @utotch
Interactive Control of Diverse Complex Characters with Neural Networks
20
Igor Mordatch, Kendall Lowrey, Galen Andrew, Zoran Popovic, Emanuel V. Todorov
http://www.eecs.berkeley.edu/~igor.mordatch/policy/index.html
2/23/2016 @utotch
Interactive Control of Diverse Complex Characters with Neural Networks
21
Igor Mordatch, Kendall Lowrey, Galen Andrew, Zoran Popovic, Emanuel V. Todorov
𝑋𝑋1
∗
= argmin
𝑋𝑋
𝐶𝐶𝐶𝐶𝐶𝐶𝑡𝑡1 𝑋𝑋
𝜽𝜽∗ = argmin
𝜽𝜽
� 𝒂𝒂 𝒙𝒙𝑖𝑖,𝑡𝑡 − 𝝅𝝅(𝒔𝒔(𝒙𝒙𝑖𝑖,𝑡𝑡); 𝜽𝜽)
𝑖𝑖,𝑡𝑡
𝑋𝑋2
∗
= argmin
𝑋𝑋
𝐶𝐶𝐶𝐶𝐶𝐶𝑡𝑡2 𝑋𝑋
𝑋𝑋𝑁𝑁
∗
= argmin
𝑋𝑋
𝐶𝐶𝐶𝐶𝐶𝐶𝑡𝑡𝑁𝑁 𝑋𝑋
実現方法のイメージ 「Trajectory Optimization」 と 「Policy Regression」 の組み合わせ
Trajectory Optimization Policy Regression
異なるタスクについて、それぞれ最適軌道を
作る(Contact Invariant Optimization を使う)
最適軌道を実現する Policy 𝜋𝜋𝜃𝜃: 𝑆𝑆 → 𝐴𝐴
を求める
(Recurrent Neural Network で実現)
交互最適化で同
時に最適化する
両立させたい
…
2/23/2016 @utotch
Interactive Control of Diverse Complex Characters with Neural Networks
22
Igor Mordatch, Kendall Lowrey, Galen Andrew, Zoran Popovic, Emanuel V. Todorov
MPC(モデル予測制御) との比較
鳥キャラクターの制御問題の実験結果
MPC が 非周期的(Chaotic)な制御になるのに対し、提案法は、
周期的で、安定的な制御ができた
2/23/2016 @utotch
Competitive Distribution Estimation:Why is Good-Turing Good
23
【Goal】(大規模な、分布の種類が未知な)離散事象の確率分布の推定
【要約】Competitive アプローチによって、Good-Turing Estimator の性能の良さを証明した。
【着目理由】Best Paper. 保守的になりがちな、Min-Max アプローチを改善する分析手法として
興味深い。基礎的な知見として、アルゴリズムの改良の際の技法として活用できるかも。
Alon Orlitsky, Ananda Theertha Suresh
Min-max アプローチ
による評価
理論のイメージ 結果例
good
Competitive Approach
による評価
Orlitsky, Alon, and Ananda Theertha Suresh. "Competitive Distribution Estimation: Why is Good-Turing Good." Advances in Neural Information
Processing Systems. 2015.
Best Paper
[出典]
2/23/2016 @utotch
 Estimator の良さを示す基本方針
 KL-Loss の期待値を評価
 従来: min-max によるアプローチ
 最悪値の最小化
 イメージ:最悪の路面での性能に着目した車両の設計
 方針: Competitive アプローチ
 イメージ:あらゆる路面で、準最適な性能の車両設計
 Good Turing Estimator(1953)
Competitive Distribution Estimation:Why is Good-Turing Good
24
Alon Orlitsky, Ananda Theertha Suresh
Best Paper
2/23/2016 @utotch
 理論的結果
 Simple Variant of Good Turing Estimator
 Complex Variatnt of Good Turing Estimator
Competitive Distribution Estimation:Why is Good-Turing Good
25
Alon Orlitsky, Ananda Theertha Suresh
Best Paper
2/23/2016 @utotch
Galileo - Perceiving Physical Object Properties
by Integrating a Physics Engine with Deep Learning
26
【背景】幼児が実世界の物理法則を認識するように、物理的な感覚を学習させたい
【要約】物理エンジンを利用することで、物理法則を直接学習せずに、視覚的な情報から静
的な物理量の対応を学習する
【着目理由】物理的な感覚を学習させる試みが興味深い。
【メモ】実際はダイナミクスは全く学習しておらず、物体を見た目から「重そう」「滑らなそう」と
いう情報を学習している
Jiajun Wu, Ilker Yildirim, Joseph J. Lim, Bill Freeman, Josh Tenenbaum
Wu, Jiajun, et al. "Galileo: Perceiving Physical Object Properties by Integrating a Physics Engine with Deep
Learning." Advances in Neural Information Processing Systems. 2015.
[出典]
2/23/2016 @utotch
Galileo - Perceiving Physical Object Properties
by Integrating a Physics Engine with Deep Learning
 「入力画像」に対応する「静的な物理量(質量,摩擦係数,3D形状,
位置)」を学習
 実際の動きの部分は、物理計算エンジンがシミュレーション
27
Jiajun Wu, Ilker Yildirim, Joseph J. Lim, Bill Freeman, Josh Tenenbaum
Deep Neural
Network
2/23/2016 @utotch
Galileo - Perceiving Physical Object Properties
by Integrating a Physics Engine with Deep Learning
 人間と同程度に、動きの予測をすることができた
28
Jiajun Wu, Ilker Yildirim, Joseph J. Lim, Bill Freeman, Josh Tenenbaum
2/23/2016 @utotch
Action-Conditional Video Prediction using Deep Networks in Atari
Games
29
【要約】Deep Neural Network で、未来の
ゲームシーンのピクセルイメージを予
測・生成。CNN版と RNN+CNN版があり、
前者は反射的なゲーム, 後者は長期予
測が必要なゲームでスコアが高い
【着目理由】時系列的な情報の予測・生
成という点が興味深い
Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard L. Lewis, Satinder Singh
画面上端から下端に周り込むような、
非線形な動きも予測・生成可能
Oh, Junhyuk, et al. "Action-conditional video prediction using deep networks in atari games." Advances in Neural
Information Processing Systems. 2015.
[出典]
2/23/2016 @utotch
Action-Conditional Video Prediction using Deep Networks in Atari
Games
 Network 構造は (a) Feed Forward 版 と (B) Recurrent 版の2種類
 ゲームの種類によって、どちらが良い性能を出すかが異なる。
(長期予測が必要なゲームは Recurrent 版の法が性能が良い)
30
Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard L. Lewis, Satinder Singh
2/23/2016 @utotch
Embed to Control - A Locally Linear Latent Dynamics Model
for Control from Raw Images
31
【要約】生画像(Pixel Image)から、非線形動的システムの制御モデルを学習する研究。
局所線形なダイナミクスを Neural Network で学習することによって実現している。
【着目理由】生画像から制御の直接学習という難しい問題設定について、実現方法を示した事
例として興味深い。Neural Network の新規な応用動向の1つとして着目した。
Manuel Watter, Jost Springenberg, Joschka Boedecker, Martin Riedmiller
Watter, Manuel, et al. "Embed to control: A locally linear latent dynamics model for control from raw images." Advances
in Neural Information Processing Systems. 2015.
[出典]
2/23/2016 @utotch
Embed to Control - A Locally Linear Latent Dynamics Model
for Control from Raw Images
32
Manuel Watter, Jost Springenberg, Joschka Boedecker, Martin Riedmiller
実現方法
局所線形なダイナミクスを仮定し、 Latent Space <-> Pixel Image の対応を学習
2/23/2016 @utotch
Embed to Control - A Locally Linear Latent Dynamics Model
for Control from Raw Images
33
Manuel Watter, Jost Springenberg, Joschka Boedecker, Martin Riedmiller
Inverted Pendulum の実験
Latent Space <-> Pixel Image の対応の学習結果
2/23/2016 @utotch
2/23/2016 @utotch 34
その他、簡単に紹介のみ
Asynchronous Parallel Stochastic Gradient for Nonconvex Optimization
35
【背景】非同期アルゴリズムの性能解析は困難な問題。非同期のSGDの性能の明確化したい。
【要約】2タイプの非同期SGD(Consistent / Inconsistent)の両方について、収束性能を明確化で
きた
Xiangru Lian, Yijun Huang, Yuncheng Li, Ji Liu
AsySG-Con の収束性能
Lian, Xiangru, et al. "Asynchronous parallel stochastic gradient for nonconvex optimization." Advances in Neural
Information Processing Systems. 2015.
[出典]
2/23/2016 @utotch
Learning Theory and Algorithms for Forecasting Non-stationary Time Series
36
【要約】非定常時系列解析の理論。非定常
の具合の定量化指標の導入など。
【着目理由】現状では、非定常時系列解析の
理論が、未成熟な段階にあるという認識を
得た。研究テーマがいろいろ眠っているかも。
Vitaly Kuznetsov, Mehryar Mohri
Kuznetsov, Vitaly, and Mehryar Mohri. "Learning Theory and Algorithms for Forecasting Non-Stationary Time Series." Advances in
Neural Information Processing Systems. 2015.
[出典]
2/23/2016 @utotch
Solving Random Quadratic Systems of Equations Is Nearly as Easy as Solving Linear
Systems
37
【要約】2次の方程式(Random Quadratic System of Equation)を線形方程式の解法と同等の線
形オーダで解ける解法 Truncated Wirtinger Flow の提案。「初期化」と「反復時の勾配計算」
を、選定したデータのみを用いて算出することで、高速・ロバストなアルゴリズムを実現できる
【応用例】クラスタリング, Phase Retrieval 等が、この問題設定に該当
【着目理由】非凸最適化問題を、問題の構造を適切に利用して、うまく解く事例として興味深
い
Yuxin Chen, Emmanuel Candes
http://web.stanford.edu/~yxchen/TWF/
Chen, Yuxin, and Emmanuel Candes. "Solving random quadratic systems of equations is nearly as easy as solving linear systems." Advances in
Neural Information Processing Systems. 2015.
[出典]
2/23/2016 @utotch
Solving Random Quadratic Systems of Equations Is Nearly as Easy as Solving Linear
Systems
 Algorithm: Truncated Wirtinger Flows
38
Yuxin Chen, Emmanuel Candes
結果例
初期化
勾配の計算
初期化後
50反復後
2/23/2016 @utotch
Fast Convergence of Regularized Learning in Games
39
【要約】マルチプレイヤーゲー
ムのアルゴリズム
(Decentralized No-Regret
Learning)。前提知識が足りず、
ほとんど理解できず。
Vasilis Syrgkanis, Alekh Agarwal, Haipeng Luo, Robert E. Schapire
Best Paper
Syrgkanis, Vasilis, et al. "Fast convergence of regularized learning in games."Advances in Neural Information Processing Systems. 2015.
[出典]
2/23/2016 @utotch
A Convergent Gradient Descent Algorithm for Rank Minimization and
Semidefinite Programming from Random Linear Measurements
40
【要約】SDP(半正定値計画問題)と関連の深い、ランク最小化問題の最適化アルゴリズムの
研究。ランダムな線形観測下でのランク最小化問題は、非凸最適化問題であるが、提案手
法によって高速に大局最適解を得ることが可能。
【着目理由】問題の構造を利用した、非凸最適化問題の大局解探索アルゴリズムとして参
考になると考え着目した。
Qinqing Zheng, John Lafferty
Zheng, Qinqing, and John Lafferty. "A convergent gradient descent algorithm for rank minimization and semidefinite programming from
random linear measurements." Advances in Neural Information Processing Systems. 2015.
[出典]
2/23/2016 @utotch
まとめ
Deep Learning の着目度は顕著で、企業を含め、
参加者が激増
Deep Learning は基本ツールとして定着し、長期
記憶的な機能の実現、制御問題など、新たな問
題への適用が加速
Bayesian Optimization, Submodular Optimization,
など、定着しつつあるテーマ、 Game Theory 系,
非定常時系列解析など、これから発展がありそ
うなテーマが目についた。
2/23/2016 @utotch 41
参考文献
 Orlitsky, Alon, and Ananda Theertha Suresh. "Competitive Distribution Estimation: Why is Good-Turing Good."
Advances in Neural Information Processing Systems. 2015.
 Syrgkanis, Vasilis, et al. "Fast convergence of regularized learning in games."Advances in Neural Information
Processing Systems. 2015.
 Sukhbaatar, Sainbayar, Jason Weston, and Rob Fergus. "End-to-end memory networks." Advances in Neural
Information Processing Systems. 2015.
 Reed, Scott E., et al. "Deep Visual Analogy-Making." Advances in Neural Information Processing Systems. 2015.
 Rippel, Oren, Jasper Snoek, and Ryan P. Adams. "Spectral Representations for Convolutional Neural
Networks." Advances in Neural Information Processing Systems. 2015.
 Watter, Manuel, et al. "Embed to control: A locally linear latent dynamics model for control from raw
images." Advances in Neural Information Processing Systems. 2015.
 Wu, Jiajun, et al. "Galileo: Perceiving Physical Object Properties by Integrating a Physics Engine with Deep
Learning." Advances in Neural Information Processing Systems. 2015.
 Mordatch, Igor, et al. "Interactive Control of Diverse Complex Characters with Neural Networks." Advances in
Neural Information Processing Systems. 2015.
 Oh, Junhyuk, et al. "Action-conditional video prediction using deep networks in atari games." Advances in Neural
Information Processing Systems. 2015.
 Chen, Yuxin, and Emmanuel Candes. "Solving random quadratic systems of equations is nearly as easy as solving
linear systems." Advances in Neural Information Processing Systems. 2015.
 Zheng, Qinqing, and John Lafferty. "A convergent gradient descent algorithm for rank minimization and
semidefinite programming from random linear measurements." Advances in Neural Information Processing
Systems. 2015.
 Lian, Xiangru, et al. "Asynchronous parallel stochastic gradient for nonconvex optimization." Advances in Neural
Information Processing Systems. 2015.
 Kuznetsov, Vitaly, and Mehryar Mohri. "Learning Theory and Algorithms for Forecasting Non-Stationary Time Series." Advances in
Neural Information Processing Systems. 2015.
2/23/2016 @utotch 42

More Related Content

Viewers also liked

Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelKei Uchiumi
 
On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)Koichiro Suzuki
 
DSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language ModelDSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language ModelKei Uchiumi
 
Swift 2 (& lldb) シンポジウム
Swift 2 (& lldb) シンポジウムSwift 2 (& lldb) シンポジウム
Swift 2 (& lldb) シンポジウムYuichi Yoshida
 
Stochastic Process Overview (hypothesis)
Stochastic Process Overview (hypothesis)Stochastic Process Overview (hypothesis)
Stochastic Process Overview (hypothesis)Yoshiaki Sakakura
 
Hpc server講習会第3回応用編
Hpc server講習会第3回応用編Hpc server講習会第3回応用編
Hpc server講習会第3回応用編Osamu Masutani
 
Vanishing Component Analysisの試作(補足)
Vanishing Component Analysisの試作(補足)Vanishing Component Analysisの試作(補足)
Vanishing Component Analysisの試作(補足)Hiroshi Tsukahara
 
Notes on the low rank matrix approximation of kernel
Notes on the low rank matrix approximation of kernelNotes on the low rank matrix approximation of kernel
Notes on the low rank matrix approximation of kernelHiroshi Tsukahara
 
Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験Hiroshi Tsukahara
 
Sparse Isotropic Hashing
Sparse Isotropic HashingSparse Isotropic Hashing
Sparse Isotropic HashingIkuro Sato
 
情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案Mitsuo Yamamoto
 

Viewers also liked (20)

Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 
Gamglm
GamglmGamglm
Gamglm
 
On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)On the eigenstructure of dft matrices(in japanese only)
On the eigenstructure of dft matrices(in japanese only)
 
マーク付き点過程
マーク付き点過程マーク付き点過程
マーク付き点過程
 
Holonomic Gradient Descent
Holonomic Gradient DescentHolonomic Gradient Descent
Holonomic Gradient Descent
 
DSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language ModelDSIRNLP06 Nested Pitman-Yor Language Model
DSIRNLP06 Nested Pitman-Yor Language Model
 
Swift 2 (& lldb) シンポジウム
Swift 2 (& lldb) シンポジウムSwift 2 (& lldb) シンポジウム
Swift 2 (& lldb) シンポジウム
 
Extreme Learning Machine
Extreme Learning MachineExtreme Learning Machine
Extreme Learning Machine
 
Stochastic Process Overview (hypothesis)
Stochastic Process Overview (hypothesis)Stochastic Process Overview (hypothesis)
Stochastic Process Overview (hypothesis)
 
Hpc server講習会第3回応用編
Hpc server講習会第3回応用編Hpc server講習会第3回応用編
Hpc server講習会第3回応用編
 
Information extraction 1
Information extraction 1Information extraction 1
Information extraction 1
 
Vanishing Component Analysisの試作(補足)
Vanishing Component Analysisの試作(補足)Vanishing Component Analysisの試作(補足)
Vanishing Component Analysisの試作(補足)
 
Notes on the low rank matrix approximation of kernel
Notes on the low rank matrix approximation of kernelNotes on the low rank matrix approximation of kernel
Notes on the low rank matrix approximation of kernel
 
Variational Kalman Filter
Variational Kalman FilterVariational Kalman Filter
Variational Kalman Filter
 
Gitのすすめ
GitのすすめGitのすすめ
Gitのすすめ
 
Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験Vanishing Component Analysisの試作と簡単な実験
Vanishing Component Analysisの試作と簡単な実験
 
Pylm public
Pylm publicPylm public
Pylm public
 
Sparse Isotropic Hashing
Sparse Isotropic HashingSparse Isotropic Hashing
Sparse Isotropic Hashing
 
情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案
 
RNNLM
RNNLMRNNLM
RNNLM
 

NIPS2015参加報告

  • 1. 宇土 敬祐 February 23, 2016 Denso IT Laboratory NIPS2015 参加報告 2/23/2016 @utotch 1 http://papers.nips.cc/book/advances-in-neural- information-processing-systems-28-2015 [出典] 当文書内の図・グラフ等は以下の 各論文から引用したものです
  • 2. NIPS2015 基本情報 NIPS(Neural Information Processin System) 機械学習分野のトップカンファレンス(毎年開催) 開催日時 2015/12/6-12/14 場所 Montreal Convention and Exhibition Center (モントリ オール@カナダ。昨年と同じ) 2/23/2016 @utotch 2
  • 3. NIPS2015 概要  参加者が激増  約2500人@2014 → 3500超@2015  企業からの聴講者多数  Deep Learning バブル的様相  Invited Talk  Vapnik さん、 川人光男さん  ポスター発表  例年通り 深夜24:00 まで盛況  盛況すぎて見れない程.. 2/23/2016 @utotch 3
  • 4. 研究動向(私見)  Deep Learning は”基本ツール”として定着 Recurrent NN も含め、あの手この手で使いこなすネタが 沢山 長期記憶的なものを実現する試みがトレンド?  定番化してきたもの Submodular Optimization, Submodular 構造の活用・拡張 Bayesian Optimization  萌芽しつつあるもの Optimal Transport 系 (Wasserstein Distance, etc)  Game 理論系の話が増えた?  時系列解析等 non-i.i.d なデータを扱うテーマも着目 度が向上 非定常時系列解析の理論, Time Series Workshop 2/23/2016 @utotch 4
  • 5. Best papers Competitive Distribution Estimation- Why is Good- Turing Good(Alon Orlitsky, Ananda Theertha Suresh) 離散事象の確率分布推定アルゴリズムの理論解析 (後述) Fast Convergence of Regularized Learning in Games(Vasilis Syrgkanis, Alekh Agarwal, Haipeng Luo, Robert E. Schapire) マルチプレイヤーゲームの No-Regret Learning 2/23/2016 @utotch 5
  • 7. End-To-End Memory Networks 7 【分野】記憶機能のある neural network 【概要】事実が記述された文章を記憶し、過去の事実を参照するタスクを実行できる neural network の提案。入出力のペアから学習できる(End-To-End)。 【着目ポイント】長期記憶的な機能を実現する技術動向の一つとして注目した。 Sainbayar Sukhbaatar, arthur szlam, Jason Weston, Rob Fergus Sukhbaatar, Sainbayar, Jason Weston, and Rob Fergus. "End-to-end memory networks." Advances in Neural Information Processing Systems. 2015. [出典] 2/23/2016 @utotch
  • 8. End-To-End Memory Networks 8 Sainbayar Sukhbaatar, arthur szlam, Jason Weston, Rob Fergus 事実を記述した文章リスト、「クエリ文章」と「回答単語」のペア、から 行列 A,B,C,W を学習 事実を記述した文章 リスト(離散値表現) 各文章𝑥𝑥𝑖𝑖を連続値表現𝑚𝑚𝑖𝑖, 𝑐𝑐𝑖𝑖 , に変換。 時系列情報を保ったまま保持 しくみの概要 2/23/2016 @utotch
  • 9. End-To-End Memory Networks  前ページの構造を多層にする(Multipl Memory Hop) 9 Sainbayar Sukhbaatar, arthur szlam, Jason Weston, Rob Fergus 事実を記述した文章 リスト(離散値表現) 各文章𝑥𝑥𝑖𝑖を連続値表現𝑚𝑚𝑖𝑖に変換。 時系列情報を保ったまま保持 Single Memory Hop Multiple Memory Hop 2/23/2016 @utotch
  • 10. End-To-End Memory Networks 10 Sainbayar Sukhbaatar, arthur szlam, Jason Weston, Rob Fergus 各Hop で参照された Sentence と確率 各メモリ位置の Average Acitivation weight 2/23/2016 @utotch
  • 11. Deep Visual Analogy-Making 11 【要約】画像と画像の高次の対応(アナロジー)をDeep Neural Network で学習。入力画像に アナロジーで対応する出力画像を直接生成できる。 【着目ポイント】明示的な特徴量設計を行わずに、高次の対応(異なる視点でのキャラクター 間の対応など)を学習できている点は興味深い Scott E. Reed, Yi Zhang, Yuting Zhang, Honglak Lee A : B = C : ? Reed, Scott E., et al. "Deep Visual Analogy-Making." Advances in Neural Information Processing Systems. 2015. [出典] 2/23/2016 @utotch
  • 12. Deep Visual Analogy-Making 12 Scott E. Reed, Yi Zhang, Yuting Zhang, Honglak Lee 実際の処理結果例 2/23/2016 @utotch
  • 13. Deep Visual Analogy-Making 13 Scott E. Reed, Yi Zhang, Yuting Zhang, Honglak Lee 実際の処理結果 2/23/2016 @utotch
  • 14. Deep Visual Analogy-Making 14 Scott E. Reed, Yi Zhang, Yuting Zhang, Honglak Lee ネットワーク構造 2/23/2016 @utotch
  • 15. Deep Visual Analogy-Making 15 Scott E. Reed, Yi Zhang, Yuting Zhang, Honglak Lee Shape Analogy の実験結果 Add と mul は Rotation の性能が低い 2/23/2016 @utotch
  • 16. Spectral Representations for Convolutional Neural Networks 16 【要約】(空間表現ではなく)周波数表現で CNN を構成することで、画像分類タスクを高精度 に実現し、また学習を高速化することができた。Max-Pooling の部分を Spectral Pooling で置 き換えてネットワークを構成することで実現。 【着目理由】周波数表現を使うだけで、改善効果が得られるのは驚き。シンプルな着眼だが、 非常に実用的な方法になりうるかもしれない。 Oren Rippel, Jasper Snoek, Ryan P. Adams [出典] Rippel, Oren, Jasper Snoek, and Ryan P. Adams. "Spectral Representations for Convolutional Neural Networks." Advances in Neural Information Processing Systems. 2015. 2/23/2016 @utotch
  • 17. Spectral Representations for Convolutional Neural Networks 17 Oren Rippel, Jasper Snoek, Ryan P. Adams 画像分類タスクの性能改善例 2/23/2016 @utotch
  • 18. Spectral Representations for Convolutional Neural Networks 18 Oren Rippel, Jasper Snoek, Ryan P. Adams 学習曲線の空間表現との比較 2/23/2016 @utotch
  • 19. Interactive Control of Diverse Complex Characters with Neural Networks 19 【背景】様々なキャラクターの制御を個別に作り込んで設計するのではなく、同じ枠組みで 制御器を自動生成したい 【概要】Recurrent Neural Network による状態フィードバック制御器を学習する枠組みの提案。 モーションキャプチャ・タスク個別の特徴量設計等なしに、異なる制御対象の制御器を自動 生成できる。 【着目理由】NNによる学習で制御を実現している例として興味深い。異なるダイナミクスの 制御対象を統一的な枠組みで制御できている点が興味深い。 ※正確には、Control Policy の学習ではなく、Policy を実現する Dynamics を学習している Igor Mordatch, Kendall Lowrey, Galen Andrew, Zoran Popovic, Emanuel V. Todorov Mordatch, Igor, et al. "Interactive Control of Diverse Complex Characters with Neural Networks." Advances in Neural Information Processing Systems. 2015. [出典] 2/23/2016 @utotch
  • 20. Interactive Control of Diverse Complex Characters with Neural Networks 20 Igor Mordatch, Kendall Lowrey, Galen Andrew, Zoran Popovic, Emanuel V. Todorov http://www.eecs.berkeley.edu/~igor.mordatch/policy/index.html 2/23/2016 @utotch
  • 21. Interactive Control of Diverse Complex Characters with Neural Networks 21 Igor Mordatch, Kendall Lowrey, Galen Andrew, Zoran Popovic, Emanuel V. Todorov 𝑋𝑋1 ∗ = argmin 𝑋𝑋 𝐶𝐶𝐶𝐶𝐶𝐶𝑡𝑡1 𝑋𝑋 𝜽𝜽∗ = argmin 𝜽𝜽 � 𝒂𝒂 𝒙𝒙𝑖𝑖,𝑡𝑡 − 𝝅𝝅(𝒔𝒔(𝒙𝒙𝑖𝑖,𝑡𝑡); 𝜽𝜽) 𝑖𝑖,𝑡𝑡 𝑋𝑋2 ∗ = argmin 𝑋𝑋 𝐶𝐶𝐶𝐶𝐶𝐶𝑡𝑡2 𝑋𝑋 𝑋𝑋𝑁𝑁 ∗ = argmin 𝑋𝑋 𝐶𝐶𝐶𝐶𝐶𝐶𝑡𝑡𝑁𝑁 𝑋𝑋 実現方法のイメージ 「Trajectory Optimization」 と 「Policy Regression」 の組み合わせ Trajectory Optimization Policy Regression 異なるタスクについて、それぞれ最適軌道を 作る(Contact Invariant Optimization を使う) 最適軌道を実現する Policy 𝜋𝜋𝜃𝜃: 𝑆𝑆 → 𝐴𝐴 を求める (Recurrent Neural Network で実現) 交互最適化で同 時に最適化する 両立させたい … 2/23/2016 @utotch
  • 22. Interactive Control of Diverse Complex Characters with Neural Networks 22 Igor Mordatch, Kendall Lowrey, Galen Andrew, Zoran Popovic, Emanuel V. Todorov MPC(モデル予測制御) との比較 鳥キャラクターの制御問題の実験結果 MPC が 非周期的(Chaotic)な制御になるのに対し、提案法は、 周期的で、安定的な制御ができた 2/23/2016 @utotch
  • 23. Competitive Distribution Estimation:Why is Good-Turing Good 23 【Goal】(大規模な、分布の種類が未知な)離散事象の確率分布の推定 【要約】Competitive アプローチによって、Good-Turing Estimator の性能の良さを証明した。 【着目理由】Best Paper. 保守的になりがちな、Min-Max アプローチを改善する分析手法として 興味深い。基礎的な知見として、アルゴリズムの改良の際の技法として活用できるかも。 Alon Orlitsky, Ananda Theertha Suresh Min-max アプローチ による評価 理論のイメージ 結果例 good Competitive Approach による評価 Orlitsky, Alon, and Ananda Theertha Suresh. "Competitive Distribution Estimation: Why is Good-Turing Good." Advances in Neural Information Processing Systems. 2015. Best Paper [出典] 2/23/2016 @utotch
  • 24.  Estimator の良さを示す基本方針  KL-Loss の期待値を評価  従来: min-max によるアプローチ  最悪値の最小化  イメージ:最悪の路面での性能に着目した車両の設計  方針: Competitive アプローチ  イメージ:あらゆる路面で、準最適な性能の車両設計  Good Turing Estimator(1953) Competitive Distribution Estimation:Why is Good-Turing Good 24 Alon Orlitsky, Ananda Theertha Suresh Best Paper 2/23/2016 @utotch
  • 25.  理論的結果  Simple Variant of Good Turing Estimator  Complex Variatnt of Good Turing Estimator Competitive Distribution Estimation:Why is Good-Turing Good 25 Alon Orlitsky, Ananda Theertha Suresh Best Paper 2/23/2016 @utotch
  • 26. Galileo - Perceiving Physical Object Properties by Integrating a Physics Engine with Deep Learning 26 【背景】幼児が実世界の物理法則を認識するように、物理的な感覚を学習させたい 【要約】物理エンジンを利用することで、物理法則を直接学習せずに、視覚的な情報から静 的な物理量の対応を学習する 【着目理由】物理的な感覚を学習させる試みが興味深い。 【メモ】実際はダイナミクスは全く学習しておらず、物体を見た目から「重そう」「滑らなそう」と いう情報を学習している Jiajun Wu, Ilker Yildirim, Joseph J. Lim, Bill Freeman, Josh Tenenbaum Wu, Jiajun, et al. "Galileo: Perceiving Physical Object Properties by Integrating a Physics Engine with Deep Learning." Advances in Neural Information Processing Systems. 2015. [出典] 2/23/2016 @utotch
  • 27. Galileo - Perceiving Physical Object Properties by Integrating a Physics Engine with Deep Learning  「入力画像」に対応する「静的な物理量(質量,摩擦係数,3D形状, 位置)」を学習  実際の動きの部分は、物理計算エンジンがシミュレーション 27 Jiajun Wu, Ilker Yildirim, Joseph J. Lim, Bill Freeman, Josh Tenenbaum Deep Neural Network 2/23/2016 @utotch
  • 28. Galileo - Perceiving Physical Object Properties by Integrating a Physics Engine with Deep Learning  人間と同程度に、動きの予測をすることができた 28 Jiajun Wu, Ilker Yildirim, Joseph J. Lim, Bill Freeman, Josh Tenenbaum 2/23/2016 @utotch
  • 29. Action-Conditional Video Prediction using Deep Networks in Atari Games 29 【要約】Deep Neural Network で、未来の ゲームシーンのピクセルイメージを予 測・生成。CNN版と RNN+CNN版があり、 前者は反射的なゲーム, 後者は長期予 測が必要なゲームでスコアが高い 【着目理由】時系列的な情報の予測・生 成という点が興味深い Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard L. Lewis, Satinder Singh 画面上端から下端に周り込むような、 非線形な動きも予測・生成可能 Oh, Junhyuk, et al. "Action-conditional video prediction using deep networks in atari games." Advances in Neural Information Processing Systems. 2015. [出典] 2/23/2016 @utotch
  • 30. Action-Conditional Video Prediction using Deep Networks in Atari Games  Network 構造は (a) Feed Forward 版 と (B) Recurrent 版の2種類  ゲームの種類によって、どちらが良い性能を出すかが異なる。 (長期予測が必要なゲームは Recurrent 版の法が性能が良い) 30 Junhyuk Oh, Xiaoxiao Guo, Honglak Lee, Richard L. Lewis, Satinder Singh 2/23/2016 @utotch
  • 31. Embed to Control - A Locally Linear Latent Dynamics Model for Control from Raw Images 31 【要約】生画像(Pixel Image)から、非線形動的システムの制御モデルを学習する研究。 局所線形なダイナミクスを Neural Network で学習することによって実現している。 【着目理由】生画像から制御の直接学習という難しい問題設定について、実現方法を示した事 例として興味深い。Neural Network の新規な応用動向の1つとして着目した。 Manuel Watter, Jost Springenberg, Joschka Boedecker, Martin Riedmiller Watter, Manuel, et al. "Embed to control: A locally linear latent dynamics model for control from raw images." Advances in Neural Information Processing Systems. 2015. [出典] 2/23/2016 @utotch
  • 32. Embed to Control - A Locally Linear Latent Dynamics Model for Control from Raw Images 32 Manuel Watter, Jost Springenberg, Joschka Boedecker, Martin Riedmiller 実現方法 局所線形なダイナミクスを仮定し、 Latent Space <-> Pixel Image の対応を学習 2/23/2016 @utotch
  • 33. Embed to Control - A Locally Linear Latent Dynamics Model for Control from Raw Images 33 Manuel Watter, Jost Springenberg, Joschka Boedecker, Martin Riedmiller Inverted Pendulum の実験 Latent Space <-> Pixel Image の対応の学習結果 2/23/2016 @utotch
  • 35. Asynchronous Parallel Stochastic Gradient for Nonconvex Optimization 35 【背景】非同期アルゴリズムの性能解析は困難な問題。非同期のSGDの性能の明確化したい。 【要約】2タイプの非同期SGD(Consistent / Inconsistent)の両方について、収束性能を明確化で きた Xiangru Lian, Yijun Huang, Yuncheng Li, Ji Liu AsySG-Con の収束性能 Lian, Xiangru, et al. "Asynchronous parallel stochastic gradient for nonconvex optimization." Advances in Neural Information Processing Systems. 2015. [出典] 2/23/2016 @utotch
  • 36. Learning Theory and Algorithms for Forecasting Non-stationary Time Series 36 【要約】非定常時系列解析の理論。非定常 の具合の定量化指標の導入など。 【着目理由】現状では、非定常時系列解析の 理論が、未成熟な段階にあるという認識を 得た。研究テーマがいろいろ眠っているかも。 Vitaly Kuznetsov, Mehryar Mohri Kuznetsov, Vitaly, and Mehryar Mohri. "Learning Theory and Algorithms for Forecasting Non-Stationary Time Series." Advances in Neural Information Processing Systems. 2015. [出典] 2/23/2016 @utotch
  • 37. Solving Random Quadratic Systems of Equations Is Nearly as Easy as Solving Linear Systems 37 【要約】2次の方程式(Random Quadratic System of Equation)を線形方程式の解法と同等の線 形オーダで解ける解法 Truncated Wirtinger Flow の提案。「初期化」と「反復時の勾配計算」 を、選定したデータのみを用いて算出することで、高速・ロバストなアルゴリズムを実現できる 【応用例】クラスタリング, Phase Retrieval 等が、この問題設定に該当 【着目理由】非凸最適化問題を、問題の構造を適切に利用して、うまく解く事例として興味深 い Yuxin Chen, Emmanuel Candes http://web.stanford.edu/~yxchen/TWF/ Chen, Yuxin, and Emmanuel Candes. "Solving random quadratic systems of equations is nearly as easy as solving linear systems." Advances in Neural Information Processing Systems. 2015. [出典] 2/23/2016 @utotch
  • 38. Solving Random Quadratic Systems of Equations Is Nearly as Easy as Solving Linear Systems  Algorithm: Truncated Wirtinger Flows 38 Yuxin Chen, Emmanuel Candes 結果例 初期化 勾配の計算 初期化後 50反復後 2/23/2016 @utotch
  • 39. Fast Convergence of Regularized Learning in Games 39 【要約】マルチプレイヤーゲー ムのアルゴリズム (Decentralized No-Regret Learning)。前提知識が足りず、 ほとんど理解できず。 Vasilis Syrgkanis, Alekh Agarwal, Haipeng Luo, Robert E. Schapire Best Paper Syrgkanis, Vasilis, et al. "Fast convergence of regularized learning in games."Advances in Neural Information Processing Systems. 2015. [出典] 2/23/2016 @utotch
  • 40. A Convergent Gradient Descent Algorithm for Rank Minimization and Semidefinite Programming from Random Linear Measurements 40 【要約】SDP(半正定値計画問題)と関連の深い、ランク最小化問題の最適化アルゴリズムの 研究。ランダムな線形観測下でのランク最小化問題は、非凸最適化問題であるが、提案手 法によって高速に大局最適解を得ることが可能。 【着目理由】問題の構造を利用した、非凸最適化問題の大局解探索アルゴリズムとして参 考になると考え着目した。 Qinqing Zheng, John Lafferty Zheng, Qinqing, and John Lafferty. "A convergent gradient descent algorithm for rank minimization and semidefinite programming from random linear measurements." Advances in Neural Information Processing Systems. 2015. [出典] 2/23/2016 @utotch
  • 41. まとめ Deep Learning の着目度は顕著で、企業を含め、 参加者が激増 Deep Learning は基本ツールとして定着し、長期 記憶的な機能の実現、制御問題など、新たな問 題への適用が加速 Bayesian Optimization, Submodular Optimization, など、定着しつつあるテーマ、 Game Theory 系, 非定常時系列解析など、これから発展がありそ うなテーマが目についた。 2/23/2016 @utotch 41
  • 42. 参考文献  Orlitsky, Alon, and Ananda Theertha Suresh. "Competitive Distribution Estimation: Why is Good-Turing Good." Advances in Neural Information Processing Systems. 2015.  Syrgkanis, Vasilis, et al. "Fast convergence of regularized learning in games."Advances in Neural Information Processing Systems. 2015.  Sukhbaatar, Sainbayar, Jason Weston, and Rob Fergus. "End-to-end memory networks." Advances in Neural Information Processing Systems. 2015.  Reed, Scott E., et al. "Deep Visual Analogy-Making." Advances in Neural Information Processing Systems. 2015.  Rippel, Oren, Jasper Snoek, and Ryan P. Adams. "Spectral Representations for Convolutional Neural Networks." Advances in Neural Information Processing Systems. 2015.  Watter, Manuel, et al. "Embed to control: A locally linear latent dynamics model for control from raw images." Advances in Neural Information Processing Systems. 2015.  Wu, Jiajun, et al. "Galileo: Perceiving Physical Object Properties by Integrating a Physics Engine with Deep Learning." Advances in Neural Information Processing Systems. 2015.  Mordatch, Igor, et al. "Interactive Control of Diverse Complex Characters with Neural Networks." Advances in Neural Information Processing Systems. 2015.  Oh, Junhyuk, et al. "Action-conditional video prediction using deep networks in atari games." Advances in Neural Information Processing Systems. 2015.  Chen, Yuxin, and Emmanuel Candes. "Solving random quadratic systems of equations is nearly as easy as solving linear systems." Advances in Neural Information Processing Systems. 2015.  Zheng, Qinqing, and John Lafferty. "A convergent gradient descent algorithm for rank minimization and semidefinite programming from random linear measurements." Advances in Neural Information Processing Systems. 2015.  Lian, Xiangru, et al. "Asynchronous parallel stochastic gradient for nonconvex optimization." Advances in Neural Information Processing Systems. 2015.  Kuznetsov, Vitaly, and Mehryar Mohri. "Learning Theory and Algorithms for Forecasting Non-Stationary Time Series." Advances in Neural Information Processing Systems. 2015. 2/23/2016 @utotch 42