3. 世界を取り巻く動き
2013/03 Google: DNN research を買収
2013/04 Baidu: Institute of Deep Learning を設立
2013/12 Facebook: AI research lab を設立
2014/01 Google: DeepMind を設立
日本でも人工知能研究拠点の設立へ
ドワンゴ: 人工知能研究所
産総研: 人工知能研究所設立
4
6. Face detection
(Viola & Jones 01)
HOG
(Dalal&Triggs 05)
SURF
(Bay+ 06)
SIFT
(Lowe 99)
Conv. net
(LeCun+ 89)
Deep learning
(Hinton+ 06)
Sparse Coding
(Olshausen&Field 96)
NN 周辺領域の歴史的背景
7
201020001990
今ココ
SVM
(Vapnik 95)
Boosting
(Schapire 90)
L1-recovery
(Candes+ 06)
Bayesian Method
Bayesian net
(Pearl 00)
Kernel Method
Internet 普及開始 Google Facebook Twitter
7. NN 界隈で起こったこと(90年台後半∼)
アーキテクチャ設計の難しさ for Back Prop.
中間層が少なければ表現がプア
中間層が多ければ過学習
(訓練誤差 汎化誤差)
勾配情報の拡散
識別器だけなら上位層で実現可能
全体のトレーニングは難しい
データに対してパラメータ数が過多
(全結合型 NN で顕著)
8
23. 視覚野(Ventral pathway)の性質
視覚野: 階層構造を持ち,階層ごとに異なる視覚課題の解決
初期視覚野: 狭い受容野,単純な特徴抽出
Simple Cell,Complex Cellの存在
高次視覚野: 広い受容野,中程度に複雑な特徴に選択的
24
V1
V2
V4
PITCIT
Ventral Pathway
AIT
TEO
TE
V1
V2
V3 VP
V4 MT VA/V4
PIT
AIT/CIT 8 TF
LIP MST DPL VIP
7a
V3A
V1
V4
V2
IT
Small receptive field
Edge, Line segment
detector
Large receptive field
Face, Complex feature
detector
?
?
(Felleman & van Essen 91 を改変)
24. 初期視覚野の性質
線分やエッジなどの成分に反応
Simple cell: 方位,位相に敏感
Complex cell: 位相には許容的
25
Simple Cell
Phase Sensitive
Orientation Selective
Receptive Field
Input Stimulus
Fire Not FireNot Fire
Phase InsensitiveComplex Cell
Receptive Field
Input Stimulus
Fire Not FireFire
V1
V2
V4
PITCIT
Ventral Pathway
AIT
TEO
TE
V1
V4
V2
IT
Small receptive field
Edge, Line segment
detector
Large receptive field
Face, Complex feature
detector
?
?
Simple Cell
Phase Sensitive
Orientation Selective
Receptive Field
Input Stimulus
Fire Not FireNot Fire
Phase InsensitiveComplex Cell
Receptive Field
Input Stimulus
Fire Not FireFire
25. Hubel-Wiesel 階層仮説
Simple Cell の出力合成で,
Complex cell は説明可能
(Hubel & Wiesel 59)
26
Simple Cell
Phase Sensitive
Orientation Selective
Receptive Field
Input Stimulus
Fire Not FireNot Fire
Phase InsensitiveComplex Cell
Receptive Field
Input Stimulus
Fire Not FireFire
37. 疎表現によるデータ記述
38
= x1 +x2 +x3 +...
y d1 d2 d3
なるべく0に
H =
X
p
yp
X
i
xp
i di
2
+
X
i
kxp
i k1
画像をなるべく
忠実に表現
なるべく多くの
係数を 0 に (LASSO)
画像パッチ {yp} から {di} と {xi
p} を取得可能か?
39. Sparse Auto Encoder
Predictive Sparse Decomposition(Ranzato+07)
40
xp
= f(Wyp
)yp
= Dxp
Sparse Representation {xp}
Input Patchs {yp}
L1-Constraint
min
D,W,x
X
p
kyp
Dxp
k2
+ kxp
f(Wyp
)k2
+
X
i
kxp
i k
Encoder
Decoder
48. Software-Package
49
Pylearn2 Univ. Montreal
LISA Lab
Python (C++) NumPy
Torch7 NewYork Univ. ? Lua/C++ Lua
Caffe Berkeley Vision and
Learning Center
(UCB)
C++ (Python) GPU
2014/08
Cuda-convnet2 Alex Krizhevsky C++ (Python) GPU
Tesla
K20x8
元ネタは得居さんのSlideから
http://www.slideshare.net/beam2d/deep-learningimplementation
Chainer あたりも面白い