20150803.山口大学講演

いま何故DeepLearningなのか？
2015/08/03∼2015/08/06
電気通信大学大学院情報理工学研究科
庄野逸: shouno@uec.ac.jp
1
http://www.slideshare.net/HAL9801

なぜ，いま 
(ディープな)ニューラルネットなのか？
3
岡之原さんのスライドから
http://www.slideshare.net/pfi/deep-learning-22350063

世界を取り巻く動き
2013/03 Google: DNN research を買収
2013/04 Baidu: Institute of Deep Learning を設立
2013/12 Facebook: AI research lab を設立
2014/01 Google: DeepMind を設立
日本でも人工知能研究拠点の設立へ
ドワンゴ: 人工知能研究所
産総研: 人工知能研究所設立
4

NeuralNetwork は新技術なの？
歴史的には 1960 年代くらいまで遡れる
要素技術的には新しいことは(多分)それほどない
第2期のブームから大きく変化したもの
データの質と量: Internet, SNS, Cloud…
計算機環境: パッケージ化，GPU の勃興…
5

Neural network (NN) 歴史的背景
6
Simple/Complex cell
(Hubel&WIesel 59)
Linear resp. func.
(Anzai+ 99)
201020001990198019701960
Perceptron
(Rosenblatt 57)
Neocognitron
(Fukushima 80)
Conv. net
(LeCun+ 89)
Deep learning 
(Hinton+ 06)
“Linear Separable”  
(Minski & Papert 68)
Sparse Coding
(Olshausen&Field 96)
Stochastic GD
(Amari 67)
Boltzmann Mach.
(HInton+85)
Back Prop. 
(Rumelhart+ 86)
第1期第2期
今ココ
第3期(たぶん)

Face detection
(Viola & Jones 01)
HOG
(Dalal&Triggs 05)
SURF
(Bay+ 06)
SIFT
(Lowe 99)
Conv. net
(LeCun+ 89)
Deep learning 
(Hinton+ 06)
Sparse Coding
NN 周辺領域の歴史的背景
7
201020001990
今ココ
SVM
(Vapnik 95)
Boosting
(Schapire 90)
L1-recovery 
(Candes+ 06)
Bayesian Method
Bayesian net
(Pearl 00)
Kernel Method
Internet 普及開始 Google Facebook Twitter

NN 界隈で起こったこと(90年台後半∼)
アーキテクチャ設計の難しさ for Back Prop.
中間層が少なければ表現がプア
中間層が多ければ過学習 
(訓練誤差汎化誤差)
勾配情報の拡散
識別器だけなら上位層で実現可能
全体のトレーニングは難しい 
データに対してパラメータ数が過多 
(全結合型 NN で顕著)
8

NN 界隈で起こったこと(90年台後半∼)
機械学習法の進展
Support Vector Machine / Kernel 法
Boosting
Shallow network で十分じゃないの？的な風潮
そもそもデータがないし…
9

Viola & Jones による顔検出
Haar Like Feature + Boosting (Viola & Jones01)
11
Haar Like Detectors
Training Samples
http://vimeo.com/12774628

SIFT による画像記述
Scale Invariant Feature Transform (Lowe99)
特徴点検出とヒストグラムにより特徴記述
回転・スケール変化に不変，照明変化に頑健
12
u
v
l
-
-
-
-
σ
ガウシアン平滑化ガウシアン差分画像 DoG
D( u, v, l )
σ2
σ3
σ4
σ5
σ1
σ2
σ3
σ4
極値探索
SIFT 特徴点
（キーポイント）
原画像
I( u, v )

SIFT による画像記述
Scale Invariant Feature Transform (Lowe99)
特徴点検出とヒストグラムにより特徴記述
回転・スケール変化に不変，照明変化に頑健
13
u
l
分画像 DoG
D( u, v, l )
極値探索
SIFT 特徴点
（キーポイント）
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
1 2 3 4 5 6 7 8
0
0.1
0.2
SIFT 特徴点
（キーポイント） SIFT 記述子
ヒストグラム化
特徴点周りの
勾配情報の算出

Bag of Features による画像認識
14
http://www.vision.cs.chubu.ac.jp/sift/PDF/sift_tutorial_ppt.pdf

HOG による画像記述
Histograms of Orientation Gradient (HOG) (Dalal&Triggs05)
エッジ成分の局所ヒストグラムによる表現
照明変化に頑健，大まかな領域の記述特徴
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
セル
ブロック
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
1 2 3 4 5 6 7 8 9
0
0.1
0.2
0.3
0.4
1 2 3 4 5 6 7 8 9
0
0.1
0.2
0.3
0.4
1 2 3 4 5 6 7 8 9
0
0.1
0.2
0.3
0.4
1 2 3 4 5 6 7 8 9
0
0.1
0.2
0.3
0.4
1 2 3 4 5 6 7 8 9
0
0.1
0.2
0.3
0.4
1 2 3 4 5 6 7 8 9
0
0.1
0.2
0.3
0.4
1 2 3 4 5 6 7 8 9
0
0.1
0.2
0.3
0.4
1 2 3 4 5 6 7 8 9
0
0.1
0.2
0.3
0.4
1 2 3 4 5 6 7 8 9
0
0.1
0.2
0.3
0.4
勾配画像 m(u, v)
セル分割
原画像 I(u,v) HOG 特徴 Vi
ブロック内の原画像
ブロック内の勾配強度画像
SVM などの 
識別器

画像認識問題の NN 的解釈
画像特性（エッジ等）の特徴量構築＋機械学習
Shallow Network model
16
Input
Output
LeopardCat
Feature Detector(Haar, SIFT, HOG...)
Machine Learning (SVM, Boosting...)

部分特徴から組み合わせ特徴へ
Bag of Words からの脱却
部分特徴の組み合わせ特徴量へ (Felzenswalb+10, Divvala+12)
17
$Models$
Hierarchical$Bayes$
CategorySbased$Hierarchy$
Marr$and$Nishihara$(1978)$
Deep$Nets$
PartSbased$Hierarchy$
(Marr&Nishihara78)
(Felzenswalb+10)

特徴抽出機構の設計
どうやって（中程度に複雑な）特徴検出器を作るか？
Token (Marr82) 的な組み合わせ
Object parts:
ハンドメイドな特徴量はしんどい→機械学習による表現獲得
18
Contnuation Coner Junction Cross

何故，第2次NNブームは終焉したのか？
データ数に対するアーキテクチャ設計の難しさ
中間層が少なければ表現がプア
中間層が多ければ過学習 
(訓練誤差汎化誤差)
勾配学習の問題点
勾配情報の拡散（特に全結合型） 
全体のトレーニングは難しい
計算機パワーの不足
ネットワークを含むハードウェア資源
ソフトウェアパッケージの不在
19

第3次ブームは何故おこってるのか？
アーキテクチャの規模に見合うデータ
大量，安価に手に入るビッグデータ()時代(画像，音声，テキスト)
学習，アーキテクチャに対する制限
局所結合, Convolution
Sparse Coding
ソフトウェアパッケージの開発環境の充実
MATLAB, R, Python などの script 系言語+パッケージ
共同開発用プラットフォームの充実(Web, GitHub, 仮想マシン)
20

Sparse Coding
21

Face detection
(Viola & Jones 01)
HOG
(Dalal&Triggs 05)
SURF
(Bay+ 06)
SIFT
(Lowe 99)
Conv. net
(LeCun+ 89)
Deep learning 
(Hinton+ 06)
Sparse Coding
22
201020001990
今ココ
SVM
(Vapnik 95) 
Boosting
(Schapire 90) 
L1-recovery 
(Candes+ 06)
Bayesian Method
Bayesian net
(Pearl 00) 
Kernel Method

Neocognitron/
Deep Convolution 
Neural Network (DCNN)
（Fukushima 1980, LeCun+ 1986, Okada 1988)
23

視覚野(Ventral pathway)の性質
視覚野: 階層構造を持ち，階層ごとに異なる視覚課題の解決
初期視覚野: 狭い受容野，単純な特徴抽出 
Simple Cell，Complex Cellの存在
高次視覚野: 広い受容野，中程度に複雑な特徴に選択的
24
V1
V2
V4
PITCIT
Ventral Pathway
AIT
TEO
TE
V1
V2
V3 VP
V4 MT VA/V4
PIT
AIT/CIT 8 TF
LIP MST DPL VIP
7a
V3A
V1
V4
V2
IT
Small receptive field
Edge, Line segment
detector
Large receptive field
Face, Complex feature
detector
?
?
(Felleman & van Essen 91 を改変)

初期視覚野の性質
線分やエッジなどの成分に反応
Simple cell: 方位，位相に敏感
Complex cell: 位相には許容的
25
Simple Cell
Phase Sensitive
Orientation Selective
Receptive Field
Input Stimulus
Fire Not FireNot Fire
Phase InsensitiveComplex Cell
Receptive Field
Input Stimulus
Fire Not FireFire
V1
V2
V4
PITCIT
Ventral Pathway
AIT
TEO
TE
V1
V4
V2
IT
Edge, Line segment
detector
detector
?
?
Simple Cell
Phase Sensitive
Receptive Field
Input Stimulus
Receptive Field
Input Stimulus
Fire Not FireFire

Hubel-Wiesel 階層仮説
Simple Cell の出力合成で， 
Complex cell は説明可能 
(Hubel & Wiesel 59)
26
Simple Cell
Phase Sensitive
Receptive Field
Input Stimulus
Receptive Field
Input Stimulus
Fire Not FireFire

生理学的な知見
27https://grey.colorado.edu/CompCogNeuro/index.php/CCNBook/Perception
細かい特徴抽象特徴

CNN の視覚野的解釈
Hubel & Wiesel : Simple → Complex Cell の階層性
V2 → IT の不明な領野 
→ 初期視覚野構造のアーキテクチャ外挿
学習によるチューニング可能性
28
V1
V2
V4
PITCIT
Ventral Pathway
AIT
TEO
TE
V1
V4
V2
IT
Edge, Line segment
detector
detector
?
?
U0 Us1Uc1 Us2Uc2 Us3Uc3 Us4Uc4 Us5Uc5
41x41x1
41x41x8
41x41x8
41x41xK2
21x21xK2
21x21xK3
11x11xK3
11x11xK4
5x5xK4
5x5xK5
1x1xK5

Deep Convolution NN (DCNN)
(Neocognitron)
畳み込みによる局所特徴抽出と空間プーリング
Neocognitron(Fukushima80): 階層仮説の実装 (Hubel &Wiesel 59)
29
S-Cell Feature Extraction
Us1 Uc1
C-Cell Tolerance to the distortion
Input
Recognition
U0 Us2 Uc2 Us3 Uc3 Us4 Uc4
It’ s “5”
S-Cell S-Cell
C-Cell
S-Cell
C-Cell
Feature IntegrationLocal
Feature
Global
Feature

DCNN の動作原理
局所特徴抽出(畳み込み)＋変形に対する不変性(プーリング)
30
Preferred Feature
(Orientation): X
Input: x
Convlution Layer
Blurring
Preferred
Orientation
S-cell response
Input: x
Subsampling Layer
Convolutions
Subsampling
Convolutions
Subsampling
Preferred feature

Neocognitron まとめ
畳み込み演算を原理としたネットワーク構造
Perceptron に比べて，結合係数の自由度は低い 
でも視覚入力は並進対称なので構造としては妥当(多分)
特徴抽出層とプーリング層の階層構造
徴抽出層は学習で決定可能 
BP使わなくても割りと普通に動く．たぶんクラスタリング
アルゴリズムでも動く
プーリングによる空間的な位相ずれの許容 
31

Convolution-net
基本アーキテクチャ
Neocognitron (Fukushima 80)
畳み込み演算による， 
局所特徴抽出+並進不変性
学習則に Back-Propagation
(LeCun+86, Okada88)
32
(LeCun+86)

DCNN デモ
33
http://yann.lecun.com/exdb/lenet/index.html
Rotation Scale
NoiseMultiple Input

DCNN 事例: 一般物体認識
IMAGENET Large Scale Visual Recognition Challenge 2012
1000 カテゴリ約1000枚の訓練画像
Convolution Neural Network
34
Krizhevsky et al. NIPS 2012
SIFT + FVs: 0.26 test err.
DCNN: 0.15 test err.

Sparse Coding
35

Face detection
(Viola & Jones 01)
HOG
(Dalal&Triggs 05)
SURF
(Bay+ 06)
SIFT
(Lowe 99)
Conv. net
(LeCun+ 89)
Deep learning 
(Hinton+ 06)
Sparse Coding
36
201020001990
今ココ
SVM
(Vapnik 95) 
Boosting
(Schapire 90) 
L1-recovery 
(Candes+ 06)
Bayesian Method
Bayesian net
(Pearl 00) 
Kernel Method
Sparse Model
Sparse Model

疎(sparse)表現によるデータ記述
基底ベクトルによる線形和表現
なるべく多くの係数が 0 になることを要請
脳科学の意味では省エネ
37
y =
MX
i
xidi
= x1 +x2 +x3 +...
y d1 d2 d3
なるべく0に
{di} を学習で決める

疎表現によるデータ記述
38
= x1 +x2 +x3 +...
y d1 d2 d3
なるべく0に
H =
X
p
yp
X
i
xp
i di
2
+
X
i
kxp
i k1
画像をなるべく
忠実に表現
なるべく多くの
係数を 0 に (LASSO)
画像パッチ {yp} から {di} と {xi
p} を取得可能か？

Sparse Coding による特徴抽出
自然画像の Sparse coding による表現 (Olshausen&Fields96)
初期視覚野の線形応答関数(Anzai+99), Gabor Waveletに類似
自然音源の Sparse coding による表現 (Terashima&Okada12)
和音の表現
39
50 100 150 200 250 300 350 400 450 500
50
100
150
200
250
300
350
400
450
500
50 100 150 200 250 300 350 400 450 500
50
100
150
200
250
300
350
400
450
500
50 100 150 200 250 300 350 400 450 500
50
100
150
200
250
300
350
400
450
500
Slide credit: Andrew Ng

Sparse Auto Encoder
Predictive Sparse Decomposition(Ranzato+07)
40
xp
= f(Wyp
)yp
= Dxp
Sparse Representation {xp}
Input Patchs {yp}
L1-Constraint
min
D,W,x
X
p
kyp
Dxp
k2
+ kxp
f(Wyp
)k2
+
X
i
kxp
i k
Encoder
Decoder

Sparseness + Hierarchy?
Hierarchical Sparse Coding (Yu+11)
DBN (Hinton & Salakhutdinov06)
41
Hiearchy Representation
Input Patchs {yp}
Level 2 Features
Level 1 Features
EncoderDecoder
EncoderDecoder
EncoderDecoder

DNN (Hinton & Salakhutdinov06)+ Drop-out (Hinton+12) 
(でも石川＆甘利の方が少し古いと思う）
42
Input Patchs {yp}
Level 2 Features
Level 1 Features
Encoder
Encoder
Encoder
Decoder を外せば  
NN として動作

DBN (Hinton & Salakhutdinov06)
43
Input Patchs {yp}
Level 2 Features
Level 1 Features
Decoder を動作させて 
最適特徴を導出
Decoder
Decoder
Decoder

Hierarchical CNN +
Sparse Coding
Sparse coding を用いた階層型識別器(Yu+11, Zeiler+11)
44
Sparse Coding
2nd Layer の基底
回転，並進に対応
Convolutions
Subsampling
Convolutions
Subsampling

Google のネコ認識
（Le+ 2012)
45

Google による大規模画像特徴抽出
基本アーキテクチャ 
局所的な受容野+プーリング 
右図 3段
12層ネットワーク 
結合数 ∼ O(1010
)
大量データの適用による自己組織化
入力: YouTube の画像 108
枚
スケール:16 core PC 103
台 3日間
学習:  
Auto Encoder +SparseCoding
46

Google による大規模画像特徴抽出
「おばあさん細胞」「ネコ細胞」生成か？
47
Preferred Stimuli in Higher level cellExamples of Training images

Sparse Coding
48

Software-Package
49
Pylearn2 Univ. Montreal
LISA Lab
Python (C++) NumPy
Torch7 NewYork Univ. ? Lua/C++ Lua
Caffe Berkeley Vision and
Learning Center
(UCB)
C++ (Python) GPU
2014/08
Cuda-convnet2 Alex Krizhevsky C++ (Python) GPU
Tesla
K20x8
元ネタは得居さんのSlideから
http://www.slideshare.net/beam2d/deep-learningimplementation
Chainer あたりも面白い

主要パッケージの構成
アーキテクチャ記述
配列(テンソル, blob)による階層構造の記述 
画像に対する構造を DCNN 表記するためには4D構造
配列による結合係数の記述 
局所結合を効率よく表現する
独自のデータ記述言語 
PyLearn2: YAML, Caﬀe: ProtoBuf
最適化
BP学習をサポート（自動微分を含む）
Stochastic Gradient Decent をサポート
50

例: Pylearn2(1)
Python + Theano + YAML
51
http://deeplearning.net/software/pylearn2/#

例: Pylearn2(2)
YAML による構造記述
デフォルト素子特性選択
階層化オブジェクト
52
model: !obj:pylearn2.models.mlp.MLP {
layers: [
!obj:pylearn2.models.mlp.Sigmoid {
layer_name: 'h0',
dim: 500,
sparse_init: 15,
},
!obj:pylearn2.models.mlp.Softmax {
layer_name: 'y',
n_classes: 10,
irange: 0.
}
],
nvis: 784,
},
MLP 構造記述の抜粋
nvis
h0
y

例: Caffe(1)
C++ (python, matlab インターフェース)+ ProtoBuf
53
http://caffe.berkeleyvision.org

例: Caffe(2)
Protobufによる構造記述
デフォルト素子特性選択
階層化オブジェクト
54
layer {
name: “y”
type: “Softmax”
bottom: “yinner”
top: “y”
}
layer {
name: “yinner”
type: “InnerProduct”
bottom: “h0”
top: “y”
}
layer {
name: “h0”
type: “Sigmoid”
bottom: “h0inner”
top: “yinner”
bottom: “h0inner”
}
MLP 構造記述の一部抜粋
nvis
h0
y

まとめ
Deep Learning は，取り巻く環境の変化によって勃興
ビッグデータ(), 計算機開発環境の進化, AI() への期待
要素技術自体は比較的枯れている
Perceptron + BP の学習達成の困難さに対して妥当な制限を
局所結合，コンボリューションにアーキテクチャ制限
スパースコーディングによる表現への制限
計算機開発環境の進化
ソフトウェアパッケージ，開発環境の充実
計算機パワーの増大
55

20150803.山口大学講演

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (8)

Similar to 20150803.山口大学講演

Similar to 20150803.山口大学講演 (20)

More from Hayaru SHOUNO

More from Hayaru SHOUNO (7)

20150803.山口大学講演