TensorFlow 深度學習快速上手班--深度學習

TensorFlow深度學習快速上手班
二、深度學習
By Mark Chang

• 深度學習的原理
• 模型選擇與參數調整
• 多層感知器實作

機器學習
監督式學習
Supervised Learning
非監督式學習
Unsupervised Learning
增強式學習
Reinforcement Learning
深度學習
Deep Learning

深度學習
• 一種機器學習的方法
• 用電腦模擬人腦神經系統構造
• 讓電腦學會人腦可做的事

神經元與動作電位
http://humanphisiology.wikispaces.com/file/view/neuron.png/2164
60814/neuron.png
http://upload.wikimedia.org/wikipedia/commons/thumb/
4/4a/Action_potential.svg/1037px-
Action_potential.svg.png

模擬神經元
nW1
W2
x1
x2
b
Wb
y
nin
nout

(0,0)
x2
x1
模擬神經元
1
0

二元分類：AND Gate
x1 x2 y
0 0 0
0 1 0
1 0 0
1 1 1
(0,0)
(0,1) (1,1)
(1,0)
0
1
n20
20
b
-30
yx
1
x
2

XOR Gate ?
(0,0)
(0,1) (1,1)
(1,0)
0
0
1
x1 x2 y
0 0 0
0 1 1
1 0 1
1 1 0

二元分類：XOR Gate
n
-20
20
b
-10
y
(0,0)
(0,1) (1,1)
(1,0)
0
1
(0,0)
(0,1) (1,1)
(1,0)
1
0
(0,0)
(0,1) (1,1)
(1,0)
0
0
1
n1
20
20
b
-30
x
1
x
2
n2
20
20
b
-10
x
1
x
2
x1 x2 n1 n2 y
0 0 0 0 0
0 1 0 1 1
1 0 0 1 1
1 1 1 1 0

類神經網路
x
y
n11
n12
n21
n22W12,y
W12,x
b
W11,y
W11,bW12,b
b
W11,x W21,11
W22,12
W21,12
W22,11
W21,bW22,b
z1
z2
Input
Layer
Hidden
Layer
Output
Layer

視覺認知
http://www.nature.com/neuro/journal/v8/n8/images/nn0805-975-F1.jpg

訓練類神經網路
• 用隨機值初始化模型參數w
• Forward Propagation
– 用目前的模型參數計算出答案
• 計算錯誤量（用Error Function）
• Backward Propagation
– 用錯誤量來修正模型

長期記憶
http://www.pnas.org/content/102/49/17846/F7.large.jpg

訓練類神經網路
訓練資料機器學習模型輸出值
正確答案
對答案
如果答錯了，
要修正模型
初始化 Forward
Propagatio
n
Error
Function
Backward
Propagatio
n

初始化
• 將所有的W隨機設成-N～N之間的數
• 每層之間W的值都不能相同
x
y
n11
n12
n21
n22W12,y
W12,x
b
W11,y
W11,bW12,b
b
W11,x W21,11
W22,12
W21,12
W22,11
W21,bW22,b
z
1
z
2
Lk-1：上一層的大小
Lk ：該層的大小

Backward Propagation
http://cpmarkchang.logdown.com/posts/277349-neural-network-backward-
propagation

模型種類
• 非線性轉換
Sigmoid:
nW1
W2
x1
x2
b Wb
tanh:
ReLU:

模型種類
• Hidden Layer
較小的Hidden Layer 較大的Hidden Layer
多層Hidden Layer單層Hidden Layer

模型複雜度
• 模型中的參數個數（weight和bias的個數）
模型複雜度低高

訓練不足與過度訓練
Tensorflow Playground
http://playground.tensorflow.org/
資料分佈
訓練適度訓練不足訓練過度

訓練不足（Underfitting）
• 原因：
– Learning Rate 太大或太
小
– 訓練時間太短
– 模型複雜度不夠
t

過度訓練（Overfitting）
• 原因：
– 雜訊太多
– 訓練資料太少
– 訓練時間太長
– 模型複雜度太高
t

驗證資料（Validation Data）
訓練資料
模型 1
測試資料最後結果
資料集
驗證資料
模型選擇
參數選擇
時間控制
模型 2
……

交叉驗證（Cross Validation）
訓練資料驗證資料
訓練資料
訓練資料
驗證資料
驗證資料
第一回
第二回
第N回
……

解決方式
• 訓練不足
– 調整Learning Rate
– 增加訓練時間
– 增加模型複雜度
• 訓練過度
– 增加訓練資料
– 減少雜訊
– 減少訓練時間
– 減少模型複雜度

調整Learning Rate
• 調整Learning Rate數值
Learning
Rate
適中
Learning
Rate
過小
Learning
Rate
過大

調整Learning Rate
• 動態調整Learning Rate：
– AdagradOptimizer
– RMSPropOptimizer
– ……

調整訓練時間
• Early Stop
Validation
LossTraining Loss
停止訓練
t

調整模型複雜度
• 調整Hidden Layer的寬度或層數
• Regularization
• Dropout

Hidden Layer寬度
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0 1 2 3 4 5 6 7 8 9
Validation Loss
Training Loss
最適寬度
Loss
寬度

Regularization
• 將weights的平方和加到cost function中
• 可使weights的絕對值不要變得太大
• 可降低模型複雜度
Cost Function:
λ越大，則模型複雜度越低

Regularization
最適λ值
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.01 0.1 1
Validation Loss
Training Loss
Loss
λ

Dropout
• 訓練時，隨機將Hidden Layer的神經元拿掉
• 可降低模型複雜度
• ex: 25%的Dropout Rate

Dropout
• 測試時，用所有的神經元來測試。
– 將所有的weight乘上 (1 – dropout_rate)

Dropout
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0 0.2 0.4 0.6 0.8 1
Validation
Error
Training Error
最適dropout rate
1- dropout rate
Error

模型選擇與參數調整實作
• Tensorflow Playground
– http://playground.tensorflow.org/

• 訓練不足（UnderFitting）

• 過度訓練（OverFitting）

多層感知器實作
https://github.com/ckmarkoh/ntc_deeplearning_tensorflow/bl
ob/master/sec2/multilayer_perceptron.ipynb

MNIST
• 數字識別
• 多元分類：0~9
https://www.tensorflow.org/versions/r0.7/images/MNIST.png

模型
• 多層感知器
Input Layer
Size:784
Hidden Layer
Size:200
Output Layer
Size:10

Computational Graph
x_ = tf.placeholder(tf.float32, [None, 784], name="x_")
y_ = tf.placeholder(tf.float32, [None, 10], name="y_")
# input -> Hidden
W1 = tf.Variable(tf.truncated_normal([784,200], stddev=0.1), name="W1")
b1 = tf.Variable(tf.zeros([200]), name="b1")
h1 = tf.nn.sigmoid(tf.matmul(x_, W1) + b1)
# Hidden -> Output
y = tf.nn.softmax(tf.matmul(h1, W2) + b2)
cross_entropy = -tf.reduce_sum(y_ * tf.log(y))
optimizer = tf.train.GradientDescentOptimizer(0.01)
trainer = optimizer.minimize(cross_entropy)
init = tf.initialize_all_variables()

Layer 1
W1 = tf.Variable(tf.truncated_normal([784,200], stddev=0.1), name="W1”)
0
1000
2000
3000
4000
5000
6000
7000
-0.2 0.20

Layer 1
h1 = tf.nn.sigmoid(tf.matmul(x_, W1) + b1)
W1
x
b1
h1
n
784
n
200
200
200
784
× + =

Layer 2
w
b
h1
n
10
10
200
200× + =
y
10
n
y = tf.nn.softmax(tf.matmul(h1, W2) + b2)

Regularization
lambda_ = tf.placeholder(tf.float32, name="lambda")
regularizer = tf.reduce_sum(tf.square(W1))
+tf.reduce_sum(tf.square(W2))
cost = cross_entropy + lambda_*regularizer
Cost Function:

Regularization
ob/master/sec2/regularization.ipynb

dropout
keep_prob = tf.placeholder(tf.float32, name="keep_prob")
h1_drop = tf.nn.dropout(h1, keep_prob)
y = tf.nn.softmax(tf.matmul(h1_drop, W2) + b2)
1
0
1
0
Dropout
Mask

dropout
ob/master/sec2/dropout.ipynb

模型儲存與載入
• 儲存模型參數
• 載入模型參數
saver = tf.train.Saver(max_to_keep=10)
saver.save(sess, "model.ckpt")
saver = tf.train.Saver()
saver.restore(sess, "model.ckpt")

講師資訊
• Email: ckmarkoh at gmail dot com
• Blog: http://cpmarkchang.logdown.com
• Github: https://github.com/ckmarkoh
Mark Chang
• Facebook: https://www.facebook.com/ckmarkoh.chang
• Slideshare: http://www.slideshare.net/ckmarkohchang
• Linkedin: https://www.linkedin.com/pub/mark-
chang/85/25b/847
66

TensorFlow 深度學習快速上手班--深度學習

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to TensorFlow 深度學習快速上手班--深度學習

Similar to TensorFlow 深度學習快速上手班--深度學習 (20)

More from Mark Chang

More from Mark Chang (20)

TensorFlow 深度學習快速上手班--深度學習

Editor's Notes