SlideShare a Scribd company logo
1 of 19
3. 資料與特徵
43
機器學習=資料+演算法
1. 沒有資料什麼都不能做
2. 有資料但品質不好 (Dirty Data), 可能造成Garbage
In Garbage Out
簡介
44
綱要
資料去那收集
資料清洗 (去蕪存菁)
特徵選擇
特徵距離的計算
資料標準化
資料集分割
1. 自行收集: 做問卷調查、設置感測器收集、..
2. 使用Open Data : 政府或研究機構的開放資料
• https://data.gov.tw
• Kaggle.com
• UCI Machine Learning Repository
3. 各家公司提供的API
• Facebook Graph API, YouTube Data API
4. 網頁爬蟲程式
5. 直接向廠商購買
資料去那收集?
46
1. 資料不完整
2. 資料格式不一致
3. 資料無效
4. 資料重複
資料可能發生的問題
47
Dirty Data
Data Cleaning 資料清洗 (去蕪存菁)
48
1.) 插值法
2.) 插值平均值或中位數
3.) 插值空值
Data Cleaning (cont.)
49
4.) 將名目值量化
5.) 移除異常資料 (remove outlier)
three-sigma rule.
68%數值分布在距離平均值有
1個標準差之內的範圍
資料的特徵 (或稱為屬性) 是否都是有用?!
能減少不必要或無用的特徵進入模型, 可以提升
準確度並且可以降低模型的計算量以提升預測反
應速度.
如何檢驗特徵與目標(target)或特徵與特徵之間之
間的關聯性?
特徵選擇
50
可以衡量兩變數x和y的「線性」相依程度
皮爾森相關係數(Pearson correlation coefficient)
51
=
52
1.) 完全正相關為
即 所有 點會全部落在
45度的直線上
2. ) 某特徵與目標的| | 愈高,
表示此特徵對於目標有較大影響力
實作練習
53
資料間的相似程度 (Similarity)即計算它們的特徵
距離
Distance Metrics:
特徵距離的計算
54
2.) Euclidean Distance:
1.) Manhattan Distance:
x = (x1, x2, x3,..., xn) and y = (y1, y2, y3,…, yn)
n-number of features xi and yi are the features of
vectors x and y respectively, in the two dimensional
vector space.
3.) Cosine Distance:
x1 x2 x3 x4 x5 x6
D1 2 3 4 2 1 15
D2 1 2 2 4 3 51
D3 1 4 5 2 2 35
分別計算 Euclidean Distance
55
d(D1,D2)=
d(D2,D3)=
d(D1,D3)=
 
 
 
距離會被值域較大的特徵所決定
Min-Max Normalization
• Re-scaling the range of a vector to make all elements lie
between 0 and 1
Z-score Standardization
• Subtract the mean and divide by the standard deviation
Feature re-scaling
56
將每個特徵值的尺度轉成一致
~(0,1)
Min-Max Normalization使用時機,
資料的上下界通常是己知的固定值
Example
57
x1 x2 x3 x4 x5 x6
D1 1 0
D2 0 1
D3 0 0.5556
x1 x2 x3 x4 x5 x6
D1 2 3 4 2 1 15
D2 1 2 2 4 3 51
D3 1 4 5 2 2 35
After Min-Max Normalization
距離不會被值域特別大的特徵影響太多
Cosine Similarity
Ch0-58
The Cosine metric is a measurement of orientation
and not magnitude
• Cosine不看magnitude(強度),只在乎2個向量是否具有相
同方向 (且不一定要有相同向量空間).而Euclidean是要是
相同向量空間且magnitude會影響計算的距離.
• Cosine Similarity 常用在文章分類, 因為文章出現關鍵詞
種類愈多比較重要,而不是某一個個關鍵詞出現很多次
(因為很有可能出現的很多次, 其實只是這篇文章寫得比
較長而已)
Use Euclidean Distance or Cosine Similarity ?
59
Numpy: Inner Product/Dot Product
>>> a = np.array([5, 6, 7])
>>> b = np.array([6, 6, 6])
>>> a.dot(b) #向量內積 inner product=>純數
108
>>> np.dot(a,b)
108
>>> c = np.array([[1,2,3],[4,5,6],[7,8,9]]) #二維陣列
>>> c.dot(a) #二維陣列的每行與㇐維向量計算內積
array([ 38, 92, 146])
>>> c[0].dot(a) #兩個㇐維向量計算內積
38
>>> c[1].dot(a)
92
>>> c[2].dot(a)
146
60
Python 實作
61
值愈大, 角度愈小 , 表示很有相關
值愈小, 角度愈大 , 表示愈不相關

More Related Content

More from 艾鍗科技

TinyML - 4 speech recognition
TinyML - 4 speech recognition TinyML - 4 speech recognition
TinyML - 4 speech recognition 艾鍗科技
 
Appendix 1 Goolge colab
Appendix 1 Goolge colabAppendix 1 Goolge colab
Appendix 1 Goolge colab艾鍗科技
 
Project-IOT於餐館系統的應用
Project-IOT於餐館系統的應用Project-IOT於餐館系統的應用
Project-IOT於餐館系統的應用艾鍗科技
 
02 IoT implementation
02 IoT implementation02 IoT implementation
02 IoT implementation艾鍗科技
 
Tiny ML for spark Fun Edge
Tiny ML for spark Fun EdgeTiny ML for spark Fun Edge
Tiny ML for spark Fun Edge艾鍗科技
 
2. 機器學習簡介
2. 機器學習簡介2. 機器學習簡介
2. 機器學習簡介艾鍗科技
 
5.MLP(Multi-Layer Perceptron)
5.MLP(Multi-Layer Perceptron) 5.MLP(Multi-Layer Perceptron)
5.MLP(Multi-Layer Perceptron) 艾鍗科技
 
心率血氧檢測與運動促進
心率血氧檢測與運動促進心率血氧檢測與運動促進
心率血氧檢測與運動促進艾鍗科技
 
利用音樂&情境燈幫助放鬆
利用音樂&情境燈幫助放鬆利用音樂&情境燈幫助放鬆
利用音樂&情境燈幫助放鬆艾鍗科技
 
IoT感測器驅動程式 在樹莓派上實作
IoT感測器驅動程式在樹莓派上實作IoT感測器驅動程式在樹莓派上實作
IoT感測器驅動程式 在樹莓派上實作艾鍗科技
 
無線聲控遙控車
無線聲控遙控車無線聲控遙控車
無線聲控遙控車艾鍗科技
 
最佳光源的研究和實作
最佳光源的研究和實作最佳光源的研究和實作
最佳光源的研究和實作 艾鍗科技
 
無線監控網路攝影機與控制自走車
無線監控網路攝影機與控制自走車無線監控網路攝影機與控制自走車
無線監控網路攝影機與控制自走車 艾鍗科技
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement Learning艾鍗科技
 
人臉辨識考勤系統
人臉辨識考勤系統人臉辨識考勤系統
人臉辨識考勤系統艾鍗科技
 
智慧家庭Smart Home
智慧家庭Smart Home智慧家庭Smart Home
智慧家庭Smart Home艾鍗科技
 

More from 艾鍗科技 (20)

TinyML - 4 speech recognition
TinyML - 4 speech recognition TinyML - 4 speech recognition
TinyML - 4 speech recognition
 
Appendix 1 Goolge colab
Appendix 1 Goolge colabAppendix 1 Goolge colab
Appendix 1 Goolge colab
 
Project-IOT於餐館系統的應用
Project-IOT於餐館系統的應用Project-IOT於餐館系統的應用
Project-IOT於餐館系統的應用
 
02 IoT implementation
02 IoT implementation02 IoT implementation
02 IoT implementation
 
Tiny ML for spark Fun Edge
Tiny ML for spark Fun EdgeTiny ML for spark Fun Edge
Tiny ML for spark Fun Edge
 
Openvino ncs2
Openvino ncs2Openvino ncs2
Openvino ncs2
 
Step motor
Step motorStep motor
Step motor
 
2. 機器學習簡介
2. 機器學習簡介2. 機器學習簡介
2. 機器學習簡介
 
5.MLP(Multi-Layer Perceptron)
5.MLP(Multi-Layer Perceptron) 5.MLP(Multi-Layer Perceptron)
5.MLP(Multi-Layer Perceptron)
 
心率血氧檢測與運動促進
心率血氧檢測與運動促進心率血氧檢測與運動促進
心率血氧檢測與運動促進
 
利用音樂&情境燈幫助放鬆
利用音樂&情境燈幫助放鬆利用音樂&情境燈幫助放鬆
利用音樂&情境燈幫助放鬆
 
IoT感測器驅動程式 在樹莓派上實作
IoT感測器驅動程式在樹莓派上實作IoT感測器驅動程式在樹莓派上實作
IoT感測器驅動程式 在樹莓派上實作
 
無線聲控遙控車
無線聲控遙控車無線聲控遙控車
無線聲控遙控車
 
最佳光源的研究和實作
最佳光源的研究和實作最佳光源的研究和實作
最佳光源的研究和實作
 
無線監控網路攝影機與控制自走車
無線監控網路攝影機與控制自走車無線監控網路攝影機與控制自走車
無線監控網路攝影機與控制自走車
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement Learning
 
Linux Device Tree
Linux Device TreeLinux Device Tree
Linux Device Tree
 
人臉辨識考勤系統
人臉辨識考勤系統人臉辨識考勤系統
人臉辨識考勤系統
 
智慧家庭Smart Home
智慧家庭Smart Home智慧家庭Smart Home
智慧家庭Smart Home
 
智能健身
智能健身智能健身
智能健身
 

3. data features