SlideShare a Scribd company logo
1 of 79
Feature Selection 

with RapidMiner Studio 6
(data)3

base|warehouse|mining
http://www.dataminingtrend.com

http://facebook.com/datacube.th
Eakasit Pacharawongsakda, Ph.D.
Data Cube: http://facebook.com/datacube.th
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection
• ประสิทธิภาพของ Classification ขึ้นอยู่กับ แอตทริบิวต์ หรือ feature

ที่นำมาใช้
• attribute selection เป็นวิธีการคัดเลือกแอตทริบิวต์ (หรือ feature) 

ที่สำคัญในการสร้างโมเดล
• เลือกแอตทริบิวต์ที่มีความสัมพันธ์ (correlation) กับแอตทริบิวต์ลาเบล (label) มาก
• เลือกแอตทริบิวต์ที่มีความสัมพันธ์กันระหว่างแอตทริบิวต์น้อย
• การทำ attribute selection เหมาะกับ
• ช้อมูลที่มีจำนวนแอตทริบิวต์เป็นจำนวนเยอะ เช่น text mining
• ใช้เวลาในการสร้างโมเดลนาน
2
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection
• แบ่งได้เป็น 2 แบบ
• Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ
แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้
• Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว
วัดประสิทธิภาพของแอตทริบิวต์
3
ID Free Won Cash Call Service Type
1 Y Y Y Y Y spam
2 N Y Y Y N spam
compute weight
ID Free Won Type
1 Y Y spam
2 N Y spam
แอตทริบิวต์ทั้งหมดใน training data
แอตทริบิวต์หลังจากการเลือก

(selection) แล้ว
ID Free Won Cash Call Service Type
1 Y Y Y Y Y spam
2 N Y Y Y N spam
ID Free Won Type
1 Y Y spam
2 N Y spam
แอตทริบิวต์ทั้งหมดใน training data
แอตทริบิวต์หลังจากการเลือก

(selection) แล้ว
classification
model
Attribute Selection: Filter Approach
Attribute Selection: Wrapper Approach
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection
• แบ่งได้เป็น 2 แบบ
• Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ
แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้
• Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า
Information Gain
• Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square
• Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว
วัดประสิทธิภาพของแอตทริบิวต์
• Forward Selection
• Backward Elimination
• Evolutionary Selection
4
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Information Theory-based filtering
• คำนวณค่าความสัมพันธ์ของแต่ละแอตทริบิวต์กับแอตทริบิวต์

ลาเบลด้วยวิธี Information Gain
• ใช้ได้กับแอตทริบิวต์ที่เป็นนอมินอล (nominal) เท่านั้น
• คำนวณค่า Entropy และ Information Gain (IG)
5
Entropy(c1) = -p(c1) log p(c1)
IG (parent, child) =  Entropy(parent) – [p(c1) × Entropy(c1) + p(c2) × Entropy(c2) + ...]
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Information Theory-based filtering
• คำนวณค่า Information Gain (IG) ระหว่างแอตทริบิวต์กับลาเบล
6
ID Outlook Temperature Humidity Windy Play
1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute IG
Outlook 0.247
Temperature
Humidity
Windy
ตารางค่า Information Gain
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Information Theory-based filtering
• คำนวณค่า Information Gain (IG) ระหว่างแอตทริบิวต์กับลาเบล
7
ID Outlook Temperature Humidity Windy Play
1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute IG
Outlook 0.247
Temperature 0.029
Humidity
Windy
ตารางค่า Information Gain
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Information Theory-based filtering
• คำนวณค่า Information Gain (IG) ระหว่างแอตทริบิวต์กับลาเบล
8
ID Outlook Temperature Humidity Windy Play
1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute IG
Outlook 0.247
Temperature 0.029
Humidity 0.152
Windy
ตารางค่า Information Gain
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Information Theory-based filtering
• คำนวณค่า Information Gain (IG) ระหว่างแอตทริบิวต์กับลาเบล
9
ID Outlook Temperature Humidity Windy Play
1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute IG
Outlook 0.247
Temperature 0.029
Humidity 0.152
Windy 0.048
ตารางค่า Information Gain
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Information Theory-based filtering
• เลือกแอตทริบิวต์ที่มีค่า IG มากกว่า 0.1
10
attribute IG
Outlook 0.247
Humidity 0.152
Windy 0.048
Temperature 0.029
ID Outlook Humidity Play
1 sunny high no
2 sunny high no
3 overcast high yes
4 rainy high yes
5 rainy normal yes
6 rainy normal no
7 overcast normal yes
8 sunny high no
9 sunny normal yes
10 rainy normal yes
11 sunny normal yes
12 overcast high yes
13 overcast normal yes
14 rainy high no
ตารางค่า Information Gain
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Weight by IG
• โอเปอเรเตอร์ที่เกี่ยวข้อง
11
โอเปอเรเตอร์ คำอธิบาย
Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV
Weight by Information Gain
ใช้สำหรับคำนวณค่าน้ำหนักของแอตทริบิวต์ด้วยเทคนิค
Information Gain
Select by weight ใช้สำหรับเลือกแอตทริบิวต์ตามค่าน้ำหนัก (weight)
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Weight by IG
• ใช้ข้อมูล weather_nominal และโอเปอเรเตอร์ Weight by Information
Gain
12
1
2
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Weight by IG
• ผลการคำนวณค่า Information Gain ของแต่ละแอตทริบิวต์
13
ค่า Information Gain (IG)
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Weight by IG
• ใช้โอเปอเรเตอร์ Select by weight เพื่อเลือกแอตทริบิวต์ที่มีค่า weight
มากกว่า 0.1
14
1
2
5
3
6
4
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Weight by IG
• ผลการคัดเลือกแอตทริบิวต์ที่มีค่า IG มากกว่า 0.1
15
ค่า Information Gain (IG)
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection
• แบ่งได้เป็น 2 แบบ
• Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ
แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้
• Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information
Gain
• Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square
• Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว
วัดประสิทธิภาพของแอตทริบิวต์
• Forward Selection
• Backward Elimination
• Evolutionary Selection
16
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering
• คำนวณค่าความสัมพันธ์ของแต่ละ feature ด้วยวิธี Chi-Square
• ใช้ได้กับแอตทริบิวต์ที่เป็นนอมินอล (nominal) เท่านั้น
• ดูความถี่ที่เกิดขึ้นระหว่างแอตทริบิวต์ต่างๆ เทียบกับแอตทริบิวต์ลาเบล (label)
• ค่า Chi-Square คำนวณได้จาก
• f0 = observed frequency
• fe = expected frequency
17
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering
• คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์ Outlook กับลาเบล
• Expected Frequency ของ Outlook=sunny และ Play=no

= P(Outlook = sunny) * P(Play = no) * Total Number

= (5/14) * (5/14) * 14 = 1.785714
18
ID Outlook Play
6 rainy no
14 rainy no
1 sunny no
2 sunny no
8 sunny no
3 overcast yes
7 overcast yes
12 overcast yes
13 overcast yes
4 rainy yes
5 rainy yes
10 rainy yes
9 sunny yes
11 sunny yes
Outlook = sunny overcast rainy Total
Play = no 3 0 2 5
Play = yes 2 4 3 9
Total 5 4 5 14
observed frequency
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering
• คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์ Outlook กับลาเบล
19
ID Outlook Play
6 rainy no
14 rainy no
1 sunny no
2 sunny no
8 sunny no
3 overcast yes
7 overcast yes
12 overcast yes
13 overcast yes
4 rainy yes
5 rainy yes
10 rainy yes
9 sunny yes
11 sunny yes
Outlook = sunny overcast rainy Total
Play = no 3 0 2 5
Play = yes 2 4 3 9
Total 5 4 5 14
Outlook = sunny overcast rainy Total
Play = no 1.786 1.429 1.786 5
Play = yes 3.214 2.571 3.214 9
Total 5 4 5 14
observed frequency
expected frequency
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering
• คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์ Outlook กับลาเบล
20
Outlook = sunny overcast rainy
Play = no 3 0 2
Play = yes 2 4 3
Outlook = sunny overcast rainy
Play = no 1.786 1.429 1.786
Play = yes 3.214 2.571 3.214
observed frequency
expected frequency
• Chi-Square = (3-1.786)2/1.786 + 

(0-1.429)2/1.429 + 

(2-1.786)2/1.786 +

(2-3.214)2/3.214 +

(4-2.571)2/2.571 +

(3-3.214)2/3.214
= 3.547
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering
• คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์กับลาเบล
21
ID Outlook Temperature Humidity Windy Play
1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute Chi-Square
Outlook 3.547
Temperature
Humidity
Windy
ตารางค่า Chi-Square
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering
• คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์กับลาเบล
22
ID Outlook Temperature Humidity Windy Play
1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute Chi-Square
Outlook 3.547
Temperature 0.570
Humidity
Windy
ตารางค่า Chi-Square
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering
• คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์กับลาเบล
23
ID Outlook Temperature Humidity Windy Play
1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute Chi-Square
Outlook 3.547
Temperature 0.570
Humidity 2.800
Windy
ตารางค่า Chi-Square
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering
• คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์กับลาเบล
24
ID Outlook Temperature Humidity Windy Play
1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute Chi-Square
Outlook 3.547
Temperature 0.570
Humidity 2.800
Windy 0.933
ตารางค่า Chi-Square
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
• เลือกแอตทริบิวต์ที่มีค่า Chi-Square มากกว่า 2.0
attribute Chi-Square
Outlook 3.547
Humidity 2.800
Windy 0.933
Temperature 0.570
Chi-Square-based filtering
25
ID Outlook Humidity Play
1 sunny high no
2 sunny high no
3 overcast high yes
4 rainy high yes
5 rainy normal yes
6 rainy normal no
7 overcast normal yes
8 sunny high no
9 sunny normal yes
10 rainy normal yes
11 sunny normal yes
12 overcast high yes
13 overcast normal yes
14 rainy high no
ตารางค่า Chi-Square
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-12: Weight by CS
• โอเปอเรเตอร์ที่เกี่ยวข้อง
26
โอเปอเรเตอร์ คำอธิบาย
Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV
Weight by Chi-Square
ใช้สำหรับคำนวณค่าน้ำหนักของแอตทริบิวต์ด้วยเทคนิค
Chi-Square
Select by weight ใช้สำหรับเลือกแอตทริบิวต์ตามค่าน้ำหนัก (weight)
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-12: Weight by CS
• ใช้ข้อมูล weather_nominal และโอเปอเรเตอร์ Weight by Chi-
Square
27
1
4
2
3
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-12: Weight by CS
• ผลการคำนวณค่า Chi-Square ของแต่ละแอตทริบิวต์
28
ค่า Chi-Square (CS)
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
• ใช้โอเปอเรเตอร์ Select by weight เพื่อเลือกแอตทริบิวต์ที่มีค่า weight
มากกว่า 2.0
Example 7-12: Weight by CS
29
7
5
8
6
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-12: Weight by CS
• ผลการคัดเลือกแอตทริบิวต์ที่มีค่า Chi-Square มากกว่า 2.0
30
ค่า Chi-Square (CS)
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection
• แบ่งได้เป็น 2 แบบ
• Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ
แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้
• Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information
Gain
• Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square
• Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว
วัดประสิทธิภาพของแอตทริบิวต์
• Forward Selection
• Backward Elimination
• Evolutionary Selection
31
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach
• เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล
และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้
• ใช้แอตทริบิวต์ Free อย่างเดียว
32
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
ID Free Type
1 Y spam
2 N spam
3 N normal
4 N normal
5 Y spam
6 Y spam
7 N normal
8 N spam
9 N normal
10 N normal
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach
• เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล
และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้
• ใช้แอตทริบิวต์ Won อย่างเดียว
33
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
ID Won Type
1 Y spam
2 Y spam
3 N normal
4 N normal
5 N spam
6 N spam
7 N normal
8 Y spam
9 N normal
10 N normal
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach
• เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล
และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้
• ใช้แอตทริบิวต์ Cash อย่างเดียว
34
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
ID Cash Type
1 Y spam
2 Y spam
3 N normal
4 N normal
5 N spam
6 N spam
7 N normal
8 N spam
9 N normal
10 N normal
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach
• เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล
และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้
• ใช้แอตทริบิวต์ Free และ Won
35
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
ID Free Won Type
1 Y Y spam
2 N Y spam
3 N N normal
4 N N normal
5 Y N spam
6 Y N spam
7 N N normal
8 N Y spam
9 N N normal
10 N N normal
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach
• เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล
และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้
• ใช้แอตทริบิวต์ Free และ Cash
36
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
ID Free Cash Type
1 Y Y spam
2 N Y spam
3 N N normal
4 N N normal
5 Y N spam
6 Y N spam
7 N N normal
8 N N spam
9 N N normal
10 N N normal
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach
• เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล
และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้
• ใช้แอตทริบิวต์ Won และ Cash
37
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
ID Won Cash Type
1 Y Y spam
2 Y Y spam
3 N N normal
4 N N normal
5 N N spam
6 N N spam
7 N N normal
8 Y N spam
9 N N normal
10 N N normal
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach
• เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล
และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้
• ใช้แอตทริบิวต์ Free, Won และ Cash
38
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection
• เพิ่มแอตทริบิวต์ทีละ 1 แอตทริบิวต์และคัดเลือกเฉพาะแอตทริบิวต์

ที่มีความสำคัญเก็บไว้
• ถ้าแอตทริบิวต์ที่ใส่เพิ่มเข้าไปให้ค่า performance ดีขึ้นก็จะเก็บแอตทริบิวต์นี้ไว้
• ถ้าแอตทริบิวต์ที่ใส่เพิ่มเข้าไปให้ค่า performance แย่ลงก็จะดึงแอตทริบิวต์นี้ออก
มา
39
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection
• ใช้แอตทริบิวต์ Free อย่างเดียว
40
accuracy = 80%
ID Free Type
1 Y spam
2 N spam
3 N normal
4 N normal
5 Y spam
6 Y spam
7 N normal
8 N spam
9 N normal
10 N normal
ทดสอบประสิทธิภาพ

ด้วย Cross-validation
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection
• ใช้แอตทริบิวต์ Won อย่างเดียว
41
accuracy = 80%
ID Won Type
1 Y spam
2 Y spam
3 N normal
4 N normal
5 N spam
6 N spam
7 N normal
8 Y spam
9 N normal
10 N normal
ทดสอบประสิทธิภาพ

ด้วย Cross-validation
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection
• ใช้แอตทริบิวต์ Cash อย่างเดียว
42
accuracy = 50%
ID Cash Type
1 Y spam
2 Y spam
3 N normal
4 N normal
5 N spam
6 N spam
7 N normal
8 N spam
9 N normal
10 N normal
ทดสอบประสิทธิภาพ

ด้วย Cross-validation
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection
• ใช้แอตทริบิวต์ Free และ Won
43
accuracy = 60%
ทดสอบประสิทธิภาพ

ด้วย Cross-validation
ID Free Won Type
1 Y Y spam
2 N Y spam
3 N N normal
4 N N normal
5 Y N spam
6 Y N spam
7 N N normal
8 N Y spam
9 N N normal
10 N N normal
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection
• ใช้แอตทริบิวต์ Free และ Won
44
accuracy = 60%
ทดสอบประสิทธิภาพ

ด้วย Cross-validation
ID Free Won Type
1 Y Y spam
2 N Y spam
3 N N normal
4 N N normal
5 Y N spam
6 Y N spam
7 N N normal
8 N Y spam
9 N N normal
10 N N normal
ตัดแอตทริบิวต์ Cash ทิ้งเนื่องจากให้ค่าความถูกต้องลดลง
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection
• ใช้แอตทริบิวต์ Free และ Cash
45
accuracy = 80%
ทดสอบประสิทธิภาพ

ด้วย Cross-validation
ID Free Cash Type
1 Y Y spam
2 N Y spam
3 N N normal
4 N N normal
5 Y N spam
6 Y N spam
7 N N normal
8 N N spam
9 N N normal
10 N N normal
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection
• ใช้แอตทริบิวต์ Free และ Cash
46
accuracy = 80%
ทดสอบประสิทธิภาพ

ด้วย Cross-validation
ID Free Cash Type
1 Y Y spam
2 N Y spam
3 N N normal
4 N N normal
5 Y N spam
6 Y N spam
7 N N normal
8 N N spam
9 N N normal
10 N N normal
ตัดแอตทริบิวต์ Cash ทิ้งเนื่องจากไม่ได้ทำให้ค่าความถูกต้องเพิ่มขึ้น
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-13: Forward Selection
• โอเปอเรเตอร์ที่เกี่ยวข้อง
47
โอเปอเรเตอร์ คำอธิบาย
Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV
Forward Selection ใช้สำหรับคัดเลือกแอตทริบิวต์ด้วยวิธี Forward Selection
X-Validation แบ่งข้อมูลสำหรับสร้างโมเดลและทดสอบโมเดล
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-13: Forward Selection
• โอเปอเรเตอร์ที่เกี่ยวข้อง
48
โอเปอเรเตอร์ คำอธิบาย
Neural Net ใช้สำหรับสร้างโมเดล Neural Network
Apply Model ใช้สำหรับ predict ข้อมูลใหม่
Performance

(Binominal Classification) สำหรับแสดงตัวชี้วัดของโมเดล classification
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-13: Forward Selection
• โหลดข้อมูล gold_training.csv ด้วยโอเปอเรเตอร์ Read CSV
49
1
4
2
3
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-13: Forward Selection
• คลิกปุ่ม ‘Import Configuration Wizard…’
• กำหนดแอตทริบิวต์ Date ให้เป็นแอตทริบิวต์ประเภทไอดี
• กำหนดแอตทริบิวต์ GC Trend ให้เป็นแอตทริบิวต์ประเภทลาเบล
50
5 6
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-13: Forward Selection
• double click ที่โอเปอเรเตอร์ Forward Selection และใช้โอเปอเรเตอร์

X-validation จาก New Building Block เพื่อทดสอบประสิทธิภาพของโมเดล
51
5
7
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
• double click ที่โอเปอเรเตอร์ X-Validation เพื่อสร้างโมเดล 

Neural Network
Example 7-13: Forward Selection
52
10
8
9
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-13: Forward Selection
• ค่านำหนักของแต่ละแอตทริบิวต์
53
ค่าน้ำหนักของแต่ละ
แอตทริบิวต์
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-13: Forward Selection
• แสดงข้อมูลหลังจากเลือกแอตทริบิวต์
54
เหลือเพียงแค่ 4
แอตทริบิวต์
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-13: Forward Selection
• ผลการทดสอบประสิทธิภาพด้วยวิธี Cross-validation
55
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection
• แบ่งได้เป็น 2 แบบ
• Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ
แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้
• Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information
Gain
• Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square
• Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว
วัดประสิทธิภาพของแอตทริบิวต์
• Forward Selection
• Backward Elimination
• Evolutionary Selection
56
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Backward Elimination
• เริ่มจากใช้แอตทริบิวต์ทั้งหมดและตัดแอตทริบิวต์ออกไปทีละ 1 ตัว

เพื่อคัดเลือกเฉพาะแอตทริบิวต์ที่มีความสำคัญเก็บไว้
• ถ้าแอตทริบิวต์ที่ตัดออกไปให้ค่า performance ดีขึ้นก็จะตัดแอตทริบิวต์นี้ทิ้ง
• ถ้าแอตทริบิวต์ที่ตัดออกไปให้ค่า performance แย่ลงก็จะเก็บแอตทริบิวต์นี้ไว้
57
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Backward Elimination
• ใช้แอตทริบิวต์ Free, Won และ Cash
58
accuracy = 60%
ทดสอบประสิทธิภาพ

ด้วย Cross-validation
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Backward Elimination
• ใช้แอตทริบิวต์ Won และ Cash (ตัดแอตทริบิวต์ Free ทิ้ง)
59
accuracy = 80%
ทดสอบประสิทธิภาพ

ด้วย Cross-validation
ID Won Cash Type
1 Y Y spam
2 Y Y spam
3 N N normal
4 N N normal
5 N N spam
6 N N spam
7 N N normal
8 Y N spam
9 N N normal
10 N N normal
ตัดแอตทริบิวต์ Free ทิ้งเนื่องจากทำให้ค่าความถูกต้องเพิ่มขึ้น
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-14: Backward Elimination
• โอเปอเรเตอร์ที่เกี่ยวข้อง
60
โอเปอเรเตอร์ คำอธิบาย
Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV
Backward Elimination
ใช้สำหรับคัดเลือกแอตทริบิวต์ด้วยวิธี Backward
Elimination
X-Validation แบ่งข้อมูลสำหรับสร้างโมเดลและทดสอบโมเดล
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-14: Backward Elimination
• โอเปอเรเตอร์ที่เกี่ยวข้อง
61
โอเปอเรเตอร์ คำอธิบาย
Neural Net ใช้สำหรับสร้างโมเดล Neural Network
Apply Model ใช้สำหรับ predict ข้อมูลใหม่
Performance

(Binominal Classification) สำหรับแสดงตัวชี้วัดของโมเดล classification
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-14: Backward Elimination
• โหลดข้อมูล gold_training.csv ด้วยโอเปอเรเตอร์ Read CSV
62
1
4
2
3
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-14: Backward Elimination
• คลิกปุ่ม ‘Import Configuration Wizard…’
• กำหนดแอตทริบิวต์ Date ให้เป็นแอตทริบิวต์ประเภทไอดี
• กำหนดแอตทริบิวต์ GC Trend ให้เป็นแอตทริบิวต์ประเภทลาเบล
63
5 6
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-14: Backward Elimination
• double click ที่โอเปอเรเตอร์ Backward Elimination และใช้โอเปอเรเตอร์

X-validation จาก New Building Block เพื่อทดสอบประสิทธิภาพของโมเดล
64
7
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
• double click ที่โอเปอเรเตอร์ X-Validation เพื่อสร้างโมเดล 

Neural Network
Example 7-14: Backward Elimination
65
10
8
9
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-14: Backward Elimination
• ค่านำหนักของแต่ละแอตทริบิวต์
66
ค่าน้ำหนักของแต่ละ
แอตทริบิวต์
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-14: Backward Elimination
• แสดงข้อมูลหลังจากเลือกแอตทริบิวต์
67
เหลือเพียงแค่ 5
แอตทริบิวต์
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-14: Backward Elimination
• ผลการทดสอบประสิทธิภาพด้วยวิธี Cross-validation
68
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection
• แบ่งได้เป็น 2 แบบ
• Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ
แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้
• Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information
Gain
• Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square
• Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว
วัดประสิทธิภาพของแอตทริบิวต์
• Forward Selection
• Backward Elimination
• Evolutionary Selection
69
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Evolutionary Selection
• Forward Selection และ Backward Elimination เป็นการทำงานแบบ
greedy ถ้าเจอเซตของแอตทริบิวต์ที่ทำให้ค่าความถูกต้องเพิ่มขึ้นก็จะ
หยุดการค้นหา
• Evolutionary Selection
• สุ่มเลือกแอตทริบิวต์ขึ้นมา และวัดประสิทธิภาพ
• คัดเลือกแอตทริบิวต์ที่มีประสิทธิภาพและสุ่มเลือกตัวอื่นเพิ่มขึ้นมา
70
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-15: Evolutionary Selection
• โอเปอเรเตอร์ที่เกี่ยวข้อง
71
โอเปอเรเตอร์ คำอธิบาย
Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV
Optimize Selection
(Evolutionary)
ใช้สำหรับคัดเลือกแอตทริบิวต์ด้วยวิธี Optimize
Selection (Evolutionary)
X-Validation แบ่งข้อมูลสำหรับสร้างโมเดลและทดสอบโมเดล
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-15: Evolutionary Selection
• โอเปอเรเตอร์ที่เกี่ยวข้อง
72
โอเปอเรเตอร์ คำอธิบาย
Neural Net ใช้สำหรับสร้างโมเดล Neural Network
Apply Model ใช้สำหรับ predict ข้อมูลใหม่
Performance

(Binominal Classification) สำหรับแสดงตัวชี้วัดของโมเดล classification
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-15: Evolutionary Selection
• โหลดข้อมูล gold_training.csv ด้วยโอเปอเรเตอร์ Read CSV
73
1
4
2
3
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-15: Evolutionary Selection
• คลิกปุ่ม ‘Import Configuration Wizard…’
• กำหนดแอตทริบิวต์ Date ให้เป็นแอตทริบิวต์ประเภทไอดี
• กำหนดแอตทริบิวต์ GC Trend ให้เป็นแอตทริบิวต์ประเภทลาเบล
74
5 6
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-15: Evolutionary Selection
• double click ที่โอเปอเรเตอร์ Optimize Selection (Evolutionary) 

และใช้โอเปอเรเตอร์ X-validation จาก New Building Block เพื่อทดสอบ
ประสิทธิภาพของโมเดล
75
7
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
• double click ที่โอเปอเรเตอร์ X-Validation เพื่อสร้างโมเดล 

Neural Network
Example 7-15: Evolutionary Selection
76
10
8
9
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-15: Evolutionary Selection
• ค่านำหนักของแต่ละแอตทริบิวต์
77
ค่าน้ำหนักของแต่ละ
แอตทริบิวต์
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-15: Evolutionary Selection
• แสดงข้อมูลหลังจากเลือกแอตทริบิวต์
78
เหลือเพียงแค่ 5
แอตทริบิวต์
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-15: Evolutionary Selection
• ผลการทดสอบประสิทธิภาพด้วยวิธี Cross-validation
79

More Related Content

What's hot

How to Build Recommender System with Content based Filtering
How to Build Recommender System with Content based FilteringHow to Build Recommender System with Content based Filtering
How to Build Recommender System with Content based FilteringVõ Duy Tuấn
 
ประชากรและกลุ่มตัวอย่าง
ประชากรและกลุ่มตัวอย่างประชากรและกลุ่มตัวอย่าง
ประชากรและกลุ่มตัวอย่าง0804900158
 
ความน่าจะเป็น เลขที่13
ความน่าจะเป็น เลขที่13ความน่าจะเป็น เลขที่13
ความน่าจะเป็น เลขที่13I'am Son
 
เรื่อง บทเรียนสำเร็จรูปเรื่อง อสมการ ม.3
เรื่อง บทเรียนสำเร็จรูปเรื่อง อสมการ ม.3  เรื่อง บทเรียนสำเร็จรูปเรื่อง อสมการ ม.3
เรื่อง บทเรียนสำเร็จรูปเรื่อง อสมการ ม.3 วรรณิภา ไกรสุข
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data miningphakhwan22
 
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพSomporn Amornwech
 
Zipline: Airbnb’s Machine Learning Data Management Platform with Nikhil Simha...
Zipline: Airbnb’s Machine Learning Data Management Platform with Nikhil Simha...Zipline: Airbnb’s Machine Learning Data Management Platform with Nikhil Simha...
Zipline: Airbnb’s Machine Learning Data Management Platform with Nikhil Simha...Databricks
 
สถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยสถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยNU
 
Orange Data Mining and Data Visualization Tool
Orange Data Mining and Data Visualization ToolOrange Data Mining and Data Visualization Tool
Orange Data Mining and Data Visualization ToolSyeda Sania
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析CROSSHACK, Inc.
 
ทฤษฎีระบบราชการ
ทฤษฎีระบบราชการทฤษฎีระบบราชการ
ทฤษฎีระบบราชการwiraja
 
Causal Inference : Primer (2019-06-01 잔디콘)
Causal Inference : Primer (2019-06-01 잔디콘)Causal Inference : Primer (2019-06-01 잔디콘)
Causal Inference : Primer (2019-06-01 잔디콘)Minho Lee
 
บทที่ 9 รายได้ประชาชาติ การบริโภค การออม และการลงทุน
บทที่ 9 รายได้ประชาชาติ การบริโภค การออม และการลงทุนบทที่ 9 รายได้ประชาชาติ การบริโภค การออม และการลงทุน
บทที่ 9 รายได้ประชาชาติ การบริโภค การออม และการลงทุนOrnkapat Bualom
 
การเขียนผลการวิจัย
การเขียนผลการวิจัยการเขียนผลการวิจัย
การเขียนผลการวิจัยDr.Krisada [Hua] RMUTT
 

What's hot (20)

How to Build Recommender System with Content based Filtering
How to Build Recommender System with Content based FilteringHow to Build Recommender System with Content based Filtering
How to Build Recommender System with Content based Filtering
 
ประชากรและกลุ่มตัวอย่าง
ประชากรและกลุ่มตัวอย่างประชากรและกลุ่มตัวอย่าง
ประชากรและกลุ่มตัวอย่าง
 
ความน่าจะเป็น เลขที่13
ความน่าจะเป็น เลขที่13ความน่าจะเป็น เลขที่13
ความน่าจะเป็น เลขที่13
 
07 classification 3 neural network
07 classification 3 neural network07 classification 3 neural network
07 classification 3 neural network
 
06 การให้เหตุผลและตรรกศาสตร์ บทนำ
06 การให้เหตุผลและตรรกศาสตร์ บทนำ06 การให้เหตุผลและตรรกศาสตร์ บทนำ
06 การให้เหตุผลและตรรกศาสตร์ บทนำ
 
เรื่อง บทเรียนสำเร็จรูปเรื่อง อสมการ ม.3
เรื่อง บทเรียนสำเร็จรูปเรื่อง อสมการ ม.3  เรื่อง บทเรียนสำเร็จรูปเรื่อง อสมการ ม.3
เรื่อง บทเรียนสำเร็จรูปเรื่อง อสมการ ม.3
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data mining
 
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
 
Zipline: Airbnb’s Machine Learning Data Management Platform with Nikhil Simha...
Zipline: Airbnb’s Machine Learning Data Management Platform with Nikhil Simha...Zipline: Airbnb’s Machine Learning Data Management Platform with Nikhil Simha...
Zipline: Airbnb’s Machine Learning Data Management Platform with Nikhil Simha...
 
สถิติเพื่อการวิจัย
สถิติเพื่อการวิจัยสถิติเพื่อการวิจัย
สถิติเพื่อการวิจัย
 
Orange Data Mining and Data Visualization Tool
Orange Data Mining and Data Visualization ToolOrange Data Mining and Data Visualization Tool
Orange Data Mining and Data Visualization Tool
 
09 anomaly detection
09 anomaly detection09 anomaly detection
09 anomaly detection
 
First Step to Big Data
First Step to Big DataFirst Step to Big Data
First Step to Big Data
 
BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析BigQueryとTableauによるカスタマージャーニー分析
BigQueryとTableauによるカスタマージャーニー分析
 
ทฤษฎีระบบราชการ
ทฤษฎีระบบราชการทฤษฎีระบบราชการ
ทฤษฎีระบบราชการ
 
หลักการเขียนผังงาน(Flow chart)
หลักการเขียนผังงาน(Flow chart)หลักการเขียนผังงาน(Flow chart)
หลักการเขียนผังงาน(Flow chart)
 
Causal Inference : Primer (2019-06-01 잔디콘)
Causal Inference : Primer (2019-06-01 잔디콘)Causal Inference : Primer (2019-06-01 잔디콘)
Causal Inference : Primer (2019-06-01 잔디콘)
 
อธิบาย Precision vs Recall แบบง่ายๆ
อธิบาย Precision vs Recall แบบง่ายๆอธิบาย Precision vs Recall แบบง่ายๆ
อธิบาย Precision vs Recall แบบง่ายๆ
 
บทที่ 9 รายได้ประชาชาติ การบริโภค การออม และการลงทุน
บทที่ 9 รายได้ประชาชาติ การบริโภค การออม และการลงทุนบทที่ 9 รายได้ประชาชาติ การบริโภค การออม และการลงทุน
บทที่ 9 รายได้ประชาชาติ การบริโภค การออม และการลงทุน
 
การเขียนผลการวิจัย
การเขียนผลการวิจัยการเขียนผลการวิจัย
การเขียนผลการวิจัย
 

Viewers also liked

Viewers also liked (14)

Search Twitter with RapidMiner Studio 6
Search Twitter with RapidMiner Studio 6Search Twitter with RapidMiner Studio 6
Search Twitter with RapidMiner Studio 6
 
Evaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROCEvaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROC
 
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
 
Apply (Big) Data Analytics & Predictive Analytics to Business Application
Apply (Big) Data Analytics & Predictive Analytics to Business ApplicationApply (Big) Data Analytics & Predictive Analytics to Business Application
Apply (Big) Data Analytics & Predictive Analytics to Business Application
 
Data manipulation with RapidMiner Studio 7
Data manipulation with RapidMiner Studio 7Data manipulation with RapidMiner Studio 7
Data manipulation with RapidMiner Studio 7
 
Install weka extension_rapidminer
Install weka extension_rapidminerInstall weka extension_rapidminer
Install weka extension_rapidminer
 
Predictive analytic-for-retail-business
Predictive analytic-for-retail-businessPredictive analytic-for-retail-business
Predictive analytic-for-retail-business
 
การติดตั้ง RapidMiner Studio 6.1
การติดตั้ง RapidMiner Studio 6.1การติดตั้ง RapidMiner Studio 6.1
การติดตั้ง RapidMiner Studio 6.1
 
Data mining and_big_data_web
Data mining and_big_data_webData mining and_big_data_web
Data mining and_big_data_web
 
Advanced Predictive Modeling with R and RapidMiner Studio 7
Advanced Predictive Modeling with R and RapidMiner Studio 7Advanced Predictive Modeling with R and RapidMiner Studio 7
Advanced Predictive Modeling with R and RapidMiner Studio 7
 
Introduction to Text Classification with RapidMiner Studio 7
Introduction to Text Classification with RapidMiner Studio 7Introduction to Text Classification with RapidMiner Studio 7
Introduction to Text Classification with RapidMiner Studio 7
 
Introduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data AnalyticsIntroduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data Analytics
 
Building Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributesBuilding Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributes
 
Practical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
Practical Data Mining with RapidMiner Studio 7 : A Basic and IntermediatePractical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
Practical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
 

Introduction to Feature (Attribute) Selection with RapidMiner Studio 6

  • 1. Feature Selection 
 with RapidMiner Studio 6 (data)3
 base|warehouse|mining http://www.dataminingtrend.com
 http://facebook.com/datacube.th Eakasit Pacharawongsakda, Ph.D. Data Cube: http://facebook.com/datacube.th
  • 2. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • ประสิทธิภาพของ Classification ขึ้นอยู่กับ แอตทริบิวต์ หรือ feature
 ที่นำมาใช้ • attribute selection เป็นวิธีการคัดเลือกแอตทริบิวต์ (หรือ feature) 
 ที่สำคัญในการสร้างโมเดล • เลือกแอตทริบิวต์ที่มีความสัมพันธ์ (correlation) กับแอตทริบิวต์ลาเบล (label) มาก • เลือกแอตทริบิวต์ที่มีความสัมพันธ์กันระหว่างแอตทริบิวต์น้อย • การทำ attribute selection เหมาะกับ • ช้อมูลที่มีจำนวนแอตทริบิวต์เป็นจำนวนเยอะ เช่น text mining • ใช้เวลาในการสร้างโมเดลนาน 2
  • 3. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • แบ่งได้เป็น 2 แบบ • Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้ • Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว วัดประสิทธิภาพของแอตทริบิวต์ 3 ID Free Won Cash Call Service Type 1 Y Y Y Y Y spam 2 N Y Y Y N spam compute weight ID Free Won Type 1 Y Y spam 2 N Y spam แอตทริบิวต์ทั้งหมดใน training data แอตทริบิวต์หลังจากการเลือก
 (selection) แล้ว ID Free Won Cash Call Service Type 1 Y Y Y Y Y spam 2 N Y Y Y N spam ID Free Won Type 1 Y Y spam 2 N Y spam แอตทริบิวต์ทั้งหมดใน training data แอตทริบิวต์หลังจากการเลือก
 (selection) แล้ว classification model Attribute Selection: Filter Approach Attribute Selection: Wrapper Approach
  • 4. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • แบ่งได้เป็น 2 แบบ • Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้ • Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information Gain • Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square • Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว วัดประสิทธิภาพของแอตทริบิวต์ • Forward Selection • Backward Elimination • Evolutionary Selection 4
  • 5. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Information Theory-based filtering • คำนวณค่าความสัมพันธ์ของแต่ละแอตทริบิวต์กับแอตทริบิวต์
 ลาเบลด้วยวิธี Information Gain • ใช้ได้กับแอตทริบิวต์ที่เป็นนอมินอล (nominal) เท่านั้น • คำนวณค่า Entropy และ Information Gain (IG) 5 Entropy(c1) = -p(c1) log p(c1) IG (parent, child) =  Entropy(parent) – [p(c1) × Entropy(c1) + p(c2) × Entropy(c2) + ...]
  • 6. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Information Theory-based filtering • คำนวณค่า Information Gain (IG) ระหว่างแอตทริบิวต์กับลาเบล 6 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute IG Outlook 0.247 Temperature Humidity Windy ตารางค่า Information Gain
  • 7. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Information Theory-based filtering • คำนวณค่า Information Gain (IG) ระหว่างแอตทริบิวต์กับลาเบล 7 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute IG Outlook 0.247 Temperature 0.029 Humidity Windy ตารางค่า Information Gain
  • 8. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Information Theory-based filtering • คำนวณค่า Information Gain (IG) ระหว่างแอตทริบิวต์กับลาเบล 8 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute IG Outlook 0.247 Temperature 0.029 Humidity 0.152 Windy ตารางค่า Information Gain
  • 9. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Information Theory-based filtering • คำนวณค่า Information Gain (IG) ระหว่างแอตทริบิวต์กับลาเบล 9 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute IG Outlook 0.247 Temperature 0.029 Humidity 0.152 Windy 0.048 ตารางค่า Information Gain
  • 10. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Information Theory-based filtering • เลือกแอตทริบิวต์ที่มีค่า IG มากกว่า 0.1 10 attribute IG Outlook 0.247 Humidity 0.152 Windy 0.048 Temperature 0.029 ID Outlook Humidity Play 1 sunny high no 2 sunny high no 3 overcast high yes 4 rainy high yes 5 rainy normal yes 6 rainy normal no 7 overcast normal yes 8 sunny high no 9 sunny normal yes 10 rainy normal yes 11 sunny normal yes 12 overcast high yes 13 overcast normal yes 14 rainy high no ตารางค่า Information Gain
  • 11. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-11: Weight by IG • โอเปอเรเตอร์ที่เกี่ยวข้อง 11 โอเปอเรเตอร์ คำอธิบาย Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV Weight by Information Gain ใช้สำหรับคำนวณค่าน้ำหนักของแอตทริบิวต์ด้วยเทคนิค Information Gain Select by weight ใช้สำหรับเลือกแอตทริบิวต์ตามค่าน้ำหนัก (weight)
  • 12. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-11: Weight by IG • ใช้ข้อมูล weather_nominal และโอเปอเรเตอร์ Weight by Information Gain 12 1 2
  • 13. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-11: Weight by IG • ผลการคำนวณค่า Information Gain ของแต่ละแอตทริบิวต์ 13 ค่า Information Gain (IG)
  • 14. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-11: Weight by IG • ใช้โอเปอเรเตอร์ Select by weight เพื่อเลือกแอตทริบิวต์ที่มีค่า weight มากกว่า 0.1 14 1 2 5 3 6 4
  • 15. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-11: Weight by IG • ผลการคัดเลือกแอตทริบิวต์ที่มีค่า IG มากกว่า 0.1 15 ค่า Information Gain (IG)
  • 16. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • แบ่งได้เป็น 2 แบบ • Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้ • Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information Gain • Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square • Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว วัดประสิทธิภาพของแอตทริบิวต์ • Forward Selection • Backward Elimination • Evolutionary Selection 16
  • 17. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่าความสัมพันธ์ของแต่ละ feature ด้วยวิธี Chi-Square • ใช้ได้กับแอตทริบิวต์ที่เป็นนอมินอล (nominal) เท่านั้น • ดูความถี่ที่เกิดขึ้นระหว่างแอตทริบิวต์ต่างๆ เทียบกับแอตทริบิวต์ลาเบล (label) • ค่า Chi-Square คำนวณได้จาก • f0 = observed frequency • fe = expected frequency 17
  • 18. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์ Outlook กับลาเบล • Expected Frequency ของ Outlook=sunny และ Play=no
 = P(Outlook = sunny) * P(Play = no) * Total Number
 = (5/14) * (5/14) * 14 = 1.785714 18 ID Outlook Play 6 rainy no 14 rainy no 1 sunny no 2 sunny no 8 sunny no 3 overcast yes 7 overcast yes 12 overcast yes 13 overcast yes 4 rainy yes 5 rainy yes 10 rainy yes 9 sunny yes 11 sunny yes Outlook = sunny overcast rainy Total Play = no 3 0 2 5 Play = yes 2 4 3 9 Total 5 4 5 14 observed frequency
  • 19. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์ Outlook กับลาเบล 19 ID Outlook Play 6 rainy no 14 rainy no 1 sunny no 2 sunny no 8 sunny no 3 overcast yes 7 overcast yes 12 overcast yes 13 overcast yes 4 rainy yes 5 rainy yes 10 rainy yes 9 sunny yes 11 sunny yes Outlook = sunny overcast rainy Total Play = no 3 0 2 5 Play = yes 2 4 3 9 Total 5 4 5 14 Outlook = sunny overcast rainy Total Play = no 1.786 1.429 1.786 5 Play = yes 3.214 2.571 3.214 9 Total 5 4 5 14 observed frequency expected frequency
  • 20. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์ Outlook กับลาเบล 20 Outlook = sunny overcast rainy Play = no 3 0 2 Play = yes 2 4 3 Outlook = sunny overcast rainy Play = no 1.786 1.429 1.786 Play = yes 3.214 2.571 3.214 observed frequency expected frequency • Chi-Square = (3-1.786)2/1.786 + 
 (0-1.429)2/1.429 + 
 (2-1.786)2/1.786 +
 (2-3.214)2/3.214 +
 (4-2.571)2/2.571 +
 (3-3.214)2/3.214 = 3.547
  • 21. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์กับลาเบล 21 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute Chi-Square Outlook 3.547 Temperature Humidity Windy ตารางค่า Chi-Square
  • 22. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์กับลาเบล 22 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute Chi-Square Outlook 3.547 Temperature 0.570 Humidity Windy ตารางค่า Chi-Square
  • 23. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์กับลาเบล 23 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute Chi-Square Outlook 3.547 Temperature 0.570 Humidity 2.800 Windy ตารางค่า Chi-Square
  • 24. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Chi-Square-based filtering • คำนวณค่า Chi-Square ระหว่างแอตทริบิวต์กับลาเบล 24 ID Outlook Temperature Humidity Windy Play 1 sunny hot high FALSE no 2 sunny hot high TRUE no 3 overcast hot high FALSE yes 4 rainy mild high FALSE yes 5 rainy cool normal FALSE yes 6 rainy cool normal TRUE no 7 overcast mild normal TRUE yes 8 sunny mild high FALSE no 9 sunny mild normal FALSE yes 10 rainy mild normal FALSE yes 11 sunny mild normal TRUE yes 12 overcast mild high TRUE yes 13 overcast hot normal FALSE yes 14 rainy mild high TRUE no attribute Chi-Square Outlook 3.547 Temperature 0.570 Humidity 2.800 Windy 0.933 ตารางค่า Chi-Square
  • 25. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th • เลือกแอตทริบิวต์ที่มีค่า Chi-Square มากกว่า 2.0 attribute Chi-Square Outlook 3.547 Humidity 2.800 Windy 0.933 Temperature 0.570 Chi-Square-based filtering 25 ID Outlook Humidity Play 1 sunny high no 2 sunny high no 3 overcast high yes 4 rainy high yes 5 rainy normal yes 6 rainy normal no 7 overcast normal yes 8 sunny high no 9 sunny normal yes 10 rainy normal yes 11 sunny normal yes 12 overcast high yes 13 overcast normal yes 14 rainy high no ตารางค่า Chi-Square
  • 26. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-12: Weight by CS • โอเปอเรเตอร์ที่เกี่ยวข้อง 26 โอเปอเรเตอร์ คำอธิบาย Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV Weight by Chi-Square ใช้สำหรับคำนวณค่าน้ำหนักของแอตทริบิวต์ด้วยเทคนิค Chi-Square Select by weight ใช้สำหรับเลือกแอตทริบิวต์ตามค่าน้ำหนัก (weight)
  • 27. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-12: Weight by CS • ใช้ข้อมูล weather_nominal และโอเปอเรเตอร์ Weight by Chi- Square 27 1 4 2 3
  • 28. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-12: Weight by CS • ผลการคำนวณค่า Chi-Square ของแต่ละแอตทริบิวต์ 28 ค่า Chi-Square (CS)
  • 29. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th • ใช้โอเปอเรเตอร์ Select by weight เพื่อเลือกแอตทริบิวต์ที่มีค่า weight มากกว่า 2.0 Example 7-12: Weight by CS 29 7 5 8 6
  • 30. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-12: Weight by CS • ผลการคัดเลือกแอตทริบิวต์ที่มีค่า Chi-Square มากกว่า 2.0 30 ค่า Chi-Square (CS)
  • 31. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • แบ่งได้เป็น 2 แบบ • Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้ • Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information Gain • Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square • Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว วัดประสิทธิภาพของแอตทริบิวต์ • Forward Selection • Backward Elimination • Evolutionary Selection 31
  • 32. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Free อย่างเดียว 32 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal ID Free Type 1 Y spam 2 N spam 3 N normal 4 N normal 5 Y spam 6 Y spam 7 N normal 8 N spam 9 N normal 10 N normal
  • 33. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Won อย่างเดียว 33 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal ID Won Type 1 Y spam 2 Y spam 3 N normal 4 N normal 5 N spam 6 N spam 7 N normal 8 Y spam 9 N normal 10 N normal
  • 34. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Cash อย่างเดียว 34 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal ID Cash Type 1 Y spam 2 Y spam 3 N normal 4 N normal 5 N spam 6 N spam 7 N normal 8 N spam 9 N normal 10 N normal
  • 35. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Free และ Won 35 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal ID Free Won Type 1 Y Y spam 2 N Y spam 3 N N normal 4 N N normal 5 Y N spam 6 Y N spam 7 N N normal 8 N Y spam 9 N N normal 10 N N normal
  • 36. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Free และ Cash 36 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal ID Free Cash Type 1 Y Y spam 2 N Y spam 3 N N normal 4 N N normal 5 Y N spam 6 Y N spam 7 N N normal 8 N N spam 9 N N normal 10 N N normal
  • 37. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Won และ Cash 37 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal ID Won Cash Type 1 Y Y spam 2 Y Y spam 3 N N normal 4 N N normal 5 N N spam 6 N N spam 7 N N normal 8 Y N spam 9 N N normal 10 N N normal
  • 38. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Wrapper Approach • เป็นวิธีการเลือกแอตทริบิวต์ใส่เข้าไปหรือถอดออกมาเพื่อสร้างโมเดล และเลือก set ของแอตทริบิวต์ทีดีไว้ใช้ • ใช้แอตทริบิวต์ Free, Won และ Cash 38 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal
  • 39. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • เพิ่มแอตทริบิวต์ทีละ 1 แอตทริบิวต์และคัดเลือกเฉพาะแอตทริบิวต์
 ที่มีความสำคัญเก็บไว้ • ถ้าแอตทริบิวต์ที่ใส่เพิ่มเข้าไปให้ค่า performance ดีขึ้นก็จะเก็บแอตทริบิวต์นี้ไว้ • ถ้าแอตทริบิวต์ที่ใส่เพิ่มเข้าไปให้ค่า performance แย่ลงก็จะดึงแอตทริบิวต์นี้ออก มา 39
  • 40. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Free อย่างเดียว 40 accuracy = 80% ID Free Type 1 Y spam 2 N spam 3 N normal 4 N normal 5 Y spam 6 Y spam 7 N normal 8 N spam 9 N normal 10 N normal ทดสอบประสิทธิภาพ
 ด้วย Cross-validation
  • 41. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Won อย่างเดียว 41 accuracy = 80% ID Won Type 1 Y spam 2 Y spam 3 N normal 4 N normal 5 N spam 6 N spam 7 N normal 8 Y spam 9 N normal 10 N normal ทดสอบประสิทธิภาพ
 ด้วย Cross-validation
  • 42. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Cash อย่างเดียว 42 accuracy = 50% ID Cash Type 1 Y spam 2 Y spam 3 N normal 4 N normal 5 N spam 6 N spam 7 N normal 8 N spam 9 N normal 10 N normal ทดสอบประสิทธิภาพ
 ด้วย Cross-validation
  • 43. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Free และ Won 43 accuracy = 60% ทดสอบประสิทธิภาพ
 ด้วย Cross-validation ID Free Won Type 1 Y Y spam 2 N Y spam 3 N N normal 4 N N normal 5 Y N spam 6 Y N spam 7 N N normal 8 N Y spam 9 N N normal 10 N N normal
  • 44. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Free และ Won 44 accuracy = 60% ทดสอบประสิทธิภาพ
 ด้วย Cross-validation ID Free Won Type 1 Y Y spam 2 N Y spam 3 N N normal 4 N N normal 5 Y N spam 6 Y N spam 7 N N normal 8 N Y spam 9 N N normal 10 N N normal ตัดแอตทริบิวต์ Cash ทิ้งเนื่องจากให้ค่าความถูกต้องลดลง
  • 45. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Free และ Cash 45 accuracy = 80% ทดสอบประสิทธิภาพ
 ด้วย Cross-validation ID Free Cash Type 1 Y Y spam 2 N Y spam 3 N N normal 4 N N normal 5 Y N spam 6 Y N spam 7 N N normal 8 N N spam 9 N N normal 10 N N normal
  • 46. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Forward Selection • ใช้แอตทริบิวต์ Free และ Cash 46 accuracy = 80% ทดสอบประสิทธิภาพ
 ด้วย Cross-validation ID Free Cash Type 1 Y Y spam 2 N Y spam 3 N N normal 4 N N normal 5 Y N spam 6 Y N spam 7 N N normal 8 N N spam 9 N N normal 10 N N normal ตัดแอตทริบิวต์ Cash ทิ้งเนื่องจากไม่ได้ทำให้ค่าความถูกต้องเพิ่มขึ้น
  • 47. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • โอเปอเรเตอร์ที่เกี่ยวข้อง 47 โอเปอเรเตอร์ คำอธิบาย Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV Forward Selection ใช้สำหรับคัดเลือกแอตทริบิวต์ด้วยวิธี Forward Selection X-Validation แบ่งข้อมูลสำหรับสร้างโมเดลและทดสอบโมเดล
  • 48. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • โอเปอเรเตอร์ที่เกี่ยวข้อง 48 โอเปอเรเตอร์ คำอธิบาย Neural Net ใช้สำหรับสร้างโมเดล Neural Network Apply Model ใช้สำหรับ predict ข้อมูลใหม่ Performance
 (Binominal Classification) สำหรับแสดงตัวชี้วัดของโมเดล classification
  • 49. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • โหลดข้อมูล gold_training.csv ด้วยโอเปอเรเตอร์ Read CSV 49 1 4 2 3
  • 50. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • คลิกปุ่ม ‘Import Configuration Wizard…’ • กำหนดแอตทริบิวต์ Date ให้เป็นแอตทริบิวต์ประเภทไอดี • กำหนดแอตทริบิวต์ GC Trend ให้เป็นแอตทริบิวต์ประเภทลาเบล 50 5 6
  • 51. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • double click ที่โอเปอเรเตอร์ Forward Selection และใช้โอเปอเรเตอร์
 X-validation จาก New Building Block เพื่อทดสอบประสิทธิภาพของโมเดล 51 5 7
  • 52. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th • double click ที่โอเปอเรเตอร์ X-Validation เพื่อสร้างโมเดล 
 Neural Network Example 7-13: Forward Selection 52 10 8 9
  • 53. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • ค่านำหนักของแต่ละแอตทริบิวต์ 53 ค่าน้ำหนักของแต่ละ แอตทริบิวต์
  • 54. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • แสดงข้อมูลหลังจากเลือกแอตทริบิวต์ 54 เหลือเพียงแค่ 4 แอตทริบิวต์
  • 55. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-13: Forward Selection • ผลการทดสอบประสิทธิภาพด้วยวิธี Cross-validation 55
  • 56. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • แบ่งได้เป็น 2 แบบ • Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้ • Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information Gain • Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square • Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว วัดประสิทธิภาพของแอตทริบิวต์ • Forward Selection • Backward Elimination • Evolutionary Selection 56
  • 57. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Backward Elimination • เริ่มจากใช้แอตทริบิวต์ทั้งหมดและตัดแอตทริบิวต์ออกไปทีละ 1 ตัว
 เพื่อคัดเลือกเฉพาะแอตทริบิวต์ที่มีความสำคัญเก็บไว้ • ถ้าแอตทริบิวต์ที่ตัดออกไปให้ค่า performance ดีขึ้นก็จะตัดแอตทริบิวต์นี้ทิ้ง • ถ้าแอตทริบิวต์ที่ตัดออกไปให้ค่า performance แย่ลงก็จะเก็บแอตทริบิวต์นี้ไว้ 57
  • 58. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Backward Elimination • ใช้แอตทริบิวต์ Free, Won และ Cash 58 accuracy = 60% ทดสอบประสิทธิภาพ
 ด้วย Cross-validation ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal
  • 59. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Backward Elimination • ใช้แอตทริบิวต์ Won และ Cash (ตัดแอตทริบิวต์ Free ทิ้ง) 59 accuracy = 80% ทดสอบประสิทธิภาพ
 ด้วย Cross-validation ID Won Cash Type 1 Y Y spam 2 Y Y spam 3 N N normal 4 N N normal 5 N N spam 6 N N spam 7 N N normal 8 Y N spam 9 N N normal 10 N N normal ตัดแอตทริบิวต์ Free ทิ้งเนื่องจากทำให้ค่าความถูกต้องเพิ่มขึ้น
  • 60. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • โอเปอเรเตอร์ที่เกี่ยวข้อง 60 โอเปอเรเตอร์ คำอธิบาย Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV Backward Elimination ใช้สำหรับคัดเลือกแอตทริบิวต์ด้วยวิธี Backward Elimination X-Validation แบ่งข้อมูลสำหรับสร้างโมเดลและทดสอบโมเดล
  • 61. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • โอเปอเรเตอร์ที่เกี่ยวข้อง 61 โอเปอเรเตอร์ คำอธิบาย Neural Net ใช้สำหรับสร้างโมเดล Neural Network Apply Model ใช้สำหรับ predict ข้อมูลใหม่ Performance
 (Binominal Classification) สำหรับแสดงตัวชี้วัดของโมเดล classification
  • 62. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • โหลดข้อมูล gold_training.csv ด้วยโอเปอเรเตอร์ Read CSV 62 1 4 2 3
  • 63. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • คลิกปุ่ม ‘Import Configuration Wizard…’ • กำหนดแอตทริบิวต์ Date ให้เป็นแอตทริบิวต์ประเภทไอดี • กำหนดแอตทริบิวต์ GC Trend ให้เป็นแอตทริบิวต์ประเภทลาเบล 63 5 6
  • 64. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • double click ที่โอเปอเรเตอร์ Backward Elimination และใช้โอเปอเรเตอร์
 X-validation จาก New Building Block เพื่อทดสอบประสิทธิภาพของโมเดล 64 7
  • 65. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th • double click ที่โอเปอเรเตอร์ X-Validation เพื่อสร้างโมเดล 
 Neural Network Example 7-14: Backward Elimination 65 10 8 9
  • 66. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • ค่านำหนักของแต่ละแอตทริบิวต์ 66 ค่าน้ำหนักของแต่ละ แอตทริบิวต์
  • 67. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • แสดงข้อมูลหลังจากเลือกแอตทริบิวต์ 67 เหลือเพียงแค่ 5 แอตทริบิวต์
  • 68. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-14: Backward Elimination • ผลการทดสอบประสิทธิภาพด้วยวิธี Cross-validation 68
  • 69. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Attribute (Feature) Selection • แบ่งได้เป็น 2 แบบ • Filter approach เป็นการคำนวณค่าน้ำหนัก (หรือค่าความสัมพันธ์) ของแต่ละ แอตทริบิวต์และเลือกเฉพาะแอตทริบิวต์ที่สำคัญเก็บไว้ • Information Theory คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Information Gain • Chi-Square คำนวณค่าน้ำหนักของแต่ละแอตทริบิวต์ด้วยค่า Chi-Square • Wrapper approach เป็นการคำนวณค่าน้ำหนักโดยใช้โมเดล classification เป็นตัว วัดประสิทธิภาพของแอตทริบิวต์ • Forward Selection • Backward Elimination • Evolutionary Selection 69
  • 70. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Evolutionary Selection • Forward Selection และ Backward Elimination เป็นการทำงานแบบ greedy ถ้าเจอเซตของแอตทริบิวต์ที่ทำให้ค่าความถูกต้องเพิ่มขึ้นก็จะ หยุดการค้นหา • Evolutionary Selection • สุ่มเลือกแอตทริบิวต์ขึ้นมา และวัดประสิทธิภาพ • คัดเลือกแอตทริบิวต์ที่มีประสิทธิภาพและสุ่มเลือกตัวอื่นเพิ่มขึ้นมา 70
  • 71. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • โอเปอเรเตอร์ที่เกี่ยวข้อง 71 โอเปอเรเตอร์ คำอธิบาย Read CSV ใช้สำหรับอ่านไฟล์ประเภท CSV Optimize Selection (Evolutionary) ใช้สำหรับคัดเลือกแอตทริบิวต์ด้วยวิธี Optimize Selection (Evolutionary) X-Validation แบ่งข้อมูลสำหรับสร้างโมเดลและทดสอบโมเดล
  • 72. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • โอเปอเรเตอร์ที่เกี่ยวข้อง 72 โอเปอเรเตอร์ คำอธิบาย Neural Net ใช้สำหรับสร้างโมเดล Neural Network Apply Model ใช้สำหรับ predict ข้อมูลใหม่ Performance
 (Binominal Classification) สำหรับแสดงตัวชี้วัดของโมเดล classification
  • 73. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • โหลดข้อมูล gold_training.csv ด้วยโอเปอเรเตอร์ Read CSV 73 1 4 2 3
  • 74. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • คลิกปุ่ม ‘Import Configuration Wizard…’ • กำหนดแอตทริบิวต์ Date ให้เป็นแอตทริบิวต์ประเภทไอดี • กำหนดแอตทริบิวต์ GC Trend ให้เป็นแอตทริบิวต์ประเภทลาเบล 74 5 6
  • 75. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • double click ที่โอเปอเรเตอร์ Optimize Selection (Evolutionary) 
 และใช้โอเปอเรเตอร์ X-validation จาก New Building Block เพื่อทดสอบ ประสิทธิภาพของโมเดล 75 7
  • 76. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th • double click ที่โอเปอเรเตอร์ X-Validation เพื่อสร้างโมเดล 
 Neural Network Example 7-15: Evolutionary Selection 76 10 8 9
  • 77. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • ค่านำหนักของแต่ละแอตทริบิวต์ 77 ค่าน้ำหนักของแต่ละ แอตทริบิวต์
  • 78. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • แสดงข้อมูลหลังจากเลือกแอตทริบิวต์ 78 เหลือเพียงแค่ 5 แอตทริบิวต์
  • 79. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th Example 7-15: Evolutionary Selection • ผลการทดสอบประสิทธิภาพด้วยวิธี Cross-validation 79