SlideShare a Scribd company logo
1 of 24
ขั้นตอนของการเตรียมข้อมูล (Preprocessing)
การใช้ตัวกรอง (Filters) ใน Weka
การใช้ GainRatioAttributeEval
 คือ การ select attributes การเลือกแอทริบิวที่มีความสาคัญน้อยออกเพื่อ
ดูประสิทธิภาพในการทานายหลังจากที่ได้ตัดแอทริบิวบางตัวออกซึ่งส่วนใหญ่จะให้
ค่าความถูกต้องสูงขึ้นเพราะแอทริบิวที่เหลือจะเป้นแอทรริบิวที่มีความสาคัญ อัลกก
อริทึมที่มีให้ใช้เช่น GainRatioAttributeEval,
OneRAtributeEval,CfsSubsetEval
เรื่อง Filter ในส่วนการทา Discretize
 การเรียกใช้ตัวกรอง (Filter)
 ตัวกรอง (Filter) เป็นตัวที่ทาหน้าที่ระบุข้อมูลย่อยของระเบียนที่จะถูกแสดง
แบ่งออกเป็น 2 ลักษณะ คือ
 Supervised
 แปลงข้อมูลแบบอัตโนมัติ
 Unsupervised
 แปลงข้อมูลที่ผู้ใช้กาหนดเอง
ตัวกรองแบบอัตโนมัติ (Supervised)
แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance)
AttributeSelection Resample
ClassOrder SpreadSubsample
Discretize StratifiedRemoveFolds
NorminalToBinary
ตัวกรองที่ผู้ใช้กาหนดเอง (Unsupervised)
แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance)
Add Randomize
Discretize
(unsupervised)
RemoveFold
Normalize ReplaceMissing Value
NumbericToBinary Resample
เทคนิคการกรองแอททริบิวต์และอัลกอริทึมในการจาแนก
1. การกรองแอตทริบิวต์ (Attribute Selection)
2. การจาแนกประเภทข้อมูล (Classification)
การกรองแอตทริบิวต์ (Attribute Selection)
 เทคนิคการกรองแอตทริบิวต์ เป็นการลดจานวนแอตทริบิวต์ที่ไม่เกี่ยวข้องออก
โดยแอตทริบิวต์ถูกตัดออกไปเหลือเฉพาะแอทริบิวต์ที่มีความสัมพันธ์กัน
เท่านั้น
 ข้อดีของการลดจานวนแอตทริบิวต์ คือ ใช้แอตทริบิวต์ที่มีความสาคัญมาทา
ให้ผลการจาแนก (Classiffcation) ได้ค่าความถูกต้อง สูงขึ้นและเวลาในการ
ประมวลผลลดลง
 งานวิจัยทางด้านการทาเหมืองข้อมูลที่ได้นาเทคนิคการกรองแอตทริบิวต์มาใช้
เช่น งานวิจัยที่ใช้ฐานข้อมูล UCI ซึ่งประกอบด้วยฐานข้อมูลย่อย 9 ฐานข้อมูล
ในการกรอง เทคนิคการกรองแอททริบิวต์ในที่นี้มี 4 วิธี คือ
 วิธีที่ 1 InfoGain Attribute Evaluation เป็น การลดจานวนแอตทริบิวต์ที่ใช้การ
ประเมินค่าของแอตทริบิวต์โดยวัด Infromation Gain [5,6] ซึ่งเป็นตัววัด
ความสัมพันธ์ของแอททริบิวต์ให้กับคลาสนั้นๆ
 วิธีที่ 2 GainRatio Attribute Evaluatio เป็นการลดจานวนแอตทริบิวต์ที่ใช้การ
ประเมินค่าของแอตทริบิวต์โดยวัด Gain Ratio [5,6] ซึ่งวัดความสัมพันธ์ของ
แอตทริบิวต์อีกประเภทหนึ่งแต่จะมีการปรับสเกลตามค่าของข้อมูลในแอททริ
บิวต์ที่สนใจให้กับคลาสนั้นๆ
 วิธีที่ 3 OneR Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้กฎ
(Rule) กฎ หรือที่เรียกว่า IR โดยการสร้างต้นไม้ตัดสินใจหนึ่งระดับ แล้ว
สร้างกฎจากต้นไม้นั้น โดยกฎที่สร้างได้จากแต่ละแอตทริบิวต์จะมีกฎที่
แตกต่างกัน และเลือกกฎที่มีค่าความผิดพลาดน้อยสุดเพียงกฎเดียวจากแอตทริ
บิวต์นั้น แอตทริบิวต์ที่มีค่าความผิดพลาดน้อยสุดเป็นแอตทริบิวต์ที่ดีที่สุด
 วิธีที่ 4 ChiSquare Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้
การประเมินค่าแอตทริบิวต์ โดยคานวณค่า Chi-Square ทางสถิติ งานวิจัยที่ใข้
หลักการนี้ เช่น งานวิจัยด้านชีวสารสนเทศ
การจาแนกประเภทข้อมูล (Classification)
 J48 เป็นอัลกอริทึมในการจาแนกโดยใช้ต้นไม้ การตัดสินใจวิธีนี้ จะใช้ข้อมูลในการสร้างต้นไม้
ตัดสินใจ โดยที่แต่ละโหนด หมายถึง แอตทริบิวต์ แต่ละกิ่งของต้นไม้เป็นผลในการทดสอบ และ
โหนดใบแสดงคลาส
 NBTree เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการของต้นไม้ ตัดสินใจ และทฤษฎีเบร์ร่วมกัน
 IBK เป็นอัลกอริทึมในการจาแนกแบบ K-Nearest Neighbor โดยที่ K เป็นตัวบอกจานวนกรณีที่
ต้องการค้นหาในการทานาย กรณีใหม่ เช่น 1-NN หมายถึง วิธีนี้จะหาค่า 1 กรณีที่ใกล้เคียงกรณี
ใหม่มากที่สุดและกาหนดเงื่อนไขใหม่ให้กับคลาสที่ใกล้เคียงมากที่สุด
 RBFNetwork เป็นโครงข่ายประสาทเทียมประกอบด้วย 3 ชั้น คือ ชั้นข้อมูลเข้า ชั้นซ่อน และชั้น
ผลลัพธ์ โดยใช้ฟังชั่นกระตุ้นแบบเรเดียล ปกติจะใช้ Gaussian Function
 Naïve Bays เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการทฤษฎีเบย์ โดยมีเงื่อนไขว่า ข้อมูลต้อง
เป็นอิสระต่อกัน โดยทาการหาค่าความน่าจะเป็นของ x เมื่อรู้คลาส จากผลคูณของความน่าจะเป็น
ของแอททริบิวต์ทุกตัวของ x
Attribute ความหมาย
Id หมายเลขประจาตัวที่ไม่ซ้ากัน
อายุ (age) อายุของลูกค้าในปี (ตัวเลข)
เพศ (sex) เพศชาย / หญิง
ภูมิภาค (region) inner_city / ชนบท / เมือง / ชานเมือง
เงินได้ (income) รายได้ของลูกค้า (ตัวเลข)
แต่งงานแล้ว (married) เป็นลูกค้าสมรส (Yes / No)
เด็ก (children) จานวนบุตร (ตัวเลข)
รถยนต์ (car) ลูกค้าจะเป็นเจ้าของรถ (Yes / No)
save_acct (save_act) ลูกค้าจะมีบัญชีออมทรัพย์(Yes / No)
current_acct (current_act) ลูกค้าจะมีบัญชีปัจจุบัน (Yes / No)
การจานอง (mortgage) ลูกค้าจะมีการจานอง (Yes / No)
ความห้าวหาญ (pep) ลูกค้าไม่ซื้อ PEP (Personal หุ้น Plan) หลังจากที่
ส่งล่าสุด (Yes / No)
ขั้นตอนการทางาน
 เมื่อต้องการเริ่มใช้งาน Filters ให้ผู้ใช้งานทาการคลิกที่ปุ่ม Choose ใน
กรอบ Filters เพื่อทาการเลือกรูปแบบการทา Filters
 Open file “bank-data.csv”
 เนื่องจากข้อมูลไม่ได้อยู่ในรูปแบบ .ARFF จะมีกล่องโต้ตอบแจ้งเตือนให้เราใช้
ตัวแปลงเป็น .arff
 คลิกที่ปุ่ม" “User Coverter” และคลิกตกลงในกล่องโต้ตอบถัดไปที่
ปรากฏขึ้น
การกรองคุณสมบัติ
 ในตัวอย่างไฟล์ ข้อมูลแต่ละระเบียนจะไม่ซ้ากันโดยมีการระบุรหัสลูกค้า คือ
ใช้แอททริบิวต์ “id” เป็นตัวกาหนด เราจาเป็นต้องลบแอตทริบิวต์นี้ก่อน
 ในขั้นตอนการทาเหมืองข้อมูล เราสามารถทาเช่นนี้ได้โดยใช้ตัวกรอง
คุณสมบัติใน WEKA ในช่อง “ตัวกรอง”
 ให้คลิกที่ "เลือก" ซึ่งปุ่ มนี้จะแสดงหน้าต่างป๊ อปอัพที่มีรายชื่อตัวกรองใช้ได้
เลื่อนลงรายชื่อและเลือก
 “weka/filters/unsupervised/attribute/Remove”
ตามลาดับ
 ทาการกาหนดค่าโดยใส่ดัชนีของแอตทริบิวต์จะถูกกรองออก
 ในกรณีนี้เราป้อนเลข 1 ซึ่งเป็นดัชนีของแอททริบิ “id” ดูได้ที่แผงด้านซ้าย และ
ตรวจสอบให้แน่ใจว่าที่ “invertSelection” ตัวเลือกถูกตั้งค่าเป็นเท็จ
(False) จากนั้นคลิก “OK”
 จากนั้นในกล่องตัวกรองจะเห็นว่า มีค่า “-R 1” ปรากฎ
 คลิกที่ “Apply” เพื่อใช้ตัวกรองนี้ไปใช้กับข้อมูล
 ข้อมูลนี้จะเป็นการลบแอททริบิวต์ “id” และทาการสร้างความสัมพันธ์การทางาน
ใหม่
Weka dataprepocessing
Weka dataprepocessing

More Related Content

What's hot

การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Wekaการวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย WekaKannikanune
 
สรุปสูตรเรื่อง เซต
สรุปสูตรเรื่อง เซตสรุปสูตรเรื่อง เซต
สรุปสูตรเรื่อง เซตK'Keng Hale's
 
แบบทดสอบปลายภาคเรียน วิทย์ 5 (ออกตามตัวชี้วัด)
แบบทดสอบปลายภาคเรียน วิทย์ 5  (ออกตามตัวชี้วัด)แบบทดสอบปลายภาคเรียน วิทย์ 5  (ออกตามตัวชี้วัด)
แบบทดสอบปลายภาคเรียน วิทย์ 5 (ออกตามตัวชี้วัด)dnavaroj
 
การใช้ Cause effect markers
การใช้ Cause effect markersการใช้ Cause effect markers
การใช้ Cause effect markersAj Muu
 
Microsoft power point ยีนและโครโมโซม
Microsoft power point   ยีนและโครโมโซมMicrosoft power point   ยีนและโครโมโซม
Microsoft power point ยีนและโครโมโซมThanyamon Chat.
 
เมทริกซ์ (Matrix)
เมทริกซ์ (Matrix)เมทริกซ์ (Matrix)
เมทริกซ์ (Matrix)K'Keng Hale's
 
โครงสร้างและหน้าที่ของใบ
โครงสร้างและหน้าที่ของใบโครงสร้างและหน้าที่ของใบ
โครงสร้างและหน้าที่ของใบnokbiology
 
บทที่ 1 พันธุกรรมกับหมู่เลือด
บทที่ 1 พันธุกรรมกับหมู่เลือดบทที่ 1 พันธุกรรมกับหมู่เลือด
บทที่ 1 พันธุกรรมกับหมู่เลือดPinutchaya Nakchumroon
 
การคายน้ำและการแลกเปลี่ยนแก๊ส
การคายน้ำและการแลกเปลี่ยนแก๊สการคายน้ำและการแลกเปลี่ยนแก๊ส
การคายน้ำและการแลกเปลี่ยนแก๊สThanyamon Chat.
 
พันธุกรรมเพิ่ม
พันธุกรรมเพิ่มพันธุกรรมเพิ่ม
พันธุกรรมเพิ่มWichai Likitponrak
 
13.การสังเคราะห์ด้วยแสงของพืช
13.การสังเคราะห์ด้วยแสงของพืช13.การสังเคราะห์ด้วยแสงของพืช
13.การสังเคราะห์ด้วยแสงของพืชWichai Likitponrak
 
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพSomporn Amornwech
 
ขนราก
ขนรากขนราก
ขนรากdnavaroj
 
บทที่ 20 ฟิสิกส์นิวเคลียร์ แก้ไขครั้งที่ 1
บทที่ 20 ฟิสิกส์นิวเคลียร์ แก้ไขครั้งที่ 1บทที่ 20 ฟิสิกส์นิวเคลียร์ แก้ไขครั้งที่ 1
บทที่ 20 ฟิสิกส์นิวเคลียร์ แก้ไขครั้งที่ 1Wijitta DevilTeacher
 
ระบบจัดการร้านเบเกอรี่
ระบบจัดการร้านเบเกอรี่ระบบจัดการร้านเบเกอรี่
ระบบจัดการร้านเบเกอรี่Visiene Lssbh
 

What's hot (20)

03 data preprocessing
03 data preprocessing03 data preprocessing
03 data preprocessing
 
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Wekaการวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
 
สมดุลกล2
สมดุลกล2สมดุลกล2
สมดุลกล2
 
สรุปสูตรเรื่อง เซต
สรุปสูตรเรื่อง เซตสรุปสูตรเรื่อง เซต
สรุปสูตรเรื่อง เซต
 
แบบทดสอบปลายภาคเรียน วิทย์ 5 (ออกตามตัวชี้วัด)
แบบทดสอบปลายภาคเรียน วิทย์ 5  (ออกตามตัวชี้วัด)แบบทดสอบปลายภาคเรียน วิทย์ 5  (ออกตามตัวชี้วัด)
แบบทดสอบปลายภาคเรียน วิทย์ 5 (ออกตามตัวชี้วัด)
 
การใช้ Cause effect markers
การใช้ Cause effect markersการใช้ Cause effect markers
การใช้ Cause effect markers
 
Microsoft power point ยีนและโครโมโซม
Microsoft power point   ยีนและโครโมโซมMicrosoft power point   ยีนและโครโมโซม
Microsoft power point ยีนและโครโมโซม
 
เมทริกซ์ (Matrix)
เมทริกซ์ (Matrix)เมทริกซ์ (Matrix)
เมทริกซ์ (Matrix)
 
โครงสร้างและหน้าที่ของใบ
โครงสร้างและหน้าที่ของใบโครงสร้างและหน้าที่ของใบ
โครงสร้างและหน้าที่ของใบ
 
บทที่ 1 พันธุกรรมกับหมู่เลือด
บทที่ 1 พันธุกรรมกับหมู่เลือดบทที่ 1 พันธุกรรมกับหมู่เลือด
บทที่ 1 พันธุกรรมกับหมู่เลือด
 
การคายน้ำและการแลกเปลี่ยนแก๊ส
การคายน้ำและการแลกเปลี่ยนแก๊สการคายน้ำและการแลกเปลี่ยนแก๊ส
การคายน้ำและการแลกเปลี่ยนแก๊ส
 
พันธุกรรมเพิ่ม
พันธุกรรมเพิ่มพันธุกรรมเพิ่ม
พันธุกรรมเพิ่ม
 
Practical Data Mining: FP-Growth
Practical Data Mining: FP-GrowthPractical Data Mining: FP-Growth
Practical Data Mining: FP-Growth
 
13.การสังเคราะห์ด้วยแสงของพืช
13.การสังเคราะห์ด้วยแสงของพืช13.การสังเคราะห์ด้วยแสงของพืช
13.การสังเคราะห์ด้วยแสงของพืช
 
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
2.2 การวิเคราะห์และนำเสนอข้อมูลเชิงคุณภาพด้วยแผนภาพ
 
ขนราก
ขนรากขนราก
ขนราก
 
บทที่ 3 ฐานข้อมูลเชิงสัมพันธ์
บทที่ 3 ฐานข้อมูลเชิงสัมพันธ์บทที่ 3 ฐานข้อมูลเชิงสัมพันธ์
บทที่ 3 ฐานข้อมูลเชิงสัมพันธ์
 
09 anomaly detection
09 anomaly detection09 anomaly detection
09 anomaly detection
 
บทที่ 20 ฟิสิกส์นิวเคลียร์ แก้ไขครั้งที่ 1
บทที่ 20 ฟิสิกส์นิวเคลียร์ แก้ไขครั้งที่ 1บทที่ 20 ฟิสิกส์นิวเคลียร์ แก้ไขครั้งที่ 1
บทที่ 20 ฟิสิกส์นิวเคลียร์ แก้ไขครั้งที่ 1
 
ระบบจัดการร้านเบเกอรี่
ระบบจัดการร้านเบเกอรี่ระบบจัดการร้านเบเกอรี่
ระบบจัดการร้านเบเกอรี่
 

Viewers also liked

คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7Pitchayanida Khumwichai
 
การวิเคราะห์ข้อมูลด้วย Weka
การวิเคราะห์ข้อมูลด้วย Wekaการวิเคราะห์ข้อมูลด้วย Weka
การวิเคราะห์ข้อมูลด้วย WekaDkpoon Po-ngam
 
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการบทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการPrakaywan Tumsangwan
 
Slide ProceedingNccit 2014-69
Slide ProceedingNccit 2014-69Slide ProceedingNccit 2014-69
Slide ProceedingNccit 2014-69D2U2020
 
ระบบ (System)
ระบบ (System)ระบบ (System)
ระบบ (System)tumetr
 
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshopสร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย PhotoshopSiwaphon
 

Viewers also liked (20)

Weka introducing
Weka introducingWeka introducing
Weka introducing
 
Data Mining
Data MiningData Mining
Data Mining
 
Introduction to Weka: Application approach
Introduction to Weka: Application approachIntroduction to Weka: Application approach
Introduction to Weka: Application approach
 
คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7
 
Weka classification
Weka classificationWeka classification
Weka classification
 
K means cluster in weka
K means cluster in wekaK means cluster in weka
K means cluster in weka
 
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
 
Advanced Predictive Modeling with R and RapidMiner Studio 7
Advanced Predictive Modeling with R and RapidMiner Studio 7Advanced Predictive Modeling with R and RapidMiner Studio 7
Advanced Predictive Modeling with R and RapidMiner Studio 7
 
Preprocessing with RapidMiner Studio 6
Preprocessing with RapidMiner Studio 6Preprocessing with RapidMiner Studio 6
Preprocessing with RapidMiner Studio 6
 
Building Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributesBuilding Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributes
 
Evaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROCEvaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROC
 
Introduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data AnalyticsIntroduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data Analytics
 
การวิเคราะห์ข้อมูลด้วย Weka
การวิเคราะห์ข้อมูลด้วย Wekaการวิเคราะห์ข้อมูลด้วย Weka
การวิเคราะห์ข้อมูลด้วย Weka
 
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการบทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
บทที่ 2 ระบบสารสนเทศเพื่อการจัดการ
 
Slide ProceedingNccit 2014-69
Slide ProceedingNccit 2014-69Slide ProceedingNccit 2014-69
Slide ProceedingNccit 2014-69
 
Mind mapping
Mind mappingMind mapping
Mind mapping
 
ระบบ (System)
ระบบ (System)ระบบ (System)
ระบบ (System)
 
การสร้างภาพพื้นหลัง
การสร้างภาพพื้นหลังการสร้างภาพพื้นหลัง
การสร้างภาพพื้นหลัง
 
Moodle
MoodleMoodle
Moodle
 
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshopสร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
สร้างพื้นหลังกราฟฟิกอย่างง่ายด้วย Photoshop
 

Weka dataprepocessing

  • 2. การใช้ GainRatioAttributeEval  คือ การ select attributes การเลือกแอทริบิวที่มีความสาคัญน้อยออกเพื่อ ดูประสิทธิภาพในการทานายหลังจากที่ได้ตัดแอทริบิวบางตัวออกซึ่งส่วนใหญ่จะให้ ค่าความถูกต้องสูงขึ้นเพราะแอทริบิวที่เหลือจะเป้นแอทรริบิวที่มีความสาคัญ อัลกก อริทึมที่มีให้ใช้เช่น GainRatioAttributeEval, OneRAtributeEval,CfsSubsetEval
  • 3. เรื่อง Filter ในส่วนการทา Discretize  การเรียกใช้ตัวกรอง (Filter)  ตัวกรอง (Filter) เป็นตัวที่ทาหน้าที่ระบุข้อมูลย่อยของระเบียนที่จะถูกแสดง แบ่งออกเป็น 2 ลักษณะ คือ  Supervised  แปลงข้อมูลแบบอัตโนมัติ  Unsupervised  แปลงข้อมูลที่ผู้ใช้กาหนดเอง
  • 4. ตัวกรองแบบอัตโนมัติ (Supervised) แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance) AttributeSelection Resample ClassOrder SpreadSubsample Discretize StratifiedRemoveFolds NorminalToBinary
  • 5. ตัวกรองที่ผู้ใช้กาหนดเอง (Unsupervised) แอททริบิวท์ (Attribute) ลักษณะระเบียน (Instance) Add Randomize Discretize (unsupervised) RemoveFold Normalize ReplaceMissing Value NumbericToBinary Resample
  • 7. การกรองแอตทริบิวต์ (Attribute Selection)  เทคนิคการกรองแอตทริบิวต์ เป็นการลดจานวนแอตทริบิวต์ที่ไม่เกี่ยวข้องออก โดยแอตทริบิวต์ถูกตัดออกไปเหลือเฉพาะแอทริบิวต์ที่มีความสัมพันธ์กัน เท่านั้น  ข้อดีของการลดจานวนแอตทริบิวต์ คือ ใช้แอตทริบิวต์ที่มีความสาคัญมาทา ให้ผลการจาแนก (Classiffcation) ได้ค่าความถูกต้อง สูงขึ้นและเวลาในการ ประมวลผลลดลง  งานวิจัยทางด้านการทาเหมืองข้อมูลที่ได้นาเทคนิคการกรองแอตทริบิวต์มาใช้ เช่น งานวิจัยที่ใช้ฐานข้อมูล UCI ซึ่งประกอบด้วยฐานข้อมูลย่อย 9 ฐานข้อมูล ในการกรอง เทคนิคการกรองแอททริบิวต์ในที่นี้มี 4 วิธี คือ
  • 8.  วิธีที่ 1 InfoGain Attribute Evaluation เป็น การลดจานวนแอตทริบิวต์ที่ใช้การ ประเมินค่าของแอตทริบิวต์โดยวัด Infromation Gain [5,6] ซึ่งเป็นตัววัด ความสัมพันธ์ของแอททริบิวต์ให้กับคลาสนั้นๆ  วิธีที่ 2 GainRatio Attribute Evaluatio เป็นการลดจานวนแอตทริบิวต์ที่ใช้การ ประเมินค่าของแอตทริบิวต์โดยวัด Gain Ratio [5,6] ซึ่งวัดความสัมพันธ์ของ แอตทริบิวต์อีกประเภทหนึ่งแต่จะมีการปรับสเกลตามค่าของข้อมูลในแอททริ บิวต์ที่สนใจให้กับคลาสนั้นๆ
  • 9.  วิธีที่ 3 OneR Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้กฎ (Rule) กฎ หรือที่เรียกว่า IR โดยการสร้างต้นไม้ตัดสินใจหนึ่งระดับ แล้ว สร้างกฎจากต้นไม้นั้น โดยกฎที่สร้างได้จากแต่ละแอตทริบิวต์จะมีกฎที่ แตกต่างกัน และเลือกกฎที่มีค่าความผิดพลาดน้อยสุดเพียงกฎเดียวจากแอตทริ บิวต์นั้น แอตทริบิวต์ที่มีค่าความผิดพลาดน้อยสุดเป็นแอตทริบิวต์ที่ดีที่สุด  วิธีที่ 4 ChiSquare Attribute Avaluation เป็นการลดจานวนแอตทริบิวต์ที่ใช้ การประเมินค่าแอตทริบิวต์ โดยคานวณค่า Chi-Square ทางสถิติ งานวิจัยที่ใข้ หลักการนี้ เช่น งานวิจัยด้านชีวสารสนเทศ
  • 10. การจาแนกประเภทข้อมูล (Classification)  J48 เป็นอัลกอริทึมในการจาแนกโดยใช้ต้นไม้ การตัดสินใจวิธีนี้ จะใช้ข้อมูลในการสร้างต้นไม้ ตัดสินใจ โดยที่แต่ละโหนด หมายถึง แอตทริบิวต์ แต่ละกิ่งของต้นไม้เป็นผลในการทดสอบ และ โหนดใบแสดงคลาส  NBTree เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการของต้นไม้ ตัดสินใจ และทฤษฎีเบร์ร่วมกัน  IBK เป็นอัลกอริทึมในการจาแนกแบบ K-Nearest Neighbor โดยที่ K เป็นตัวบอกจานวนกรณีที่ ต้องการค้นหาในการทานาย กรณีใหม่ เช่น 1-NN หมายถึง วิธีนี้จะหาค่า 1 กรณีที่ใกล้เคียงกรณี ใหม่มากที่สุดและกาหนดเงื่อนไขใหม่ให้กับคลาสที่ใกล้เคียงมากที่สุด  RBFNetwork เป็นโครงข่ายประสาทเทียมประกอบด้วย 3 ชั้น คือ ชั้นข้อมูลเข้า ชั้นซ่อน และชั้น ผลลัพธ์ โดยใช้ฟังชั่นกระตุ้นแบบเรเดียล ปกติจะใช้ Gaussian Function  Naïve Bays เป็นอัลกอริทึมในการจาแนกโดยใช้หลักการทฤษฎีเบย์ โดยมีเงื่อนไขว่า ข้อมูลต้อง เป็นอิสระต่อกัน โดยทาการหาค่าความน่าจะเป็นของ x เมื่อรู้คลาส จากผลคูณของความน่าจะเป็น ของแอททริบิวต์ทุกตัวของ x
  • 11. Attribute ความหมาย Id หมายเลขประจาตัวที่ไม่ซ้ากัน อายุ (age) อายุของลูกค้าในปี (ตัวเลข) เพศ (sex) เพศชาย / หญิง ภูมิภาค (region) inner_city / ชนบท / เมือง / ชานเมือง เงินได้ (income) รายได้ของลูกค้า (ตัวเลข) แต่งงานแล้ว (married) เป็นลูกค้าสมรส (Yes / No) เด็ก (children) จานวนบุตร (ตัวเลข) รถยนต์ (car) ลูกค้าจะเป็นเจ้าของรถ (Yes / No) save_acct (save_act) ลูกค้าจะมีบัญชีออมทรัพย์(Yes / No) current_acct (current_act) ลูกค้าจะมีบัญชีปัจจุบัน (Yes / No) การจานอง (mortgage) ลูกค้าจะมีการจานอง (Yes / No) ความห้าวหาญ (pep) ลูกค้าไม่ซื้อ PEP (Personal หุ้น Plan) หลังจากที่ ส่งล่าสุด (Yes / No)
  • 12. ขั้นตอนการทางาน  เมื่อต้องการเริ่มใช้งาน Filters ให้ผู้ใช้งานทาการคลิกที่ปุ่ม Choose ใน กรอบ Filters เพื่อทาการเลือกรูปแบบการทา Filters
  • 13.  Open file “bank-data.csv”
  • 14.  เนื่องจากข้อมูลไม่ได้อยู่ในรูปแบบ .ARFF จะมีกล่องโต้ตอบแจ้งเตือนให้เราใช้ ตัวแปลงเป็น .arff  คลิกที่ปุ่ม" “User Coverter” และคลิกตกลงในกล่องโต้ตอบถัดไปที่ ปรากฏขึ้น
  • 15.
  • 16.
  • 17. การกรองคุณสมบัติ  ในตัวอย่างไฟล์ ข้อมูลแต่ละระเบียนจะไม่ซ้ากันโดยมีการระบุรหัสลูกค้า คือ ใช้แอททริบิวต์ “id” เป็นตัวกาหนด เราจาเป็นต้องลบแอตทริบิวต์นี้ก่อน  ในขั้นตอนการทาเหมืองข้อมูล เราสามารถทาเช่นนี้ได้โดยใช้ตัวกรอง คุณสมบัติใน WEKA ในช่อง “ตัวกรอง”  ให้คลิกที่ "เลือก" ซึ่งปุ่ มนี้จะแสดงหน้าต่างป๊ อปอัพที่มีรายชื่อตัวกรองใช้ได้ เลื่อนลงรายชื่อและเลือก  “weka/filters/unsupervised/attribute/Remove” ตามลาดับ
  • 18.
  • 19.  ทาการกาหนดค่าโดยใส่ดัชนีของแอตทริบิวต์จะถูกกรองออก  ในกรณีนี้เราป้อนเลข 1 ซึ่งเป็นดัชนีของแอททริบิ “id” ดูได้ที่แผงด้านซ้าย และ ตรวจสอบให้แน่ใจว่าที่ “invertSelection” ตัวเลือกถูกตั้งค่าเป็นเท็จ (False) จากนั้นคลิก “OK”  จากนั้นในกล่องตัวกรองจะเห็นว่า มีค่า “-R 1” ปรากฎ
  • 20.
  • 21.
  • 22.  คลิกที่ “Apply” เพื่อใช้ตัวกรองนี้ไปใช้กับข้อมูล  ข้อมูลนี้จะเป็นการลบแอททริบิวต์ “id” และทาการสร้างความสัมพันธ์การทางาน ใหม่