6. ความเป็นมาของ Data Mining (ต่อ)
การทาเหมืองข้อมูลนั้นมีเทคนิคมากมายจากหลายแขนงของสาขาวิชาวิทยาการ
คอมพิวเตอร์ ได้แก่ Statistics, Machine Learning, Information Science และ Visualization
จุดประสงค์ของการทาเหมืองข้อมูล คือ เพื่อวิเคราะห์และขุดเจาะข้อมูลที่มีอยู่จานวน
มหาศาลเพื่อให้ข้อมูลเชิงลึกหรือซ้อนเร้นอยู่และเป็นข้อมูลที่มีประโยชน์
สามารถนาข้อมูลที่ได้มาใช้ทาขั้นตอนวิธีให้เป็นข้อมูลที่กรองแล้ว และเป็นประโยชน์ต่อ
องค์กร ในบางองค์กรได้นาการทาเหมืองข้อมูลเพื่องานด้านข่าวกรอง เช่น NSA Data
Mining , CIA Wins Control of Terrorist Data Mining Program, ข่าวกรองทางธุรกิจ
(Business Intelligence)
หรือสาหรับวิเคราะห์ข้อมูลงานวิจัยด้านวิทยาศาสตร์ เช่น การทาเหมืองข้อมูลสาหรับชี
วสารสนเทศศาสตร์ (Bioinformatics) การทาเหมืองข้อมูลสาหรับข้อมูลทรัพยากรน้า
(Hydroinformatics) ฯลฯ
7. การทาเหมืองข้อมูลคืออะไร
What is data mining?
การทาเหมืองข้อมูล (Data Mining) เป็นการค้นพบความรู้ในฐานข้อมูล (Knowledge
Discovery in Database : KDD) คือ กระบวนการที่กระทากับข้อมูลจานวนมากเพื่อค้นหา
รูปแบบ (Patterns) และความสัมพันธ์ (associations) ที่ซ่อนอยู่ในชุดข้อมูลนั้น ๆ
Data Mining คือ การนาข้อมูลจากฐานข้อมูลมาวิเคราะห์และประมวลผล โดยการสร้าง
แบบจาลอง และความสัมพันธ์
Data Mining คือ ชุด software วิเคราะห์ข้อมูลที่ได้ถูกออกแบบมาเพื่อระบบสนับสนุนการ
ตัดสินใจของผู้ใช้ มันเป็น software ที่สมบรูณ์ทั้งเรื่องการค้นหา การทารายงาน และ
โปรแกรมในการจัดการ
8. Data mining as a step in the process of knowledge
discovery in database : KDD)
Data Cleaning
Data Integration
Data Selection
Data Transformation
Data Mining
Pattern Evaluation
Knowledge Presentation
9. วิวัฒนาการของการวิเคราะห์ข้อมูล
Data Collection
-Primitive File Processing
Database management system
- Network and relational database management system
- Data Modeling Tools
- Query Language
Advanced database management system
- Advanced data model
- Object-oriented database management system
- Object relational database management system
Decision Support System
- Data warehouse
- Data mining
- XML-based database System, Web Mining
1970’s
1960’s &
earlier
1980’s
- present
1990’s
- present
11. เหตุผลการทาเหมืองข้อมูล
คากล่าวที่ว่า “ความจาเป็นก่อให้เกิดสิ่งประดิษฐ์ใหม่” กล่าวคือ ด้วยเทคโนโลยี
ทางด้านฐานข้อมูลในโลกปัจจุบัน ก่อให้เกิดการเก็บข้อมูลดิบในปริมาณมหาศาล และ
ไม่สามารถนาข้อมูลทั้งหลายมาแปลงให้เป็นสารสนเทศ เพื่อนาความรู้นั้นไปใช้ให้เกิด
ประโยชน์กับองค์กรได้
We are drowning in data, but starving for knowledge!
16. ประเภทของข้อมูลที่ใช้ในการทาเหมืองข้อมูล
What kinds of data can be mined?
Relational database
Transactional database
Data warehouses
Transaction Data
Advanced databases and information repositories
Object-orientedand object-relational database
Spatial databases
18. Relational Database
Database management system (DBMS)
โครงสร้างของฐานข้อมูลประกอบไปด้วยกลุ่มของตาราง
แต่ละตารางประกอบด้วยเซตของแอตตริบิวท์ (columns or fields)
และเก็บข้อมูลเป็นจานวมากด้วยเซตของทูเปิล (Tuple)
Cust_ID name address age incom
e
Credit_inf
o
…
C1 Smith 111, Chicago,.. 21 $2700 1 ..
Trans_ID Cust_ID Item_I
D
Date Time Method_pay amount
001 C1 I3 31/05/10 10:00 Visa $20000
customer
purchase
33. World Wide Web
เป็นแหล่งเก็บข้อมูลแบบกระจาย (distributed) ที่เก็บข้อมูลขนาดมหาศาล
และสามารถเข้าถึงฐานข้อมูลต่างๆ ผ่านทางอินเตอร์เน็ตในการทาเหมือง
ข้อมูลบน www เช่น การค้นหารูปแบบการท่องไปตาม web pages ต่างๆ
ของผู้ใช้ ซึ่งจะเก็บข้อมูลทางเดินการเข้าเยี่ยมชมของผู้ใช้จะถูกบันทึกอยู่
ใน web access log ประโยชน์ของการทาเหมือง คือ
ช่วยให้ตัดสินใจทางการตลาดได้ดีขึ้น เช่น การวางแผนโฆษณา
ช่วยในการวิเคราะห์พฤติกรรมและจาแนกประเภทลูกค้า ทาให้ทราบ
ลูกค้ากลุ่มเป้าหมาย
34. ขั้นตอนการทาเหมืองข้อมูลProblem Understanding
-Determine objective
-Define success criteria
-Asses situation
-Determine data mining goals
-Produce a project plan
Modeling
-Select modeling technique
-Generate test design
-Build a model
-Asses the model
Data Understanding
-Collect initial data
-Define success criteria
-Describe data
-Explore data
-Verify data quality
Data Preparation
-Select data
-Clean data
-Transform data
Evaluation
-Evaluate Results
-Review process
-Determine next steps
Deployment
-Plan the deployment
-monitor and maintain
-Final Report
43. กลยุทธ์ในการทาเหมืองข้อมูล
What kinds of pattern can be mined?
DM Strategies
Predictive
or Supervised Modeling
Descriptive
or Unsupervised Modeling
Classification Prediction
Estimation/ Regression
Associations Clustering
45. งานสาหรับการทาเหมืองข้อมูล
การทาเหมืองกฎความสัมพันธ์ (Mining Association Rules)
การค้นหากฎความสัมพันธ์ มักเป็นงานทาเหมืองบนฐานข้อมูล Transactional เพื่อ
ค้นหาสหสัมพันธ์ (correlation) หรือความเป็นเหตุแลผล (causality) ของสิ่งของ
ส่วนใหญ่จะใช้ในการช่วยการวิเคราะห์ Market basket analysis
การหากฎความสัมพันธ์แสดงอยู่ในรูปแบบ
หมายถึง การเกิดขึ้ของไอเท็มเซต x เกิดขึ้นร่วมกันของไอเท็มเซต Y ด้วยค่า
สนับสนุน (Support) และค่าความเชื่อมั่น (Confidence)
ไอเท็มเซต เช่น เซตของสินค้าในร้าน หรือเซตของประเภทบริการ
X → Y
46. ตัวอย่าง: งานสาหรับการทาเหมืองข้อมูล
AllElectronics shop relation database, a data mining system may find
association rule:
“Single-dimensional association rules”
computer → software or
contains (T, “computer”) → contains (T, “software”)
[support = 1%, confidence = 50%]
T contains “computer”, ther is a 50% chance that it contains
“software”
1% of all of the transactions contain “software”
47. ตัวอย่าง: งานสาหรับการทาเหมืองข้อมูล
AllElectronics shop relation database, a data mining system may find association
rule:
“Multidimensional association rule”
Age(X, “20..29”) income (X, “20K..29K”) → buys (X, “CD player”)
[support = 2%, confidence = 60%]
2% support are 20 to 29 year of age with an income of 20K to 29K and have
purchased a CD player at AllElectronics shop
60% probability that a customer in this age and income group will purchase a
CD player
49. ตัวอย่าง: งานสาหรับการทาเหมืองข้อมูล
Classification: Decision Tree
Age Rent Period Buy
23
36
20
27
20
50
36
36
22
3
1.5
1.5
2
1
2.5
1
2
2.5
No
No
No
Yes
No
Yes
No
Yes
no
Business Info
Rent
Property
Customer renting
property > 2 year?
Customer age > 25 year?
Rent
Property
Buy
Property
YesNo
No Yes