01 introduction to data mining

336331 การทาเหมืองข้อมูล (Data Mining)
สอนโดย
ดร.หทัยรัตน์ เกตุมณีชัยรัตน์
ภาควิชาการจัดการเทคโนโลยีการผลิตและสารสนเทศ
บทที่ 1 : Introduction to Data Mining

ความเป็นมาของ Data Mining
 การประมวลผลแฟ้มข้อมูล (File Processing) คือ การจัดเก็บข้อมูลโดยใช้โครงสร้าง
ข้อมูลที่เหมาะสม (Data Structure) การเรียงลาดับข้อมูลโดยใช้วิธีการจัดลาดับ
ข้อมูล (Sorting) การทาดัชนี (Indexing) การค้นข้อมูล (Searching)
 ข้อด้อยที่ชัดเจนของการประมวลผลแฟ้ มข้อมูล คือ โปรแกรมสารสนเทศที่ถูก
พัฒนาจากนักพัฒนาโปรแกรมคนละกลุ่มไม่สามารถใช้งานร่วมกันได้
 ข้อมูลที่จัดเก็บอยู่ขาดความเป็นอิสระต่อระบบของโปรแกรมสารสนเทศเอง ทาให้
เป็นอุปสรรคต่อการเปลี่ยนแปลงระบบของโปรแกรมให้ก้าวหน้าและไม่ยืดหยุ่น

ความเป็นมาของ Data Mining (ต่อ)
 ในปี ค.ศ. 1960 ได้เริ่มมีการค้นคว้าหาแนวคิดใหม่เพื่อแก้ไขจุดด้อยของการประมวลผล
แฟ้มข้อมูล ซึ่งเป็นจุดเริ่มต้นของการปฏิวัติเทคโนโลยีฐานข้อมูล
 จนกระทั้งในปี ค.ศ. 1970 ถึง ปี ค.ศ. 1980 ระบบจัดการฐานข้อมูล (Database Management
Systems) ได้รับการนาเสนอขึ้น โดยระบบจัดการฐานข้อมูลนั้น จะทาหน้าที่แทนหน้าที่การ
ประมวลผลแฟ้มข้อมูล ทาให้นักพัฒนาโปรแกรมสารสนเทศสามารถพัฒนาระบบสารสนเทศและ
ใช้งานร่วมกันได้
 และที่สาคัญข้อมูลที่จัดเก็บบนระบบจัดการฐานข้อมูลมีความเป็นอิสระต่อระบบสารสนเทศ และ
มีความยืดหยุ่น ซึ่งมีโมเดลฐานข้อมูลมากมายที่ได้รับการคิดค้นเพื่อนามาใช้สาหรับระบบจัดการ
ฐานข้อมูล โมเดลฐานข้อมูลที่มีชื่อเสียงในช่วงเวลานั้น ได้แก่ Hierarchical Database System,
Network Database System, Relational Database System ในภายหลังโมเดลฐานข้อมูลแบบ
Relational Database System ประสบความสาเร็จสูงสุดและยังคงถูกงานอยู่ในปัจจุบัน

 และในช่วงเวลานี้เอง ได้มีการคิดค้นโมเดลการออกแบบฐานข้อมูล (Data modeling) เช่น
 Entity-Relationship Model
 เทคนิคการทาดัชนีข้อมูล (B+Tree Indexing)
 ภาษาที่ใช้สืบค้นฐานข้อมูล (SQL: Structure Query Language)
 การประมวลผลภาษาที่ใช้สืบค้นฐานข้อมูล (Query Processing)
 การปรับแต่งส่วนการประมวลผลภาษาที่ใช้สืบค้นข้อมูล (Query Optimization)
 การกู้คืนข้อมูล (Data Recovery)
 การควบคุมหลายหน่วยการทางานของฐานข้อมูล (Concerrency Control)
 การประมวลผลแบบ On-Line Transaction Processing (OLTP) เกี่ยวข้องกับการเพิ่ม ลด
ปรับปรุง และเรียกดูข้อมูล โดยมักจะมีผู้ใช้ระบบอยู่จานวนมาก และใช้งานพร้อม ๆ กัน

 ดังนั้น ตั้งแต่ ปี ค.ศ. 1980 เป็นต้นมา จึงได้มีแนวคิดใหม่เพื่อแก้ไขเทคโนโลยีฐานข้อมูล
เนื่องจากปริมาณการจัดเก็บข้อมูลในปัจจุบันมีจานวนมหาศาลและความต้องการนา
ข้อมูลที่มีอยู่มากมายเหล่านี้มาวิเคราะห์เพื่อค้นหาข้อมูลที่อาจซ้อนเร้น
 ประการแรกคิดค้นระบบจัดการฐานข้อมูลที่ทางานเพื่อการจัดเก็บข้อมูลสาหรับการ
วิเคราะห์ข้อมูลโดยเฉพาะ จึงเกิดเทคโนโลยีคลังข้อมูล (Data Warehouse)
 และอีกประการหนึ่งคือวิธีการวิเคราะห์ด้วย OLAP (Online Analytical Processing) เพื่อ
ช่วยวิเคราะห์และแสดงผลข้อมูลในมิติต่าง ๆ
 อย่างไรก็ตาม OLAP ยังมีข้อจากัดในเรื่องความสามารถการวิเคราะห์ข้อมูลเนื่องจาก
OLAP ใช้เทคนิคทางคณิตศาสตร์และสถิติมาประยุกต์ใช้
 ดังนั้นจึงเกิดการทาเหมืองข้อมูลขึ้น (Data Mining)

 การทาเหมืองข้อมูลนั้นมีเทคนิคมากมายจากหลายแขนงของสาขาวิชาวิทยาการ
คอมพิวเตอร์ ได้แก่ Statistics, Machine Learning, Information Science และ Visualization
 จุดประสงค์ของการทาเหมืองข้อมูล คือ เพื่อวิเคราะห์และขุดเจาะข้อมูลที่มีอยู่จานวน
มหาศาลเพื่อให้ข้อมูลเชิงลึกหรือซ้อนเร้นอยู่และเป็นข้อมูลที่มีประโยชน์
 สามารถนาข้อมูลที่ได้มาใช้ทาขั้นตอนวิธีให้เป็นข้อมูลที่กรองแล้ว และเป็นประโยชน์ต่อ
องค์กร ในบางองค์กรได้นาการทาเหมืองข้อมูลเพื่องานด้านข่าวกรอง เช่น NSA Data
Mining , CIA Wins Control of Terrorist Data Mining Program, ข่าวกรองทางธุรกิจ
(Business Intelligence)
 หรือสาหรับวิเคราะห์ข้อมูลงานวิจัยด้านวิทยาศาสตร์ เช่น การทาเหมืองข้อมูลสาหรับชี
วสารสนเทศศาสตร์ (Bioinformatics) การทาเหมืองข้อมูลสาหรับข้อมูลทรัพยากรน้า
(Hydroinformatics) ฯลฯ

การทาเหมืองข้อมูลคืออะไร
What is data mining?
 การทาเหมืองข้อมูล (Data Mining) เป็นการค้นพบความรู้ในฐานข้อมูล (Knowledge
Discovery in Database : KDD) คือ กระบวนการที่กระทากับข้อมูลจานวนมากเพื่อค้นหา
รูปแบบ (Patterns) และความสัมพันธ์ (associations) ที่ซ่อนอยู่ในชุดข้อมูลนั้น ๆ
 Data Mining คือ การนาข้อมูลจากฐานข้อมูลมาวิเคราะห์และประมวลผล โดยการสร้าง
แบบจาลอง และความสัมพันธ์
 Data Mining คือ ชุด software วิเคราะห์ข้อมูลที่ได้ถูกออกแบบมาเพื่อระบบสนับสนุนการ
ตัดสินใจของผู้ใช้ มันเป็น software ที่สมบรูณ์ทั้งเรื่องการค้นหา การทารายงาน และ
โปรแกรมในการจัดการ

Data mining as a step in the process of knowledge
discovery in database : KDD)
 Data Cleaning
 Data Integration
 Data Selection
 Data Transformation
 Data Mining
 Pattern Evaluation
 Knowledge Presentation

วิวัฒนาการของการวิเคราะห์ข้อมูล
Data Collection
-Primitive File Processing
Database management system
- Network and relational database management system
- Data Modeling Tools
- Query Language
Advanced database management system
- Advanced data model
- Object-oriented database management system
- Object relational database management system
Decision Support System
- Data warehouse
- Data mining
- XML-based database System, Web Mining
1970’s
1960’s &
earlier
1980’s
- present
1990’s
- present

ข้อมูล สารสนเทศ และความรู้
ข้อมูล
ประมวลผลสารสนเทศความรู้

เหตุผลการทาเหมืองข้อมูล
 คากล่าวที่ว่า “ความจาเป็นก่อให้เกิดสิ่งประดิษฐ์ใหม่” กล่าวคือ ด้วยเทคโนโลยี
ทางด้านฐานข้อมูลในโลกปัจจุบัน ก่อให้เกิดการเก็บข้อมูลดิบในปริมาณมหาศาล และ
ไม่สามารถนาข้อมูลทั้งหลายมาแปลงให้เป็นสารสนเทศ เพื่อนาความรู้นั้นไปใช้ให้เกิด
ประโยชน์กับองค์กรได้
We are drowning in data, but starving for knowledge!

เหตุผลการทาเหมืองข้อมูล
 ปัญหาการมีข้อมูลล้นเหลือ (Data Explosion) แต่ไม่สามารถนาความรู้ในข้อมูลนั้นมา
ก่อให้เกิดประโยชน์ นาไปสู่หนทางการแก้ไข โดยวิธีจัดเก็บแบบคลังข้อมูล (Data
Warehousing) และการทาเหมืองข้อมูล เพื่อช่วยดึงความรู้ที่น่าสนใจ อาทิ กฎต่างๆ รูปแบบ
หรือข้อจากัด จากข้อมูลในฐานข้อมูลขนาดใหญ่มาใช้ให้เกิดประโยชน์
 การเรียนรู้ของเครื่อง (Machine Learning) เป็นสาขาหนึ่งของปัญญาประดิษฐ์ (Artificial
Intelligence) โดยมุ่งเน้นที่จะพยายามสอนคอมพิวเตอร์ให้เรียนรู้ได้เหมือนมนุษย์ ดังนั้น
การทาเหมืองจึงได้นาวิธีการเรียนรู้ของเครื่องมาใช้

การบูรณาการกันของศาสตร์ต่างๆ
 ฐานข้อมูล (Database systems, data warehouses, OLAP) ซึ่งเป็นเทคโนโลยีการ
จัดเก็บและรวบรวม และเตรียมข้อมูลที่ใช้การทาเหมือง
 การเรียนรู้ของเครื่อง (Machine Learning) ใช้เป็นอัลกอรึทึมหลักที่ใช้ในการค้นหา
รูปแบบและความสัมพันธ์ที่ซ่อนอยู่ในข้อมูล
 หลักสถิติ (Statistic and data analysis methods) สาหรับวิเคราะห์ข้อมูลเบื้องต้น ซึ่ง
อาจจะชี้ให้เห็นถึงรูปแบบและความสัมพันธ์ของข้อมูลที่ซ่อนอยู่ได้
 วิทยาศาสตร์สารสนเทศ (information science)

การบูรณาการกันของศาสตร์ต่างๆ
 การโปรแกรมทางคณิตศาสตร์ (mathematical programming)
 การคานวณประสิทธิภาพสูง (High performance computing) เนื่องจากข้อมูลที่มาก
จะทาให้การทาเหมืองข้อมูลใช้เวลานาน จึงจาเป็นต้องมีการคานวณที่รวดเร็ว
รองรับ
 การทาจินตทัศน์ (Visualization) เพื่อแสดงผลลัพธ์ รูปแบบ และความสัมพันธ์ของ
ข้อมูลออกมาให้ผู้ใช้เข้าใจง่ายที่สุด ซึ่งเป็นประโยชน์ต่อการตีความและนาผลลัพธ์
นั้นไปใช้

คุณสมบัติของความรู้ที่ต้องการจากการทาเหมืองข้อมูล
 มีสาระ (nontrivial)
 มีความถูกต้อง (valid)
 เป็นรูปแบบหรือความรู้ใหม่ที่ไม่เคยทราบมาก่อน (novel/ previously unknown)
 นาไปใช้ให้เป็นประโยชน์ได้ (potentially useful)
 น่าสนใจ (interesting)
 สามารถทาความเข้าใจได้(understandable)

ประเภทของข้อมูลที่ใช้ในการทาเหมืองข้อมูล
What kinds of data can be mined?
 Relational database
 Transactional database
 Data warehouses
 Transaction Data
 Advanced databases and information repositories
 Object-orientedand object-relational database
 Spatial databases

ประเภทของข้อมูลที่ใช้ในการทาเหมืองข้อมูล
Time-series data and temporal data
Text databases
Multimedia databases
www

Relational Database
 Database management system (DBMS)
 โครงสร้างของฐานข้อมูลประกอบไปด้วยกลุ่มของตาราง
 แต่ละตารางประกอบด้วยเซตของแอตตริบิวท์ (columns or fields)
และเก็บข้อมูลเป็นจานวมากด้วยเซตของทูเปิล (Tuple)
Cust_ID name address age incom
e
Credit_inf
o
…
C1 Smith 111, Chicago,.. 21 $2700 1 ..
Trans_ID Cust_ID Item_I
D
Date Time Method_pay amount
001 C1 I3 31/05/10 10:00 Visa $20000
customer
purchase

Relational Database
Database management system (DBMS)
 การค้นถามข้อมูลในฐานข้อมูล Relational จะใช้ภาษาเรียกค้น SQL เช่น
ต้องการทราบยอดขายทั้งหมดในปีที่แล้วแยกตามสาขา เป็นต้น
 แต่...
 ไม่สามารถใช้ภาษาเรียกค้น SQL ในการค้นหาแนวโน้ม หรือรูปแบบ
ของข้อมูลที่ซ่อนอยู่ในฐานข้อมูล เหมือนที่การทาเหมืองทาได้ เช่น การ
ทานายความเสี่ยงในการอนุมัติแก่ลูกค้าใหม่ โดยต้องทราบคุณลักษณะ
ของ ลูกค้า ได้แก่ รายได้อายุ ประเภทที่พักอาศัย ฯลฯ

Transactional databases
 ฐานข้อมูล Transaction ประกอบไปด้วย
 แฟ้มข้อมูล
 ระเบียนในแฟ้มข้อมูลจะแทนหนึ่ง transaction
 แต่ละ transaction ประกอบไปด้วยเลขที่ transaction และรายการ
สิ่งของ เช่น รายการสิ่งของที่ซื้อจากร้านค้า
 ข้อมูลในฐานข้อมูลประเภทนี้ มักเป็นข้อมูล ณ จุดขาย เรียกว่า point-
of-sale

Transactional databases
 การทาเหมืองข้อมูลบนฐานข้อมูล transactional มักนาไปประยุกต์ใช้งาน
Market basket analysis เพื่อเพิ่มยอดขายกลุ่มสินค้าที่ปรากฎกันบ่อย
(frequent itemsets)
Trans_ID Item_ID qty
T100 Item3 1
T100 Item8 2
.. .. ..
.. .. ..
Item_sold

Data Warehouses
 คลังข้อมูล เป็ นแหล่งที่เก็บข้อมูลจากแหล่งต่างๆ ซึ่งแตกต่างกัน
(Heterogeneous data source) มาจัดเก็บไว้ทีเดียวกันภายใต้โครงสร้างการ
จัดเก็บเดียวกัน (Unified schema)
Query and
analysis tools
Client
Data
Warehouse
Data
Source 1
Data
Source 2
Data
Source 3
Clean Transform
Integrate Load
Client

ตัวอย่าง Data Warehouses
 Problem of multiple source:
 ความแตกต่างทางโครงสร้างการจัดเก็บ (Schema Differences)
 ความแตกต่างจากการตั้งชื่อ (Naming Differences)
 ความแตกต่างจากประเภทข้อมูล (Data Type Differences)
 ความแตกต่างจากค่า (Value Differences)
 ความแตกต่างจากความหมาย (Semantic Differences)
 ความแตกต่างจากค่าข้อมูลขาดหาย (Missing Values)

 ตัวอย่าง เช่น บริษัท QuickCar ขายรถยนต์ยี่ห้อหนึ่ง มีตัวแทนจาหน่าย 3 แห่งทั่ว
ประเทศ แต่ละแห่งมีฐานข้อมูลสต็อกรถยนต์ของตนเอง บริษัทนี้ ต้องการสร้าง
ฐานข้อมูลกลาง โดยรวมข้อมูลจากฐานข้อมูลของตัวแทนจาหน่าย 3 แห่ง มาไว้ที่
เดียวกัน ประโยชน์ของการสร้างฐานข้อมูล ได้แก่
 ช่วยตัวแทนจาหน่ายจัดหารถยนต์ตามความต้องการของลูกค้า ในกรณีที่ไม่มีรถ
ในสต๊อก
 ช่วยนักวิเคราะห์ของบริษัทในการวิเคราะห์ทานายตลาดได้
 ช่วยฝ่ายผลิตในการปรับกาลังผลิตรุ่นที่เป็นที่ต้องการของตลาดได้ทันท่วงที

 การบูรณาการข้อมูลจากแหล่งเก็บข้อมูล หรือฐานข้อมูลต่างๆ มีปัญหา
ความยุ่งยากเนื่องมาจากความแตกต่างของข้อมูลจากแหล่งต่างๆ
Query and
analysis tools
Client
Data
Warehouse
Khon
Kaen
Chiang
Mai
Songkla
Clean Transform
Integrate Load
Client
Multiple source

 ตัวอย่างการบูรณการข้อมูลเข้าด้วยกันนั้น บริษัท Quickcar มีปัญหาที่ต้องคานึงถึง ดังนี้
 มีโครงสร้างที่แตกต่างกัน (Schema Differences)
 Branch A: Cars(serialNo, model, color, autoTrans, cdPlayer, …)
 Branch B: QuickCar(serial, model, color), Options(serial, option)
 การตั้งชื่อตารางต่างกัน เป็นปัญหาเรื่อง (Naming Differences)
 Branch A: Table name → Cars
 Branch B: Table name → QuickCar
 ประเภทข้อมูลที่ต่างกัน (Data Type Differences)
 Branch A: serialNo → integer
 Branch B: serial → string

 ค่าข้อมูลที่ต่างกัน (Value Differences)
 Branch A: color → “black”
 Branch B: color → “BL” (confused in BLUE color)
 ศัพท์หรือค่าที่ใช้มีความหมายต่างกัน (Semantic Differences)
 Branch A: QuickCar → cars
 Branch B: QuickCar → cars and 4x4 W
 ค่าบางค่าอาจไม่ถูกจัดเก็บในฐานข้อมูลหนึ่งๆ (Missing Values)
 Branch A: model → Civic DX, LX or EX
 Branch B: model → Civic

Advanced databases and information repositories
 Object-Oriented Databases
 เนื่องจากการมีแอพพลิเคชันใหม่ๆ บนฐานข้อมูล ซึ่งต้องการโครงสร้างข้อมูลที่
มีประสิทธิภาพ และมีวิธีการที่สามารถจัดการกับโครงสร้างวัตถุที่ซับซ้อน
ระเบียนที่มีความยาวไม่แน่นอน ข้อมูลอักษร (text) ข้อมูลสื่อผสม (multimedia
data) ข้อมูลที่ไร้โครงสร้าง เป็นต้น
 Object-Relational Databases
 เป็นการบูรณาการหลักการแนวคิดเชิงวัตถุเข้ากับแบบจาลองข้อมูลเชิงสัมพันธ์
โดยเพิ่มความสามารถจัดการกับข้อมูลที่ซับซ้อนแบบลาดับชั้นของคลาส และ
คุณสมบัติการสืบทอดของวัตถุต่างๆ

Spatial Database
 ได้แก่ ฐานข้อมูลที่เก็บสภาพภูมิศาสตร์ (แผนที่) ภาพถ่ายดาวเทียม ภาพถ่ายทาง
การแพทย์ หรือแผนภาพการออกแบบวงจรรวมขนาดใหญ่มาก ประโยชน์ของ
ฐานข้อมูลประเภทนี้ช่วยในการวางแผนงานป่าไม้และระบบนิเวศน์วิทยา
 การทาเหมืองข้อมูลประเภทนี้ อาจจะค้นพบรูปแบบซึ่งอธิบายเกี่ยวกับ สภาพ
ภูมิอากาศแบบภูเขาที่ระดับความสูงต่างๆ กัน เป็นต้น

Time-Series and Temporal Database
 ได้แก่ ฐานข้อมูลที่เก็บลาดับค่าคุณลักษณะที่แปรเปลี่ยนไปตามเวลา เช่น
มูลค่าหุ้น เป็นต้น
 การทาเหมืองข้อมูลประเภทนี้ จะช่วยในการค้นพบลักษณะวิวัฒนาการ
หรือแนวโน้มการเปลี่ยนแปลงของสิ่งที่สนใจซึ่งเป็นข้อมูลที่จัดเก็บอยู่ใน
ฐานข้อมูล หรืออาจนาความรู้ที่ได้ไปช่วยวางแผนการลงทุนซื้อหุ้นใน
ช่วงเวลาที่เหมาะสม เป็นต้น

Text database
 เป็นฐานข้อมูลที่เก็บตัวอักษรล้วนๆ ได้แก่ ฐานข้อมูลสิ่งตีพิมพ์ (articles)
ข้อกาหนดผลิตภัณฑ์รายงานความผิดพลาด
 การทาเหมืองข้อมูลประเภทนี้จะช่วยในการค้นหาความสัมพันธ์ระหว่าง
คาสาคัญหรือเนื้อหาและใช้ความสัมพันธ์ที่ค้นพบในการจัดกลุ่ม เอกสาร
ตามคาที่ปรากฎในเอกสารนั้น ซึ่งเป็นประโยชน์ในการสร้างตัวสืบค้น

Multimedia database
 แอปพลิเคชันบนข้อมูลในปัจจุบัน ไม่ได้จากัดอยู่บนข้อมูลที่เป็นตัวอักษรหรือ
ตัวเลขเท่านั้น แต่ได้ขยายไปถึงการทางานกับข้อมูลที่มีความซับซ้อนมากยิ่งขึ้น เช่น
ข้อมูลภาพ เสียง เป็นต้น
 การประยุกต์การทาเหมืองข้อมูลกับฐานข้อมูลประเภทนี้ ได้แก่ ส่วนต่อประสาน
ผู้ใช้แบบใช้เสียง ระบบ voice mail งานการค้นคืนรูปภาพ การทางานบนฐานข้อมูล
ประเภทนี้มีความยุ่งยาก จึงต้องมีเทคนิคที่มีประสิทธิภาพในการจัดเก็บและการ
สืบค้นข้อมูลขนาดใหญ่ได้ทันกาลเวลา เป็นต้น

World Wide Web
 เป็นแหล่งเก็บข้อมูลแบบกระจาย (distributed) ที่เก็บข้อมูลขนาดมหาศาล
และสามารถเข้าถึงฐานข้อมูลต่างๆ ผ่านทางอินเตอร์เน็ตในการทาเหมือง
ข้อมูลบน www เช่น การค้นหารูปแบบการท่องไปตาม web pages ต่างๆ
ของผู้ใช้ ซึ่งจะเก็บข้อมูลทางเดินการเข้าเยี่ยมชมของผู้ใช้จะถูกบันทึกอยู่
ใน web access log ประโยชน์ของการทาเหมือง คือ
 ช่วยให้ตัดสินใจทางการตลาดได้ดีขึ้น เช่น การวางแผนโฆษณา
 ช่วยในการวิเคราะห์พฤติกรรมและจาแนกประเภทลูกค้า ทาให้ทราบ
ลูกค้ากลุ่มเป้าหมาย

ขั้นตอนการทาเหมืองข้อมูลProblem Understanding
-Determine objective
-Define success criteria
-Asses situation
-Determine data mining goals
-Produce a project plan
Modeling
-Select modeling technique
-Generate test design
-Build a model
-Asses the model
Data Understanding
-Collect initial data
-Define success criteria
-Describe data
-Explore data
-Verify data quality
Data Preparation
-Select data
-Clean data
-Transform data
Evaluation
-Evaluate Results
-Review process
-Determine next steps
Deployment
-Plan the deployment
-monitor and maintain
-Final Report

ขั้นตอนการทาเหมืองข้อมูล
1. การทาความเข้าใจปัญหา ประกอบด้วยกระบวนการย่อย ดังนี้
 ตั้งเป้าหมายว่าการทาเหมืองข้อมูลครั้งนี้ต้องการที่จะแก้ปัญหา
 ตั้งเกณฑ์วัดความสาเร็จในการทาเหมืองข้อมูล ซึ่งอาจเป็นได้ทั้งความสาเร็จใน
ด้านรูปธรรม เช่น สามารถเพิ่มยอดขายสินค้าได้ 5% และความสาเร็จในด้าน
นามธรรม เช่น สามารถค้นพบความรู้ใหม่จากข้อมูล
 การประเมินสถานการณ์ในด้านต่างๆ
 ตั้งเป้าหมายในเชิงการทาเหมืองข้อมูล
 วางแผนการทาเหมืองข้อมูล

2. การทาความเข้าใจข้อมูล ประกอบด้วยกระบวนการย่อย ดังนี้
 เก็บรวบรวมข้อมูล
 กาหนดคุณสมบัติของข้อมูลที่เก็บมาได้
 สารวจดูข้อมูลอย่างคร่าวๆ ถึงค่าสถิติต่างๆ ของข้อมูล
 ตรวจสอบข้อมูลขั้นต้น โดยตรวจสอบทั้งความสมบูรณ์และความ
ถูกต้องของข้อมูล

3. การเตรียมข้อมูล ประกอบด้วยกระบวนการย่อย ดังนี้
 คัดเลือกข้อมูลที่จะนามาใช้
 การทาความสะอาดข้อมูล
 แก้ไขข้อมูลในถูกต้องสมบูรณ์
 การตรวจจับและกาจัดค่าข้อมูลรบกวน หรือข้อมูลผิดปกติ
 ปรับเปลี่ยนรูปแบบข้อมูล
 ลดรูปข้อมูล เช่น การทาให้เป็นค่าไม่ต่อเนื่อง หรือแทนค่าข้อมูลด้วยค่าที่มีความ
เป็นทั่วไป

4. การสร้างแบบจาลอง ประกอบด้วยกระบวนการย่อย ดังนี้
 เลือกอัลกอรึทึมที่เหมาะสมในการทาเหมืองข้อมูล
 กาหนดรูปแบบการทดสอบผลลัพธ์
 สร้างแบบจาลองตามอัลกอรึทึมที่เลือก
 ทดสอบแบบจาลองที่ได้มานั้นว่ามีความถูกต้องและน่าเชื่อถือเพียงใด

5. การประเมิน อาจจะประเมินแบบจาลองที่สร้างขึ้นด้วยการลองนาไปใช้
กับสถานการณ์จริงหรือนาไปใช้ในสถานการณ์ที่จาลองขึ้น เพื่อดูว่า
แบบจาลองนี้ได้ผลหรือไม่เพียงใด และมีความผิดพลาดตรงไหนบ้าง
6. การนาไปใช้นาไปใช้และตรวจสอบผลว่าบรรลุเป้าหมายที่ตั้งไว้เพียงใด

ส่วนประกอบที่สาคัญของระบบการทาเหมืองข้อมูล
Graphical User Interface
Pattern Evaluation
Data Mining Engine
Database or Data Warehouse Server
Database warehouse
FilteringData Preprocessing:
-Data Cleaning
-Data Integration
Knowledge
Base

 Database & Data Warehouse เป็นแหล่งที่เก็บข้อมูลอื่นๆ เช่น แฟ้มข้อมูล
สเปรดชีท ซึ่งเป็นแหล่งที่เก็บข้อมูลดิบสาหรับการทาเหมืองข้อมูล
 Database/Data Warehouse server ทาหน้าที่นาเข้าข้อมูลตามคาขอของ
ผู้ใช้
 Knowledge base ได้แก่
 ความรู้ในงานที่ทาจะเป็นประโยชน์ต่อการชี้นาทางการสืบค้น หรือ
การประเมินความน่าสนใจของรูปแบบผลลัพธ์ที่ได้ โดยเป็นความรู้
เฉพาะด้านในงานที่ทา เช่น ความรู้เฉพาะทางการแพทย์ หรือดารา
ศาสตร์ เป็นต้น

 Data Mining Engine เป็นส่วนประกอบหลัก ประกอบด้วยโมดูล (Modules) ซึ่ง
รับผิดชอบงานทาเหมืองประเภทต่างๆ ได้แก่ การหากฎความสัมพันธ์ การจาแนก
ประเภท การจัดกลุ่ม เป็นต้น
 Pattern Evaluation Module ทางานร่วมกับ Data Mining Engine โดยใช้ค่าขีดแบ่ง
มาตรวัดความน่าสนใจในการกลั่นกรองรูปแบบผลลัพธ์ที่ได้ ซึ่งใช้ประเมินความ
น่าสนใจของรูปแบบการทาเหมืองที่ได้
 Graphical User Interface ส่วนติดต่อประสานระหว่างผู้ใช้กับระบบทาเหมือง ซึ่ง
ช่วยให้ผู้ใช้สามารถระบุงานทาเหมืองที่ต้องการ

กลยุทธ์ในการทาเหมืองข้อมูล
What kinds of pattern can be mined?
DM Strategies
Predictive
or Supervised Modeling
Descriptive
or Unsupervised Modeling
Classification Prediction
Estimation/ Regression
Associations Clustering

กลยุทธ์ในการทาเหมืองข้อมูล
1. แบบจาลองในการทานาย (Predictive/ Supervised Modeling) เป็น
ผลลัพธ์ที่สร้างจากการอนุมาน (Inference) ชุดข้อมูลปัจจุบัน เพื่อใช้ใน
การทานายประเภทตัวอย่างในอนาคต
2. แบบจาลองในการบรรยาย (Descriptive/ Unsupervised Modeling) ในที่นี้
อาจเป็นการหาความสัมพันธ์ต่างๆ (Association) หรือหาการจัดกลุ่ม
ข้อมูล (Clustering) ซึ่งไม่ได้มีจุดมุ่งหมายเพื่อการทานาย

งานสาหรับการทาเหมืองข้อมูล
การทาเหมืองกฎความสัมพันธ์ (Mining Association Rules)
 การค้นหากฎความสัมพันธ์ มักเป็นงานทาเหมืองบนฐานข้อมูล Transactional เพื่อ
ค้นหาสหสัมพันธ์ (correlation) หรือความเป็นเหตุแลผล (causality) ของสิ่งของ
ส่วนใหญ่จะใช้ในการช่วยการวิเคราะห์ Market basket analysis
 การหากฎความสัมพันธ์แสดงอยู่ในรูปแบบ
 หมายถึง การเกิดขึ้ของไอเท็มเซต x เกิดขึ้นร่วมกันของไอเท็มเซต Y ด้วยค่า
สนับสนุน (Support) และค่าความเชื่อมั่น (Confidence)
 ไอเท็มเซต เช่น เซตของสินค้าในร้าน หรือเซตของประเภทบริการ
X → Y

ตัวอย่าง: งานสาหรับการทาเหมืองข้อมูล
 AllElectronics shop relation database, a data mining system may find
association rule:
“Single-dimensional association rules”
computer → software or
contains (T, “computer”) → contains (T, “software”)
[support = 1%, confidence = 50%]
 T contains “computer”, ther is a 50% chance that it contains
“software”
 1% of all of the transactions contain “software”

 AllElectronics shop relation database, a data mining system may find association
rule:
“Multidimensional association rule”
Age(X, “20..29”)  income (X, “20K..29K”) → buys (X, “CD player”)
[support = 2%, confidence = 60%]
 2% support are 20 to 29 year of age with an income of 20K to 29K and have
purchased a CD player at AllElectronics shop
 60% probability that a customer in this age and income group will purchase a
CD player

 การทาเหมืองจาแนกประเภทข้อมูลและการทานาย
 เป็นการค้นหาแบบจาลองหรือฟังก์ชัน
 ผลลัพธ์ที่ได้จากการทาเหมืองอาจจะอยู่ในรูปแบบต้นไม้ตัดสินใจ กฎ
การจาแนกประเภทข้อมูล หรือเครือข่ายประสาทเทียม เป็นต้น

 Classification: Decision Tree
Age Rent Period Buy
23
36
20
27
20
50
36
36
22
3
1.5
1.5
2
1
2.5
1
2
2.5
No
No
No
Yes
No
Yes
No
Yes
no
Business Info
Rent
Property
Customer renting
property > 2 year?
Customer age > 25 year?
Rent
Property
Buy
Property
YesNo
No Yes

 Prediction: Neural Network
Customer renting
property > 2 years ?
Customer age
> 25 years ?
0.6
0.4
0.5
0.3
0.7
0.4
Class (Rent or
buy property

การทาเหมืองวิเคราะห์การจัดกลุ่ม
 เป็นการตรวจหากลุ่มตามธรรมชาติของข้อมูล โดยพิจารณาจากค่า
มาตรวัดที่กาหนด ว่าวัตถุที่อยู่กลุ่มเดียวกันจะมีความคล้ายคลึงกัน
มากที่สุด และวัตถุต่างกลุ่มจะมีความคล้ายคลึงน้อยที่สุด
Max. the intraclass
Min. the intrerclass
Class A
Class B

การทาเหมืองวิเคราะห์ข้อมูลผิดปกติ
 ปกติข้อมูลที่มีค่าสูงหรือค่าต่ากว่าผิดปกติ มักจะถูกเป็นข้อมูลรบกวน
แต่บางกรณีมักจะมีประโยชน์ เช่น
monthl
y
Payment
(baht)
1 10,000.00
2 15,000.00
3 1,500,000.00
2010
monthl
y
Payment
(baht)
1 25,000.00
2 30,000.00
3 17,000.00
.. …
12 23,500.00
… 2009
Outlier value can
be detected
-Location
-Type of purchase
-Purchase frequency

การทาเหมืองวิเคราะห์แนวโน้มหรือวิวัฒนาการ
 เป็นงานทาเหมืองข้อมูลที่เกี่ยวกับเวลา เพื่อบรรยายและสร้าง
แบบจาลองของความสม่าเสมอ หรือแนวโน้มของวัตถุซึ่งมีพฤติกรรม
เปลี่ยนแปลงไปตามเวลา โดยช่วยทานายแนวโน้มในอนาคต เช่น
ราคาหุ้น

การประยุกต์ใช้งานการทาเหมืองข้อมูล
เพื่อการวิเคราะห์ฐานข้อมูลและสนับสนุนการตัดสินใจ ได้แก่
 การวิเคราะห์การตลาดและการจัดการ เช่น
 การตลาดเพื่อกาหนดลูกค้ากลุ่มเป้าหมาย เฉพาะผลิตภัณฑ์
 การตลาดเพื่อคงไว้ซึ่งลูกค้าเดิม
 การวิเคราะห์ตะกร้าตลาด (Market Basket Analysis)
 การวิเคราะห์ความเสี่ยงและการจัดการ ได้แก่ การประยุกต์ใช้การทาเหมืองข้อมูลกับ
 การแข่งขันทางธุรกิจ เช่น การทานายทิศทางการตลาด
 การวิเคราะห์สินทรัพย์และการวางแผนการเงิน เช่น การวิเคราะห์แนวโน้มการ
เปลี่ยนแปลง
 การตรวจจับการปลอมแปลง

Which Technologies are used?
 Statistic
 Machine Learning
 Database Systems and Data Warehouses
 Information Retrieval

แอปพลิเคชันอื่น ได้แก่
 การวิเคราะห์เว็บ ได้แก่ การทาเหมืองเส้นทางการท่องเว็บ (Mining Path
Traversal) โดยวิเคราะห์แฟ้มบันทึกการเข้าเยี่ยมชมเว็บต่างๆ ของผู้ใช้
เพื่อค้นหาพฤติกรรม เป็นต้น
 การวิเคราะห์ทางการแพทย์
 งานด้านดาราศาสตร์
 งานด้านการกีฬา

Data Mining Program
 Oracle Data Warehouse Building
 SQL Analysis
 Weka
 RapidMiner
 Knime
 Keel

LAB 1
 ให้หาโปรแกรมที่มีการทางานเกี่ยวกับ Data Mining
 บอกบริษัท หรือ องค์กรที่พัฒนา
 Tool ที่ใช้ในการทางานทั้งหมด
 อธิบายขั้นตอนการทางานของ Function ที่มีอยู่ในโปรแกรม
 ข้อดีและข้อเสียของโปรแกรม

แบบฝึกหัดบทที่ 1
 1. จงอธิบายความหมายของ Data Mining
 2. จงบอกขั้นตอนของ Knowledge Discovery in Databases
 3. จงบอกเหตุผลว่าทาไมต้องมีการทาเหมืองข้อมูล
 4. จงบอกประเภทของข้อมูลที่ใช้ในการทาเหมืองข้อมูล
 5. จงอธิบายความหมายของ Data Warehouse
 6. จงอธิบายขั้นตอนในการทาเหมืองข้อมูลมาพอสังเขป
 7. กลยุทธ์ในการทาเหมืองข้อมูลมีอะไรบ้าง
 8. ส่วนประกอบที่สาคัญของระบบการทาเหมืองข้อมูลมีอะไรบ้าง
 9. จงบอกเทคโนโลยีที่ใช้ในการทาเหมือง
 10. จงยกตัวอย่างปรแกรมที่ทางานทางด้านData Mining

01 introduction to data mining

01 introduction to data mining

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 01 introduction to data mining

Similar to 01 introduction to data mining (20)

01 introduction to data mining