SlideShare a Scribd company logo
1 of 60
336331 การทาเหมืองข้อมูล (Data Mining)
สอนโดย
ดร.หทัยรัตน์ เกตุมณีชัยรัตน์
ภาควิชาการจัดการเทคโนโลยีการผลิตและสารสนเทศ
บทที่ 1 : Introduction to Data Mining
ความเป็นมาของ Data Mining
 การประมวลผลแฟ้มข้อมูล (File Processing) คือ การจัดเก็บข้อมูลโดยใช้โครงสร้าง
ข้อมูลที่เหมาะสม (Data Structure) การเรียงลาดับข้อมูลโดยใช้วิธีการจัดลาดับ
ข้อมูล (Sorting) การทาดัชนี (Indexing) การค้นข้อมูล (Searching)
 ข้อด้อยที่ชัดเจนของการประมวลผลแฟ้ มข้อมูล คือ โปรแกรมสารสนเทศที่ถูก
พัฒนาจากนักพัฒนาโปรแกรมคนละกลุ่มไม่สามารถใช้งานร่วมกันได้
 ข้อมูลที่จัดเก็บอยู่ขาดความเป็นอิสระต่อระบบของโปรแกรมสารสนเทศเอง ทาให้
เป็นอุปสรรคต่อการเปลี่ยนแปลงระบบของโปรแกรมให้ก้าวหน้าและไม่ยืดหยุ่น
ความเป็นมาของ Data Mining (ต่อ)
 ในปี ค.ศ. 1960 ได้เริ่มมีการค้นคว้าหาแนวคิดใหม่เพื่อแก้ไขจุดด้อยของการประมวลผล
แฟ้มข้อมูล ซึ่งเป็นจุดเริ่มต้นของการปฏิวัติเทคโนโลยีฐานข้อมูล
 จนกระทั้งในปี ค.ศ. 1970 ถึง ปี ค.ศ. 1980 ระบบจัดการฐานข้อมูล (Database Management
Systems) ได้รับการนาเสนอขึ้น โดยระบบจัดการฐานข้อมูลนั้น จะทาหน้าที่แทนหน้าที่การ
ประมวลผลแฟ้มข้อมูล ทาให้นักพัฒนาโปรแกรมสารสนเทศสามารถพัฒนาระบบสารสนเทศและ
ใช้งานร่วมกันได้
 และที่สาคัญข้อมูลที่จัดเก็บบนระบบจัดการฐานข้อมูลมีความเป็นอิสระต่อระบบสารสนเทศ และ
มีความยืดหยุ่น ซึ่งมีโมเดลฐานข้อมูลมากมายที่ได้รับการคิดค้นเพื่อนามาใช้สาหรับระบบจัดการ
ฐานข้อมูล โมเดลฐานข้อมูลที่มีชื่อเสียงในช่วงเวลานั้น ได้แก่ Hierarchical Database System,
Network Database System, Relational Database System ในภายหลังโมเดลฐานข้อมูลแบบ
Relational Database System ประสบความสาเร็จสูงสุดและยังคงถูกงานอยู่ในปัจจุบัน
ความเป็นมาของ Data Mining (ต่อ)
 และในช่วงเวลานี้เอง ได้มีการคิดค้นโมเดลการออกแบบฐานข้อมูล (Data modeling) เช่น
 Entity-Relationship Model
 เทคนิคการทาดัชนีข้อมูล (B+Tree Indexing)
 ภาษาที่ใช้สืบค้นฐานข้อมูล (SQL: Structure Query Language)
 การประมวลผลภาษาที่ใช้สืบค้นฐานข้อมูล (Query Processing)
 การปรับแต่งส่วนการประมวลผลภาษาที่ใช้สืบค้นข้อมูล (Query Optimization)
 การกู้คืนข้อมูล (Data Recovery)
 การควบคุมหลายหน่วยการทางานของฐานข้อมูล (Concerrency Control)
 การประมวลผลแบบ On-Line Transaction Processing (OLTP) เกี่ยวข้องกับการเพิ่ม ลด
ปรับปรุง และเรียกดูข้อมูล โดยมักจะมีผู้ใช้ระบบอยู่จานวนมาก และใช้งานพร้อม ๆ กัน
ความเป็นมาของ Data Mining (ต่อ)
 ดังนั้น ตั้งแต่ ปี ค.ศ. 1980 เป็นต้นมา จึงได้มีแนวคิดใหม่เพื่อแก้ไขเทคโนโลยีฐานข้อมูล
เนื่องจากปริมาณการจัดเก็บข้อมูลในปัจจุบันมีจานวนมหาศาลและความต้องการนา
ข้อมูลที่มีอยู่มากมายเหล่านี้มาวิเคราะห์เพื่อค้นหาข้อมูลที่อาจซ้อนเร้น
 ประการแรกคิดค้นระบบจัดการฐานข้อมูลที่ทางานเพื่อการจัดเก็บข้อมูลสาหรับการ
วิเคราะห์ข้อมูลโดยเฉพาะ จึงเกิดเทคโนโลยีคลังข้อมูล (Data Warehouse)
 และอีกประการหนึ่งคือวิธีการวิเคราะห์ด้วย OLAP (Online Analytical Processing) เพื่อ
ช่วยวิเคราะห์และแสดงผลข้อมูลในมิติต่าง ๆ
 อย่างไรก็ตาม OLAP ยังมีข้อจากัดในเรื่องความสามารถการวิเคราะห์ข้อมูลเนื่องจาก
OLAP ใช้เทคนิคทางคณิตศาสตร์และสถิติมาประยุกต์ใช้
 ดังนั้นจึงเกิดการทาเหมืองข้อมูลขึ้น (Data Mining)
ความเป็นมาของ Data Mining (ต่อ)
 การทาเหมืองข้อมูลนั้นมีเทคนิคมากมายจากหลายแขนงของสาขาวิชาวิทยาการ
คอมพิวเตอร์ ได้แก่ Statistics, Machine Learning, Information Science และ Visualization
 จุดประสงค์ของการทาเหมืองข้อมูล คือ เพื่อวิเคราะห์และขุดเจาะข้อมูลที่มีอยู่จานวน
มหาศาลเพื่อให้ข้อมูลเชิงลึกหรือซ้อนเร้นอยู่และเป็นข้อมูลที่มีประโยชน์
 สามารถนาข้อมูลที่ได้มาใช้ทาขั้นตอนวิธีให้เป็นข้อมูลที่กรองแล้ว และเป็นประโยชน์ต่อ
องค์กร ในบางองค์กรได้นาการทาเหมืองข้อมูลเพื่องานด้านข่าวกรอง เช่น NSA Data
Mining , CIA Wins Control of Terrorist Data Mining Program, ข่าวกรองทางธุรกิจ
(Business Intelligence)
 หรือสาหรับวิเคราะห์ข้อมูลงานวิจัยด้านวิทยาศาสตร์ เช่น การทาเหมืองข้อมูลสาหรับชี
วสารสนเทศศาสตร์ (Bioinformatics) การทาเหมืองข้อมูลสาหรับข้อมูลทรัพยากรน้า
(Hydroinformatics) ฯลฯ
การทาเหมืองข้อมูลคืออะไร
What is data mining?
 การทาเหมืองข้อมูล (Data Mining) เป็นการค้นพบความรู้ในฐานข้อมูล (Knowledge
Discovery in Database : KDD) คือ กระบวนการที่กระทากับข้อมูลจานวนมากเพื่อค้นหา
รูปแบบ (Patterns) และความสัมพันธ์ (associations) ที่ซ่อนอยู่ในชุดข้อมูลนั้น ๆ
 Data Mining คือ การนาข้อมูลจากฐานข้อมูลมาวิเคราะห์และประมวลผล โดยการสร้าง
แบบจาลอง และความสัมพันธ์
 Data Mining คือ ชุด software วิเคราะห์ข้อมูลที่ได้ถูกออกแบบมาเพื่อระบบสนับสนุนการ
ตัดสินใจของผู้ใช้ มันเป็น software ที่สมบรูณ์ทั้งเรื่องการค้นหา การทารายงาน และ
โปรแกรมในการจัดการ
Data mining as a step in the process of knowledge
discovery in database : KDD)
 Data Cleaning
 Data Integration
 Data Selection
 Data Transformation
 Data Mining
 Pattern Evaluation
 Knowledge Presentation
วิวัฒนาการของการวิเคราะห์ข้อมูล
Data Collection
-Primitive File Processing
Database management system
- Network and relational database management system
- Data Modeling Tools
- Query Language
Advanced database management system
- Advanced data model
- Object-oriented database management system
- Object relational database management system
Decision Support System
- Data warehouse
- Data mining
- XML-based database System, Web Mining
1970’s
1960’s &
earlier
1980’s
- present
1990’s
- present
ข้อมูล สารสนเทศ และความรู้
ข้อมูล
ประมวลผลสารสนเทศความรู้
เหตุผลการทาเหมืองข้อมูล
 คากล่าวที่ว่า “ความจาเป็นก่อให้เกิดสิ่งประดิษฐ์ใหม่” กล่าวคือ ด้วยเทคโนโลยี
ทางด้านฐานข้อมูลในโลกปัจจุบัน ก่อให้เกิดการเก็บข้อมูลดิบในปริมาณมหาศาล และ
ไม่สามารถนาข้อมูลทั้งหลายมาแปลงให้เป็นสารสนเทศ เพื่อนาความรู้นั้นไปใช้ให้เกิด
ประโยชน์กับองค์กรได้
We are drowning in data, but starving for knowledge!
เหตุผลการทาเหมืองข้อมูล
 ปัญหาการมีข้อมูลล้นเหลือ (Data Explosion) แต่ไม่สามารถนาความรู้ในข้อมูลนั้นมา
ก่อให้เกิดประโยชน์ นาไปสู่หนทางการแก้ไข โดยวิธีจัดเก็บแบบคลังข้อมูล (Data
Warehousing) และการทาเหมืองข้อมูล เพื่อช่วยดึงความรู้ที่น่าสนใจ อาทิ กฎต่างๆ รูปแบบ
หรือข้อจากัด จากข้อมูลในฐานข้อมูลขนาดใหญ่มาใช้ให้เกิดประโยชน์
 การเรียนรู้ของเครื่อง (Machine Learning) เป็นสาขาหนึ่งของปัญญาประดิษฐ์ (Artificial
Intelligence) โดยมุ่งเน้นที่จะพยายามสอนคอมพิวเตอร์ให้เรียนรู้ได้เหมือนมนุษย์ ดังนั้น
การทาเหมืองจึงได้นาวิธีการเรียนรู้ของเครื่องมาใช้
การบูรณาการกันของศาสตร์ต่างๆ
 ฐานข้อมูล (Database systems, data warehouses, OLAP) ซึ่งเป็นเทคโนโลยีการ
จัดเก็บและรวบรวม และเตรียมข้อมูลที่ใช้การทาเหมือง
 การเรียนรู้ของเครื่อง (Machine Learning) ใช้เป็นอัลกอรึทึมหลักที่ใช้ในการค้นหา
รูปแบบและความสัมพันธ์ที่ซ่อนอยู่ในข้อมูล
 หลักสถิติ (Statistic and data analysis methods) สาหรับวิเคราะห์ข้อมูลเบื้องต้น ซึ่ง
อาจจะชี้ให้เห็นถึงรูปแบบและความสัมพันธ์ของข้อมูลที่ซ่อนอยู่ได้
 วิทยาศาสตร์สารสนเทศ (information science)
การบูรณาการกันของศาสตร์ต่างๆ
 การโปรแกรมทางคณิตศาสตร์ (mathematical programming)
 การคานวณประสิทธิภาพสูง (High performance computing) เนื่องจากข้อมูลที่มาก
จะทาให้การทาเหมืองข้อมูลใช้เวลานาน จึงจาเป็นต้องมีการคานวณที่รวดเร็ว
รองรับ
 การทาจินตทัศน์ (Visualization) เพื่อแสดงผลลัพธ์ รูปแบบ และความสัมพันธ์ของ
ข้อมูลออกมาให้ผู้ใช้เข้าใจง่ายที่สุด ซึ่งเป็นประโยชน์ต่อการตีความและนาผลลัพธ์
นั้นไปใช้
คุณสมบัติของความรู้ที่ต้องการจากการทาเหมืองข้อมูล
 มีสาระ (nontrivial)
 มีความถูกต้อง (valid)
 เป็นรูปแบบหรือความรู้ใหม่ที่ไม่เคยทราบมาก่อน (novel/ previously unknown)
 นาไปใช้ให้เป็นประโยชน์ได้ (potentially useful)
 น่าสนใจ (interesting)
 สามารถทาความเข้าใจได้(understandable)
ประเภทของข้อมูลที่ใช้ในการทาเหมืองข้อมูล
What kinds of data can be mined?
 Relational database
 Transactional database
 Data warehouses
 Transaction Data
 Advanced databases and information repositories
 Object-orientedand object-relational database
 Spatial databases
ประเภทของข้อมูลที่ใช้ในการทาเหมืองข้อมูล
Time-series data and temporal data
Text databases
Multimedia databases
www
Relational Database
 Database management system (DBMS)
 โครงสร้างของฐานข้อมูลประกอบไปด้วยกลุ่มของตาราง
 แต่ละตารางประกอบด้วยเซตของแอตตริบิวท์ (columns or fields)
และเก็บข้อมูลเป็นจานวมากด้วยเซตของทูเปิล (Tuple)
Cust_ID name address age incom
e
Credit_inf
o
…
C1 Smith 111, Chicago,.. 21 $2700 1 ..
Trans_ID Cust_ID Item_I
D
Date Time Method_pay amount
001 C1 I3 31/05/10 10:00 Visa $20000
customer
purchase
Relational Database
Database management system (DBMS)
 การค้นถามข้อมูลในฐานข้อมูล Relational จะใช้ภาษาเรียกค้น SQL เช่น
ต้องการทราบยอดขายทั้งหมดในปีที่แล้วแยกตามสาขา เป็นต้น
 แต่...
 ไม่สามารถใช้ภาษาเรียกค้น SQL ในการค้นหาแนวโน้ม หรือรูปแบบ
ของข้อมูลที่ซ่อนอยู่ในฐานข้อมูล เหมือนที่การทาเหมืองทาได้ เช่น การ
ทานายความเสี่ยงในการอนุมัติแก่ลูกค้าใหม่ โดยต้องทราบคุณลักษณะ
ของ ลูกค้า ได้แก่ รายได้อายุ ประเภทที่พักอาศัย ฯลฯ
Transactional databases
 ฐานข้อมูล Transaction ประกอบไปด้วย
 แฟ้มข้อมูล
 ระเบียนในแฟ้มข้อมูลจะแทนหนึ่ง transaction
 แต่ละ transaction ประกอบไปด้วยเลขที่ transaction และรายการ
สิ่งของ เช่น รายการสิ่งของที่ซื้อจากร้านค้า
 ข้อมูลในฐานข้อมูลประเภทนี้ มักเป็นข้อมูล ณ จุดขาย เรียกว่า point-
of-sale
Transactional databases
 การทาเหมืองข้อมูลบนฐานข้อมูล transactional มักนาไปประยุกต์ใช้งาน
Market basket analysis เพื่อเพิ่มยอดขายกลุ่มสินค้าที่ปรากฎกันบ่อย
(frequent itemsets)
Trans_ID Item_ID qty
T100 Item3 1
T100 Item8 2
.. .. ..
.. .. ..
Item_sold
Data Warehouses
 คลังข้อมูล เป็ นแหล่งที่เก็บข้อมูลจากแหล่งต่างๆ ซึ่งแตกต่างกัน
(Heterogeneous data source) มาจัดเก็บไว้ทีเดียวกันภายใต้โครงสร้างการ
จัดเก็บเดียวกัน (Unified schema)
Query and
analysis tools
Client
Data
Warehouse
Data
Source 1
Data
Source 2
Data
Source 3
Clean Transform
Integrate Load
Client
ตัวอย่าง Data Warehouses
 Problem of multiple source:
 ความแตกต่างทางโครงสร้างการจัดเก็บ (Schema Differences)
 ความแตกต่างจากการตั้งชื่อ (Naming Differences)
 ความแตกต่างจากประเภทข้อมูล (Data Type Differences)
 ความแตกต่างจากค่า (Value Differences)
 ความแตกต่างจากความหมาย (Semantic Differences)
 ความแตกต่างจากค่าข้อมูลขาดหาย (Missing Values)
ตัวอย่าง Data Warehouses
 ตัวอย่าง เช่น บริษัท QuickCar ขายรถยนต์ยี่ห้อหนึ่ง มีตัวแทนจาหน่าย 3 แห่งทั่ว
ประเทศ แต่ละแห่งมีฐานข้อมูลสต็อกรถยนต์ของตนเอง บริษัทนี้ ต้องการสร้าง
ฐานข้อมูลกลาง โดยรวมข้อมูลจากฐานข้อมูลของตัวแทนจาหน่าย 3 แห่ง มาไว้ที่
เดียวกัน ประโยชน์ของการสร้างฐานข้อมูล ได้แก่
 ช่วยตัวแทนจาหน่ายจัดหารถยนต์ตามความต้องการของลูกค้า ในกรณีที่ไม่มีรถ
ในสต๊อก
 ช่วยนักวิเคราะห์ของบริษัทในการวิเคราะห์ทานายตลาดได้
 ช่วยฝ่ายผลิตในการปรับกาลังผลิตรุ่นที่เป็นที่ต้องการของตลาดได้ทันท่วงที
ตัวอย่าง Data Warehouses
 การบูรณาการข้อมูลจากแหล่งเก็บข้อมูล หรือฐานข้อมูลต่างๆ มีปัญหา
ความยุ่งยากเนื่องมาจากความแตกต่างของข้อมูลจากแหล่งต่างๆ
Query and
analysis tools
Client
Data
Warehouse
Khon
Kaen
Chiang
Mai
Songkla
Clean Transform
Integrate Load
Client
Multiple source
ตัวอย่าง Data Warehouses
 ตัวอย่างการบูรณการข้อมูลเข้าด้วยกันนั้น บริษัท Quickcar มีปัญหาที่ต้องคานึงถึง ดังนี้
 มีโครงสร้างที่แตกต่างกัน (Schema Differences)
 Branch A: Cars(serialNo, model, color, autoTrans, cdPlayer, …)
 Branch B: QuickCar(serial, model, color), Options(serial, option)
 การตั้งชื่อตารางต่างกัน เป็นปัญหาเรื่อง (Naming Differences)
 Branch A: Table name → Cars
 Branch B: Table name → QuickCar
 ประเภทข้อมูลที่ต่างกัน (Data Type Differences)
 Branch A: serialNo → integer
 Branch B: serial → string
ตัวอย่าง Data Warehouses
 ค่าข้อมูลที่ต่างกัน (Value Differences)
 Branch A: color → “black”
 Branch B: color → “BL” (confused in BLUE color)
 ศัพท์หรือค่าที่ใช้มีความหมายต่างกัน (Semantic Differences)
 Branch A: QuickCar → cars
 Branch B: QuickCar → cars and 4x4 W
 ค่าบางค่าอาจไม่ถูกจัดเก็บในฐานข้อมูลหนึ่งๆ (Missing Values)
 Branch A: model → Civic DX, LX or EX
 Branch B: model → Civic
Advanced databases and information repositories
 Object-Oriented Databases
 เนื่องจากการมีแอพพลิเคชันใหม่ๆ บนฐานข้อมูล ซึ่งต้องการโครงสร้างข้อมูลที่
มีประสิทธิภาพ และมีวิธีการที่สามารถจัดการกับโครงสร้างวัตถุที่ซับซ้อน
ระเบียนที่มีความยาวไม่แน่นอน ข้อมูลอักษร (text) ข้อมูลสื่อผสม (multimedia
data) ข้อมูลที่ไร้โครงสร้าง เป็นต้น
 Object-Relational Databases
 เป็นการบูรณาการหลักการแนวคิดเชิงวัตถุเข้ากับแบบจาลองข้อมูลเชิงสัมพันธ์
โดยเพิ่มความสามารถจัดการกับข้อมูลที่ซับซ้อนแบบลาดับชั้นของคลาส และ
คุณสมบัติการสืบทอดของวัตถุต่างๆ
Spatial Database
 ได้แก่ ฐานข้อมูลที่เก็บสภาพภูมิศาสตร์ (แผนที่) ภาพถ่ายดาวเทียม ภาพถ่ายทาง
การแพทย์ หรือแผนภาพการออกแบบวงจรรวมขนาดใหญ่มาก ประโยชน์ของ
ฐานข้อมูลประเภทนี้ช่วยในการวางแผนงานป่าไม้และระบบนิเวศน์วิทยา
 การทาเหมืองข้อมูลประเภทนี้ อาจจะค้นพบรูปแบบซึ่งอธิบายเกี่ยวกับ สภาพ
ภูมิอากาศแบบภูเขาที่ระดับความสูงต่างๆ กัน เป็นต้น
Time-Series and Temporal Database
 ได้แก่ ฐานข้อมูลที่เก็บลาดับค่าคุณลักษณะที่แปรเปลี่ยนไปตามเวลา เช่น
มูลค่าหุ้น เป็นต้น
 การทาเหมืองข้อมูลประเภทนี้ จะช่วยในการค้นพบลักษณะวิวัฒนาการ
หรือแนวโน้มการเปลี่ยนแปลงของสิ่งที่สนใจซึ่งเป็นข้อมูลที่จัดเก็บอยู่ใน
ฐานข้อมูล หรืออาจนาความรู้ที่ได้ไปช่วยวางแผนการลงทุนซื้อหุ้นใน
ช่วงเวลาที่เหมาะสม เป็นต้น
Text database
 เป็นฐานข้อมูลที่เก็บตัวอักษรล้วนๆ ได้แก่ ฐานข้อมูลสิ่งตีพิมพ์ (articles)
ข้อกาหนดผลิตภัณฑ์รายงานความผิดพลาด
 การทาเหมืองข้อมูลประเภทนี้จะช่วยในการค้นหาความสัมพันธ์ระหว่าง
คาสาคัญหรือเนื้อหาและใช้ความสัมพันธ์ที่ค้นพบในการจัดกลุ่ม เอกสาร
ตามคาที่ปรากฎในเอกสารนั้น ซึ่งเป็นประโยชน์ในการสร้างตัวสืบค้น
Multimedia database
 แอปพลิเคชันบนข้อมูลในปัจจุบัน ไม่ได้จากัดอยู่บนข้อมูลที่เป็นตัวอักษรหรือ
ตัวเลขเท่านั้น แต่ได้ขยายไปถึงการทางานกับข้อมูลที่มีความซับซ้อนมากยิ่งขึ้น เช่น
ข้อมูลภาพ เสียง เป็นต้น
 การประยุกต์การทาเหมืองข้อมูลกับฐานข้อมูลประเภทนี้ ได้แก่ ส่วนต่อประสาน
ผู้ใช้แบบใช้เสียง ระบบ voice mail งานการค้นคืนรูปภาพ การทางานบนฐานข้อมูล
ประเภทนี้มีความยุ่งยาก จึงต้องมีเทคนิคที่มีประสิทธิภาพในการจัดเก็บและการ
สืบค้นข้อมูลขนาดใหญ่ได้ทันกาลเวลา เป็นต้น
World Wide Web
 เป็นแหล่งเก็บข้อมูลแบบกระจาย (distributed) ที่เก็บข้อมูลขนาดมหาศาล
และสามารถเข้าถึงฐานข้อมูลต่างๆ ผ่านทางอินเตอร์เน็ตในการทาเหมือง
ข้อมูลบน www เช่น การค้นหารูปแบบการท่องไปตาม web pages ต่างๆ
ของผู้ใช้ ซึ่งจะเก็บข้อมูลทางเดินการเข้าเยี่ยมชมของผู้ใช้จะถูกบันทึกอยู่
ใน web access log ประโยชน์ของการทาเหมือง คือ
 ช่วยให้ตัดสินใจทางการตลาดได้ดีขึ้น เช่น การวางแผนโฆษณา
 ช่วยในการวิเคราะห์พฤติกรรมและจาแนกประเภทลูกค้า ทาให้ทราบ
ลูกค้ากลุ่มเป้าหมาย
ขั้นตอนการทาเหมืองข้อมูลProblem Understanding
-Determine objective
-Define success criteria
-Asses situation
-Determine data mining goals
-Produce a project plan
Modeling
-Select modeling technique
-Generate test design
-Build a model
-Asses the model
Data Understanding
-Collect initial data
-Define success criteria
-Describe data
-Explore data
-Verify data quality
Data Preparation
-Select data
-Clean data
-Transform data
Evaluation
-Evaluate Results
-Review process
-Determine next steps
Deployment
-Plan the deployment
-monitor and maintain
-Final Report
ขั้นตอนการทาเหมืองข้อมูล
1. การทาความเข้าใจปัญหา ประกอบด้วยกระบวนการย่อย ดังนี้
 ตั้งเป้าหมายว่าการทาเหมืองข้อมูลครั้งนี้ต้องการที่จะแก้ปัญหา
 ตั้งเกณฑ์วัดความสาเร็จในการทาเหมืองข้อมูล ซึ่งอาจเป็นได้ทั้งความสาเร็จใน
ด้านรูปธรรม เช่น สามารถเพิ่มยอดขายสินค้าได้ 5% และความสาเร็จในด้าน
นามธรรม เช่น สามารถค้นพบความรู้ใหม่จากข้อมูล
 การประเมินสถานการณ์ในด้านต่างๆ
 ตั้งเป้าหมายในเชิงการทาเหมืองข้อมูล
 วางแผนการทาเหมืองข้อมูล
ขั้นตอนการทาเหมืองข้อมูล
2. การทาความเข้าใจข้อมูล ประกอบด้วยกระบวนการย่อย ดังนี้
 เก็บรวบรวมข้อมูล
 กาหนดคุณสมบัติของข้อมูลที่เก็บมาได้
 สารวจดูข้อมูลอย่างคร่าวๆ ถึงค่าสถิติต่างๆ ของข้อมูล
 ตรวจสอบข้อมูลขั้นต้น โดยตรวจสอบทั้งความสมบูรณ์และความ
ถูกต้องของข้อมูล
ขั้นตอนการทาเหมืองข้อมูล
3. การเตรียมข้อมูล ประกอบด้วยกระบวนการย่อย ดังนี้
 คัดเลือกข้อมูลที่จะนามาใช้
 การทาความสะอาดข้อมูล
 แก้ไขข้อมูลในถูกต้องสมบูรณ์
 การตรวจจับและกาจัดค่าข้อมูลรบกวน หรือข้อมูลผิดปกติ
 ปรับเปลี่ยนรูปแบบข้อมูล
 ลดรูปข้อมูล เช่น การทาให้เป็นค่าไม่ต่อเนื่อง หรือแทนค่าข้อมูลด้วยค่าที่มีความ
เป็นทั่วไป
ขั้นตอนการทาเหมืองข้อมูล
4. การสร้างแบบจาลอง ประกอบด้วยกระบวนการย่อย ดังนี้
 เลือกอัลกอรึทึมที่เหมาะสมในการทาเหมืองข้อมูล
 กาหนดรูปแบบการทดสอบผลลัพธ์
 สร้างแบบจาลองตามอัลกอรึทึมที่เลือก
 ทดสอบแบบจาลองที่ได้มานั้นว่ามีความถูกต้องและน่าเชื่อถือเพียงใด
ขั้นตอนการทาเหมืองข้อมูล
5. การประเมิน อาจจะประเมินแบบจาลองที่สร้างขึ้นด้วยการลองนาไปใช้
กับสถานการณ์จริงหรือนาไปใช้ในสถานการณ์ที่จาลองขึ้น เพื่อดูว่า
แบบจาลองนี้ได้ผลหรือไม่เพียงใด และมีความผิดพลาดตรงไหนบ้าง
6. การนาไปใช้นาไปใช้และตรวจสอบผลว่าบรรลุเป้าหมายที่ตั้งไว้เพียงใด
ส่วนประกอบที่สาคัญของระบบการทาเหมืองข้อมูล
Graphical User Interface
Pattern Evaluation
Data Mining Engine
Database or Data Warehouse Server
Database warehouse
FilteringData Preprocessing:
-Data Cleaning
-Data Integration
Knowledge
Base
ส่วนประกอบที่สาคัญของระบบการทาเหมืองข้อมูล
 Database & Data Warehouse เป็นแหล่งที่เก็บข้อมูลอื่นๆ เช่น แฟ้มข้อมูล
สเปรดชีท ซึ่งเป็นแหล่งที่เก็บข้อมูลดิบสาหรับการทาเหมืองข้อมูล
 Database/Data Warehouse server ทาหน้าที่นาเข้าข้อมูลตามคาขอของ
ผู้ใช้
 Knowledge base ได้แก่
 ความรู้ในงานที่ทาจะเป็นประโยชน์ต่อการชี้นาทางการสืบค้น หรือ
การประเมินความน่าสนใจของรูปแบบผลลัพธ์ที่ได้ โดยเป็นความรู้
เฉพาะด้านในงานที่ทา เช่น ความรู้เฉพาะทางการแพทย์ หรือดารา
ศาสตร์ เป็นต้น
ส่วนประกอบที่สาคัญของระบบการทาเหมืองข้อมูล
 Data Mining Engine เป็นส่วนประกอบหลัก ประกอบด้วยโมดูล (Modules) ซึ่ง
รับผิดชอบงานทาเหมืองประเภทต่างๆ ได้แก่ การหากฎความสัมพันธ์ การจาแนก
ประเภท การจัดกลุ่ม เป็นต้น
 Pattern Evaluation Module ทางานร่วมกับ Data Mining Engine โดยใช้ค่าขีดแบ่ง
มาตรวัดความน่าสนใจในการกลั่นกรองรูปแบบผลลัพธ์ที่ได้ ซึ่งใช้ประเมินความ
น่าสนใจของรูปแบบการทาเหมืองที่ได้
 Graphical User Interface ส่วนติดต่อประสานระหว่างผู้ใช้กับระบบทาเหมือง ซึ่ง
ช่วยให้ผู้ใช้สามารถระบุงานทาเหมืองที่ต้องการ
กลยุทธ์ในการทาเหมืองข้อมูล
What kinds of pattern can be mined?
DM Strategies
Predictive
or Supervised Modeling
Descriptive
or Unsupervised Modeling
Classification Prediction
Estimation/ Regression
Associations Clustering
กลยุทธ์ในการทาเหมืองข้อมูล
1. แบบจาลองในการทานาย (Predictive/ Supervised Modeling) เป็น
ผลลัพธ์ที่สร้างจากการอนุมาน (Inference) ชุดข้อมูลปัจจุบัน เพื่อใช้ใน
การทานายประเภทตัวอย่างในอนาคต
2. แบบจาลองในการบรรยาย (Descriptive/ Unsupervised Modeling) ในที่นี้
อาจเป็นการหาความสัมพันธ์ต่างๆ (Association) หรือหาการจัดกลุ่ม
ข้อมูล (Clustering) ซึ่งไม่ได้มีจุดมุ่งหมายเพื่อการทานาย
งานสาหรับการทาเหมืองข้อมูล
การทาเหมืองกฎความสัมพันธ์ (Mining Association Rules)
 การค้นหากฎความสัมพันธ์ มักเป็นงานทาเหมืองบนฐานข้อมูล Transactional เพื่อ
ค้นหาสหสัมพันธ์ (correlation) หรือความเป็นเหตุแลผล (causality) ของสิ่งของ
ส่วนใหญ่จะใช้ในการช่วยการวิเคราะห์ Market basket analysis
 การหากฎความสัมพันธ์แสดงอยู่ในรูปแบบ
 หมายถึง การเกิดขึ้ของไอเท็มเซต x เกิดขึ้นร่วมกันของไอเท็มเซต Y ด้วยค่า
สนับสนุน (Support) และค่าความเชื่อมั่น (Confidence)
 ไอเท็มเซต เช่น เซตของสินค้าในร้าน หรือเซตของประเภทบริการ
X → Y
ตัวอย่าง: งานสาหรับการทาเหมืองข้อมูล
 AllElectronics shop relation database, a data mining system may find
association rule:
“Single-dimensional association rules”
computer → software or
contains (T, “computer”) → contains (T, “software”)
[support = 1%, confidence = 50%]
 T contains “computer”, ther is a 50% chance that it contains
“software”
 1% of all of the transactions contain “software”
ตัวอย่าง: งานสาหรับการทาเหมืองข้อมูล
 AllElectronics shop relation database, a data mining system may find association
rule:
“Multidimensional association rule”
Age(X, “20..29”)  income (X, “20K..29K”) → buys (X, “CD player”)
[support = 2%, confidence = 60%]
 2% support are 20 to 29 year of age with an income of 20K to 29K and have
purchased a CD player at AllElectronics shop
 60% probability that a customer in this age and income group will purchase a
CD player
งานสาหรับการทาเหมืองข้อมูล
 การทาเหมืองจาแนกประเภทข้อมูลและการทานาย
 เป็นการค้นหาแบบจาลองหรือฟังก์ชัน
 ผลลัพธ์ที่ได้จากการทาเหมืองอาจจะอยู่ในรูปแบบต้นไม้ตัดสินใจ กฎ
การจาแนกประเภทข้อมูล หรือเครือข่ายประสาทเทียม เป็นต้น
ตัวอย่าง: งานสาหรับการทาเหมืองข้อมูล
 Classification: Decision Tree
Age Rent Period Buy
23
36
20
27
20
50
36
36
22
3
1.5
1.5
2
1
2.5
1
2
2.5
No
No
No
Yes
No
Yes
No
Yes
no
Business Info
Rent
Property
Customer renting
property > 2 year?
Customer age > 25 year?
Rent
Property
Buy
Property
YesNo
No Yes
ตัวอย่าง: งานสาหรับการทาเหมืองข้อมูล
 Prediction: Neural Network
Customer renting
property > 2 years ?
Customer age
> 25 years ?
0.6
0.4
0.5
0.3
0.7
0.4
Class (Rent or
buy property
งานสาหรับการทาเหมืองข้อมูล
การทาเหมืองวิเคราะห์การจัดกลุ่ม
 เป็นการตรวจหากลุ่มตามธรรมชาติของข้อมูล โดยพิจารณาจากค่า
มาตรวัดที่กาหนด ว่าวัตถุที่อยู่กลุ่มเดียวกันจะมีความคล้ายคลึงกัน
มากที่สุด และวัตถุต่างกลุ่มจะมีความคล้ายคลึงน้อยที่สุด
Max. the intraclass
Min. the intrerclass
Class A
Class B
งานสาหรับการทาเหมืองข้อมูล
การทาเหมืองวิเคราะห์ข้อมูลผิดปกติ
 ปกติข้อมูลที่มีค่าสูงหรือค่าต่ากว่าผิดปกติ มักจะถูกเป็นข้อมูลรบกวน
แต่บางกรณีมักจะมีประโยชน์ เช่น
monthl
y
Payment
(baht)
1 10,000.00
2 15,000.00
3 1,500,000.00
2010
monthl
y
Payment
(baht)
1 25,000.00
2 30,000.00
3 17,000.00
.. …
12 23,500.00
… 2009
Outlier value can
be detected
-Location
-Type of purchase
-Purchase frequency
งานสาหรับการทาเหมืองข้อมูล
การทาเหมืองวิเคราะห์แนวโน้มหรือวิวัฒนาการ
 เป็นงานทาเหมืองข้อมูลที่เกี่ยวกับเวลา เพื่อบรรยายและสร้าง
แบบจาลองของความสม่าเสมอ หรือแนวโน้มของวัตถุซึ่งมีพฤติกรรม
เปลี่ยนแปลงไปตามเวลา โดยช่วยทานายแนวโน้มในอนาคต เช่น
ราคาหุ้น
การประยุกต์ใช้งานการทาเหมืองข้อมูล
เพื่อการวิเคราะห์ฐานข้อมูลและสนับสนุนการตัดสินใจ ได้แก่
 การวิเคราะห์การตลาดและการจัดการ เช่น
 การตลาดเพื่อกาหนดลูกค้ากลุ่มเป้าหมาย เฉพาะผลิตภัณฑ์
 การตลาดเพื่อคงไว้ซึ่งลูกค้าเดิม
 การวิเคราะห์ตะกร้าตลาด (Market Basket Analysis)
 การวิเคราะห์ความเสี่ยงและการจัดการ ได้แก่ การประยุกต์ใช้การทาเหมืองข้อมูลกับ
 การแข่งขันทางธุรกิจ เช่น การทานายทิศทางการตลาด
 การวิเคราะห์สินทรัพย์และการวางแผนการเงิน เช่น การวิเคราะห์แนวโน้มการ
เปลี่ยนแปลง
 การตรวจจับการปลอมแปลง
Which Technologies are used?
 Statistic
 Machine Learning
 Database Systems and Data Warehouses
 Information Retrieval
แอปพลิเคชันอื่น ได้แก่
 การวิเคราะห์เว็บ ได้แก่ การทาเหมืองเส้นทางการท่องเว็บ (Mining Path
Traversal) โดยวิเคราะห์แฟ้มบันทึกการเข้าเยี่ยมชมเว็บต่างๆ ของผู้ใช้
เพื่อค้นหาพฤติกรรม เป็นต้น
 การวิเคราะห์ทางการแพทย์
 งานด้านดาราศาสตร์
 งานด้านการกีฬา
Data Mining Program
 Oracle Data Warehouse Building
 SQL Analysis
 Weka
 RapidMiner
 Knime
 Keel
LAB 1
 ให้หาโปรแกรมที่มีการทางานเกี่ยวกับ Data Mining
 บอกบริษัท หรือ องค์กรที่พัฒนา
 Tool ที่ใช้ในการทางานทั้งหมด
 อธิบายขั้นตอนการทางานของ Function ที่มีอยู่ในโปรแกรม
 ข้อดีและข้อเสียของโปรแกรม
แบบฝึกหัดบทที่ 1
 1. จงอธิบายความหมายของ Data Mining
 2. จงบอกขั้นตอนของ Knowledge Discovery in Databases
 3. จงบอกเหตุผลว่าทาไมต้องมีการทาเหมืองข้อมูล
 4. จงบอกประเภทของข้อมูลที่ใช้ในการทาเหมืองข้อมูล
 5. จงอธิบายความหมายของ Data Warehouse
 6. จงอธิบายขั้นตอนในการทาเหมืองข้อมูลมาพอสังเขป
 7. กลยุทธ์ในการทาเหมืองข้อมูลมีอะไรบ้าง
 8. ส่วนประกอบที่สาคัญของระบบการทาเหมืองข้อมูลมีอะไรบ้าง
 9. จงบอกเทคโนโลยีที่ใช้ในการทาเหมือง
 10. จงยกตัวอย่างปรแกรมที่ทางานทางด้านData Mining
01 introduction to data mining

More Related Content

What's hot

คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7Pitchayanida Khumwichai
 
บทที่ 2 การจัดการข้อมูล
บทที่ 2 การจัดการข้อมูลบทที่ 2 การจัดการข้อมูล
บทที่ 2 การจัดการข้อมูลWanphen Wirojcharoenwong
 
การเขียนแผนภาพ DFD
การเขียนแผนภาพ DFDการเขียนแผนภาพ DFD
การเขียนแผนภาพ DFDskiats
 
กลยุทธ์การจัดการองค์การ บริษัทมติชน จำกัด
กลยุทธ์การจัดการองค์การ  บริษัทมติชน จำกัดกลยุทธ์การจัดการองค์การ  บริษัทมติชน จำกัด
กลยุทธ์การจัดการองค์การ บริษัทมติชน จำกัดPongsa Pongsathorn
 
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Wekaการวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย WekaKannikanune
 
ตัวอย่าง DFD level 1
ตัวอย่าง DFD level 1ตัวอย่าง DFD level 1
ตัวอย่าง DFD level 1rubtumproject.com
 
Ramathibodi Security & Privacy Awareness Training (Fiscal Year 2023)
Ramathibodi Security & Privacy Awareness Training (Fiscal Year 2023)Ramathibodi Security & Privacy Awareness Training (Fiscal Year 2023)
Ramathibodi Security & Privacy Awareness Training (Fiscal Year 2023)Nawanan Theera-Ampornpunt
 
พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 (PDPA) (January 21, 2022)
พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 (PDPA) (January 21, 2022)พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 (PDPA) (January 21, 2022)
พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 (PDPA) (January 21, 2022)Nawanan Theera-Ampornpunt
 
ข้อมูลและการจัดการข้อมูล
ข้อมูลและการจัดการข้อมูลข้อมูลและการจัดการข้อมูล
ข้อมูลและการจัดการข้อมูลDr.Kridsanapong Lertbumroongchai
 
Week 3 องค์ประกอบของคอมพิวเตอร์
Week 3 องค์ประกอบของคอมพิวเตอร์Week 3 องค์ประกอบของคอมพิวเตอร์
Week 3 องค์ประกอบของคอมพิวเตอร์Dr.Kridsanapong Lertbumroongchai
 

What's hot (20)

1 weka introducing
1 weka introducing1 weka introducing
1 weka introducing
 
คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7
 
บทที่ 2 การจัดการข้อมูล
บทที่ 2 การจัดการข้อมูลบทที่ 2 การจัดการข้อมูล
บทที่ 2 การจัดการข้อมูล
 
การเขียนแผนภาพ DFD
การเขียนแผนภาพ DFDการเขียนแผนภาพ DFD
การเขียนแผนภาพ DFD
 
Building Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributesBuilding Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributes
 
กลยุทธ์การจัดการองค์การ บริษัทมติชน จำกัด
กลยุทธ์การจัดการองค์การ  บริษัทมติชน จำกัดกลยุทธ์การจัดการองค์การ  บริษัทมติชน จำกัด
กลยุทธ์การจัดการองค์การ บริษัทมติชน จำกัด
 
09 anomaly detection
09 anomaly detection09 anomaly detection
09 anomaly detection
 
Introduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data AnalyticsIntroduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data Analytics
 
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Wekaการวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
การวิเคราะห์ข้อมูลใบเสร็จ7-eleven ด้วย Weka
 
ตัวอย่าง DFD level 1
ตัวอย่าง DFD level 1ตัวอย่าง DFD level 1
ตัวอย่าง DFD level 1
 
07 classification 3 neural network
07 classification 3 neural network07 classification 3 neural network
07 classification 3 neural network
 
Introduction to Feature (Attribute) Selection with RapidMiner Studio 6
Introduction to Feature (Attribute) Selection with RapidMiner Studio 6Introduction to Feature (Attribute) Selection with RapidMiner Studio 6
Introduction to Feature (Attribute) Selection with RapidMiner Studio 6
 
Ramathibodi Security & Privacy Awareness Training (Fiscal Year 2023)
Ramathibodi Security & Privacy Awareness Training (Fiscal Year 2023)Ramathibodi Security & Privacy Awareness Training (Fiscal Year 2023)
Ramathibodi Security & Privacy Awareness Training (Fiscal Year 2023)
 
Practical Data Mining: FP-Growth
Practical Data Mining: FP-GrowthPractical Data Mining: FP-Growth
Practical Data Mining: FP-Growth
 
พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 (PDPA) (January 21, 2022)
พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 (PDPA) (January 21, 2022)พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 (PDPA) (January 21, 2022)
พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 (PDPA) (January 21, 2022)
 
ข้อมูลและการจัดการข้อมูล
ข้อมูลและการจัดการข้อมูลข้อมูลและการจัดการข้อมูล
ข้อมูลและการจัดการข้อมูล
 
Week 3 องค์ประกอบของคอมพิวเตอร์
Week 3 องค์ประกอบของคอมพิวเตอร์Week 3 องค์ประกอบของคอมพิวเตอร์
Week 3 องค์ประกอบของคอมพิวเตอร์
 
Power point นำเสนองานวิจัย
Power point นำเสนองานวิจัยPower point นำเสนองานวิจัย
Power point นำเสนองานวิจัย
 
First Step to Big Data
First Step to Big DataFirst Step to Big Data
First Step to Big Data
 
Introduction to Predictive Analytics with case studies
Introduction to Predictive Analytics with case studiesIntroduction to Predictive Analytics with case studies
Introduction to Predictive Analytics with case studies
 

Similar to 01 introduction to data mining

01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data miningphakhwan22
 
หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา ปาโจด ม.5
หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา  ปาโจด ม.5หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา  ปาโจด ม.5
หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา ปาโจด ม.5สิรินยา ปาโจด
 
หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา ปาโจด ม.5
หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา  ปาโจด ม.5หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา  ปาโจด ม.5
หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา ปาโจด ม.5สิรินยา ปาโจด
 
หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์ น่านกร ม.5
หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์  น่านกร ม.5หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์  น่านกร ม.5
หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์ น่านกร ม.5palmyZommanow
 
หน่วยที่ 1
หน่วยที่ 1หน่วยที่ 1
หน่วยที่ 1palmyZommanow
 
งาคอม
งาคอมงาคอม
งาคอมlookpair
 
Database basic new
Database basic newDatabase basic new
Database basic newQoo Kratai
 
Database basic new
Database basic newDatabase basic new
Database basic newQoo Kratai
 
การพัฒนาเอกสารออนไลน์ขั้นสูง Intro
การพัฒนาเอกสารออนไลน์ขั้นสูง Introการพัฒนาเอกสารออนไลน์ขั้นสูง Intro
การพัฒนาเอกสารออนไลน์ขั้นสูง IntroJenchoke Tachagomain
 
Database basic new
Database basic newDatabase basic new
Database basic newQoo Kratai
 
งานคอม หน่วยที่1
งานคอม หน่วยที่1งานคอม หน่วยที่1
งานคอม หน่วยที่1Ruttikan Munkhan
 
Dspace
DspaceDspace
Dspaceuekiv
 
Data processing
Data processingData processing
Data processingchukiat008
 
การจัดการข้อมูลด้วยระบบการจัดการฐานข้อมูล
การจัดการข้อมูลด้วยระบบการจัดการฐานข้อมูลการจัดการข้อมูลด้วยระบบการจัดการฐานข้อมูล
การจัดการข้อมูลด้วยระบบการจัดการฐานข้อมูลchanoot29
 
Bacic MySql & script Sql for jhcis
Bacic MySql & script Sql for jhcisBacic MySql & script Sql for jhcis
Bacic MySql & script Sql for jhcisSakarin Habusaya
 

Similar to 01 introduction to data mining (20)

01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data mining
 
หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา ปาโจด ม.5
หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา  ปาโจด ม.5หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา  ปาโจด ม.5
หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา ปาโจด ม.5
 
หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา ปาโจด ม.5
หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา  ปาโจด ม.5หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา  ปาโจด ม.5
หน่วยที่1 เรื่อง เทคโนโลยีการสื่อสาร นางสาว สิรินยา ปาโจด ม.5
 
หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์ น่านกร ม.5
หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์  น่านกร ม.5หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์  น่านกร ม.5
หน่วยที่ 1เรื่อง การจัดการข้อมูล ธนพงษ์ น่านกร ม.5
 
หน่วยที่ 1
หน่วยที่ 1หน่วยที่ 1
หน่วยที่ 1
 
Unit3
Unit3Unit3
Unit3
 
งาคอม
งาคอมงาคอม
งาคอม
 
Chapter 2 : Data Management
Chapter 2 : Data ManagementChapter 2 : Data Management
Chapter 2 : Data Management
 
งาน Ppt 6401
งาน Ppt 6401 งาน Ppt 6401
งาน Ppt 6401
 
Database basic new
Database basic newDatabase basic new
Database basic new
 
Database basic new
Database basic newDatabase basic new
Database basic new
 
การพัฒนาเอกสารออนไลน์ขั้นสูง Intro
การพัฒนาเอกสารออนไลน์ขั้นสูง Introการพัฒนาเอกสารออนไลน์ขั้นสูง Intro
การพัฒนาเอกสารออนไลน์ขั้นสูง Intro
 
Database basic new
Database basic newDatabase basic new
Database basic new
 
งานคอม หน่วยที่1
งานคอม หน่วยที่1งานคอม หน่วยที่1
งานคอม หน่วยที่1
 
Dspace
DspaceDspace
Dspace
 
Data processing
Data processingData processing
Data processing
 
การจัดการข้อมูลด้วยระบบการจัดการฐานข้อมูล
การจัดการข้อมูลด้วยระบบการจัดการฐานข้อมูลการจัดการข้อมูลด้วยระบบการจัดการฐานข้อมูล
การจัดการข้อมูลด้วยระบบการจัดการฐานข้อมูล
 
Database
DatabaseDatabase
Database
 
Bacic MySql & script Sql for jhcis
Bacic MySql & script Sql for jhcisBacic MySql & script Sql for jhcis
Bacic MySql & script Sql for jhcis
 
Db1
Db1Db1
Db1
 

01 introduction to data mining

  • 1. 336331 การทาเหมืองข้อมูล (Data Mining) สอนโดย ดร.หทัยรัตน์ เกตุมณีชัยรัตน์ ภาควิชาการจัดการเทคโนโลยีการผลิตและสารสนเทศ บทที่ 1 : Introduction to Data Mining
  • 2. ความเป็นมาของ Data Mining  การประมวลผลแฟ้มข้อมูล (File Processing) คือ การจัดเก็บข้อมูลโดยใช้โครงสร้าง ข้อมูลที่เหมาะสม (Data Structure) การเรียงลาดับข้อมูลโดยใช้วิธีการจัดลาดับ ข้อมูล (Sorting) การทาดัชนี (Indexing) การค้นข้อมูล (Searching)  ข้อด้อยที่ชัดเจนของการประมวลผลแฟ้ มข้อมูล คือ โปรแกรมสารสนเทศที่ถูก พัฒนาจากนักพัฒนาโปรแกรมคนละกลุ่มไม่สามารถใช้งานร่วมกันได้  ข้อมูลที่จัดเก็บอยู่ขาดความเป็นอิสระต่อระบบของโปรแกรมสารสนเทศเอง ทาให้ เป็นอุปสรรคต่อการเปลี่ยนแปลงระบบของโปรแกรมให้ก้าวหน้าและไม่ยืดหยุ่น
  • 3. ความเป็นมาของ Data Mining (ต่อ)  ในปี ค.ศ. 1960 ได้เริ่มมีการค้นคว้าหาแนวคิดใหม่เพื่อแก้ไขจุดด้อยของการประมวลผล แฟ้มข้อมูล ซึ่งเป็นจุดเริ่มต้นของการปฏิวัติเทคโนโลยีฐานข้อมูล  จนกระทั้งในปี ค.ศ. 1970 ถึง ปี ค.ศ. 1980 ระบบจัดการฐานข้อมูล (Database Management Systems) ได้รับการนาเสนอขึ้น โดยระบบจัดการฐานข้อมูลนั้น จะทาหน้าที่แทนหน้าที่การ ประมวลผลแฟ้มข้อมูล ทาให้นักพัฒนาโปรแกรมสารสนเทศสามารถพัฒนาระบบสารสนเทศและ ใช้งานร่วมกันได้  และที่สาคัญข้อมูลที่จัดเก็บบนระบบจัดการฐานข้อมูลมีความเป็นอิสระต่อระบบสารสนเทศ และ มีความยืดหยุ่น ซึ่งมีโมเดลฐานข้อมูลมากมายที่ได้รับการคิดค้นเพื่อนามาใช้สาหรับระบบจัดการ ฐานข้อมูล โมเดลฐานข้อมูลที่มีชื่อเสียงในช่วงเวลานั้น ได้แก่ Hierarchical Database System, Network Database System, Relational Database System ในภายหลังโมเดลฐานข้อมูลแบบ Relational Database System ประสบความสาเร็จสูงสุดและยังคงถูกงานอยู่ในปัจจุบัน
  • 4. ความเป็นมาของ Data Mining (ต่อ)  และในช่วงเวลานี้เอง ได้มีการคิดค้นโมเดลการออกแบบฐานข้อมูล (Data modeling) เช่น  Entity-Relationship Model  เทคนิคการทาดัชนีข้อมูล (B+Tree Indexing)  ภาษาที่ใช้สืบค้นฐานข้อมูล (SQL: Structure Query Language)  การประมวลผลภาษาที่ใช้สืบค้นฐานข้อมูล (Query Processing)  การปรับแต่งส่วนการประมวลผลภาษาที่ใช้สืบค้นข้อมูล (Query Optimization)  การกู้คืนข้อมูล (Data Recovery)  การควบคุมหลายหน่วยการทางานของฐานข้อมูล (Concerrency Control)  การประมวลผลแบบ On-Line Transaction Processing (OLTP) เกี่ยวข้องกับการเพิ่ม ลด ปรับปรุง และเรียกดูข้อมูล โดยมักจะมีผู้ใช้ระบบอยู่จานวนมาก และใช้งานพร้อม ๆ กัน
  • 5. ความเป็นมาของ Data Mining (ต่อ)  ดังนั้น ตั้งแต่ ปี ค.ศ. 1980 เป็นต้นมา จึงได้มีแนวคิดใหม่เพื่อแก้ไขเทคโนโลยีฐานข้อมูล เนื่องจากปริมาณการจัดเก็บข้อมูลในปัจจุบันมีจานวนมหาศาลและความต้องการนา ข้อมูลที่มีอยู่มากมายเหล่านี้มาวิเคราะห์เพื่อค้นหาข้อมูลที่อาจซ้อนเร้น  ประการแรกคิดค้นระบบจัดการฐานข้อมูลที่ทางานเพื่อการจัดเก็บข้อมูลสาหรับการ วิเคราะห์ข้อมูลโดยเฉพาะ จึงเกิดเทคโนโลยีคลังข้อมูล (Data Warehouse)  และอีกประการหนึ่งคือวิธีการวิเคราะห์ด้วย OLAP (Online Analytical Processing) เพื่อ ช่วยวิเคราะห์และแสดงผลข้อมูลในมิติต่าง ๆ  อย่างไรก็ตาม OLAP ยังมีข้อจากัดในเรื่องความสามารถการวิเคราะห์ข้อมูลเนื่องจาก OLAP ใช้เทคนิคทางคณิตศาสตร์และสถิติมาประยุกต์ใช้  ดังนั้นจึงเกิดการทาเหมืองข้อมูลขึ้น (Data Mining)
  • 6. ความเป็นมาของ Data Mining (ต่อ)  การทาเหมืองข้อมูลนั้นมีเทคนิคมากมายจากหลายแขนงของสาขาวิชาวิทยาการ คอมพิวเตอร์ ได้แก่ Statistics, Machine Learning, Information Science และ Visualization  จุดประสงค์ของการทาเหมืองข้อมูล คือ เพื่อวิเคราะห์และขุดเจาะข้อมูลที่มีอยู่จานวน มหาศาลเพื่อให้ข้อมูลเชิงลึกหรือซ้อนเร้นอยู่และเป็นข้อมูลที่มีประโยชน์  สามารถนาข้อมูลที่ได้มาใช้ทาขั้นตอนวิธีให้เป็นข้อมูลที่กรองแล้ว และเป็นประโยชน์ต่อ องค์กร ในบางองค์กรได้นาการทาเหมืองข้อมูลเพื่องานด้านข่าวกรอง เช่น NSA Data Mining , CIA Wins Control of Terrorist Data Mining Program, ข่าวกรองทางธุรกิจ (Business Intelligence)  หรือสาหรับวิเคราะห์ข้อมูลงานวิจัยด้านวิทยาศาสตร์ เช่น การทาเหมืองข้อมูลสาหรับชี วสารสนเทศศาสตร์ (Bioinformatics) การทาเหมืองข้อมูลสาหรับข้อมูลทรัพยากรน้า (Hydroinformatics) ฯลฯ
  • 7. การทาเหมืองข้อมูลคืออะไร What is data mining?  การทาเหมืองข้อมูล (Data Mining) เป็นการค้นพบความรู้ในฐานข้อมูล (Knowledge Discovery in Database : KDD) คือ กระบวนการที่กระทากับข้อมูลจานวนมากเพื่อค้นหา รูปแบบ (Patterns) และความสัมพันธ์ (associations) ที่ซ่อนอยู่ในชุดข้อมูลนั้น ๆ  Data Mining คือ การนาข้อมูลจากฐานข้อมูลมาวิเคราะห์และประมวลผล โดยการสร้าง แบบจาลอง และความสัมพันธ์  Data Mining คือ ชุด software วิเคราะห์ข้อมูลที่ได้ถูกออกแบบมาเพื่อระบบสนับสนุนการ ตัดสินใจของผู้ใช้ มันเป็น software ที่สมบรูณ์ทั้งเรื่องการค้นหา การทารายงาน และ โปรแกรมในการจัดการ
  • 8. Data mining as a step in the process of knowledge discovery in database : KDD)  Data Cleaning  Data Integration  Data Selection  Data Transformation  Data Mining  Pattern Evaluation  Knowledge Presentation
  • 9. วิวัฒนาการของการวิเคราะห์ข้อมูล Data Collection -Primitive File Processing Database management system - Network and relational database management system - Data Modeling Tools - Query Language Advanced database management system - Advanced data model - Object-oriented database management system - Object relational database management system Decision Support System - Data warehouse - Data mining - XML-based database System, Web Mining 1970’s 1960’s & earlier 1980’s - present 1990’s - present
  • 11. เหตุผลการทาเหมืองข้อมูล  คากล่าวที่ว่า “ความจาเป็นก่อให้เกิดสิ่งประดิษฐ์ใหม่” กล่าวคือ ด้วยเทคโนโลยี ทางด้านฐานข้อมูลในโลกปัจจุบัน ก่อให้เกิดการเก็บข้อมูลดิบในปริมาณมหาศาล และ ไม่สามารถนาข้อมูลทั้งหลายมาแปลงให้เป็นสารสนเทศ เพื่อนาความรู้นั้นไปใช้ให้เกิด ประโยชน์กับองค์กรได้ We are drowning in data, but starving for knowledge!
  • 12. เหตุผลการทาเหมืองข้อมูล  ปัญหาการมีข้อมูลล้นเหลือ (Data Explosion) แต่ไม่สามารถนาความรู้ในข้อมูลนั้นมา ก่อให้เกิดประโยชน์ นาไปสู่หนทางการแก้ไข โดยวิธีจัดเก็บแบบคลังข้อมูล (Data Warehousing) และการทาเหมืองข้อมูล เพื่อช่วยดึงความรู้ที่น่าสนใจ อาทิ กฎต่างๆ รูปแบบ หรือข้อจากัด จากข้อมูลในฐานข้อมูลขนาดใหญ่มาใช้ให้เกิดประโยชน์  การเรียนรู้ของเครื่อง (Machine Learning) เป็นสาขาหนึ่งของปัญญาประดิษฐ์ (Artificial Intelligence) โดยมุ่งเน้นที่จะพยายามสอนคอมพิวเตอร์ให้เรียนรู้ได้เหมือนมนุษย์ ดังนั้น การทาเหมืองจึงได้นาวิธีการเรียนรู้ของเครื่องมาใช้
  • 13. การบูรณาการกันของศาสตร์ต่างๆ  ฐานข้อมูล (Database systems, data warehouses, OLAP) ซึ่งเป็นเทคโนโลยีการ จัดเก็บและรวบรวม และเตรียมข้อมูลที่ใช้การทาเหมือง  การเรียนรู้ของเครื่อง (Machine Learning) ใช้เป็นอัลกอรึทึมหลักที่ใช้ในการค้นหา รูปแบบและความสัมพันธ์ที่ซ่อนอยู่ในข้อมูล  หลักสถิติ (Statistic and data analysis methods) สาหรับวิเคราะห์ข้อมูลเบื้องต้น ซึ่ง อาจจะชี้ให้เห็นถึงรูปแบบและความสัมพันธ์ของข้อมูลที่ซ่อนอยู่ได้  วิทยาศาสตร์สารสนเทศ (information science)
  • 14. การบูรณาการกันของศาสตร์ต่างๆ  การโปรแกรมทางคณิตศาสตร์ (mathematical programming)  การคานวณประสิทธิภาพสูง (High performance computing) เนื่องจากข้อมูลที่มาก จะทาให้การทาเหมืองข้อมูลใช้เวลานาน จึงจาเป็นต้องมีการคานวณที่รวดเร็ว รองรับ  การทาจินตทัศน์ (Visualization) เพื่อแสดงผลลัพธ์ รูปแบบ และความสัมพันธ์ของ ข้อมูลออกมาให้ผู้ใช้เข้าใจง่ายที่สุด ซึ่งเป็นประโยชน์ต่อการตีความและนาผลลัพธ์ นั้นไปใช้
  • 15. คุณสมบัติของความรู้ที่ต้องการจากการทาเหมืองข้อมูล  มีสาระ (nontrivial)  มีความถูกต้อง (valid)  เป็นรูปแบบหรือความรู้ใหม่ที่ไม่เคยทราบมาก่อน (novel/ previously unknown)  นาไปใช้ให้เป็นประโยชน์ได้ (potentially useful)  น่าสนใจ (interesting)  สามารถทาความเข้าใจได้(understandable)
  • 16. ประเภทของข้อมูลที่ใช้ในการทาเหมืองข้อมูล What kinds of data can be mined?  Relational database  Transactional database  Data warehouses  Transaction Data  Advanced databases and information repositories  Object-orientedand object-relational database  Spatial databases
  • 18. Relational Database  Database management system (DBMS)  โครงสร้างของฐานข้อมูลประกอบไปด้วยกลุ่มของตาราง  แต่ละตารางประกอบด้วยเซตของแอตตริบิวท์ (columns or fields) และเก็บข้อมูลเป็นจานวมากด้วยเซตของทูเปิล (Tuple) Cust_ID name address age incom e Credit_inf o … C1 Smith 111, Chicago,.. 21 $2700 1 .. Trans_ID Cust_ID Item_I D Date Time Method_pay amount 001 C1 I3 31/05/10 10:00 Visa $20000 customer purchase
  • 19. Relational Database Database management system (DBMS)  การค้นถามข้อมูลในฐานข้อมูล Relational จะใช้ภาษาเรียกค้น SQL เช่น ต้องการทราบยอดขายทั้งหมดในปีที่แล้วแยกตามสาขา เป็นต้น  แต่...  ไม่สามารถใช้ภาษาเรียกค้น SQL ในการค้นหาแนวโน้ม หรือรูปแบบ ของข้อมูลที่ซ่อนอยู่ในฐานข้อมูล เหมือนที่การทาเหมืองทาได้ เช่น การ ทานายความเสี่ยงในการอนุมัติแก่ลูกค้าใหม่ โดยต้องทราบคุณลักษณะ ของ ลูกค้า ได้แก่ รายได้อายุ ประเภทที่พักอาศัย ฯลฯ
  • 20. Transactional databases  ฐานข้อมูล Transaction ประกอบไปด้วย  แฟ้มข้อมูล  ระเบียนในแฟ้มข้อมูลจะแทนหนึ่ง transaction  แต่ละ transaction ประกอบไปด้วยเลขที่ transaction และรายการ สิ่งของ เช่น รายการสิ่งของที่ซื้อจากร้านค้า  ข้อมูลในฐานข้อมูลประเภทนี้ มักเป็นข้อมูล ณ จุดขาย เรียกว่า point- of-sale
  • 21. Transactional databases  การทาเหมืองข้อมูลบนฐานข้อมูล transactional มักนาไปประยุกต์ใช้งาน Market basket analysis เพื่อเพิ่มยอดขายกลุ่มสินค้าที่ปรากฎกันบ่อย (frequent itemsets) Trans_ID Item_ID qty T100 Item3 1 T100 Item8 2 .. .. .. .. .. .. Item_sold
  • 22. Data Warehouses  คลังข้อมูล เป็ นแหล่งที่เก็บข้อมูลจากแหล่งต่างๆ ซึ่งแตกต่างกัน (Heterogeneous data source) มาจัดเก็บไว้ทีเดียวกันภายใต้โครงสร้างการ จัดเก็บเดียวกัน (Unified schema) Query and analysis tools Client Data Warehouse Data Source 1 Data Source 2 Data Source 3 Clean Transform Integrate Load Client
  • 23. ตัวอย่าง Data Warehouses  Problem of multiple source:  ความแตกต่างทางโครงสร้างการจัดเก็บ (Schema Differences)  ความแตกต่างจากการตั้งชื่อ (Naming Differences)  ความแตกต่างจากประเภทข้อมูล (Data Type Differences)  ความแตกต่างจากค่า (Value Differences)  ความแตกต่างจากความหมาย (Semantic Differences)  ความแตกต่างจากค่าข้อมูลขาดหาย (Missing Values)
  • 24. ตัวอย่าง Data Warehouses  ตัวอย่าง เช่น บริษัท QuickCar ขายรถยนต์ยี่ห้อหนึ่ง มีตัวแทนจาหน่าย 3 แห่งทั่ว ประเทศ แต่ละแห่งมีฐานข้อมูลสต็อกรถยนต์ของตนเอง บริษัทนี้ ต้องการสร้าง ฐานข้อมูลกลาง โดยรวมข้อมูลจากฐานข้อมูลของตัวแทนจาหน่าย 3 แห่ง มาไว้ที่ เดียวกัน ประโยชน์ของการสร้างฐานข้อมูล ได้แก่  ช่วยตัวแทนจาหน่ายจัดหารถยนต์ตามความต้องการของลูกค้า ในกรณีที่ไม่มีรถ ในสต๊อก  ช่วยนักวิเคราะห์ของบริษัทในการวิเคราะห์ทานายตลาดได้  ช่วยฝ่ายผลิตในการปรับกาลังผลิตรุ่นที่เป็นที่ต้องการของตลาดได้ทันท่วงที
  • 25. ตัวอย่าง Data Warehouses  การบูรณาการข้อมูลจากแหล่งเก็บข้อมูล หรือฐานข้อมูลต่างๆ มีปัญหา ความยุ่งยากเนื่องมาจากความแตกต่างของข้อมูลจากแหล่งต่างๆ Query and analysis tools Client Data Warehouse Khon Kaen Chiang Mai Songkla Clean Transform Integrate Load Client Multiple source
  • 26. ตัวอย่าง Data Warehouses  ตัวอย่างการบูรณการข้อมูลเข้าด้วยกันนั้น บริษัท Quickcar มีปัญหาที่ต้องคานึงถึง ดังนี้  มีโครงสร้างที่แตกต่างกัน (Schema Differences)  Branch A: Cars(serialNo, model, color, autoTrans, cdPlayer, …)  Branch B: QuickCar(serial, model, color), Options(serial, option)  การตั้งชื่อตารางต่างกัน เป็นปัญหาเรื่อง (Naming Differences)  Branch A: Table name → Cars  Branch B: Table name → QuickCar  ประเภทข้อมูลที่ต่างกัน (Data Type Differences)  Branch A: serialNo → integer  Branch B: serial → string
  • 27. ตัวอย่าง Data Warehouses  ค่าข้อมูลที่ต่างกัน (Value Differences)  Branch A: color → “black”  Branch B: color → “BL” (confused in BLUE color)  ศัพท์หรือค่าที่ใช้มีความหมายต่างกัน (Semantic Differences)  Branch A: QuickCar → cars  Branch B: QuickCar → cars and 4x4 W  ค่าบางค่าอาจไม่ถูกจัดเก็บในฐานข้อมูลหนึ่งๆ (Missing Values)  Branch A: model → Civic DX, LX or EX  Branch B: model → Civic
  • 28. Advanced databases and information repositories  Object-Oriented Databases  เนื่องจากการมีแอพพลิเคชันใหม่ๆ บนฐานข้อมูล ซึ่งต้องการโครงสร้างข้อมูลที่ มีประสิทธิภาพ และมีวิธีการที่สามารถจัดการกับโครงสร้างวัตถุที่ซับซ้อน ระเบียนที่มีความยาวไม่แน่นอน ข้อมูลอักษร (text) ข้อมูลสื่อผสม (multimedia data) ข้อมูลที่ไร้โครงสร้าง เป็นต้น  Object-Relational Databases  เป็นการบูรณาการหลักการแนวคิดเชิงวัตถุเข้ากับแบบจาลองข้อมูลเชิงสัมพันธ์ โดยเพิ่มความสามารถจัดการกับข้อมูลที่ซับซ้อนแบบลาดับชั้นของคลาส และ คุณสมบัติการสืบทอดของวัตถุต่างๆ
  • 29. Spatial Database  ได้แก่ ฐานข้อมูลที่เก็บสภาพภูมิศาสตร์ (แผนที่) ภาพถ่ายดาวเทียม ภาพถ่ายทาง การแพทย์ หรือแผนภาพการออกแบบวงจรรวมขนาดใหญ่มาก ประโยชน์ของ ฐานข้อมูลประเภทนี้ช่วยในการวางแผนงานป่าไม้และระบบนิเวศน์วิทยา  การทาเหมืองข้อมูลประเภทนี้ อาจจะค้นพบรูปแบบซึ่งอธิบายเกี่ยวกับ สภาพ ภูมิอากาศแบบภูเขาที่ระดับความสูงต่างๆ กัน เป็นต้น
  • 30. Time-Series and Temporal Database  ได้แก่ ฐานข้อมูลที่เก็บลาดับค่าคุณลักษณะที่แปรเปลี่ยนไปตามเวลา เช่น มูลค่าหุ้น เป็นต้น  การทาเหมืองข้อมูลประเภทนี้ จะช่วยในการค้นพบลักษณะวิวัฒนาการ หรือแนวโน้มการเปลี่ยนแปลงของสิ่งที่สนใจซึ่งเป็นข้อมูลที่จัดเก็บอยู่ใน ฐานข้อมูล หรืออาจนาความรู้ที่ได้ไปช่วยวางแผนการลงทุนซื้อหุ้นใน ช่วงเวลาที่เหมาะสม เป็นต้น
  • 31. Text database  เป็นฐานข้อมูลที่เก็บตัวอักษรล้วนๆ ได้แก่ ฐานข้อมูลสิ่งตีพิมพ์ (articles) ข้อกาหนดผลิตภัณฑ์รายงานความผิดพลาด  การทาเหมืองข้อมูลประเภทนี้จะช่วยในการค้นหาความสัมพันธ์ระหว่าง คาสาคัญหรือเนื้อหาและใช้ความสัมพันธ์ที่ค้นพบในการจัดกลุ่ม เอกสาร ตามคาที่ปรากฎในเอกสารนั้น ซึ่งเป็นประโยชน์ในการสร้างตัวสืบค้น
  • 32. Multimedia database  แอปพลิเคชันบนข้อมูลในปัจจุบัน ไม่ได้จากัดอยู่บนข้อมูลที่เป็นตัวอักษรหรือ ตัวเลขเท่านั้น แต่ได้ขยายไปถึงการทางานกับข้อมูลที่มีความซับซ้อนมากยิ่งขึ้น เช่น ข้อมูลภาพ เสียง เป็นต้น  การประยุกต์การทาเหมืองข้อมูลกับฐานข้อมูลประเภทนี้ ได้แก่ ส่วนต่อประสาน ผู้ใช้แบบใช้เสียง ระบบ voice mail งานการค้นคืนรูปภาพ การทางานบนฐานข้อมูล ประเภทนี้มีความยุ่งยาก จึงต้องมีเทคนิคที่มีประสิทธิภาพในการจัดเก็บและการ สืบค้นข้อมูลขนาดใหญ่ได้ทันกาลเวลา เป็นต้น
  • 33. World Wide Web  เป็นแหล่งเก็บข้อมูลแบบกระจาย (distributed) ที่เก็บข้อมูลขนาดมหาศาล และสามารถเข้าถึงฐานข้อมูลต่างๆ ผ่านทางอินเตอร์เน็ตในการทาเหมือง ข้อมูลบน www เช่น การค้นหารูปแบบการท่องไปตาม web pages ต่างๆ ของผู้ใช้ ซึ่งจะเก็บข้อมูลทางเดินการเข้าเยี่ยมชมของผู้ใช้จะถูกบันทึกอยู่ ใน web access log ประโยชน์ของการทาเหมือง คือ  ช่วยให้ตัดสินใจทางการตลาดได้ดีขึ้น เช่น การวางแผนโฆษณา  ช่วยในการวิเคราะห์พฤติกรรมและจาแนกประเภทลูกค้า ทาให้ทราบ ลูกค้ากลุ่มเป้าหมาย
  • 34. ขั้นตอนการทาเหมืองข้อมูลProblem Understanding -Determine objective -Define success criteria -Asses situation -Determine data mining goals -Produce a project plan Modeling -Select modeling technique -Generate test design -Build a model -Asses the model Data Understanding -Collect initial data -Define success criteria -Describe data -Explore data -Verify data quality Data Preparation -Select data -Clean data -Transform data Evaluation -Evaluate Results -Review process -Determine next steps Deployment -Plan the deployment -monitor and maintain -Final Report
  • 35. ขั้นตอนการทาเหมืองข้อมูล 1. การทาความเข้าใจปัญหา ประกอบด้วยกระบวนการย่อย ดังนี้  ตั้งเป้าหมายว่าการทาเหมืองข้อมูลครั้งนี้ต้องการที่จะแก้ปัญหา  ตั้งเกณฑ์วัดความสาเร็จในการทาเหมืองข้อมูล ซึ่งอาจเป็นได้ทั้งความสาเร็จใน ด้านรูปธรรม เช่น สามารถเพิ่มยอดขายสินค้าได้ 5% และความสาเร็จในด้าน นามธรรม เช่น สามารถค้นพบความรู้ใหม่จากข้อมูล  การประเมินสถานการณ์ในด้านต่างๆ  ตั้งเป้าหมายในเชิงการทาเหมืองข้อมูล  วางแผนการทาเหมืองข้อมูล
  • 36. ขั้นตอนการทาเหมืองข้อมูล 2. การทาความเข้าใจข้อมูล ประกอบด้วยกระบวนการย่อย ดังนี้  เก็บรวบรวมข้อมูล  กาหนดคุณสมบัติของข้อมูลที่เก็บมาได้  สารวจดูข้อมูลอย่างคร่าวๆ ถึงค่าสถิติต่างๆ ของข้อมูล  ตรวจสอบข้อมูลขั้นต้น โดยตรวจสอบทั้งความสมบูรณ์และความ ถูกต้องของข้อมูล
  • 37. ขั้นตอนการทาเหมืองข้อมูล 3. การเตรียมข้อมูล ประกอบด้วยกระบวนการย่อย ดังนี้  คัดเลือกข้อมูลที่จะนามาใช้  การทาความสะอาดข้อมูล  แก้ไขข้อมูลในถูกต้องสมบูรณ์  การตรวจจับและกาจัดค่าข้อมูลรบกวน หรือข้อมูลผิดปกติ  ปรับเปลี่ยนรูปแบบข้อมูล  ลดรูปข้อมูล เช่น การทาให้เป็นค่าไม่ต่อเนื่อง หรือแทนค่าข้อมูลด้วยค่าที่มีความ เป็นทั่วไป
  • 38. ขั้นตอนการทาเหมืองข้อมูล 4. การสร้างแบบจาลอง ประกอบด้วยกระบวนการย่อย ดังนี้  เลือกอัลกอรึทึมที่เหมาะสมในการทาเหมืองข้อมูล  กาหนดรูปแบบการทดสอบผลลัพธ์  สร้างแบบจาลองตามอัลกอรึทึมที่เลือก  ทดสอบแบบจาลองที่ได้มานั้นว่ามีความถูกต้องและน่าเชื่อถือเพียงใด
  • 39. ขั้นตอนการทาเหมืองข้อมูล 5. การประเมิน อาจจะประเมินแบบจาลองที่สร้างขึ้นด้วยการลองนาไปใช้ กับสถานการณ์จริงหรือนาไปใช้ในสถานการณ์ที่จาลองขึ้น เพื่อดูว่า แบบจาลองนี้ได้ผลหรือไม่เพียงใด และมีความผิดพลาดตรงไหนบ้าง 6. การนาไปใช้นาไปใช้และตรวจสอบผลว่าบรรลุเป้าหมายที่ตั้งไว้เพียงใด
  • 40. ส่วนประกอบที่สาคัญของระบบการทาเหมืองข้อมูล Graphical User Interface Pattern Evaluation Data Mining Engine Database or Data Warehouse Server Database warehouse FilteringData Preprocessing: -Data Cleaning -Data Integration Knowledge Base
  • 41. ส่วนประกอบที่สาคัญของระบบการทาเหมืองข้อมูล  Database & Data Warehouse เป็นแหล่งที่เก็บข้อมูลอื่นๆ เช่น แฟ้มข้อมูล สเปรดชีท ซึ่งเป็นแหล่งที่เก็บข้อมูลดิบสาหรับการทาเหมืองข้อมูล  Database/Data Warehouse server ทาหน้าที่นาเข้าข้อมูลตามคาขอของ ผู้ใช้  Knowledge base ได้แก่  ความรู้ในงานที่ทาจะเป็นประโยชน์ต่อการชี้นาทางการสืบค้น หรือ การประเมินความน่าสนใจของรูปแบบผลลัพธ์ที่ได้ โดยเป็นความรู้ เฉพาะด้านในงานที่ทา เช่น ความรู้เฉพาะทางการแพทย์ หรือดารา ศาสตร์ เป็นต้น
  • 42. ส่วนประกอบที่สาคัญของระบบการทาเหมืองข้อมูล  Data Mining Engine เป็นส่วนประกอบหลัก ประกอบด้วยโมดูล (Modules) ซึ่ง รับผิดชอบงานทาเหมืองประเภทต่างๆ ได้แก่ การหากฎความสัมพันธ์ การจาแนก ประเภท การจัดกลุ่ม เป็นต้น  Pattern Evaluation Module ทางานร่วมกับ Data Mining Engine โดยใช้ค่าขีดแบ่ง มาตรวัดความน่าสนใจในการกลั่นกรองรูปแบบผลลัพธ์ที่ได้ ซึ่งใช้ประเมินความ น่าสนใจของรูปแบบการทาเหมืองที่ได้  Graphical User Interface ส่วนติดต่อประสานระหว่างผู้ใช้กับระบบทาเหมือง ซึ่ง ช่วยให้ผู้ใช้สามารถระบุงานทาเหมืองที่ต้องการ
  • 43. กลยุทธ์ในการทาเหมืองข้อมูล What kinds of pattern can be mined? DM Strategies Predictive or Supervised Modeling Descriptive or Unsupervised Modeling Classification Prediction Estimation/ Regression Associations Clustering
  • 44. กลยุทธ์ในการทาเหมืองข้อมูล 1. แบบจาลองในการทานาย (Predictive/ Supervised Modeling) เป็น ผลลัพธ์ที่สร้างจากการอนุมาน (Inference) ชุดข้อมูลปัจจุบัน เพื่อใช้ใน การทานายประเภทตัวอย่างในอนาคต 2. แบบจาลองในการบรรยาย (Descriptive/ Unsupervised Modeling) ในที่นี้ อาจเป็นการหาความสัมพันธ์ต่างๆ (Association) หรือหาการจัดกลุ่ม ข้อมูล (Clustering) ซึ่งไม่ได้มีจุดมุ่งหมายเพื่อการทานาย
  • 45. งานสาหรับการทาเหมืองข้อมูล การทาเหมืองกฎความสัมพันธ์ (Mining Association Rules)  การค้นหากฎความสัมพันธ์ มักเป็นงานทาเหมืองบนฐานข้อมูล Transactional เพื่อ ค้นหาสหสัมพันธ์ (correlation) หรือความเป็นเหตุแลผล (causality) ของสิ่งของ ส่วนใหญ่จะใช้ในการช่วยการวิเคราะห์ Market basket analysis  การหากฎความสัมพันธ์แสดงอยู่ในรูปแบบ  หมายถึง การเกิดขึ้ของไอเท็มเซต x เกิดขึ้นร่วมกันของไอเท็มเซต Y ด้วยค่า สนับสนุน (Support) และค่าความเชื่อมั่น (Confidence)  ไอเท็มเซต เช่น เซตของสินค้าในร้าน หรือเซตของประเภทบริการ X → Y
  • 46. ตัวอย่าง: งานสาหรับการทาเหมืองข้อมูล  AllElectronics shop relation database, a data mining system may find association rule: “Single-dimensional association rules” computer → software or contains (T, “computer”) → contains (T, “software”) [support = 1%, confidence = 50%]  T contains “computer”, ther is a 50% chance that it contains “software”  1% of all of the transactions contain “software”
  • 47. ตัวอย่าง: งานสาหรับการทาเหมืองข้อมูล  AllElectronics shop relation database, a data mining system may find association rule: “Multidimensional association rule” Age(X, “20..29”)  income (X, “20K..29K”) → buys (X, “CD player”) [support = 2%, confidence = 60%]  2% support are 20 to 29 year of age with an income of 20K to 29K and have purchased a CD player at AllElectronics shop  60% probability that a customer in this age and income group will purchase a CD player
  • 48. งานสาหรับการทาเหมืองข้อมูล  การทาเหมืองจาแนกประเภทข้อมูลและการทานาย  เป็นการค้นหาแบบจาลองหรือฟังก์ชัน  ผลลัพธ์ที่ได้จากการทาเหมืองอาจจะอยู่ในรูปแบบต้นไม้ตัดสินใจ กฎ การจาแนกประเภทข้อมูล หรือเครือข่ายประสาทเทียม เป็นต้น
  • 49. ตัวอย่าง: งานสาหรับการทาเหมืองข้อมูล  Classification: Decision Tree Age Rent Period Buy 23 36 20 27 20 50 36 36 22 3 1.5 1.5 2 1 2.5 1 2 2.5 No No No Yes No Yes No Yes no Business Info Rent Property Customer renting property > 2 year? Customer age > 25 year? Rent Property Buy Property YesNo No Yes
  • 50. ตัวอย่าง: งานสาหรับการทาเหมืองข้อมูล  Prediction: Neural Network Customer renting property > 2 years ? Customer age > 25 years ? 0.6 0.4 0.5 0.3 0.7 0.4 Class (Rent or buy property
  • 51. งานสาหรับการทาเหมืองข้อมูล การทาเหมืองวิเคราะห์การจัดกลุ่ม  เป็นการตรวจหากลุ่มตามธรรมชาติของข้อมูล โดยพิจารณาจากค่า มาตรวัดที่กาหนด ว่าวัตถุที่อยู่กลุ่มเดียวกันจะมีความคล้ายคลึงกัน มากที่สุด และวัตถุต่างกลุ่มจะมีความคล้ายคลึงน้อยที่สุด Max. the intraclass Min. the intrerclass Class A Class B
  • 54. การประยุกต์ใช้งานการทาเหมืองข้อมูล เพื่อการวิเคราะห์ฐานข้อมูลและสนับสนุนการตัดสินใจ ได้แก่  การวิเคราะห์การตลาดและการจัดการ เช่น  การตลาดเพื่อกาหนดลูกค้ากลุ่มเป้าหมาย เฉพาะผลิตภัณฑ์  การตลาดเพื่อคงไว้ซึ่งลูกค้าเดิม  การวิเคราะห์ตะกร้าตลาด (Market Basket Analysis)  การวิเคราะห์ความเสี่ยงและการจัดการ ได้แก่ การประยุกต์ใช้การทาเหมืองข้อมูลกับ  การแข่งขันทางธุรกิจ เช่น การทานายทิศทางการตลาด  การวิเคราะห์สินทรัพย์และการวางแผนการเงิน เช่น การวิเคราะห์แนวโน้มการ เปลี่ยนแปลง  การตรวจจับการปลอมแปลง
  • 55. Which Technologies are used?  Statistic  Machine Learning  Database Systems and Data Warehouses  Information Retrieval
  • 56. แอปพลิเคชันอื่น ได้แก่  การวิเคราะห์เว็บ ได้แก่ การทาเหมืองเส้นทางการท่องเว็บ (Mining Path Traversal) โดยวิเคราะห์แฟ้มบันทึกการเข้าเยี่ยมชมเว็บต่างๆ ของผู้ใช้ เพื่อค้นหาพฤติกรรม เป็นต้น  การวิเคราะห์ทางการแพทย์  งานด้านดาราศาสตร์  งานด้านการกีฬา
  • 57. Data Mining Program  Oracle Data Warehouse Building  SQL Analysis  Weka  RapidMiner  Knime  Keel
  • 58. LAB 1  ให้หาโปรแกรมที่มีการทางานเกี่ยวกับ Data Mining  บอกบริษัท หรือ องค์กรที่พัฒนา  Tool ที่ใช้ในการทางานทั้งหมด  อธิบายขั้นตอนการทางานของ Function ที่มีอยู่ในโปรแกรม  ข้อดีและข้อเสียของโปรแกรม
  • 59. แบบฝึกหัดบทที่ 1  1. จงอธิบายความหมายของ Data Mining  2. จงบอกขั้นตอนของ Knowledge Discovery in Databases  3. จงบอกเหตุผลว่าทาไมต้องมีการทาเหมืองข้อมูล  4. จงบอกประเภทของข้อมูลที่ใช้ในการทาเหมืองข้อมูล  5. จงอธิบายความหมายของ Data Warehouse  6. จงอธิบายขั้นตอนในการทาเหมืองข้อมูลมาพอสังเขป  7. กลยุทธ์ในการทาเหมืองข้อมูลมีอะไรบ้าง  8. ส่วนประกอบที่สาคัญของระบบการทาเหมืองข้อมูลมีอะไรบ้าง  9. จงบอกเทคโนโลยีที่ใช้ในการทาเหมือง  10. จงยกตัวอย่างปรแกรมที่ทางานทางด้านData Mining