This slides present concept of Data Mining and Big Data Analytics. The topices are:
- Internet of Things (IoT)
- Data Science/Mining applications
- Data Science/Mining techniques including (1) Association, (2) Clustering, (3) Classification
- CRISP-DM: Cross Industry Standard Process for Data Mining
4. http://dataminingtrend.com http://facebook.com/datacube.th
About us
•
4
RapidMiner Analyst
Certification
This is to Certify that
Successfully passed the examination for the Certified RapidMiner Analyst.
The RapidMiner Analyst certification level is designed for individuals who wish to demonstrate
a fundamental understanding of how RapidMiner software works and is used.
Certified Analyst professionals will be able to prepare data and create predictive models in
standard data environments typically found within most analyst positions.
The candidate has proven the ability to:
Prepare data Build predictive models
Evaluate the model’s quality Score new data sets
Deploy data mining models
With:
RapidMiner Studio RapidMiner Server
Date:
Eakasit Pacharawongsakda
August 13, 2014
30. http://dataminingtrend.com http://facebook.com/datacube.th
What is Big Data?
• Big Data ประกอบด้วย 3 V
• Volume
• ข้อมูลมีจำนวนเพิ่มขึ้นอย่างมหาศาล
• Velocity
• ข้อมูลเพิ่มขึ้นอย่างรวดเร็ว
• Variety
• ข้อมูลมีความหลากหลายมากขึ้น
30
source: https://upxacademy.com/beginners-guide-to-big-data/
34. http://dataminingtrend.com http://facebook.com/datacube.th
What is Big Data?
• Huge volume of data
• ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ
เป็นล้านคอลัมน์ (million columns)
• Speed of new data creation and growth
• ข้อมูลเกิดขึ้นอย่างรวดเร็วมากๆ
34
36. http://dataminingtrend.com http://facebook.com/datacube.th
What is Big Data?
• Huge volume of data
• ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ
เป็นล้านคอลัมน์ (million columns)
• Speed of new data creation and growth
• ข้อมูลเกิดขึ้นอย่างรวดเร็วมากๆ
• Complexity of data types and structures
• ข้อมูลมีความหลากหลาย ไม่ได้อยู่ในรูปแบบของตารางเท่านั้น อาจจะเป็น
รูปแบบของข้อความ (text) รูปภาพ (images) หรือ วิดีโอ (video clip)
36
54. http://dataminingtrend.com http://facebook.com/datacube.th
BI & Data Mining
54
Business
Intelligence
Data
Mining
Time
Analytical
Approach
Past Future
Explanatory
Exploratory
source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
BI questions
• What happened last
quarter?
• How many unit sold?
• Where is the problem? In
which situations
Data Mining questions
• What if … ?
• What will happen next?
• Why is this happen?
55. http://dataminingtrend.com http://facebook.com/datacube.th
What is data mining
• “The exploration and analysis of large quantities
of data in order to discover meaningful patterns and
rules” – Data Mining Techniques (3rd Edition)
• เป็นการวิเคราะห์ข้อมูล เพื่อหารูปแบบ (patterns) หรือความสัมพันธ์
(relation) ระหว่างข้อมูลในฐานข้อมูลขนาดใหญ่
• “Extraction of interesting (non-trivial, previously,
unknown and potential useful) information from data in
large databases” – Data Mining Concepts &
Techniques (3rd Edition)
• เป็นกระบวนการดึงข่าวสารที่น่าสนใจ และมีประโยชน์แต่ไม่เคยรู้มา
ก่อนจากฐานข้อมูลขนาดใหญ่
55
image sources: https://binarylinks.wordpress.com/tag/data-mining/
http://www.amazon.com/Data-Mining-Techniques-Relationship-Management/dp/0470650931
56. http://dataminingtrend.com http://facebook.com/datacube.th
What is data mining
56
ข้อมูล' เทคนิคการทำ data mining' รูปแบบที่มีประโยชน์'
image source:http://www.computerrepairanaheim.net
https://sites.google.com/a/whps.org/diamond-teamkp/
http://meetings2.informs.org/wordpress/analytics2014/2014/04/01/why-oranalytics-people-need-to-know-about-database-technology/
76. http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• ตัวอย่าง spam e-mail classification
• สร้างโมเดล (classification model) จากข้อมูล training data ซึ่งมีลาเบล (label)
76
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
attribute label
Free
Won
Normal Spam
Spam
classification model
= N = Y
= N = Y
training data
77. http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• ตัวอย่าง spam e-mail classification
• นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล
77
attribute
Free
Won
Normal Spam
Spam
classification model
= N = Y
= N = Y
training data
ID Free Won Cash Type
11 Y Y N ?
12 N Y N ?
78. http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• ตัวอย่าง spam e-mail classification
• นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล
78
attribute
Free
Won
Normal Spam
Spam
classification model
= N = Y
= N = Y
training data
ID Free Won Cash Type
11 Y Y N ?
12 N Y N ?
79. http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• ตัวอย่าง spam e-mail classification
• นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล
79
attribute
Free
Won
Normal Spam
Spam
classification model
= N = Y
= N = Y
training data
ID Free Won Cash Type
11 Y Y N ?
12 N Y N ?
80. http://dataminingtrend.com http://facebook.com/datacube.th
• ตัวอย่าง spam e-mail classification
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
Classification example
80
attribute labelID
training data
สร้าง classification model
ID Free Won Cash Type
11 Y Y N ?
12 N Y N ?
unseen data
classification model
ID Type
11 spam
12 spam
1
2
3 4
90. http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• คาดการณ์การลาออกของพนักงาน
90
Receive Promotion
= NO = YES
Years with firm < 5
Not Quit
= YES = NO
Partner changed job
Quit Not Quit
= YES = NO
Quit
ตัวอย่างโมเดลคาดการณ์การลาออกของพนักงาน
114. http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
4. Modeling
114
Computer
= HIGH = LOW
Physics
Good
Good
= LOW = HIGH
Mathematics
Good Bad
= HIGH = LOW
• IF Computer is HIGH THEN
Graduate is Good
• IF Computer is LOW AND
Mathematics is HIGH THEN
Graduate is Good
• IF Computer is LOW AND
Mathematics is LOW AND
Physics is HIGH THEN
Graduate is Good
• IF Computer is LOW AND
Mathematics is LOW AND
Physics is LOW THEN
Graduate is Bad
โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์
เงื่อนไขที่สร้างได้จากโมเดล
115. http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
5. Evaluation
• ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้
• คำนวณค่าความถูกต้อง
6. Deployment
• นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
จะเลือกภาควิชา
• พิจารณาจากเกรดตามโมเดล
ที่สร้างได้
115
Computer
= HIGH = LOW
Physics
Good
Good
= LOW = HIGH
Mathematics
Good Bad
= HIGH = LOW
โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์
รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng
5700123 ชาย LOW HIGH … ??
ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
116. http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
5. Evaluation
• ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้
• คำนวณค่าความถูกต้อง
6. Deployment
• นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
จะเลือกภาควิชา
• พิจารณาจากเกรดตามโมเดล
ที่สร้างได้
116
Computer
= HIGH = LOW
Physics
Good
Good
= LOW = HIGH
Mathematics
Good Bad
= HIGH = LOW
โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์
รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng
5700123 ชาย LOW HIGH … ??
ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
117. http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
5. Evaluation
• ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้
• คำนวณค่าความถูกต้อง
6. Deployment
• นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
จะเลือกภาควิชา
• พิจารณาจากเกรดตามโมเดล
ที่สร้างได้
117
Computer
= HIGH = LOW
Physics
Good
Good
= LOW = HIGH
Mathematics
Good Bad
= HIGH = LOW
โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์
รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng
5700123 ชาย LOW HIGH … ??
ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
118. http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
5. Evaluation
• ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้
• คำนวณค่าความถูกต้อง
6. Deployment
• นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
จะเลือกภาควิชา
• พิจารณาจากเกรดตามโมเดล
ที่สร้างได้
118
Computer
= HIGH = LOW
Physics
Good
Good
= LOW = HIGH
Mathematics
Good Bad
= HIGH = LOW
โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์
รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng
5700123 ชาย LOW HIGH … Good
ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
127. http://dataminingtrend.com http://facebook.com/datacube.th
References
• Andrew Chisholm, Exploring Data with RapidMiner, November 2013
• Markus Hofmann, Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and
Business Analytics Applications, October 25, 2013
• Foster Provost, Data Science for Business: What you need to know about
data mining and data-analytic thinking, August 19, 2013
• Eakasit Pacharawongsakda, An Introduction to Data Mining Techniques (Thai
version), 2014
127
128. http://dataminingtrend.com http://facebook.com/datacube.th
For more information
• หสม. ดาต้า คิวบ์ (data cube)
• website: http://www.dataminingtrend.com
• facebook: http:facebook.com/datacube.th หรือ http://facebook.com/sit.ake
• email: eakasit@datacube.asia
• lineID: eakasitp
128