Introduction to big data and analytic Eakasit Patcharawongsakda ในงาน THE FIRST NIDA BUSINESS ANALYTICS AND DATA SCIENCES CONTEST/CONFERENCE จัดโดย คณะสถิติประยุกต์และ DATA SCIENCES THAILAND
Second prize data analysis @ the First NIDA business analytics and data scie...
Introduction to big data and analytic eakasit patcharawongsakda
1. Introduction to Big Data & Analytics
The First NIDA Business Analytics and Data Sciences Contest/Conference
วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์
https://businessanalyticsnida.wordpress.com
https://www.facebook.com/BusinessAnalyticsNIDA/
ดร.เอกสิทธิ์ พัชรวงศ์ศักดา
อาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big
Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ
วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์
ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube)
นวมินทราธิราช 3001 วันที่ 1 กันยายน 2559 13.30-15.15 น.
แนะนํา Big Data และตัวอย่างต่างๆ
แนะนํา Internet of Things (IoT)
แนะนําเทคนิคการวิเคราะห์ข้อมูลด้วย Data Mining
แนะนําการ Big Data Analytics เช่น stream mining, text mining
2. Introduction to
Big Data & Analytics
Eakasit Pacharawongsakda, Ph.D.
Big Data Engineering Program,
College of Innovation Technology and Engineering, DPU
eakasit.pac@dpu.ac.th
4. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Outline
• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
3
5. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics
• Big Bang
4
source:http://www.thetechy.com/science/exploring-universe-curiosity
6. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics
• Big Architecture (Great wall of China)
5
source: http://www.history.com/topics/great-wall-of-china
7. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics
• Big Data
6College of Inno ation Technolog ansource: http://www.plmjim.com/?p=583
8. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business without analytics
7
9. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business without analytics
8
image source: http://www.oknation.net/blog/print.php?id=434843
10. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business with analytics
9
source: https://www.youtube.com/watch?v=7tAgbni9kpY
11. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Where does data come from?
10
source: https://www.youtube.com/watch?v=Y_JlkzzhAgw
12. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Where is data come from?
• ข้อมูลแบ่งตามที่มา
• ภายในบริษัท/องค์กร
• ข้อมูลการซื้อขาย
• ข้อมูลประวัติลูกค้า
• ข้อมูลประวัติพนักงาน
• ภายนอกบริษัท/องค์กร
• ข้อมูลจาก social media ต่างๆ
• ข้อมูลข่าวต่างๆ
• ข้อมูลรูปภาพและเสียง
11
source: http://dailyprivacy.files.wordpress.com/2013/02/2012_big_data_study_infographic_600.jpg
13. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Structured & Unstructured data
• ข้อมูลแบ่งเป็นแบบมีโครงสร้าง (structure) และไม่มีโครงสร้าง
(unstructure)
• ข้อมูลแบบมีโครงสร้าง เช่น ข้อมูลที่เก็บในรูปแบบตาราง
• ข้อมูลแบบไม่มีโครงสร้าง เช่น ข้อมูลที่เป็นข้อความ ข้อมูลที่เป็นรูปภาพ
12
ID outlook humidity windy play
1 sunny high FALSE no
2 sunny high TRUE no
3 overcast normal FALSE yes
binominalnumeric nominal
CCCCollege of Inno ti T hnology and Enginee iiiiiiririringngngnggngngng (((((((((((((((((((((((((((((CICCCCCICCCICICCCICCCICCCICICICCCICCCICICICCICCICICCICICICICITETETETTETETETETTETETTETTETETTETETETETTETEEEETTETETETETETETETETETETET )))))))))))))))))))))))))))
1122
14. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Structured & Unstructured data
• ข้อมูลที่ไม่มีโครงสร้างที่เก็บอยู่ในรูปแบบข้อความ รูปภาพ เสียงมี
จำนวนมากถึง 80% ของข้อมูลทั้งหมด
13
source: http://www.couchbase.com/why-nosql/nosql-database
15. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Evolutions
14
source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
16. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Big Data?
15
source: https://www.youtube.com/watch?v=TzxmjbL-i4Y
17. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Big Data?
16
source: http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html#
18. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Big Data?
• Big Data ประกอบด้วย 3 V
• Volume
• ข้อมูลมีจำนวนเพิ่มขึ้นอย่าง
มหาศาล
• Velocity
• ข้อมูลเพิ่มขึ้นอย่างรวดเร็ว
• Variety
• ข้อมูลมีความหลากหลายมาก
ขึ้น
17
source:http://www.smartdatacollective.com/yellow;n/75616/why-big-data-and-business-intelligence-one-direction
19. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Big Data?
• Huge volume of data
• Rather than thousands or millions of rows, Big Data can be billions
of rows and million of columns
• Complexity of data types and structures
• Big Data reflects the variety of new data sources, formats and
structures
• Speed of new data creation and growth
• Big Data can describe high velocity data, with rapid data ingestion
and near real time analysis
18
20. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data: Volume
19
source:https://datafloq.com/read/infographic/226
21. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data: Volume
20
source:https://www.adeptia.com
22. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data: Velocity
21
source:www.julianmarquina.es
23. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data: Variety
22
source: http://thumbs.dreamstime.com/
24. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Outline
• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
23
25. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Internet of Things?
24
source:http://whatsthebigdata.com/2015/01/27/big-data-analytics-and-the-internet-of-things-infographic/
26. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things
• Google glasses
25
source:https://www.youtube.com/watch?v=4EvNxWhskf8
27. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things
• Disney’s Magic Band
26
source:https://disneyworld.disney.go.com/plan/my-disney-experience/bands-cards/#?CMP=SEC-WDWShareEmailNGE-MDX-MagicBand-video&video=0/0/0/0
28. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things
• GlowCaps
27
source:http://www.vitality.net/glowcaps.html
29. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things
• Connected Toothbrush
28
source:https://www.youtube.com/watch?v=gLpUxDdh9iQ
30. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things
29
source:https://www.youtube.com/watch?v=lsiHUfIpNGY
31. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Outline
• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
30
32. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data and traditional analytics
31
Big Data Traditional analytics
Type of data Unstructured formats
Formatted in rows and
columns
Volume of data 100 terabytes to petabytes Tens of terabytes or less
Flow of data Constant flow of data Static pool of data
Analysis method
Machine Learning/
Data Mining
Hypothesis-based
Primary purpose Data-based products
Internal decision support
and services
source: big data @ work
33. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
BI & Data Science/Data Mining
32
Business
Intelligence
Data
Mining
Time
Analytical
Approach
Past Future
Explanatory
Explanatory
source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
BI questions
• What happened last
quarter?
• How many unit sold?
• Where is the problem? In
which situations
Data Mining questions
• What if … ?
• What will happen next?
• Why is this happen?
34. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
• เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง
• การหาความสัมพันธ์ (association analysis)
• หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน
• เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ
• การจัดกลุ่มข้อมูล (clustering)
• แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง
• เช่น แบ่งกลุ่มลูกค้าตามพฤติกรรมการใช้งาน
• การจำแนกประเภทข้อมูล (classification)
• สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต
• เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป
Data Science/Data Mining methods
33
association rules
clustering
classification
35. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
34
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
36. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
35
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
37. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
36
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
38. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
37
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
39. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
38
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
40. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
39
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
41. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
40
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
42. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
41
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
43. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การจัดกลุ่ม (Segmentation)
42gggggggggineeeeringgg Proogggraam Collegggge of Innovation Technologygyygyg and E
44. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)
43
1
2
3
5
6
4
45. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)
44
1 6
4 5
2 3
ลูกค้าที่ใช้โทรเยอะ
ลูกค้าที่ส่ง SMS เยอะ
ลูกค้าที่ใช้งานไม่เยอะ
46. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
4. Modeling
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
45
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
Business
Understanding
Data
Understanding
Data
Preparation
Modeling Evaluation Deployment
47. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
4. Modeling
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
46
Outlook
Humidity
= sunny = rainy
No
Yes Windy
= overcast
Yes No Yes
= high = normal = TRUE = FALSE
โมเดล decision tree
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
Business
Understanding
Data
Understanding
Data
Preparation
Modeling Evaluation Deployment
ID Outlook Temperature Humidity Windy Play
1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
48. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
4. Modeling
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
47
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
Business
Understanding
Data
Understanding
Data
Preparation
Modeling Evaluation Deployment
Outlook
Humidity
= sunny = rainy
No
Yes Windy
= overcast
Yes No Yes
= high = normal = TRUE = FALSE
ID Outlook Temperature Humidity Windy
1 sunny hot high FALSE
โมเดล decision tree
ข้อมูลที่ใช้ทดสอบ
49. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
4. Modeling
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
48
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
Business
Understanding
Data
Understanding
Data
Preparation
Modeling Evaluation Deployment
Outlook
Humidity
= sunny = rainy
No
Yes Windy
= overcast
Yes No Yes
= high = normal = TRUE = FALSE
ID Outlook Temperature Humidity Windy
1 sunny hot high FALSE
โมเดล decision tree
ข้อมูลที่ใช้ทดสอบ
50. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Challenges for mining Big Data
• Heterogeneous and Complex Data
• data types are varied such as Social Network data, Biological data, GIS
• data mining technique should take into the consideration relationships in
the data such as network (graph) connectivity, temporal and spatial
• Scalability
• data sets with sizes of gigabytes, terabytes are becoming common.
• data mining technique can be improved by using sampling or developing
parallel or distributed algorithms
49
51. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Variety
• ข้อมูลมีความหลากหลาย
• Sequence
• เป็นข้อมูลลักษณะของตัวอักษรที่เรียงต่อกันเป็นลำดับ (sequence)
• ตัวอย่างเช่น web click stream sequence, DNA/Protein sequence
• Graph
• เป็นข้อมูลในรูปแบบของโหนด (node) ที่มีเส้นเชื่อมโยงถึงกัน (link)
• ตัวอย่างเช่น
• ความสัมพันธ์ของผู้ใช้งานเครือข่ายสังคมออนไลน์ (Social Network)
• ข้อมูลโครงสร้างทางเคมี (chemical structure)
• เครือข่ายคอมพิวเตอร์ (computer network)
50
52. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
51
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
53. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
52
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
54. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
53
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
<Finance, News> 2/6 = 33%
57. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Graph Mining
• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น
บ่อย
56
image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
58. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Graph Mining
• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น
บ่อย
57
image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
59. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Graph Mining
• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น
บ่อย
58
image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
60. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text Mining
• การประยุกต์ใช้ข้อมูลประเภทข้อความ
• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์
59source:http://sentiment140.com และ http://www.techguide.com.au
61. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation
• ในการวิเคราะห์ข้อมูลข้อความต้องทำการแปลงข้อมูลให้อยู่
ในรูปแบบที่มีโครงสร้าง
60
Laying on the sand sun hitting me, this feels good :)
Smells so good I have two :)
i watched 3 movies today, reminded me of my child hood! Finding Nemo
was always my favourite, but that was when i was MUCH younger! :)
I think NYC would be amazing, I really wanna go there :)
he never care,he never look at me..:(
i am so tired!! and my feet hurt :(
positive
negative
62. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Bag of Words
• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ
61
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
Term Count
Finding 1
63. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Bag of Words
• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ
62
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
Term Count
Finding 1
I 3
64. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Bag of Words
• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ
63
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
Term Count
Finding 1
I 3
Laying 1
MUCH 1
NYC 1
Nemo 1
Smells 1
always 1
am 1
amazing 1
and 1
at 1
be 1
but 1
care 1
Term Count
child 1
favourite 1
feels 1
feet 1
go 1
good 2
have 1
he 2
hitting 1
hood 1
hurt 1
i 3
look 1
me 1
… 1
bag of words
65. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Stemming
• แปลงคำให้เป็นรากศัพท์ (root) เช่น finding แปลงเป็น find
64
Term Count
child 1
favourite 3
feels 1
feet 1
go 1
good 2
have 1
he 2
hitting 1
hood 1
hurt 1
i 3
look 1
me 1
… 1
Term Count
child 1
favourit 1
feel 1
feet 1
go 1
good 2
have 1
he 2
hit 1
hood 1
hurt 1
i 3
look 1
me 1
… 1
Term Count
Finding 1
I 3
Laying 1
MUCH 1
NYC 1
Nemo 1
Smells 1
always 1
am 1
amazing 1
and 1
at 1
be 1
but 1
care 1
Term Count
find 1
i 6
lai 1
much 1
nyc 1
nemo 1
smell 1
alwai 1
am 1
amaz 1
and 1
at 1
be 1
but 1
care 1
bag of words bag of words
66. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Remove stopwords
• ตัดคำที่เป็น stop word ทิ้ง
65
Term Count
find 1
i 6
lai 1
much 1
nyc 1
nemo 1
smell 1
alwai 1
am 1
amaz 1
and 1
at 1
be 1
but 1
care 1
Term Count
child 1
favourit 1
feel 1
feet 1
go 1
good 2
have 1
he 2
hit 1
hood 1
hurt 1
look 1
me 1
… 1
Term Count
find 1
i 6
lai 1
nyc 1
nemo 1
smell 1
alwai 1
amaz 1
child 1
favorit 1
feel 1
feet 1
go 1
good 2
hit 1
Term Count
hood 1
hurt 1
look 1
care 1
movi 1
reali 1
remind 1
sand 1
sun 1
thi 1
think 1
tire 1
todai 1
wa 3
watch 1
remove stopwords
67. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Convert text to structured data
• Binary occurrence ถ้ามีคำที่เกิดขึ้นในแต่ละเอกสารจะให้ค่าเป็น 1
ถ้าไม่เกิดขึ้นจะเป็น 0
66
ID find I lai nyc nemo smell alwai … Sentiment
1 0 0 1 0 0 0 0 … positive
2 0 1 0 0 0 1 0 … positive
3 1 1 0 0 1 0 1 … positive
4 0 1 0 1 0 0 0 … positive
5 0 0 0 0 0 0 0 … negative
6 0 1 0 0 0 0 0 … negative
attribute label
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
68. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Convert text to structured data
• Term Frequency คือจำนวนครั้งที่คำนั้นเกิดขึ้นในเอกสารทั้งหมด
• TF = จำนวนคำในเอกสาร/จำนวนคำทั้งหมดในเอกสาร
67
ID find I lai nyc nemo … Sentiment
1 0 0 0.17 0 0 … positive
2 0 0.17 0 0 0 … positive
3 0.17 0.33 0 0 0.17 … positive
4 0 0.33 0 0.17 0 … positive
5 0 0 0 0 0 … negative
6 0 0.17 0 0 0 … negative
attribute label
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
69. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Handle large corpus of text data
• การนับจำนวนคำปกติจะเป็นแบบเรียงลำดับ (sequential) ทีละเอกสาร ดังนั้นถ้า
เอกสารมีจำนวนเยอะมากๆ จะทำงานได้้ช้า
• ใช้หลักการทำงานแบบขนาน (parallel) โดยใช้วิธีการของ Map/Reduce (Dean and
Ghemawat, OSDI 2004)
• Map, written by the user, takes an input pair and pro- duces a set of
intermediate key/value pairs.
• จะเก็บในรูปแบบ (key1, value1) เช่น (“find”,1), (“I”,1), (“lay”,1), (“I”,1), (“I”,1)
• The Reduce function merges together values to form a possibly smaller set
of values.
• จะเก็บในรูปแบบ (key1, list(value1)) เช่น (“find“,{1}), (“I“,{1,1,1}), (“lay“,{1})
• สุดท้ายจะได้จำนวนคำ คือ (“find”,1), (“I”,3) และ (“lay”,1)
68
70. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Map/Reduce Framework
69
image source: http://www.infosun.fim.uni-passau.de/cl/MapReduceFoundation/
71. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Handle large corpus of text data
70
ID Tweet
1
Laying on the sand sun
hitting me, this feels good.
2
Smells so good I have
two.
ID Tweet
3
I watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when I
was MUCH younger!
4
I think NYC would be amazing,
I really wanna go there.
ID Tweet
5
he never care,he never
look at me.
6
I am so tired!! and my feet
hurt.
เครื่องที่ 1 เครื่องที่ 2 เครื่องที่ 3
map step
• (“Laying”,1)
• (“on“, 1)
….
• (“I“, 1)
• (“I“,1)
• (“watched“, 1)
….
• (“I“, 1)
• (“he“,1)
• (“never“, 1)
….
• (“I“, 1)
72. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Handle large corpus of text data
• (“he”,1)
• (“I”,{1,1,1,1,1,1}) => (“I”,6)
• (“Laying”,1)
• (“never”,1)
• (“on”, 1)
• (“watched”,1)
71
reduce stepmap step
• (“Laying”,1)
• (“on“, 1)
….
• (“I“, 1)
• (“I“,1)
• (“watched“, 1)
….
• (“I“, 1)
• (“he“,1)
• (“never“, 1)
….
• (“I“, 1)
เครื่องที่ 1
เครื่องที่ 2
เครื่องที่ 3
73. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Outline
• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
72
74. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• ตัวอย่างการนำ Data Mining ไปใช้งาน
73
source: http://www.youtube.com/watch?v=f2Kji24833Y
75. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• บัตรสมาชิก (loyalty card)
• ติดตามพฤติกรรมการซื้อสินค้า
ของลูกค้าจากบัตร loyalty
• นำมาวิเคราะห์และนำเสนอเป็น
โปรโมชันพิเศษให้แต่ละบุคคล
• เพิ่มโอกาสในการขายสินค้าให้
กับลูกค้า
• กระตุ้นให้ลูกค้าได้ซื้อสินค้ามาก
ขึ้น เช่น ซื้อสินค้าวันนี้ จะได้
ส่วนลดพิเศษ ทำให้ลูกค้าเกิด
การตัดสินใจซื้อทันที
74
image source: http://www.positioningmag.com
76. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• ทราบพฤติกรรมการซื้อสินค้าของลูกค้า เพื่อนำมาวิเคราะห์ และ
นำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล
75
77. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• เบียร์และผ้าอ้อม
• ห้าง Walmart พบว่าทุกวันศุกร์หลังบ่าย
โมง จะมีลูกค้าเพศชายอายุระหว่าง 25 –
35 ปี ซื้อสินค้า Beers และ Diapers
มากที่สุด
76
78. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• คาดการณ์การตั้งครรภ์
• ห้าง Target ทำการ
วิเคราะห์พฤติกรรมการซื้อ
สินค้าของลูกค้าเพศหญิง
• พบรูปแบบ (pattern) ว่า
ถ้ามีการซื้อวิตามิน ซื้อ
อาหารบำรุง หรือ ซื้อตู้
เตียงเพิ่ม ลูกค้าจะเริ่มตั้ง
ครรภ์
• Target จะส่ง promotion
ให้ลูกค้าเหล่านั้น
77
79. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• แนะนำสินค้าที่เกี่ยวข้อง
• amazon.com แนะนำหนังสือที่เกี่ยวข้องกับ RapidMiner
• Netflix แนะนำภาพยนต์ที่คล้ายกับที่เคยดู เช่น Life of Pi
78
80. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• Google Self-Driving Car
79
source: https://www.youtube.com/watch?v=8fjNSUWX7nQ
81. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• แนวโน้มราคาตั๋วเครื่องบิน
80
82. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
• คาดการณ์การลาออกของพนักงาน
Big Data & Analytics Applications
81
Receive Promotion
= NO = YES
Years with firm < 5
Not Quit
= YES = NO
Partner changed job
Quit Not Quit
= YES = NO
Quit
ตัวอย่างโมเดลคาดการณ์การลาออกของพนักงาน
83. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์
82
84. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ (ภาษาไทย)
83
85. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• ทำนายอายุและเพศจากรูปภาพ
84
source: http://www.how-old.net
86. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• Paypal uses RapidMiner to detect churn and identify issues
85
source: blob:https://rapidminer.com/63b65d64-0adb-4cc3-96bf-a5d5b88ee883
87. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• How Etihad Airways Uses Big Data To Reach Its Destination
86
source:https://datafloq.com/read/etihad-airways-big-data-reach-destination/412
88. Introduction to Big Data & Analytics
The First NIDA Business Analytics and Data Sciences Contest/Conference
วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์
https://businessanalyticsnida.wordpress.com
https://www.facebook.com/BusinessAnalyticsNIDA/
ดร.เอกสิทธิ์ พัชรวงศ์ศักดา
อาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big
Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ
วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์
ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube)
นวมินทราธิราช 3001 วันที่ 1 กันยายน 2559 13.30-15.15 น.
แนะนํา Big Data และตัวอย่างต่างๆ
แนะนํา Internet of Things (IoT)
แนะนําเทคนิคการวิเคราะห์ข้อมูลด้วย Data Mining
แนะนําการ Big Data Analytics เช่น stream mining, text mining
89. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications
• Business use cases
• Sales and marketing analytics
• Customer analytics
• Social media analytics
• Plant and facility management.
• Supply chain and channel analytics
• Fraud detection
• Price optimization
87
90. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases
• Sales and marketing analytics
• The first involves using analytical models to improve how customer-facing
applications make direct recommendations to the customer
• include better identifying opportunities for cross-selling and upselling
• decreasing abandoned shopping carts and generally improving the accuracy
of integrated recommendation engines
• The second type is intended to show the performance of the marketing
group's processes and campaigns and recommend adjustments to optimize
that performance.
• Analyzing which campaign addressed the needs of identified clusters or
segments
• the success ratios for motivating the campaigns' call to action.
88
91. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases
• Customer analytics
• This includes analyzing customer demographics, behaviors and characteristics
to develop models for
• segmenting customers
• predicting churn
• making next-best-offer recommendations to help with customer retention
• Social media analytics
• The content that streams across social media channels provides ample
opportunities for analyzing customer sentiment and identifying brand risks
when negative information is promulgated about a company's products
89
92. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases
• Plant and facility management.
• As more devices and machines are Internet-enabled, organizations
are able to collect and analyze streaming sensor data indicating
continuous measures of power usage, temperature, humidity and
contaminant particles, among a myriad of potential variables.
• Models can be developed for predicting equipment failures and
scheduling pre-emptive maintenance to keep items in working order
without interruption.
90
93. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases
• Supply chain and channel analytics
• Analyzing warehouse inventory, point-of-sale transactions and
shipments via a variety of channels (e.g., trucking, rail, shipping)
results in predictive analytical models that can help with
• pre-emptive replenishment
• inventory management strategies
• logistics management
• route optimization
• notifications when delays imperil timely deliveries
91
94. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases
• Fraud detection
• An adjunct to the growing risk of identity theft is the growth of
fraudulent activity and transactions
• Financial institutions analyze billions of transactions to identify
patterns of fraudulent behavior, and the analytical models can also
trigger alerts to customers when a potential fraudulent transaction
might be taking place.
92
95. Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases
• Price optimization
• Retailers looking to maximize overall profitability for product sales may
develop analytical models that combine a variety of data streams,
including competitors' prices, sales transactions across many geographic
regions (to review demand), and information on production, inventories and
the supply chain (to monitor supply).
• The resulting models can be used to dynamically adjust product prices up
when supplies are low, demand is on the increase and competitors are
unable to deliver, or down when inventory needs to be cleared as
seasonal demand shifts.
93