2. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
2
목차
I
II
III
데이터사이언스활용분야
데이터사이언스속의기계학습
데이터사이언스
3. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
3
과학(SCIENCE)의의미
Science = Sceadan(to devide, separate)
The study of nature and behavior of natural things and the knowledge that we obtain about them.
4. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
사실로부터지혜까지
4
사실
(Fact)
데이터
(Data)
정보
(Information)
지식
(Knowledge)
지혜
(Wisdom)
객관적실재
김수현이맥도널드에서빅맥세트를먹었다.
김우빈이맥도널드에서베이컨토마토디럭스세트를먹었다.
객관적실재의체계화
사실을특정한방식을통해저장
고객명
일자
버거
음료
사이드
가격
리필여부
김수현
12.03.02
빅맥
콜라
감자튀김
7,000
Y
김우빈
12.03.02
베이컨…
사이다
오징어링
8,000
N
…
…
…
…
…
…
…
데이터+의미
데이터를특정목적과문제해결에도움이되도록가공한것
“김수현과김우빈은
3월과9월에두번씩맥도널드를방문한다”
정보+가치
정보를집적하고체계화하여장래의일반적사용에대비한보편성확보
신학기기념할인!
한달내3번방문시, 세번째주문1,000원할인!!
지식+추론
추론및문제해결을위한지적능력
김수현과김우빈의월별방문횟수
2012년3월: 2회방문, 2012년4월: 1회방문
2012년5월: 0회방문…
11. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
데이터마이닝
Definition
Extracting useful informationfrom large datasets. (Hand et al., 2001)
The process of exploration and analysis, by automatic or semi-automatic means, of large quantities of datain order to discover meaningful patterns and rules. (Berry and Linoff, 1997, 2000)
The process of discovering meaningful new correlations, patterns and trendsby sifting through large amount data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques. (Gartner Group, 2004)
11
12. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
12
데이터마이닝: 전망
1.Tissue Engineers
2.Gene Programmers
3.Pharmers
4.FrankenfoodMonitors
5.DataMiners
6.Hot-lineHandyman
7.VirtualReality Actors
8.Narrowcastors
9.Turing Testors
10.Knowledge Engineers
1.Modeling Surprise
2.Probabilistic Chips
3.NanoRadio
4.Wireless Power
5.Atomic Magnetometers
6.Offline Web Applications
7.GrapheneTransistors
8.Connectomics
9.Reality Mining
10.CellulolyticEnzymes
What will be the 10 hottest jobs?
10 Emerging technologies 2008
-Times, 2000
-Technology Review, 2008
14. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
데이터마이닝: “빅데이터”의시대
Data Scientist: The sexist job of the 21stCentury
14
(Harvard Business Review, Oct. 2012, 내용요약은최윤섭팀장블로그참조(Link))
15. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
데이터마이닝: “빅데이터”의시대
What is “Big Data”
15
Volume
Value
Velocity
Variety
16. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
16
빅데이터등장배경
1
ICT 패러다임의변화
(Source: Ji-Sun Jeong, New Possibilities of Big Data and Counterstragegy, Mar. 2012)
24. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
24
빅데이터 등장 배경
연산 능력의 비약적인 발전
4
품명 무게 CPU RAM HD 가격
Cray-2s
Parallel
Computing
System
with 3 PCs
2000kg
30kg
4개
16개
1Gb
64Gb
40Gb
4.5Tb
270억
500만
70배 4배 64배 100배 5400배
25. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
25
빅데이터등장배경
연산능력의비약적인발전
IBM’s super computer Watson won an overwhelming victory in final Jeopardy! In Feb. 2011
4
28. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
28
빅데이터등장배경
데이터분석을가능하게하는인프라와(오픈소스) 소프트웨어
DBMS
Analytics
6
29. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
29
A Short History
1960
1980
1990
2000
2010
Related to Statistical Analysisfrom the 60’s with SASand SPSS packages
Machine Learning, Database Engineering methods
Data Dredging or
“beat your data until it confesses”
(Descriptive modeling)
Analytics
(Predictive modeling)
Data Science
(Analyze and deploy
everything you can think of)
41. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
41
데이터사이언스활용분야
미래의예측, 진단및탐지
2
Kang et. al. (2009) A virtual metrology system for semiconductor manufacturing, Expert Systems with Applications36(10): 12554-12561.
47. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
47
목차
I
II
III
데이터사이언스활용분야
데이터사이언스속의기계학습
데이터사이언스
48. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
기계학습: Machine Learning
정의
A computer program is said to learnfrom experience E with respect to some class of tasks T and performance measure P, if its performance at task in T, as measured by P, improves with experience E,” –Mitchell (1997)
48
지도학습: Supervised Learning
목적: 특정한타겟을예측하는것
독립변수X와종속변수Y사이의관계(인과관계혹은상관관계)를찾음
과거에타겟정보가있는데이터를사용하여모델학습
새로운데이터를사용하여모델평가
비지도학습: Unsupervised Learning
데이터에내재된특징을분석
데이터의분포추정, 고객집단의구분, 연관규칙분석등
예측하고자하는지정된타겟변수가존재하지않음
49. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
49
지도학습vs. 비지도학습
비지도학습
Var. 1
Var. 2
…
Var. d
Ins.1
..
..
…
..
Ins.2
..
..
…
..
…
…
…
…
…
Ins. N
..
..
..
..
Unsupervised learning
Explores intrinsic characteristics
Estimates underlying distribution
Density estimation, clustering, association rule mining, network (graph) analysis, etc.
A given dataset X
50. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
50
지도학습 vs. 비지도학습
지도학습
Var. 1 Var. 2 … Var. d
Ins. 1 .. .. … ..
Ins. 2 .. .. … ..
… … … … …
Ins. N .. .. .. ..
A given dataset X &Y
Y
..
..
…
..
y f (x)
Supervised learning
Finds relations between X and Y: estimate the underlying
function
Classification, regression, novelty detection
y f (x)
51. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
목적에 따른 기계학습 방법론
51
분류: Classification
목적: 범주형 타겟 변수를 예측
구매/비구매, 사기 거래/정상거래, 양성 반응/음성 반응 등
데이터의 각 행은 레코드에 해당하며 각 열은 설명변수에 해당
이진 분류(binary classification) 문제가 대다수
1
-5 -4 -3 -2 -1 0 1 2 3 4 5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
63. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
63
2단계: 데이터수집/검증/수정
데이터수집/검증/수정: 데이터수정
변수변환
Binning:
•연속형변수를순서형변수로1-of-C coding:
•1개의명목형변수를C개의이진형변수로
Low
Mid
High
“Color: yellow, red, blue, green”
d1
d2
d3
d4
yellow
1
0
0
0
red
0
1
0
0
blue
0
0
1
0
green
0
0
0
1
2
64. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
64
3단계: 데이터 탐색 및 전처리
데이터 탐색 및 전처리: 데이터 탐색
단변량 분석
히스토그램: Histogram
• 한 변수의 값이 갖는 분포를
파악
• 정규분포 가정 등에 이용
상자그림: Box plot
0
20
40
60
80
100
120
140
160
180
5 10 15 20 25 30 35 40 45 50
Frequency
MEDV
Histogram
median
quartile 1
“max”
“min”
outliers
mean
outlier
quartile 3
3
65. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
65
3단계: 데이터 탐색 및 전처리
데이터 탐색 및 전처리: 데이터 탐색
다변량 분석
상관계수:
• 어떤 변수들이 서로 상관관계가 높은가?
• 대표성을 갖는 적은 수의 변수를 선택할 때 사용 가능
CRIM ZN INDUS CHAS NOX RM
CRIM 1
ZN -0.20047 1
INDUS 0.406583 -0.53383 1
CHAS -0.05589 -0.0427 0.062938 1
NOX 0.420972 -0.5166 0.763651 0.091203 1
RM -0.21925 0.311991 -0.39168 0.091251 -0.30219 1
3
66. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
66
3단계: 데이터탐색및전처리
데이터탐색및전처리: 데이터탐색
Var. 1
Var. 2
Var. 3
Var. 4
3
67. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
67
3단계: 데이터탐색및전처리
데이터탐색및전처리: 데이터전처리
차원의저주: Curse of dimensionality
변수가증가할수록동일한설명력을유지하기위해필요한레코드의수는기하급수적으로증가함
“If there are various logical ways to explain a certain phenomenon, the simplest is the best” -Occam’s Razor
21=2
22=4
23=8
3
73. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
73
5단계: 결과의 평가 및 해석
결과의 평가 및 해석
분류 성능 평가 지표
혼동 행렬(confusion matrix)
Simple accuracy: (A+C)/(A+B+C+D)
Balanced correction rate:
Lift charts, receiver operating characteristic (ROC) curve, etc.
Predicted
1(+) 0(-)
Actual
1(+)
True positive,
Sensitivity (A)
False negative,
Type I error (B)
0(-)
False positive,
Type II error (C)
True negative,
Specificity (D)
C D
D
A B
A
5
74. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
74
5단계: 결과의 평가 및 해석
결과의 평가 및 해석
회귀 성능 평가 지표
y: actual target value, y’: predicted target value
• Mean squared error, Root mean squared error
• Mean absolute error
• Mean absolute percentage error
n
i i i y y
n
MSE
1
2 ( )
1
n
i i i y y
n
RMSE
1
2 ( )
1
n
i i i y y
n
MAE
1
1
n
i i i i y y y
n
MAPE
1
/
1
0
2
4
6
8
10
0 5 10
5
75. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
75
5단계: 결과의 평가 및 해석
결과의 평가 및 해석
군집화 성능 평가 지표
군집 내 분산: 동일 군집 내 레코드들은 얼마나 가까이 위치하는가
군집 간 분산: 다른 군집에 속하는 레코드들은 얼마나 멀리 떨어져 있
는가
좋은 군집화 결과: 군집 내 분산은 작고 군집 간 분산은 큼
연관규칙분석 성능 평가 지표
Support:
Confidence:
Lift:
P(A,B)
( )
( , )
( | )
P B
P A B
P A B
( ) ( )
( , )
( )
( | )
P A P B
P A B
P B
P A B
5
76. 2014 MACHINE LEARNING CAMP, FAST CAMPUS
76
6단계: 적용및모니터링
적용및모니터링
모델적용
구축된기계학습모델을운영시스템에이식및실행
기계학습모델의예측결과를바탕으로실제action 수행
•“강필성고객이다음달에우리회사서비스를이용하지않을확류이80%이니이탈하지않도록사용쿠폰을발송하시오.”
모니터링
기계학습예측결과를바탕으로수행한캠페인의성과분석
필요할경우모델의업데이트수행
6