SlideShare a Scribd company logo
1 of 76
2014 MACHINE LEARNING CAMP 
Introduction to DATA SCIENCE 
•강필성 
•서울과학기술대학교 
•글로벌융합산업공학과
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
2 
목차 
I 
II 
III 
데이터사이언스활용분야 
데이터사이언스속의기계학습 
데이터사이언스
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
3 
과학(SCIENCE)의의미 
Science = Sceadan(to devide, separate) 
The study of nature and behavior of natural things and the knowledge that we obtain about them.
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
사실로부터지혜까지 
4 
사실 
(Fact) 
데이터 
(Data) 
정보 
(Information) 
지식 
(Knowledge) 
지혜 
(Wisdom) 
객관적실재 
김수현이맥도널드에서빅맥세트를먹었다. 
김우빈이맥도널드에서베이컨토마토디럭스세트를먹었다. 
객관적실재의체계화 
사실을특정한방식을통해저장 
고객명 
일자 
버거 
음료 
사이드 
가격 
리필여부 
김수현 
12.03.02 
빅맥 
콜라 
감자튀김 
7,000 
Y 
김우빈 
12.03.02 
베이컨… 
사이다 
오징어링 
8,000 
N 
… 
… 
… 
… 
… 
… 
… 
데이터+의미 
데이터를특정목적과문제해결에도움이되도록가공한것 
“김수현과김우빈은 
3월과9월에두번씩맥도널드를방문한다” 
정보+가치 
정보를집적하고체계화하여장래의일반적사용에대비한보편성확보 
신학기기념할인! 
한달내3번방문시, 세번째주문1,000원할인!! 
지식+추론 
추론및문제해결을위한지적능력 
김수현과김우빈의월별방문횟수 
2012년3월: 2회방문, 2012년4월: 1회방문 
2012년5월: 0회방문…
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
5 
데이터마이닝? 
규칙: A속성의사람들은인사를하고B속성의사람들은악수를한다 
A와B는무엇일까?
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
6 
데이터마이닝? 
아시아계사람들은인사를하고백인들은악수를한다.
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
7 
데이터마이닝 
아시아계사람들은인사를하고백인들은악수를한다.
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
8 
데이터마이닝 
같은색상의옷을입은사람들은인사를하고, 
다른색상의옷을입은사람들은악수를한다.
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
9 
데이터마이닝 
같은색상의옷을입은사람들은인사를하고, 
다른색상의옷을입은사람들은악수를한다.
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
귀납적추론 
사례, 예시, 데이터로부터전제나법칙을찾아내는bottom-up 방식 
수학접귀납법: k=1일때성립증명, k=n일때성립가정하고k=n+1일때성립증명 
경영대생들은잘알지도못하면서말만번지르르하게잘해. 
공대생들은자기들이아는것도제대로설명을못해. 
귀납과선입견의차이: 충분히많은사례를조사했는가? 
연역적추론 
한명제로부터논리적으로다른명제를도출 
사람은모두죽는다. 
소크라테스는사람이다. 
고로소크라테스도죽는다. 
10 
데이터마이닝
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
데이터마이닝 
Definition 
Extracting useful informationfrom large datasets. (Hand et al., 2001) 
The process of exploration and analysis, by automatic or semi-automatic means, of large quantities of datain order to discover meaningful patterns and rules. (Berry and Linoff, 1997, 2000) 
The process of discovering meaningful new correlations, patterns and trendsby sifting through large amount data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques. (Gartner Group, 2004) 
11
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
12 
데이터마이닝: 전망 
1.Tissue Engineers 
2.Gene Programmers 
3.Pharmers 
4.FrankenfoodMonitors 
5.DataMiners 
6.Hot-lineHandyman 
7.VirtualReality Actors 
8.Narrowcastors 
9.Turing Testors 
10.Knowledge Engineers 
1.Modeling Surprise 
2.Probabilistic Chips 
3.NanoRadio 
4.Wireless Power 
5.Atomic Magnetometers 
6.Offline Web Applications 
7.GrapheneTransistors 
8.Connectomics 
9.Reality Mining 
10.CellulolyticEnzymes 
What will be the 10 hottest jobs? 
10 Emerging technologies 2008 
-Times, 2000 
-Technology Review, 2008
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
13 
데이터마이닝: “빅데이터”의시대
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
데이터마이닝: “빅데이터”의시대 
Data Scientist: The sexist job of the 21stCentury 
14 
(Harvard Business Review, Oct. 2012, 내용요약은최윤섭팀장블로그참조(Link))
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
데이터마이닝: “빅데이터”의시대 
What is “Big Data” 
15 
Volume 
Value 
Velocity 
Variety
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
16 
빅데이터등장배경 
1 
ICT 패러다임의변화 
(Source: Ji-Sun Jeong, New Possibilities of Big Data and Counterstragegy, Mar. 2012)
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
17 
빅데이터등장배경 
기하급수적으로증가하는데이터의생산및저장 
2 
(Source: 김현곤, 빅데이터국가비전과전략, Nov. 2012)
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
18 
빅데이터등장배경 
기하급수적으로증가하는데이터의생산및저장 
2 
(Source: 박종헌, 서비스및운영관리에서의빅데이터활용, Nov. 2012)
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
19 
빅데이터등장배경 
데이터의본질적가치증가 
3 
(Source: 김현곤, 빅데이터국가비전과전략, Nov. 2012)
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
20 
빅데이터등장배경 
데이터의본질적가치증가 
3 
(Source: Big Data 미래를여는비밀열쇠, 2012)
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
21 
빅데이터등장배경 
데이터의본질적가치증가 
3 
(Source: Big Data 미래를여는비밀열쇠, 2012)
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
22 
빅데이터등장배경 
데이터의본질적가치증가 
3 
(Source: Big Data 미래를여는비밀열쇠, 2012)
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
23 
빅데이터등장배경 
연산능력의비약적인발전 
4
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
24 
빅데이터 등장 배경 
연산 능력의 비약적인 발전 
4 
품명 무게 CPU RAM HD 가격 
Cray-2s 
Parallel 
Computing 
System 
with 3 PCs 
2000kg 
30kg 
4개 
16개 
1Gb 
64Gb 
40Gb 
4.5Tb 
270억 
500만 
70배 4배 64배 100배 5400배
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
25 
빅데이터등장배경 
연산능력의비약적인발전 
IBM’s super computer Watson won an overwhelming victory in final Jeopardy! In Feb. 2011 
4
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
26 
빅데이터등장배경 
점점심화되는경쟁체제 
5
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
27 
빅데이터등장배경 
점점심화되는경쟁체제 
5 
(https://www.kaggle.com)
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
28 
빅데이터등장배경 
데이터분석을가능하게하는인프라와(오픈소스) 소프트웨어 
DBMS 
Analytics 
6
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
29 
A Short History 
1960 
1980 
1990 
2000 
2010 
Related to Statistical Analysisfrom the 60’s with SASand SPSS packages 
Machine Learning, Database Engineering methods 
Data Dredging or 
“beat your data until it confesses” 
(Descriptive modeling) 
Analytics 
(Predictive modeling) 
Data Science 
(Analyze and deploy 
everything you can think of)
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
데이터사이언스란? 
데이터사이언스 
다양한학제간학문이융합되어데이터기반의사결정및문제해결을목적으로하는학문 
30 
(서울대학교데이터과학과지식창출연구센터: http://srcdsc.snu.ac.kr)
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
31 
데이터사이언스관련학문 
Statistics 
-Deterministic & parametric approaches 
Computer science 
-Non-parametric approaches 
-Machine learning pattern recognition algorithms 
Database 
-Efficient data structure & query 
-Database management 
Industrial Engineering 
-Operations research and mathematical optimization 
-Business intelligence 
Data Science
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
32 
목차 
I 
II 
III 
데이터사이언스활용분야 
데이터사이언스속의기계학습 
데이터사이언스
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
33 
1 
보다직관적인이해를돕기위한시각화 
데이터사이언스활용분야
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
34 
데이터사이언스활용분야 
1 
보다직관적인이해를돕기위한시각화
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
35 
데이터사이언스활용분야 
1 
보다직관적인이해를돕기위한시각화 
“Politiz.org”
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
36 
데이터사이언스활용분야 
1 
보다직관적인이해를돕기위한시각화
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
37 
데이터사이언스활용분야 
1 
보다직관적인이해를돕기위한시각화
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
38 
데이터사이언스활용분야 
1 
보다직관적인이해를돕기위한시각화 
세계각국중앙은행총재연설문분석
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
39 
데이터사이언스활용분야 
미래의예측, 진단및탐지 
2 
Asurand Huberman(2010) Predicting the Future with Social Media, WI-IAT10: 492-499
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
40 
데이터사이언스활용분야 
미래의예측, 진단및탐지 
2 
신생아의혈압, 체온, 심전도, 혈중산소포화도등미숙아모니터링장비에서생성되는환자당일9,000만건이상의생리학데이터스트림실시간분석 
의료진보다24시간전에감염사실을밝혀냄으로써조기치료가능
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
41 
데이터사이언스활용분야 
미래의예측, 진단및탐지 
2 
Kang et. al. (2009) A virtual metrology system for semiconductor manufacturing, Expert Systems with Applications36(10): 12554-12561.
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
42 
데이터사이언스활용분야 
일상생활에서의의사결정지원 
3
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
43 
데이터사이언스활용분야 
일상생활에서의의사결정지원 
3
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
44 
데이터사이언스활용분야 
삶의질향상 
4 
언어의문법적구조를컴퓨터가이해할수있는로직으로변환하는기존의방법탈피 
6개국어로번영되는UN 회의록과23개국어로번역된유럽의회회의록을번역엔진에입력한뒤통계적추론기법을학습
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
45 
데이터사이언스활용분야 
삶의질향상 
4 
다양한경로로부터축적된민원데이터를종합적/체계적으로분석하여정책에환류 
키워드추출, 연관규칙분석, 군집화등의미기반민원분석을통해선제적대응
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
46 
데이터사이언스활용분야 
삶의질향상 
4 
데이터에의한정량적유동인구분포도작성: 서울시를1km 반경의1,250개헥사셀단위로구분KT 휴대전화이력데이터로심야시간(0시~5시) 통화량분석유동인구기반노선최적화및배차간격조정
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
47 
목차 
I 
II 
III 
데이터사이언스활용분야 
데이터사이언스속의기계학습 
데이터사이언스
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
기계학습: Machine Learning 
정의 
A computer program is said to learnfrom experience E with respect to some class of tasks T and performance measure P, if its performance at task in T, as measured by P, improves with experience E,” –Mitchell (1997) 
48 
지도학습: Supervised Learning 
목적: 특정한타겟을예측하는것 
독립변수X와종속변수Y사이의관계(인과관계혹은상관관계)를찾음 
과거에타겟정보가있는데이터를사용하여모델학습 
새로운데이터를사용하여모델평가 
비지도학습: Unsupervised Learning 
데이터에내재된특징을분석 
데이터의분포추정, 고객집단의구분, 연관규칙분석등 
예측하고자하는지정된타겟변수가존재하지않음
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
49 
지도학습vs. 비지도학습 
비지도학습 
Var. 1 
Var. 2 
… 
Var. d 
Ins.1 
.. 
.. 
… 
.. 
Ins.2 
.. 
.. 
… 
.. 
… 
… 
… 
… 
… 
Ins. N 
.. 
.. 
.. 
.. 
Unsupervised learning 
Explores intrinsic characteristics 
Estimates underlying distribution 
Density estimation, clustering, association rule mining, network (graph) analysis, etc. 
A given dataset X
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
50 
지도학습 vs. 비지도학습 
 지도학습 
Var. 1 Var. 2 … Var. d 
Ins. 1 .. .. … .. 
Ins. 2 .. .. … .. 
… … … … … 
Ins. N .. .. .. .. 
A given dataset X &Y 
Y 
.. 
.. 
… 
.. 
y  f (x) 
Supervised learning 
 Finds relations between X and Y: estimate the underlying 
function 
 Classification, regression, novelty detection 
y  f (x)
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
목적에 따른 기계학습 방법론 
51 
분류: Classification 
 목적: 범주형 타겟 변수를 예측 
 구매/비구매, 사기 거래/정상거래, 양성 반응/음성 반응 등 
 데이터의 각 행은 레코드에 해당하며 각 열은 설명변수에 해당 
 이진 분류(binary classification) 문제가 대다수 
1 
-5 -4 -3 -2 -1 0 1 2 3 4 5 
0 
0.1 
0.2 
0.3 
0.4 
0.5 
0.6 
0.7 
0.8 
0.9 
1
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
목적에따른기계학습방법론 
52 
회귀: Regression 
목적: 연속형타겟변수를예측 
구매금액, 매출액, 이용고객수등 
데이터의각행은레코드에해당하며각열은설명변수에해당 
분류문제에비해모델의복잡도가높음 
2
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
목적에따른기계학습방법론 
53 
연관규칙분석: Association Rule Mining 
목적: 연관성이높은아이템들로구성된규칙집합을생성 
예시:아이폰을구매하는고객들을범퍼를함께구매한다. 
데이터의각행은트랜잭션에해당 
추천시스템에주로사용되며“장바구니분석”이라고도불림 
3
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
목적에따른기계학습방법론 
54 
군집화: Clustering/Segmentation 
목적: 전체데이터를보다일관성과응집성이높은세부그룹으로나눔 
동일그룹내의개체들은유사할수록, 다른그룹내의개체들은서로상이할수록좋은군집화결과임 
Market/Customer segmentation등에사용 
4
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
55 
데이터사이언스절차 
프로젝트의목적및문제정의 
데이터수집/검증/수정 
데이터탐색및전처리 
데이터마이닝/기계학습모델구축 
결과의평가및해석 
모델의적용및모니터링 
1 
2 
3 
4 
5 
6
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
56 
1단계: 프로젝트의목적및문제정의 
프로젝트의목적및문제정의 
왜이프로젝트를진행하려고하는가? 
정성적목표 
고객충성도의증가 
마케팅효율성증대 
이프로젝트가성공하면무엇을기대할수있는가? 
고객기대수명의증가 
매출증대/비용감소 
1
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
57 
1단계: 프로젝트의목적및문제정의 
프로젝트의목적및문제정의 
1
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
58 
1단계: 프로젝트의목적및문제정의 
프로젝트의목적및문제정의 
데이터마이닝/기계학습으로풀고자하는문제정의 
이고객은우리제품을구매하는데한달에얼마를소비할것인가? 
현재환자의상태로볼때암으로판정될가능성은얼마나되는가? 
문제에걸맞는기계학습알고리즘선택 
분류방법론 
예측방법론 
연관규칙분석등 
1
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
59 
2단계: 데이터수집/검증/수정 
데이터수집/검증/수정: 데이터수집 
데이터원천 
내부데이터: 데이터웨어하우스, 데이터마트등 
외부데이터: 구입데이터, 공공데이터등 
필요할경우독립변수와종속변수정의 
예시: 신용카드이탈고객예측모형 
•독립변수: 나이, 성별, 사용기간, 월평균이용금액, 신용등급 
•종속변수: 이탈여부 
2
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
60 
2단계: 데이터수집/검증/수정 
데이터수집/검증/수정: 데이터검증 
이상치(Outlier) 
값은존재하되실질적으로가능하지않은값(나이990살, 키30m) 
다양한이유로인해현실DB에는이상치가존재함 
결측치(Missing value) 
값이있어야할곳에값이존재하지않는상황 
운영에러, 휴먼에러등 
해결방안 
레코드의수가충분히많다제거 
레코드의수가충분치않다합리적인값으로대치(imputation) 
2
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
61 
2단계: 데이터수집/검증/수정 
데이터수집/검증/수정: 데이터수정 
정성적변수 
특정한속성을가진자료(성별: 남/여, 혈액형: A/B/O/AB 등) 
일반적으로사칙연산적용불가능 
명목형(Nominal) 
자료값의크기나순서에의미가없음 
각속성에대하여편의상숫자를대응시켜사용하기도함 
혈액형, 종교, 운동선수등번호, 인종등 
순서형(Ordinal) 
기준에따라자료값들의순서에의미를부여 
각숫자는순서의의미만을가지며, 차이/비율의의미는없음 
에너지효율등급, 학점, 올림픽메달등 
2
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
62 
2단계: 데이터수집/검증/수정 
데이터수집/검증/수정: 데이터수정 
정량적변수 
많고적음을나타내는수치로된자료 
사칙연산가능 
계수형/이산형(Count/Discrete) 
셀수있는정수의형태 
형제수, 보험가입건수등 
연속형(Continuous) 
셀수없는소수점을포함 
키, 무게, 길이등 
구간형(Interval) 
차이만의미가있음 
온도: 20도는10도보다2배뜨겁다(X) 
비율형(Ratio) 
차이와비율이모두의미가있음 
20kg은10kg보다2배무겁다(O) 
2
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
63 
2단계: 데이터수집/검증/수정 
데이터수집/검증/수정: 데이터수정 
변수변환 
Binning: 
•연속형변수를순서형변수로1-of-C coding: 
•1개의명목형변수를C개의이진형변수로 
Low 
Mid 
High 
“Color: yellow, red, blue, green” 
d1 
d2 
d3 
d4 
yellow 
1 
0 
0 
0 
red 
0 
1 
0 
0 
blue 
0 
0 
1 
0 
green 
0 
0 
0 
1 
2
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
64 
3단계: 데이터 탐색 및 전처리 
데이터 탐색 및 전처리: 데이터 탐색 
 단변량 분석 
히스토그램: Histogram 
• 한 변수의 값이 갖는 분포를 
파악 
• 정규분포 가정 등에 이용 
상자그림: Box plot 
0 
20 
40 
60 
80 
100 
120 
140 
160 
180 
5 10 15 20 25 30 35 40 45 50 
Frequency 
MEDV 
Histogram 
median 
quartile 1 
“max” 
“min” 
outliers 
mean 
outlier 
quartile 3 
3
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
65 
3단계: 데이터 탐색 및 전처리 
데이터 탐색 및 전처리: 데이터 탐색 
 다변량 분석 
 상관계수: 
• 어떤 변수들이 서로 상관관계가 높은가? 
• 대표성을 갖는 적은 수의 변수를 선택할 때 사용 가능 
CRIM ZN INDUS CHAS NOX RM 
CRIM 1 
ZN -0.20047 1 
INDUS 0.406583 -0.53383 1 
CHAS -0.05589 -0.0427 0.062938 1 
NOX 0.420972 -0.5166 0.763651 0.091203 1 
RM -0.21925 0.311991 -0.39168 0.091251 -0.30219 1 
3
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
66 
3단계: 데이터탐색및전처리 
데이터탐색및전처리: 데이터탐색 
Var. 1 
Var. 2 
Var. 3 
Var. 4 
3
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
67 
3단계: 데이터탐색및전처리 
데이터탐색및전처리: 데이터전처리 
차원의저주: Curse of dimensionality 
변수가증가할수록동일한설명력을유지하기위해필요한레코드의수는기하급수적으로증가함 
“If there are various logical ways to explain a certain phenomenon, the simplest is the best” -Occam’s Razor 
21=2 
22=4 
23=8 
3
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
68 
3단계: 데이터탐색및전처리 
데이터탐색및전처리: 데이터전처리 
변수선택: Variable Selection 
전체변수중에서유의미한변수만을선택 
원래변수의형태가그대로보존됨 
변수추출: Variable Extraction 
전체데이터집합을잘설명할수있는적은수의변수를생성 
원래변수의형태가그대로보존되지않음 
Original variables: Age, sex, height, weight 
Constructed variables: Age+3*I(sex = female)+0.2*height- 0.3*weight 
3
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
69 
3단계: 데이터탐색및전처리 
데이터탐색및전처리: 데이터전처리(데이터분할) 
과적합(Over-fitting) 
데이터마이닝알고리즘이데이터의필요없는특징(noise)까지외워버리는상태 
0 
2 
4 
6 
8 
10 
0 
5 
10 
0 
2 
4 
6 
8 
10 
0 
5 
10 
3
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
70 
3단계: 데이터탐색및전처리 
데이터탐색및전처리: 데이터전처리(데이터분할) 
학습데이터: Training Data 
데이터마이닝모델을구축하는데사용 
검증데이터: Validation Data 
모델의최적파라미터를선택하는데사용 
테스트데이터: Test Data 
새로운데이터에적용하여모델의실제예측력을평가하는데사용 
Training Data 
Algorithm A-1 
Algorithm A-2 
Algorithm A-3 
Algorithm B-1 Algorithm B-2 
Algorithm B-3 
ValidationData 
Algorithm A-1 
Algorithm A-2 
Algorithm A-3 
Algorithm B-1 Algorithm B-2 
Algorithm B-3 
Test Data 
Algorithm A-1 
Algorithm A-2 
Algorithm A-3 
Algorithm B-1 Algorithm B-2 
Algorithm B-3 
3
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
71 
3단계: 데이터탐색및전처리 
데이터탐색및전처리: 데이터전처리(데이터정규화) 
정규화: Normalization 
각변수들의측정단위가다름으로인해나타날수있는효과를제거 
z-score: (value-mean)/(standard deviation). 
Id 
Age 
Income 
1 
25 
1,000,000 
2 
35 
2,000,000 
3 
45 
3,000,000 
… 
… 
… 
Mean 
35 
2,000,000 
Stdev 
5 
1,000,000 
Id 
Age 
Income 
1 
-2 
-1 
2 
0 
0 
3 
2 
1 
… 
… 
… 
Mean 
0 
0 
Stdev 
1 
1 
Original data 
Normalized data 
3
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
72 
4단계: 데이터마이닝/기계학습모델구축 
데이터마이닝/기계학습모델구축 
데이터마이닝/기계학습모델 
분류 
•Logistic regression, k-nearest neighbor, naïve bayes, classification trees, neural networks, linear discriminantanalysis. 
예측 
•Linear regression, k-nearest neighbor, regression trees, neural networks. 
연관규칙분석: A priori algorithm. 
군집화: Hierarchical clustering, K-Means clustering. 
4
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
73 
5단계: 결과의 평가 및 해석 
결과의 평가 및 해석 
 분류 성능 평가 지표 
 혼동 행렬(confusion matrix) 
 Simple accuracy: (A+C)/(A+B+C+D) 
 Balanced correction rate: 
 Lift charts, receiver operating characteristic (ROC) curve, etc. 
Predicted 
1(+) 0(-) 
Actual 
1(+) 
True positive, 
Sensitivity (A) 
False negative, 
Type I error (B) 
0(-) 
False positive, 
Type II error (C) 
True negative, 
Specificity (D) 
C D 
D 
A B 
A 
 
 
 
5
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
74 
5단계: 결과의 평가 및 해석 
결과의 평가 및 해석 
 회귀 성능 평가 지표 
 y: actual target value, y’: predicted target value 
• Mean squared error, Root mean squared error 
• Mean absolute error 
• Mean absolute percentage error 
  
   
n 
i i i y y 
n 
MSE 
1 
2 ( ) 
1 
  
   
n 
i i i y y 
n 
RMSE 
1 
2 ( ) 
1 
  
   
n 
i i i y y 
n 
MAE 
1 
1 
  
   
n 
i i i i y y y 
n 
MAPE 
1 
/ 
1 
0 
2 
4 
6 
8 
10 
0 5 10 
5
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
75 
5단계: 결과의 평가 및 해석 
결과의 평가 및 해석 
 군집화 성능 평가 지표 
 군집 내 분산: 동일 군집 내 레코드들은 얼마나 가까이 위치하는가 
 군집 간 분산: 다른 군집에 속하는 레코드들은 얼마나 멀리 떨어져 있 
는가 
 좋은 군집화 결과: 군집 내 분산은 작고 군집 간 분산은 큼 
 연관규칙분석 성능 평가 지표 
 Support: 
 Confidence: 
 Lift: 
P(A,B) 
( ) 
( , ) 
( | ) 
P B 
P A B 
P A B  
( ) ( ) 
( , ) 
( ) 
( | ) 
P A P B 
P A B 
P B 
P A B 
 
 
5
2014 MACHINE LEARNING CAMP, FAST CAMPUS 
76 
6단계: 적용및모니터링 
적용및모니터링 
모델적용 
구축된기계학습모델을운영시스템에이식및실행 
기계학습모델의예측결과를바탕으로실제action 수행 
•“강필성고객이다음달에우리회사서비스를이용하지않을확류이80%이니이탈하지않도록사용쿠폰을발송하시오.” 
모니터링 
기계학습예측결과를바탕으로수행한캠페인의성과분석 
필요할경우모델의업데이트수행 
6

More Related Content

What's hot

데이터 사이언스 소개 - 정준호
데이터 사이언스 소개 -  정준호데이터 사이언스 소개 -  정준호
데이터 사이언스 소개 - 정준호준호 정
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해수보 김
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질Sun Young Kim
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)동학 노
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업jrim Choi
 
연관도 분석을 이용한 데이터마이닝
연관도 분석을 이용한 데이터마이닝연관도 분석을 이용한 데이터마이닝
연관도 분석을 이용한 데이터마이닝Keunhyun Oh
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)Saltlux zinyus
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기iron han
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루Jaimie Kwon (권재명)
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...Chanjin Park
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스Lee Seungeun
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향atelier t*h
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용수보 김
 
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장Seungyeob Yang
 
UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015YoungMin Jeon
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향Webometrics Class
 
20120924134035 빅데이터시대,ai의새로운의미와가치
20120924134035 빅데이터시대,ai의새로운의미와가치20120924134035 빅데이터시대,ai의새로운의미와가치
20120924134035 빅데이터시대,ai의새로운의미와가치Webometrics Class
 

What's hot (20)

데이터 사이언스 소개 - 정준호
데이터 사이언스 소개 -  정준호데이터 사이언스 소개 -  정준호
데이터 사이언스 소개 - 정준호
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업
 
연관도 분석을 이용한 데이터마이닝
연관도 분석을 이용한 데이터마이닝연관도 분석을 이용한 데이터마이닝
연관도 분석을 이용한 데이터마이닝
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
 
Bigdata
BigdataBigdata
Bigdata
 
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
 
UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향
 
20120924134035 빅데이터시대,ai의새로운의미와가치
20120924134035 빅데이터시대,ai의새로운의미와가치20120924134035 빅데이터시대,ai의새로운의미와가치
20120924134035 빅데이터시대,ai의새로운의미와가치
 

Viewers also liked

클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트Amazon Web Services Korea
 
제1화 추천 시스템 이란.ppt
제1화 추천 시스템 이란.ppt제1화 추천 시스템 이란.ppt
제1화 추천 시스템 이란.pptchoi kyumin
 
인공지능 방법론 - 딥러닝 이해하기
인공지능 방법론 - 딥러닝 이해하기인공지능 방법론 - 딥러닝 이해하기
인공지능 방법론 - 딥러닝 이해하기Byoung-Hee Kim
 
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템FAST CAMPUS
 
Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)FAST CAMPUS
 
Naive bayes model을 활용한 영화 별점 예측 시스템
Naive bayes model을 활용한 영화 별점 예측 시스템Naive bayes model을 활용한 영화 별점 예측 시스템
Naive bayes model을 활용한 영화 별점 예측 시스템FAST CAMPUS
 
인공지능개론 (머신러닝 중심)
인공지능개론 (머신러닝 중심)인공지능개론 (머신러닝 중심)
인공지능개론 (머신러닝 중심)SK(주) C&C - 강병호
 

Viewers also liked (7)

클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
 
제1화 추천 시스템 이란.ppt
제1화 추천 시스템 이란.ppt제1화 추천 시스템 이란.ppt
제1화 추천 시스템 이란.ppt
 
인공지능 방법론 - 딥러닝 이해하기
인공지능 방법론 - 딥러닝 이해하기인공지능 방법론 - 딥러닝 이해하기
인공지능 방법론 - 딥러닝 이해하기
 
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
 
Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)Helpful Review Recommendation (리뷰 추천시스템)
Helpful Review Recommendation (리뷰 추천시스템)
 
Naive bayes model을 활용한 영화 별점 예측 시스템
Naive bayes model을 활용한 영화 별점 예측 시스템Naive bayes model을 활용한 영화 별점 예측 시스템
Naive bayes model을 활용한 영화 별점 예측 시스템
 
인공지능개론 (머신러닝 중심)
인공지능개론 (머신러닝 중심)인공지능개론 (머신러닝 중심)
인공지능개론 (머신러닝 중심)
 

Similar to [FAST CAMPUS] 1강 data science overview

Meetup history
Meetup historyMeetup history
Meetup historyMk Kim
 
Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)Dongheon Lee
 
빅데이터 활용에 관한 모든것
빅데이터 활용에 관한 모든것빅데이터 활용에 관한 모든것
빅데이터 활용에 관한 모든것Hyojoung Shin
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아K data
 
2022 구로구 도시 정책 아이디어 경진대회.pdf
2022 구로구 도시 정책 아이디어 경진대회.pdf2022 구로구 도시 정책 아이디어 경진대회.pdf
2022 구로구 도시 정책 아이디어 경진대회.pdfchioh song
 
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁datasciencekorea
 
Src슬라이드(3총괄1세부) 조성준
Src슬라이드(3총괄1세부) 조성준Src슬라이드(3총괄1세부) 조성준
Src슬라이드(3총괄1세부) 조성준SRCDSC
 
Src슬라이드(1총괄1세부) 임요한
Src슬라이드(1총괄1세부) 임요한Src슬라이드(1총괄1세부) 임요한
Src슬라이드(1총괄1세부) 임요한SRCDSC
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data AnalyticsDaemin Park
 
Src슬라이드(3총괄1세부) 박종헌
Src슬라이드(3총괄1세부) 박종헌Src슬라이드(3총괄1세부) 박종헌
Src슬라이드(3총괄1세부) 박종헌SRCDSC
 
공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개SANGHEE SHIN
 
데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출SRCDSC
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망Open Cyber University of Korea
 
머신러닝의 개념과 실습
머신러닝의 개념과 실습머신러닝의 개념과 실습
머신러닝의 개념과 실습Byoung-Hee Kim
 
Big data활용 ss
Big data활용 ssBig data활용 ss
Big data활용 ssJinSoo Park
 
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2BruceDong WinnersLab
 
Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트SRCDSC
 
Things Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindThings Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindDataya Nolja
 
[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례kosena
 

Similar to [FAST CAMPUS] 1강 data science overview (20)

Meetup history
Meetup historyMeetup history
Meetup history
 
Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)
 
빅데이터 활용에 관한 모든것
빅데이터 활용에 관한 모든것빅데이터 활용에 관한 모든것
빅데이터 활용에 관한 모든것
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
2022 구로구 도시 정책 아이디어 경진대회.pdf
2022 구로구 도시 정책 아이디어 경진대회.pdf2022 구로구 도시 정책 아이디어 경진대회.pdf
2022 구로구 도시 정책 아이디어 경진대회.pdf
 
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
데이터에 포함된 동적 패턴의 탐색과 해석을 위한 협업적 탐험 플랫폼 -최진혁
 
Src슬라이드(3총괄1세부) 조성준
Src슬라이드(3총괄1세부) 조성준Src슬라이드(3총괄1세부) 조성준
Src슬라이드(3총괄1세부) 조성준
 
Src슬라이드(1총괄1세부) 임요한
Src슬라이드(1총괄1세부) 임요한Src슬라이드(1총괄1세부) 임요한
Src슬라이드(1총괄1세부) 임요한
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data Analytics
 
Src슬라이드(3총괄1세부) 박종헌
Src슬라이드(3총괄1세부) 박종헌Src슬라이드(3총괄1세부) 박종헌
Src슬라이드(3총괄1세부) 박종헌
 
공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개
 
건설기업의 빅데이터 시대 대응방향
건설기업의 빅데이터 시대 대응방향건설기업의 빅데이터 시대 대응방향
건설기업의 빅데이터 시대 대응방향
 
데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
머신러닝의 개념과 실습
머신러닝의 개념과 실습머신러닝의 개념과 실습
머신러닝의 개념과 실습
 
Big data활용 ss
Big data활용 ssBig data활용 ss
Big data활용 ss
 
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
 
Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트Src10대 과제 - 1. 총괄파트
Src10대 과제 - 1. 총괄파트
 
Things Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindThings Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in Mind
 
[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례[코세나, kosena] 금융권의 머신러닝 활용사례
[코세나, kosena] 금융권의 머신러닝 활용사례
 

[FAST CAMPUS] 1강 data science overview

  • 1. 2014 MACHINE LEARNING CAMP Introduction to DATA SCIENCE •강필성 •서울과학기술대학교 •글로벌융합산업공학과
  • 2. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 2 목차 I II III 데이터사이언스활용분야 데이터사이언스속의기계학습 데이터사이언스
  • 3. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 3 과학(SCIENCE)의의미 Science = Sceadan(to devide, separate) The study of nature and behavior of natural things and the knowledge that we obtain about them.
  • 4. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 사실로부터지혜까지 4 사실 (Fact) 데이터 (Data) 정보 (Information) 지식 (Knowledge) 지혜 (Wisdom) 객관적실재 김수현이맥도널드에서빅맥세트를먹었다. 김우빈이맥도널드에서베이컨토마토디럭스세트를먹었다. 객관적실재의체계화 사실을특정한방식을통해저장 고객명 일자 버거 음료 사이드 가격 리필여부 김수현 12.03.02 빅맥 콜라 감자튀김 7,000 Y 김우빈 12.03.02 베이컨… 사이다 오징어링 8,000 N … … … … … … … 데이터+의미 데이터를특정목적과문제해결에도움이되도록가공한것 “김수현과김우빈은 3월과9월에두번씩맥도널드를방문한다” 정보+가치 정보를집적하고체계화하여장래의일반적사용에대비한보편성확보 신학기기념할인! 한달내3번방문시, 세번째주문1,000원할인!! 지식+추론 추론및문제해결을위한지적능력 김수현과김우빈의월별방문횟수 2012년3월: 2회방문, 2012년4월: 1회방문 2012년5월: 0회방문…
  • 5. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 5 데이터마이닝? 규칙: A속성의사람들은인사를하고B속성의사람들은악수를한다 A와B는무엇일까?
  • 6. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 6 데이터마이닝? 아시아계사람들은인사를하고백인들은악수를한다.
  • 7. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 7 데이터마이닝 아시아계사람들은인사를하고백인들은악수를한다.
  • 8. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 8 데이터마이닝 같은색상의옷을입은사람들은인사를하고, 다른색상의옷을입은사람들은악수를한다.
  • 9. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 9 데이터마이닝 같은색상의옷을입은사람들은인사를하고, 다른색상의옷을입은사람들은악수를한다.
  • 10. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 귀납적추론 사례, 예시, 데이터로부터전제나법칙을찾아내는bottom-up 방식 수학접귀납법: k=1일때성립증명, k=n일때성립가정하고k=n+1일때성립증명 경영대생들은잘알지도못하면서말만번지르르하게잘해. 공대생들은자기들이아는것도제대로설명을못해. 귀납과선입견의차이: 충분히많은사례를조사했는가? 연역적추론 한명제로부터논리적으로다른명제를도출 사람은모두죽는다. 소크라테스는사람이다. 고로소크라테스도죽는다. 10 데이터마이닝
  • 11. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 데이터마이닝 Definition Extracting useful informationfrom large datasets. (Hand et al., 2001) The process of exploration and analysis, by automatic or semi-automatic means, of large quantities of datain order to discover meaningful patterns and rules. (Berry and Linoff, 1997, 2000) The process of discovering meaningful new correlations, patterns and trendsby sifting through large amount data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques. (Gartner Group, 2004) 11
  • 12. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 12 데이터마이닝: 전망 1.Tissue Engineers 2.Gene Programmers 3.Pharmers 4.FrankenfoodMonitors 5.DataMiners 6.Hot-lineHandyman 7.VirtualReality Actors 8.Narrowcastors 9.Turing Testors 10.Knowledge Engineers 1.Modeling Surprise 2.Probabilistic Chips 3.NanoRadio 4.Wireless Power 5.Atomic Magnetometers 6.Offline Web Applications 7.GrapheneTransistors 8.Connectomics 9.Reality Mining 10.CellulolyticEnzymes What will be the 10 hottest jobs? 10 Emerging technologies 2008 -Times, 2000 -Technology Review, 2008
  • 13. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 13 데이터마이닝: “빅데이터”의시대
  • 14. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 데이터마이닝: “빅데이터”의시대 Data Scientist: The sexist job of the 21stCentury 14 (Harvard Business Review, Oct. 2012, 내용요약은최윤섭팀장블로그참조(Link))
  • 15. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 데이터마이닝: “빅데이터”의시대 What is “Big Data” 15 Volume Value Velocity Variety
  • 16. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 16 빅데이터등장배경 1 ICT 패러다임의변화 (Source: Ji-Sun Jeong, New Possibilities of Big Data and Counterstragegy, Mar. 2012)
  • 17. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 17 빅데이터등장배경 기하급수적으로증가하는데이터의생산및저장 2 (Source: 김현곤, 빅데이터국가비전과전략, Nov. 2012)
  • 18. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 18 빅데이터등장배경 기하급수적으로증가하는데이터의생산및저장 2 (Source: 박종헌, 서비스및운영관리에서의빅데이터활용, Nov. 2012)
  • 19. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 19 빅데이터등장배경 데이터의본질적가치증가 3 (Source: 김현곤, 빅데이터국가비전과전략, Nov. 2012)
  • 20. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 20 빅데이터등장배경 데이터의본질적가치증가 3 (Source: Big Data 미래를여는비밀열쇠, 2012)
  • 21. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 21 빅데이터등장배경 데이터의본질적가치증가 3 (Source: Big Data 미래를여는비밀열쇠, 2012)
  • 22. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 22 빅데이터등장배경 데이터의본질적가치증가 3 (Source: Big Data 미래를여는비밀열쇠, 2012)
  • 23. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 23 빅데이터등장배경 연산능력의비약적인발전 4
  • 24. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 24 빅데이터 등장 배경 연산 능력의 비약적인 발전 4 품명 무게 CPU RAM HD 가격 Cray-2s Parallel Computing System with 3 PCs 2000kg 30kg 4개 16개 1Gb 64Gb 40Gb 4.5Tb 270억 500만 70배 4배 64배 100배 5400배
  • 25. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 25 빅데이터등장배경 연산능력의비약적인발전 IBM’s super computer Watson won an overwhelming victory in final Jeopardy! In Feb. 2011 4
  • 26. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 26 빅데이터등장배경 점점심화되는경쟁체제 5
  • 27. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 27 빅데이터등장배경 점점심화되는경쟁체제 5 (https://www.kaggle.com)
  • 28. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 28 빅데이터등장배경 데이터분석을가능하게하는인프라와(오픈소스) 소프트웨어 DBMS Analytics 6
  • 29. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 29 A Short History 1960 1980 1990 2000 2010 Related to Statistical Analysisfrom the 60’s with SASand SPSS packages Machine Learning, Database Engineering methods Data Dredging or “beat your data until it confesses” (Descriptive modeling) Analytics (Predictive modeling) Data Science (Analyze and deploy everything you can think of)
  • 30. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 데이터사이언스란? 데이터사이언스 다양한학제간학문이융합되어데이터기반의사결정및문제해결을목적으로하는학문 30 (서울대학교데이터과학과지식창출연구센터: http://srcdsc.snu.ac.kr)
  • 31. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 31 데이터사이언스관련학문 Statistics -Deterministic & parametric approaches Computer science -Non-parametric approaches -Machine learning pattern recognition algorithms Database -Efficient data structure & query -Database management Industrial Engineering -Operations research and mathematical optimization -Business intelligence Data Science
  • 32. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 32 목차 I II III 데이터사이언스활용분야 데이터사이언스속의기계학습 데이터사이언스
  • 33. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 33 1 보다직관적인이해를돕기위한시각화 데이터사이언스활용분야
  • 34. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 34 데이터사이언스활용분야 1 보다직관적인이해를돕기위한시각화
  • 35. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 35 데이터사이언스활용분야 1 보다직관적인이해를돕기위한시각화 “Politiz.org”
  • 36. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 36 데이터사이언스활용분야 1 보다직관적인이해를돕기위한시각화
  • 37. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 37 데이터사이언스활용분야 1 보다직관적인이해를돕기위한시각화
  • 38. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 38 데이터사이언스활용분야 1 보다직관적인이해를돕기위한시각화 세계각국중앙은행총재연설문분석
  • 39. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 39 데이터사이언스활용분야 미래의예측, 진단및탐지 2 Asurand Huberman(2010) Predicting the Future with Social Media, WI-IAT10: 492-499
  • 40. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 40 데이터사이언스활용분야 미래의예측, 진단및탐지 2 신생아의혈압, 체온, 심전도, 혈중산소포화도등미숙아모니터링장비에서생성되는환자당일9,000만건이상의생리학데이터스트림실시간분석 의료진보다24시간전에감염사실을밝혀냄으로써조기치료가능
  • 41. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 41 데이터사이언스활용분야 미래의예측, 진단및탐지 2 Kang et. al. (2009) A virtual metrology system for semiconductor manufacturing, Expert Systems with Applications36(10): 12554-12561.
  • 42. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 42 데이터사이언스활용분야 일상생활에서의의사결정지원 3
  • 43. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 43 데이터사이언스활용분야 일상생활에서의의사결정지원 3
  • 44. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 44 데이터사이언스활용분야 삶의질향상 4 언어의문법적구조를컴퓨터가이해할수있는로직으로변환하는기존의방법탈피 6개국어로번영되는UN 회의록과23개국어로번역된유럽의회회의록을번역엔진에입력한뒤통계적추론기법을학습
  • 45. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 45 데이터사이언스활용분야 삶의질향상 4 다양한경로로부터축적된민원데이터를종합적/체계적으로분석하여정책에환류 키워드추출, 연관규칙분석, 군집화등의미기반민원분석을통해선제적대응
  • 46. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 46 데이터사이언스활용분야 삶의질향상 4 데이터에의한정량적유동인구분포도작성: 서울시를1km 반경의1,250개헥사셀단위로구분KT 휴대전화이력데이터로심야시간(0시~5시) 통화량분석유동인구기반노선최적화및배차간격조정
  • 47. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 47 목차 I II III 데이터사이언스활용분야 데이터사이언스속의기계학습 데이터사이언스
  • 48. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 기계학습: Machine Learning 정의 A computer program is said to learnfrom experience E with respect to some class of tasks T and performance measure P, if its performance at task in T, as measured by P, improves with experience E,” –Mitchell (1997) 48 지도학습: Supervised Learning 목적: 특정한타겟을예측하는것 독립변수X와종속변수Y사이의관계(인과관계혹은상관관계)를찾음 과거에타겟정보가있는데이터를사용하여모델학습 새로운데이터를사용하여모델평가 비지도학습: Unsupervised Learning 데이터에내재된특징을분석 데이터의분포추정, 고객집단의구분, 연관규칙분석등 예측하고자하는지정된타겟변수가존재하지않음
  • 49. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 49 지도학습vs. 비지도학습 비지도학습 Var. 1 Var. 2 … Var. d Ins.1 .. .. … .. Ins.2 .. .. … .. … … … … … Ins. N .. .. .. .. Unsupervised learning Explores intrinsic characteristics Estimates underlying distribution Density estimation, clustering, association rule mining, network (graph) analysis, etc. A given dataset X
  • 50. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 50 지도학습 vs. 비지도학습  지도학습 Var. 1 Var. 2 … Var. d Ins. 1 .. .. … .. Ins. 2 .. .. … .. … … … … … Ins. N .. .. .. .. A given dataset X &Y Y .. .. … .. y  f (x) Supervised learning  Finds relations between X and Y: estimate the underlying function  Classification, regression, novelty detection y  f (x)
  • 51. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 목적에 따른 기계학습 방법론 51 분류: Classification  목적: 범주형 타겟 변수를 예측  구매/비구매, 사기 거래/정상거래, 양성 반응/음성 반응 등  데이터의 각 행은 레코드에 해당하며 각 열은 설명변수에 해당  이진 분류(binary classification) 문제가 대다수 1 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
  • 52. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 목적에따른기계학습방법론 52 회귀: Regression 목적: 연속형타겟변수를예측 구매금액, 매출액, 이용고객수등 데이터의각행은레코드에해당하며각열은설명변수에해당 분류문제에비해모델의복잡도가높음 2
  • 53. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 목적에따른기계학습방법론 53 연관규칙분석: Association Rule Mining 목적: 연관성이높은아이템들로구성된규칙집합을생성 예시:아이폰을구매하는고객들을범퍼를함께구매한다. 데이터의각행은트랜잭션에해당 추천시스템에주로사용되며“장바구니분석”이라고도불림 3
  • 54. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 목적에따른기계학습방법론 54 군집화: Clustering/Segmentation 목적: 전체데이터를보다일관성과응집성이높은세부그룹으로나눔 동일그룹내의개체들은유사할수록, 다른그룹내의개체들은서로상이할수록좋은군집화결과임 Market/Customer segmentation등에사용 4
  • 55. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 55 데이터사이언스절차 프로젝트의목적및문제정의 데이터수집/검증/수정 데이터탐색및전처리 데이터마이닝/기계학습모델구축 결과의평가및해석 모델의적용및모니터링 1 2 3 4 5 6
  • 56. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 56 1단계: 프로젝트의목적및문제정의 프로젝트의목적및문제정의 왜이프로젝트를진행하려고하는가? 정성적목표 고객충성도의증가 마케팅효율성증대 이프로젝트가성공하면무엇을기대할수있는가? 고객기대수명의증가 매출증대/비용감소 1
  • 57. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 57 1단계: 프로젝트의목적및문제정의 프로젝트의목적및문제정의 1
  • 58. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 58 1단계: 프로젝트의목적및문제정의 프로젝트의목적및문제정의 데이터마이닝/기계학습으로풀고자하는문제정의 이고객은우리제품을구매하는데한달에얼마를소비할것인가? 현재환자의상태로볼때암으로판정될가능성은얼마나되는가? 문제에걸맞는기계학습알고리즘선택 분류방법론 예측방법론 연관규칙분석등 1
  • 59. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 59 2단계: 데이터수집/검증/수정 데이터수집/검증/수정: 데이터수집 데이터원천 내부데이터: 데이터웨어하우스, 데이터마트등 외부데이터: 구입데이터, 공공데이터등 필요할경우독립변수와종속변수정의 예시: 신용카드이탈고객예측모형 •독립변수: 나이, 성별, 사용기간, 월평균이용금액, 신용등급 •종속변수: 이탈여부 2
  • 60. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 60 2단계: 데이터수집/검증/수정 데이터수집/검증/수정: 데이터검증 이상치(Outlier) 값은존재하되실질적으로가능하지않은값(나이990살, 키30m) 다양한이유로인해현실DB에는이상치가존재함 결측치(Missing value) 값이있어야할곳에값이존재하지않는상황 운영에러, 휴먼에러등 해결방안 레코드의수가충분히많다제거 레코드의수가충분치않다합리적인값으로대치(imputation) 2
  • 61. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 61 2단계: 데이터수집/검증/수정 데이터수집/검증/수정: 데이터수정 정성적변수 특정한속성을가진자료(성별: 남/여, 혈액형: A/B/O/AB 등) 일반적으로사칙연산적용불가능 명목형(Nominal) 자료값의크기나순서에의미가없음 각속성에대하여편의상숫자를대응시켜사용하기도함 혈액형, 종교, 운동선수등번호, 인종등 순서형(Ordinal) 기준에따라자료값들의순서에의미를부여 각숫자는순서의의미만을가지며, 차이/비율의의미는없음 에너지효율등급, 학점, 올림픽메달등 2
  • 62. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 62 2단계: 데이터수집/검증/수정 데이터수집/검증/수정: 데이터수정 정량적변수 많고적음을나타내는수치로된자료 사칙연산가능 계수형/이산형(Count/Discrete) 셀수있는정수의형태 형제수, 보험가입건수등 연속형(Continuous) 셀수없는소수점을포함 키, 무게, 길이등 구간형(Interval) 차이만의미가있음 온도: 20도는10도보다2배뜨겁다(X) 비율형(Ratio) 차이와비율이모두의미가있음 20kg은10kg보다2배무겁다(O) 2
  • 63. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 63 2단계: 데이터수집/검증/수정 데이터수집/검증/수정: 데이터수정 변수변환 Binning: •연속형변수를순서형변수로1-of-C coding: •1개의명목형변수를C개의이진형변수로 Low Mid High “Color: yellow, red, blue, green” d1 d2 d3 d4 yellow 1 0 0 0 red 0 1 0 0 blue 0 0 1 0 green 0 0 0 1 2
  • 64. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 64 3단계: 데이터 탐색 및 전처리 데이터 탐색 및 전처리: 데이터 탐색  단변량 분석 히스토그램: Histogram • 한 변수의 값이 갖는 분포를 파악 • 정규분포 가정 등에 이용 상자그림: Box plot 0 20 40 60 80 100 120 140 160 180 5 10 15 20 25 30 35 40 45 50 Frequency MEDV Histogram median quartile 1 “max” “min” outliers mean outlier quartile 3 3
  • 65. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 65 3단계: 데이터 탐색 및 전처리 데이터 탐색 및 전처리: 데이터 탐색  다변량 분석  상관계수: • 어떤 변수들이 서로 상관관계가 높은가? • 대표성을 갖는 적은 수의 변수를 선택할 때 사용 가능 CRIM ZN INDUS CHAS NOX RM CRIM 1 ZN -0.20047 1 INDUS 0.406583 -0.53383 1 CHAS -0.05589 -0.0427 0.062938 1 NOX 0.420972 -0.5166 0.763651 0.091203 1 RM -0.21925 0.311991 -0.39168 0.091251 -0.30219 1 3
  • 66. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 66 3단계: 데이터탐색및전처리 데이터탐색및전처리: 데이터탐색 Var. 1 Var. 2 Var. 3 Var. 4 3
  • 67. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 67 3단계: 데이터탐색및전처리 데이터탐색및전처리: 데이터전처리 차원의저주: Curse of dimensionality 변수가증가할수록동일한설명력을유지하기위해필요한레코드의수는기하급수적으로증가함 “If there are various logical ways to explain a certain phenomenon, the simplest is the best” -Occam’s Razor 21=2 22=4 23=8 3
  • 68. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 68 3단계: 데이터탐색및전처리 데이터탐색및전처리: 데이터전처리 변수선택: Variable Selection 전체변수중에서유의미한변수만을선택 원래변수의형태가그대로보존됨 변수추출: Variable Extraction 전체데이터집합을잘설명할수있는적은수의변수를생성 원래변수의형태가그대로보존되지않음 Original variables: Age, sex, height, weight Constructed variables: Age+3*I(sex = female)+0.2*height- 0.3*weight 3
  • 69. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 69 3단계: 데이터탐색및전처리 데이터탐색및전처리: 데이터전처리(데이터분할) 과적합(Over-fitting) 데이터마이닝알고리즘이데이터의필요없는특징(noise)까지외워버리는상태 0 2 4 6 8 10 0 5 10 0 2 4 6 8 10 0 5 10 3
  • 70. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 70 3단계: 데이터탐색및전처리 데이터탐색및전처리: 데이터전처리(데이터분할) 학습데이터: Training Data 데이터마이닝모델을구축하는데사용 검증데이터: Validation Data 모델의최적파라미터를선택하는데사용 테스트데이터: Test Data 새로운데이터에적용하여모델의실제예측력을평가하는데사용 Training Data Algorithm A-1 Algorithm A-2 Algorithm A-3 Algorithm B-1 Algorithm B-2 Algorithm B-3 ValidationData Algorithm A-1 Algorithm A-2 Algorithm A-3 Algorithm B-1 Algorithm B-2 Algorithm B-3 Test Data Algorithm A-1 Algorithm A-2 Algorithm A-3 Algorithm B-1 Algorithm B-2 Algorithm B-3 3
  • 71. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 71 3단계: 데이터탐색및전처리 데이터탐색및전처리: 데이터전처리(데이터정규화) 정규화: Normalization 각변수들의측정단위가다름으로인해나타날수있는효과를제거 z-score: (value-mean)/(standard deviation). Id Age Income 1 25 1,000,000 2 35 2,000,000 3 45 3,000,000 … … … Mean 35 2,000,000 Stdev 5 1,000,000 Id Age Income 1 -2 -1 2 0 0 3 2 1 … … … Mean 0 0 Stdev 1 1 Original data Normalized data 3
  • 72. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 72 4단계: 데이터마이닝/기계학습모델구축 데이터마이닝/기계학습모델구축 데이터마이닝/기계학습모델 분류 •Logistic regression, k-nearest neighbor, naïve bayes, classification trees, neural networks, linear discriminantanalysis. 예측 •Linear regression, k-nearest neighbor, regression trees, neural networks. 연관규칙분석: A priori algorithm. 군집화: Hierarchical clustering, K-Means clustering. 4
  • 73. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 73 5단계: 결과의 평가 및 해석 결과의 평가 및 해석  분류 성능 평가 지표  혼동 행렬(confusion matrix)  Simple accuracy: (A+C)/(A+B+C+D)  Balanced correction rate:  Lift charts, receiver operating characteristic (ROC) curve, etc. Predicted 1(+) 0(-) Actual 1(+) True positive, Sensitivity (A) False negative, Type I error (B) 0(-) False positive, Type II error (C) True negative, Specificity (D) C D D A B A    5
  • 74. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 74 5단계: 결과의 평가 및 해석 결과의 평가 및 해석  회귀 성능 평가 지표  y: actual target value, y’: predicted target value • Mean squared error, Root mean squared error • Mean absolute error • Mean absolute percentage error      n i i i y y n MSE 1 2 ( ) 1      n i i i y y n RMSE 1 2 ( ) 1      n i i i y y n MAE 1 1      n i i i i y y y n MAPE 1 / 1 0 2 4 6 8 10 0 5 10 5
  • 75. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 75 5단계: 결과의 평가 및 해석 결과의 평가 및 해석  군집화 성능 평가 지표  군집 내 분산: 동일 군집 내 레코드들은 얼마나 가까이 위치하는가  군집 간 분산: 다른 군집에 속하는 레코드들은 얼마나 멀리 떨어져 있 는가  좋은 군집화 결과: 군집 내 분산은 작고 군집 간 분산은 큼  연관규칙분석 성능 평가 지표  Support:  Confidence:  Lift: P(A,B) ( ) ( , ) ( | ) P B P A B P A B  ( ) ( ) ( , ) ( ) ( | ) P A P B P A B P B P A B   5
  • 76. 2014 MACHINE LEARNING CAMP, FAST CAMPUS 76 6단계: 적용및모니터링 적용및모니터링 모델적용 구축된기계학습모델을운영시스템에이식및실행 기계학습모델의예측결과를바탕으로실제action 수행 •“강필성고객이다음달에우리회사서비스를이용하지않을확류이80%이니이탈하지않도록사용쿠폰을발송하시오.” 모니터링 기계학습예측결과를바탕으로수행한캠페인의성과분석 필요할경우모델의업데이트수행 6