1. Data Mining
Kwang Woo Nam
Department of Computer and Information Engineering
Kunsan National University
kwnam@kunsan.ac.kr
Textbook: Programming in Collective Intelligence, Toby Segaran
2. 데이터마이닝의 소개
데이터 마이닝(Data Mining)
Knowledge Discovery, Machine Learning
Big Data
데이터 마이닝의 정의
대량의 데이터로부터 그 안에 함축되어 있는(implicit) 전에
알려지지 않았던(previously unknown), 가치있고(non-trivial),
잠정적으로 유용한(potentially useful) 정보
(information)나 패턴(patterns)을 찾는 작업
대용량의 데이터
(Large Database)
Mining
데이터마이닝 : Collective Intelligence 2
3. 데이터마이닝의 소개
데이터 마이닝의 역사
데이터의 축적(OLTP)
– 거대한 양의 데이터를 축적하게 됨 (데이터의 홍수)
데이터의 통합 및 분석(OLAP)
– 분산된 데이터를 통합하고 분석하여 의미있는 정보를 찾음
데이터 마이닝의 출현
– 자동화된 시스템을 통한 지식(Knowledge)의 추출과 활용
인공지능 통계학
60년대 70년대
MIS출현
- 데이터 축적
DB 통합
- 데이터의 통합
80년대
대용량 DB
- 통합 데이터
베이스 발전
마이닝
90년대
대용량 DB
- DW 발전
데이터마이닝 : Collective Intelligence 3
자료출처 : http://ai-times.tistory.com/32
4. 데이터마이닝의 대상 데이터
데이터의 예
거래데이터 (Transaction DB)
– 고객ID, 구매일, 거래점, 거래파트, 브랜드명, 상품명, 가격.
자료출처 : http://ai-times.tistory.com/32
데이터마이닝 : Collective Intelligence 4
5. 데이터마이닝의 대상 데이터
데이터의 예
고객 프로파일 데이터 (User Profile DB)
– 성별,나이,주소,거주형태,자택여부,결혼여부,회원타입,가입일,가입점
자료출처 : http://ai-times.tistory.com/32
데이터마이닝 : Collective Intelligence 5
6. 데이터마이닝의 대상 데이터
웹 로그 데이터(web log)
데이터마이닝 : Collective Intelligence 6
7. 데이터마이닝의 과정
– Data mining: the core of
knowledge discovery
process.
Knowledge Interpretation
Data Mining
Task-relevant Data
Data transformations
Preprocessed
Data
Data Cleaning
Data Integration
Databases
Selection
자료출처 : osu 강의자료
데이터마이닝 : Collective Intelligence 7
8. 데이터마이닝의 과정
Select Transform Mine Assimilate
자료선택 자료변환 정보추출 해석 및 취합
DATABASE 추출된
데이타
Selected
Data
Extracted
Data Assimilated
Transformed
Data
data
Visualization
가시화
자료출처 : KISTI 김진형
데이터마이닝 : Collective Intelligence 8
9. 데이터마이닝의 과정
고객관리 데이터 마이닝의 예
Select Transform Mine Assimilate
자료선택 자료변환 정보추출 해석 및 취합
Customers
Purchased
frozen
orange juice in
12oz cans
Royal Customers
(buys the same
brand 80% of
time)
60세 넘으신 분들
이 많이 산다
Target Audience
자료출처 : KISTI 김진형
데이터마이닝 : Collective Intelligence 9
Purchase
History
Point of Sale
Data
Survey data
10. 데이터 마이닝의 차별성
가설 확인 중심의 기존 방식
질의도구
시각화도구
OLAP도구
DATA
가설 자체를 발견하는 데이터 마이닝 방식
가설
고객의 직업과 수입
정도가 신용불량 여
부와 관련이 많다.
데이터마이닝
데이터마이닝 : Collective Intelligence 10
DATA
어떤 사람들이 신용불
량자(잠재)일까?
가설
*직업이 자영업,무
직등에 속한 사람들
*수입이 233만원이
하이고, 지역이A지
역에 거주하는 경우
신용불량 확률높음
검증 정보
자료출처 : http://ai-times.tistory.com/32
11. Data Mining 기법의 분류
발견할 지식의 종류에 따라
Association(연관성 발견)
Characterization(특성발견)
Classification(분류)
Summarization(요약)
Clustering(군집화)
Sequential Pattern Discovery(연속패턴발견)
Trend(경향 발견)
Deviation Detection(추세변화발견)
데이터마이닝 : Collective Intelligence 11
12. 주요 Data Mining 기법
연관 규칙(association rule)의 탐사
A => B
1 소 주 ,콜 라 ,맥 주
2 소 주 ,콜 라 ,포 도 주
3 소 주 ,주 스
4 콜 라 ,맥 주
5 소 주 ,콜 라 ,맥 주 ,포 도 주
6 주 스
Association Rules
with
Maximum support
of 50%
판매 기록 Rules with
Support>50%
Supporting
Transactions
Confidence
소주콜라 1,2,5 75%
콜라소주 1,2,5 75%
콜라맥주 1,4,5 75%
맥주콜라 1,4,5 100% 자료출처 : KISTI 김진형
데이터마이닝 : Collective Intelligence 12
13. 주요 Data Mining 기법
분류화(classification)의 탐사
나이 가족수 직업 월수입 기대출신용액
Classifier
Class 1
신용도 우량
Class 2
신용도 보통
Class 3
신용도 불량
자료출처 : KISTI 김진형
데이터마이닝 : Collective Intelligence 13
14. 주요 Data Mining 기법
분류화(classification)의 탐사
Decision Tree
직업 ?
유 무
월수입
>=200
기대출금
<200
부양가족수
나이>25
No Yes
=0
>=1
<1000
>=3000
>=1000
<3000
데이터로부터 Decision
Tree 자동생성 가능
ID3 algorithm
우량 보통 불량
자료출처 : KISTI 김진형
데이터마이닝 : Collective Intelligence 14
15. 주요 Data Mining 기법
sequential 패턴의 탐사
Transaction Time Customer Items Bought
96-06-20 10:13 am J.Kim Juice, Coke
96-06-20 11:03 am P.Jin W hisky
96-06-20 11:47 am J.Kim Beer
96-06-20 02:32 pm B.Mim Beer
96-06-21 09:23 am J.Kim Wine, W ater, Cider
96-06-21 03:19 pm S.Moon Beer, G in, C ider
96-06-21 05:55 pm B.Ahn Beer
96-06-21 06:03 pm B.Min Wine, C ider
96-06-22 10:34 am B.Ahn W hisky
96-06-22 05:31 pm B.Min W hisky
Sequential Pattern with
Support > 40%
Sequential Pattern
in DataBase
Supporting Customer
(Beer)(Whisky) B.Ahn,B.Min
(Beer)(Wine,Cider) J.Kim,B.Min
자료출처 : KISTI 김진형
데이터마이닝 : Collective Intelligence 15
16. 주요 Data Mining 기법
Time Series 패턴의 탐사
14
12
10
8
6
4
2
데이터마이닝 : Collective Intelligence 16
14
12
10
8
6
4
2
0
Soda
0
Soda
Chips
Matching Curve
Found
자료출처 : KISTI 김진형
17. 주요 Data Mining 기법
군집화(Clustering)
ID Sex 혼인 자녀 월수입
1 M S 0 150
2 M D 1 100
3 M M 2 100
4 F M 1 150
5 F D 1 150
6 F S 0 100
7 F M 2 100
ID Sex 혼인 자녀 월수입
1 M S 0 150
6 F S 0 100
ID Sex 혼인 자녀 월수입
2 M D 1 100
4 F M 1 150
5 F D 1 150
ID Sex 혼인 자녀 월수입
3 M M 2 100
7 F M 2 100
자료출처 : KISTI 김진형
데이터마이닝 : Collective Intelligence 17
18. 주요 Data Mining 기법
군집화(Clustering)
Similarity = 2
ID Sex 혼인 자녀 월수입
1 M S 0 150
6 F S 0 100
ID Sex 혼인 자녀 월수입
2 M D 1 100
4 F M 1 150
5 F D 1 150
Similarity = 2
Diff=3
Diff=3
Diff=2.83
ID Sex 혼인 자녀 월수입
3 M M 2 100
7 F M 2 100
Similarity = 3
Total Score for this cluster partition = average similarity + average difference
= 2.33 + 2.94 = 5.27
자료출처 : KISTI 김진형
데이터마이닝 : Collective Intelligence 18
19. 국내 사례
백화점 고객 분류
신상정보
매출정보
연체정보
신용도 정보
고객분류
Scoring기준표
우량
우수
보통
불량
매우불량
각 그룹의 신용한도
자료출처 : KISTI 김진형
데이터마이닝 : Collective Intelligence 19
20. 백화점 고객 분류
Credit 신청자
신청자 분류
Credit 등급 및
신용한도 설정
통합고객 DB
연체정보
신상정보
매출정보
신용도정보
Decision Tree
기존고객 분류
고객 구룹별
Scoring
(Neural Network
Scoring 기준표
자료출처 : KISTI 김진형
데이터마이닝 : Collective Intelligence 20
22. 개요 : 집단지성이란?
Collective Intelligence(集團知性)
다양한 사고활동을 하는 개인들이 서로 협업하거나 경쟁을 통하여 얻게 되는 집단적 지적
능력
– 미국의 곤충학자 윌리엄 모턴 휠러(William Morton Wheeler)가 1910년 출간한
《개미:그들의 구조·발달·행동 Ants:Their Structure, Development, and
Behavior》에서 처음 제시
– 개체로는 미미한 개미가 공동체로서 협업(協業)하여 거대한 개미집을 만들어내는 것을
관찰하였고, 이를 근거로 개미는 개체로서는 미미하지만 군집(群集)하여서는 높은 지능체계를
형성한다고 설명
22
23. 개요 : 집단지성의 예
Wikipedia(www.wikipedia.org)
누구나 어떤 페이지도 만들고 수정할 수 있도록 만들어 놓은 백과사전
– 240년 역사의 브리태니커 백과사전 정보량을 단 몇 년 만에 뛰어 넘음
브리태니커의 정보 정확도와 유사하며 정보량은 10배
매일 약 2,000건의 새로운 항목이 등록, 200개 이상 언어 제공
23
edit
24. 개요 : 집단지성의 예
Google(www.google.com)
세계 최대의 인터넷 검색엔진
PageRank 알고리즘을 이용하여 웹 페이지의 랭킹을 부여(래리 페이지)
– 웹 페이지의 중요성을 외부에서 그 웹 페이지를 가르키는 링크(역링크)를 기반으로 계산하는
알고리즘
– 즉, 역링크를 많이 가지고 있는 웹페이지 일수록 중요하다는 전제하에 페이지의 순위를 계산
웹사용자들이 웹 페이지들을 만들어내고 웹 페이지에 접근하여 이용하는 집단적인 활동 속에
숨어있던 의미를 발견한 것에서 등장
24
25. 개요 : 집단지성의 예
Netflix와 Amazon의 추천 시스템
Netflix
– 온라인 DVD 대여회사로서, 사람들이 고른 영화를 집으로 배송해주고, 고객이 전에 빌린 영화를
기준으로 영화를 추천함
– Netflix Prize
• 정확도 10% 향상자에게 100만달러의 상금
2007년 : BellKor 8.43%
2008년 : BellKor in BigChaos 9.44%
2009년 : BellKor’s Pragmatic Chaos 10.05%
데이터마이닝 : Collective Intelligence 25