집단지성 프로그래밍 01-데이터마이닝 개요

Data Mining
Kwang Woo Nam
Department of Computer and Information Engineering
Kunsan National University
kwnam@kunsan.ac.kr
Textbook: Programming in Collective Intelligence, Toby Segaran

데이터마이닝의 소개
 데이터 마이닝(Data Mining)
 Knowledge Discovery, Machine Learning
 Big Data
 데이터 마이닝의 정의
대량의 데이터로부터 그 안에 함축되어 있는(implicit) 전에
알려지지 않았던(previously unknown), 가치있고(non-trivial),
잠정적으로 유용한(potentially useful) 정보
(information)나 패턴(patterns)을 찾는 작업
대용량의 데이터
(Large Database)
Mining
데이터마이닝 : Collective Intelligence 2

데이터마이닝의 소개
 데이터 마이닝의 역사
 데이터의 축적(OLTP)
– 거대한 양의 데이터를 축적하게 됨 (데이터의 홍수)
 데이터의 통합 및 분석(OLAP)
– 분산된 데이터를 통합하고 분석하여 의미있는 정보를 찾음
 데이터 마이닝의 출현
– 자동화된 시스템을 통한 지식(Knowledge)의 추출과 활용
인공지능 통계학
60년대 70년대
MIS출현
- 데이터 축적
DB 통합
- 데이터의 통합
80년대
대용량 DB
- 통합 데이터
베이스 발전
마이닝
90년대
대용량 DB
- DW 발전
자료출처 : http://ai-times.tistory.com/32

데이터마이닝의 대상 데이터
 데이터의 예
 거래데이터 (Transaction DB)
– 고객ID, 구매일, 거래점, 거래파트, 브랜드명, 상품명, 가격.

 데이터의 예
 고객 프로파일 데이터 (User Profile DB)
– 성별,나이,주소,거주형태,자택여부,결혼여부,회원타입,가입일,가입점

 웹 로그 데이터(web log)

데이터마이닝의 과정
– Data mining: the core of
knowledge discovery
process.
Knowledge Interpretation
Data Mining
Task-relevant Data
Data transformations
Preprocessed
Data
Data Cleaning
Data Integration
Databases
Selection
자료출처 : osu 강의자료

Select Transform Mine Assimilate
자료선택 자료변환 정보추출 해석 및 취합
DATABASE 추출된
데이타
Selected
Data
Extracted
Data Assimilated
Transformed
Data
data
Visualization
가시화
자료출처 : KISTI 김진형

 고객관리 데이터 마이닝의 예
Select Transform Mine Assimilate
자료선택 자료변환 정보추출 해석 및 취합
Customers
Purchased
frozen
orange juice in
12oz cans
Royal Customers
(buys the same
brand 80% of
time)
60세 넘으신 분들
이 많이 산다
Target Audience
Purchase
History
Point of Sale
Data
Survey data

데이터 마이닝의 차별성
 가설 확인 중심의 기존 방식
질의도구
시각화도구
OLAP도구
DATA
 가설 자체를 발견하는 데이터 마이닝 방식
가설
고객의 직업과 수입
정도가 신용불량 여
부와 관련이 많다.
데이터마이닝
DATA
어떤 사람들이 신용불
량자(잠재)일까?
가설
*직업이 자영업,무
직등에 속한 사람들
*수입이 233만원이
하이고, 지역이A지
역에 거주하는 경우
신용불량 확률높음
검증 정보

Data Mining 기법의 분류
 발견할 지식의 종류에 따라
 Association(연관성 발견)
 Characterization(특성발견)
 Classification(분류)
 Summarization(요약)
 Clustering(군집화)
 Sequential Pattern Discovery(연속패턴발견)
 Trend(경향 발견)
 Deviation Detection(추세변화발견)

주요 Data Mining 기법
 연관 규칙(association rule)의 탐사
 A => B
1 소 주 ,콜 라 ,맥 주
2 소 주 ,콜 라 ,포 도 주
3 소 주 ,주 스
4 콜 라 ,맥 주
5 소 주 ,콜 라 ,맥 주 ,포 도 주
6 주 스
Association Rules
with
Maximum support
of 50%
판매 기록 Rules with
Support>50%
Supporting
Transactions
Confidence
소주콜라 1,2,5 75%
콜라소주 1,2,5 75%
콜라맥주 1,4,5 75%
맥주콜라 1,4,5 100% 자료출처 : KISTI 김진형

 분류화(classification)의 탐사
나이 가족수 직업 월수입 기대출신용액
Classifier
Class 1
신용도 우량
Class 2
신용도 보통
Class 3
신용도 불량

 분류화(classification)의 탐사
 Decision Tree
직업 ?
유 무
월수입
>=200
기대출금
<200
부양가족수
나이>25
No Yes
=0
>=1
<1000
>=3000
>=1000
<3000
 데이터로부터 Decision
Tree 자동생성 가능
 ID3 algorithm
우량 보통 불량

 sequential 패턴의 탐사
Transaction Time Customer Items Bought
96-06-20 10:13 am J.Kim Juice, Coke
96-06-20 11:03 am P.Jin W hisky
96-06-20 11:47 am J.Kim Beer
96-06-20 02:32 pm B.Mim Beer
96-06-21 09:23 am J.Kim Wine, W ater, Cider
96-06-21 03:19 pm S.Moon Beer, G in, C ider
96-06-21 05:55 pm B.Ahn Beer
96-06-21 06:03 pm B.Min Wine, C ider
96-06-22 10:34 am B.Ahn W hisky
96-06-22 05:31 pm B.Min W hisky
Sequential Pattern with
Support > 40%
Sequential Pattern
in DataBase
Supporting Customer
(Beer)(Whisky) B.Ahn,B.Min
(Beer)(Wine,Cider) J.Kim,B.Min

 Time Series 패턴의 탐사
14
12
10
8
6
4
2
14
12
10
8
6
4
2
0
Soda
0
Soda
Chips
Matching Curve
Found

 군집화(Clustering)
ID Sex 혼인 자녀 월수입
1 M S 0 150
2 M D 1 100
3 M M 2 100
4 F M 1 150
5 F D 1 150
6 F S 0 100
7 F M 2 100
1 M S 0 150
6 F S 0 100
2 M D 1 100
4 F M 1 150
5 F D 1 150
3 M M 2 100
7 F M 2 100

 군집화(Clustering)
Similarity = 2
1 M S 0 150
6 F S 0 100
2 M D 1 100
4 F M 1 150
5 F D 1 150
Similarity = 2
Diff=3
Diff=3
Diff=2.83
3 M M 2 100
7 F M 2 100
Similarity = 3
Total Score for this cluster partition = average similarity + average difference
= 2.33 + 2.94 = 5.27

국내 사례
 백화점 고객 분류
신상정보
매출정보
연체정보
신용도 정보
고객분류
Scoring기준표
우량
우수
보통
불량
매우불량
각 그룹의 신용한도

 백화점 고객 분류
Credit 신청자
신청자 분류
Credit 등급 및
신용한도 설정
통합고객 DB
연체정보
신상정보
매출정보
신용도정보
Decision Tree
기존고객 분류
고객 구룹별
Scoring
(Neural Network
Scoring 기준표

Collective Intelligence

개요 : 집단지성이란?
 Collective Intelligence(集團知性)
 다양한 사고활동을 하는 개인들이 서로 협업하거나 경쟁을 통하여 얻게 되는 집단적 지적
능력
– 미국의 곤충학자 윌리엄 모턴 휠러(William Morton Wheeler)가 1910년 출간한
《개미：그들의 구조·발달·행동 Ants：Their Structure, Development, and
Behavior》에서 처음 제시
– 개체로는 미미한 개미가 공동체로서 협업(協業)하여 거대한 개미집을 만들어내는 것을
관찰하였고, 이를 근거로 개미는 개체로서는 미미하지만 군집(群集)하여서는 높은 지능체계를
형성한다고 설명
22

개요 : 집단지성의 예
 Wikipedia(www.wikipedia.org)
 누구나 어떤 페이지도 만들고 수정할 수 있도록 만들어 놓은 백과사전
– 240년 역사의 브리태니커 백과사전 정보량을 단 몇 년 만에 뛰어 넘음
 브리태니커의 정보 정확도와 유사하며 정보량은 10배
 매일 약 2,000건의 새로운 항목이 등록, 200개 이상 언어 제공
23
edit

 Google(www.google.com)
 세계 최대의 인터넷 검색엔진
 PageRank 알고리즘을 이용하여 웹 페이지의 랭킹을 부여(래리 페이지)
– 웹 페이지의 중요성을 외부에서 그 웹 페이지를 가르키는 링크(역링크)를 기반으로 계산하는
알고리즘
– 즉, 역링크를 많이 가지고 있는 웹페이지 일수록 중요하다는 전제하에 페이지의 순위를 계산
 웹사용자들이 웹 페이지들을 만들어내고 웹 페이지에 접근하여 이용하는 집단적인 활동 속에
숨어있던 의미를 발견한 것에서 등장
24

 Netflix와 Amazon의 추천 시스템
 Netflix
– 온라인 DVD 대여회사로서, 사람들이 고른 영화를 집으로 배송해주고, 고객이 전에 빌린 영화를
기준으로 영화를 추천함
– Netflix Prize
• 정확도 10% 향상자에게 100만달러의 상금
2007년 : BellKor 8.43%
2008년 : BellKor in BigChaos 9.44%
2009년 : BellKor’s Pragmatic Chaos 10.05%

 Netflix Prize : Bellkor 추천시스템
 논문 : http://www.research.att.com/~volinsky/papers/ieeecomputer.pdf
User-oriented neighberhood Latent factor approach

집단 지성의 범위
 집단지성의 형태
데이터마이닝의 관심 분야
적용되는 방법들
기계학습과 통계, 단순상관분석,회귀분석, 의사결정트리..

Cognition의 사례
 검색
 구글의 PageRank
 추천시스템
 Amazon과 Netflix의 추천시스템
 Prediction Market
 할리우드 주식거래소(http://hsx.com)
 영화 또는 영화배우에 대한 주식 거래 예측
 e-Date
 Eharmony.com : 데이트 상대방을 맺어주는 사이트
 기타 응용
 금융사기 검출 : 신용카드 분실
 생물공학 : DNA 발현인자 탐색
 공급망 최적화

집단지성 프로그래밍 01-데이터마이닝 개요

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 집단지성 프로그래밍 01-데이터마이닝 개요

Similar to 집단지성 프로그래밍 01-데이터마이닝 개요 (20)

More from Kwang Woo NAM

More from Kwang Woo NAM (20)

집단지성 프로그래밍 01-데이터마이닝 개요