SlideShare a Scribd company logo
1 of 28
Data Mining 
Kwang Woo Nam 
Department of Computer and Information Engineering 
Kunsan National University 
kwnam@kunsan.ac.kr 
Textbook: Programming in Collective Intelligence, Toby Segaran
데이터마이닝의 소개 
 데이터 마이닝(Data Mining) 
 Knowledge Discovery, Machine Learning 
 Big Data 
 데이터 마이닝의 정의 
대량의 데이터로부터 그 안에 함축되어 있는(implicit) 전에 
알려지지 않았던(previously unknown), 가치있고(non-trivial), 
잠정적으로 유용한(potentially useful) 정보 
(information)나 패턴(patterns)을 찾는 작업 
대용량의 데이터 
(Large Database) 
Mining 
데이터마이닝 : Collective Intelligence 2
데이터마이닝의 소개 
 데이터 마이닝의 역사 
 데이터의 축적(OLTP) 
– 거대한 양의 데이터를 축적하게 됨 (데이터의 홍수) 
 데이터의 통합 및 분석(OLAP) 
– 분산된 데이터를 통합하고 분석하여 의미있는 정보를 찾음 
 데이터 마이닝의 출현 
– 자동화된 시스템을 통한 지식(Knowledge)의 추출과 활용 
인공지능 통계학 
60년대 70년대 
MIS출현 
- 데이터 축적 
DB 통합 
- 데이터의 통합 
80년대 
대용량 DB 
- 통합 데이터 
베이스 발전 
마이닝 
90년대 
대용량 DB 
- DW 발전 
데이터마이닝 : Collective Intelligence 3 
자료출처 : http://ai-times.tistory.com/32
데이터마이닝의 대상 데이터 
 데이터의 예 
 거래데이터 (Transaction DB) 
– 고객ID, 구매일, 거래점, 거래파트, 브랜드명, 상품명, 가격. 
자료출처 : http://ai-times.tistory.com/32 
데이터마이닝 : Collective Intelligence 4
데이터마이닝의 대상 데이터 
 데이터의 예 
 고객 프로파일 데이터 (User Profile DB) 
– 성별,나이,주소,거주형태,자택여부,결혼여부,회원타입,가입일,가입점 
자료출처 : http://ai-times.tistory.com/32 
데이터마이닝 : Collective Intelligence 5
데이터마이닝의 대상 데이터 
 웹 로그 데이터(web log) 
데이터마이닝 : Collective Intelligence 6
데이터마이닝의 과정 
– Data mining: the core of 
knowledge discovery 
process. 
Knowledge Interpretation 
Data Mining 
Task-relevant Data 
Data transformations 
Preprocessed 
Data 
Data Cleaning 
Data Integration 
Databases 
Selection 
자료출처 : osu 강의자료 
데이터마이닝 : Collective Intelligence 7
데이터마이닝의 과정 
Select Transform Mine Assimilate 
자료선택 자료변환 정보추출 해석 및 취합 
DATABASE 추출된 
데이타 
Selected 
Data 
Extracted 
Data Assimilated 
Transformed 
Data 
data 
Visualization 
가시화 
자료출처 : KISTI 김진형 
데이터마이닝 : Collective Intelligence 8
데이터마이닝의 과정 
 고객관리 데이터 마이닝의 예 
Select Transform Mine Assimilate 
자료선택 자료변환 정보추출 해석 및 취합 
Customers 
Purchased 
frozen 
orange juice in 
12oz cans 
Royal Customers 
(buys the same 
brand 80% of 
time) 
60세 넘으신 분들 
이 많이 산다 
Target Audience 
자료출처 : KISTI 김진형 
데이터마이닝 : Collective Intelligence 9 
Purchase 
History 
Point of Sale 
Data 
Survey data
데이터 마이닝의 차별성 
 가설 확인 중심의 기존 방식 
질의도구 
시각화도구 
OLAP도구 
DATA 
 가설 자체를 발견하는 데이터 마이닝 방식 
가설 
고객의 직업과 수입 
정도가 신용불량 여 
부와 관련이 많다. 
데이터마이닝 
데이터마이닝 : Collective Intelligence 10 
DATA 
어떤 사람들이 신용불 
량자(잠재)일까? 
가설 
*직업이 자영업,무 
직등에 속한 사람들 
*수입이 233만원이 
하이고, 지역이A지 
역에 거주하는 경우 
신용불량 확률높음 
검증 정보 
자료출처 : http://ai-times.tistory.com/32
Data Mining 기법의 분류 
 발견할 지식의 종류에 따라 
 Association(연관성 발견) 
 Characterization(특성발견) 
 Classification(분류) 
 Summarization(요약) 
 Clustering(군집화) 
 Sequential Pattern Discovery(연속패턴발견) 
 Trend(경향 발견) 
 Deviation Detection(추세변화발견) 
데이터마이닝 : Collective Intelligence 11
주요 Data Mining 기법 
 연관 규칙(association rule)의 탐사 
 A => B 
1 소 주 ,콜 라 ,맥 주 
2 소 주 ,콜 라 ,포 도 주 
3 소 주 ,주 스 
4 콜 라 ,맥 주 
5 소 주 ,콜 라 ,맥 주 ,포 도 주 
6 주 스 
Association Rules 
with 
Maximum support 
of 50% 
판매 기록 Rules with 
Support>50% 
Supporting 
Transactions 
Confidence 
소주콜라 1,2,5 75% 
콜라소주 1,2,5 75% 
콜라맥주 1,4,5 75% 
맥주콜라 1,4,5 100% 자료출처 : KISTI 김진형 
데이터마이닝 : Collective Intelligence 12
주요 Data Mining 기법 
 분류화(classification)의 탐사 
나이 가족수 직업 월수입 기대출신용액 
Classifier 
Class 1 
신용도 우량 
Class 2 
신용도 보통 
Class 3 
신용도 불량 
자료출처 : KISTI 김진형 
데이터마이닝 : Collective Intelligence 13
주요 Data Mining 기법 
 분류화(classification)의 탐사 
 Decision Tree 
직업 ? 
유 무 
월수입 
>=200 
기대출금 
<200 
부양가족수 
나이>25 
No Yes 
=0 
>=1 
<1000 
>=3000 
>=1000 
<3000 
 데이터로부터 Decision 
Tree 자동생성 가능 
 ID3 algorithm 
우량 보통 불량 
자료출처 : KISTI 김진형 
데이터마이닝 : Collective Intelligence 14
주요 Data Mining 기법 
 sequential 패턴의 탐사 
Transaction Time Customer Items Bought 
96-06-20 10:13 am J.Kim Juice, Coke 
96-06-20 11:03 am P.Jin W hisky 
96-06-20 11:47 am J.Kim Beer 
96-06-20 02:32 pm B.Mim Beer 
96-06-21 09:23 am J.Kim Wine, W ater, Cider 
96-06-21 03:19 pm S.Moon Beer, G in, C ider 
96-06-21 05:55 pm B.Ahn Beer 
96-06-21 06:03 pm B.Min Wine, C ider 
96-06-22 10:34 am B.Ahn W hisky 
96-06-22 05:31 pm B.Min W hisky 
Sequential Pattern with 
Support > 40% 
Sequential Pattern 
in DataBase 
Supporting Customer 
(Beer)(Whisky) B.Ahn,B.Min 
(Beer)(Wine,Cider) J.Kim,B.Min 
자료출처 : KISTI 김진형 
데이터마이닝 : Collective Intelligence 15
주요 Data Mining 기법 
 Time Series 패턴의 탐사 
14 
12 
10 
8 
6 
4 
2 
데이터마이닝 : Collective Intelligence 16 
14 
12 
10 
8 
6 
4 
2 
0 
Soda 
0 
Soda 
Chips 
Matching Curve 
Found 
자료출처 : KISTI 김진형
주요 Data Mining 기법 
 군집화(Clustering) 
ID Sex 혼인 자녀 월수입 
1 M S 0 150 
2 M D 1 100 
3 M M 2 100 
4 F M 1 150 
5 F D 1 150 
6 F S 0 100 
7 F M 2 100 
ID Sex 혼인 자녀 월수입 
1 M S 0 150 
6 F S 0 100 
ID Sex 혼인 자녀 월수입 
2 M D 1 100 
4 F M 1 150 
5 F D 1 150 
ID Sex 혼인 자녀 월수입 
3 M M 2 100 
7 F M 2 100 
자료출처 : KISTI 김진형 
데이터마이닝 : Collective Intelligence 17
주요 Data Mining 기법 
 군집화(Clustering) 
Similarity = 2 
ID Sex 혼인 자녀 월수입 
1 M S 0 150 
6 F S 0 100 
ID Sex 혼인 자녀 월수입 
2 M D 1 100 
4 F M 1 150 
5 F D 1 150 
Similarity = 2 
Diff=3 
Diff=3 
Diff=2.83 
ID Sex 혼인 자녀 월수입 
3 M M 2 100 
7 F M 2 100 
Similarity = 3 
Total Score for this cluster partition = average similarity + average difference 
= 2.33 + 2.94 = 5.27 
자료출처 : KISTI 김진형 
데이터마이닝 : Collective Intelligence 18
국내 사례 
 백화점 고객 분류 
신상정보 
매출정보 
연체정보 
신용도 정보 
고객분류 
Scoring기준표 
우량 
우수 
보통 
불량 
매우불량 
각 그룹의 신용한도 
자료출처 : KISTI 김진형 
데이터마이닝 : Collective Intelligence 19
 백화점 고객 분류 
Credit 신청자 
신청자 분류 
Credit 등급 및 
신용한도 설정 
통합고객 DB 
연체정보 
신상정보 
매출정보 
신용도정보 
Decision Tree 
기존고객 분류 
고객 구룹별 
Scoring 
(Neural Network 
Scoring 기준표 
자료출처 : KISTI 김진형 
데이터마이닝 : Collective Intelligence 20
Collective Intelligence 
데이터마이닝 : Collective Intelligence 21
개요 : 집단지성이란? 
 Collective Intelligence(集團知性) 
 다양한 사고활동을 하는 개인들이 서로 협업하거나 경쟁을 통하여 얻게 되는 집단적 지적 
능력 
– 미국의 곤충학자 윌리엄 모턴 휠러(William Morton Wheeler)가 1910년 출간한 
《개미:그들의 구조·발달·행동 Ants:Their Structure, Development, and 
Behavior》에서 처음 제시 
– 개체로는 미미한 개미가 공동체로서 협업(協業)하여 거대한 개미집을 만들어내는 것을 
관찰하였고, 이를 근거로 개미는 개체로서는 미미하지만 군집(群集)하여서는 높은 지능체계를 
형성한다고 설명 
22
개요 : 집단지성의 예 
 Wikipedia(www.wikipedia.org) 
 누구나 어떤 페이지도 만들고 수정할 수 있도록 만들어 놓은 백과사전 
– 240년 역사의 브리태니커 백과사전 정보량을 단 몇 년 만에 뛰어 넘음 
 브리태니커의 정보 정확도와 유사하며 정보량은 10배 
 매일 약 2,000건의 새로운 항목이 등록, 200개 이상 언어 제공 
23 
edit
개요 : 집단지성의 예 
 Google(www.google.com) 
 세계 최대의 인터넷 검색엔진 
 PageRank 알고리즘을 이용하여 웹 페이지의 랭킹을 부여(래리 페이지) 
– 웹 페이지의 중요성을 외부에서 그 웹 페이지를 가르키는 링크(역링크)를 기반으로 계산하는 
알고리즘 
– 즉, 역링크를 많이 가지고 있는 웹페이지 일수록 중요하다는 전제하에 페이지의 순위를 계산 
 웹사용자들이 웹 페이지들을 만들어내고 웹 페이지에 접근하여 이용하는 집단적인 활동 속에 
숨어있던 의미를 발견한 것에서 등장 
24
개요 : 집단지성의 예 
 Netflix와 Amazon의 추천 시스템 
 Netflix 
– 온라인 DVD 대여회사로서, 사람들이 고른 영화를 집으로 배송해주고, 고객이 전에 빌린 영화를 
기준으로 영화를 추천함 
– Netflix Prize 
• 정확도 10% 향상자에게 100만달러의 상금 
2007년 : BellKor 8.43% 
2008년 : BellKor in BigChaos 9.44% 
2009년 : BellKor’s Pragmatic Chaos 10.05% 
데이터마이닝 : Collective Intelligence 25
개요 : 집단지성의 예 
 Netflix Prize : Bellkor 추천시스템 
 논문 : http://www.research.att.com/~volinsky/papers/ieeecomputer.pdf 
User-oriented neighberhood Latent factor approach 
데이터마이닝 : Collective Intelligence 26
집단 지성의 범위 
 집단지성의 형태 
데이터마이닝의 관심 분야 
적용되는 방법들 
기계학습과 통계, 단순상관분석,회귀분석, 의사결정트리.. 
데이터마이닝 : Collective Intelligence 27
Cognition의 사례 
 검색 
 구글의 PageRank 
 추천시스템 
 Amazon과 Netflix의 추천시스템 
 Prediction Market 
 할리우드 주식거래소(http://hsx.com) 
 영화 또는 영화배우에 대한 주식 거래 예측 
 e-Date 
 Eharmony.com : 데이트 상대방을 맺어주는 사이트 
 기타 응용 
 금융사기 검출 : 신용카드 분실 
 생물공학 : DNA 발현인자 탐색 
 공급망 최적화 
데이터마이닝 : Collective Intelligence 28

More Related Content

What's hot

StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~nocchi_airport
 
Veille documentaire, flux rss, agrégateurs de flux et social bookmarking
Veille documentaire, flux rss, agrégateurs de flux et social bookmarkingVeille documentaire, flux rss, agrégateurs de flux et social bookmarking
Veille documentaire, flux rss, agrégateurs de flux et social bookmarkingClaire Chignard
 
Opintojen keskeyttämistä ennustavat tekijät toisen asteen sosiaali- ja tervey...
Opintojen keskeyttämistä ennustavat tekijät toisen asteen sosiaali- ja tervey...Opintojen keskeyttämistä ennustavat tekijät toisen asteen sosiaali- ja tervey...
Opintojen keskeyttämistä ennustavat tekijät toisen asteen sosiaali- ja tervey...Anne-Marie Leskinen
 
Cahier des charges pour la création d'un data warehouse medical
Cahier des charges pour la création d'un data warehouse medicalCahier des charges pour la création d'un data warehouse medical
Cahier des charges pour la création d'un data warehouse medicalVincent H. Hupertan
 
Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]
Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]
Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]MongoDB
 
Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたStan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたhoxo_m
 
Présentation des bases de données NoSql
Présentation des bases de données NoSqlPrésentation des bases de données NoSql
Présentation des bases de données NoSqlSidi LEKHALIFA
 
Somの分かり易い解説
Somの分かり易い解説Somの分かり易い解説
Somの分かり易い解説Daisuke Takai
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Amani Baklouti
 
2部グラフとソーシャルネットワーク
2部グラフとソーシャルネットワーク2部グラフとソーシャルネットワーク
2部グラフとソーシャルネットワークHiroko Onari
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Les Base de Données NOSQL
Les Base de Données NOSQLLes Base de Données NOSQL
Les Base de Données NOSQLkamar MEDDAH
 
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Digital Thursday
 
Open Source North - MongoDB Advanced Schema Design Patterns
Open Source North - MongoDB Advanced Schema Design PatternsOpen Source North - MongoDB Advanced Schema Design Patterns
Open Source North - MongoDB Advanced Schema Design PatternsMatthew Kalan
 
In-memory OLTP storage with persistence and transaction support
In-memory OLTP storage with persistence and transaction supportIn-memory OLTP storage with persistence and transaction support
In-memory OLTP storage with persistence and transaction supportAlexander Korotkov
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析Mitsuo Shimohata
 
MCMCで研究報告
MCMCで研究報告MCMCで研究報告
MCMCで研究報告Masaru Tokuoka
 
実践で学ぶネットワーク分析
実践で学ぶネットワーク分析実践で学ぶネットワーク分析
実践で学ぶネットワーク分析Mitsunori Sato
 

What's hot (20)

StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
StanとRでベイズ統計モデリング読書会 Chapter 7(7.6-7.9) 回帰分析の悩みどころ ~統計の力で歌うまになりたい~
 
Veille documentaire, flux rss, agrégateurs de flux et social bookmarking
Veille documentaire, flux rss, agrégateurs de flux et social bookmarkingVeille documentaire, flux rss, agrégateurs de flux et social bookmarking
Veille documentaire, flux rss, agrégateurs de flux et social bookmarking
 
Opintojen keskeyttämistä ennustavat tekijät toisen asteen sosiaali- ja tervey...
Opintojen keskeyttämistä ennustavat tekijät toisen asteen sosiaali- ja tervey...Opintojen keskeyttämistä ennustavat tekijät toisen asteen sosiaali- ja tervey...
Opintojen keskeyttämistä ennustavat tekijät toisen asteen sosiaali- ja tervey...
 
Cahier des charges pour la création d'un data warehouse medical
Cahier des charges pour la création d'un data warehouse medicalCahier des charges pour la création d'un data warehouse medical
Cahier des charges pour la création d'un data warehouse medical
 
Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]
Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]
Naver속도의, 속도에 의한, 속도를 위한 몽고DB (네이버 컨텐츠검색과 몽고DB) [Naver]
 
Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたStan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみた
 
Présentation des bases de données NoSql
Présentation des bases de données NoSqlPrésentation des bases de données NoSql
Présentation des bases de données NoSql
 
Somの分かり易い解説
Somの分かり易い解説Somの分かり易い解説
Somの分かり易い解説
 
Cours fouille de donn+®es part1
Cours fouille de donn+®es part1Cours fouille de donn+®es part1
Cours fouille de donn+®es part1
 
2部グラフとソーシャルネットワーク
2部グラフとソーシャルネットワーク2部グラフとソーシャルネットワーク
2部グラフとソーシャルネットワーク
 
Memoire
MemoireMemoire
Memoire
 
Base des données réparties
Base des données répartiesBase des données réparties
Base des données réparties
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Les Base de Données NOSQL
Les Base de Données NOSQLLes Base de Données NOSQL
Les Base de Données NOSQL
 
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
 
Open Source North - MongoDB Advanced Schema Design Patterns
Open Source North - MongoDB Advanced Schema Design PatternsOpen Source North - MongoDB Advanced Schema Design Patterns
Open Source North - MongoDB Advanced Schema Design Patterns
 
In-memory OLTP storage with persistence and transaction support
In-memory OLTP storage with persistence and transaction supportIn-memory OLTP storage with persistence and transaction support
In-memory OLTP storage with persistence and transaction support
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
MCMCで研究報告
MCMCで研究報告MCMCで研究報告
MCMCで研究報告
 
実践で学ぶネットワーク分析
実践で学ぶネットワーク分析実践で学ぶネットワーク分析
実践で学ぶネットワーク分析
 

Similar to 집단지성 프로그래밍 01-데이터마이닝 개요

Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programmingSeongWan Son
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
(핀테크) 빅데이터 신용평가모형: 앨핀스코어
(핀테크) 빅데이터 신용평가모형: 앨핀스코어(핀테크) 빅데이터 신용평가모형: 앨핀스코어
(핀테크) 빅데이터 신용평가모형: 앨핀스코어Won Kun (원근) Yu
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기iron han
 
전자상거래 협업필터링
전자상거래 협업필터링전자상거래 협업필터링
전자상거래 협업필터링InJae Hwang
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아K data
 
빅데이터미래전략세미나 공공부문의 성공적 빅데이터 도입방안 Sas코리아이진권본부장
빅데이터미래전략세미나 공공부문의 성공적 빅데이터 도입방안 Sas코리아이진권본부장빅데이터미래전략세미나 공공부문의 성공적 빅데이터 도입방안 Sas코리아이진권본부장
빅데이터미래전략세미나 공공부문의 성공적 빅데이터 도입방안 Sas코리아이진권본부장Seungyeob Yang
 
[IBM Korea 김상훈] Watson Explorer
[IBM Korea 김상훈] Watson Explorer[IBM Korea 김상훈] Watson Explorer
[IBM Korea 김상훈] Watson Explorer(Joe), Sanghun Kim
 
Big data활용 ss
Big data활용 ssBig data활용 ss
Big data활용 ssJinSoo Park
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf효근 윤
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례Amazon Web Services Korea
 
Digital curation
Digital curationDigital curation
Digital curationiron han
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용수보 김
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21Donghan Kim
 
디포커스 전홍구
디포커스 전홍구디포커스 전홍구
디포커스 전홍구Newsjelly
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data AnalyticsDaemin Park
 
Mitigation of big data regulation deogtae kim
Mitigation of big data regulation deogtae kimMitigation of big data regulation deogtae kim
Mitigation of big data regulation deogtae kimDeogtae Kim
 
Nia 빅 데이터 세미나 이경일 (1)
Nia 빅 데이터 세미나   이경일 (1)Nia 빅 데이터 세미나   이경일 (1)
Nia 빅 데이터 세미나 이경일 (1)Peter Woo
 
시맨틱 소셜 네트워크 분석 사례 소개
시맨틱 소셜 네트워크 분석 사례 소개시맨틱 소셜 네트워크 분석 사례 소개
시맨틱 소셜 네트워크 분석 사례 소개webscikorea
 

Similar to 집단지성 프로그래밍 01-데이터마이닝 개요 (20)

Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programming
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
(핀테크) 빅데이터 신용평가모형: 앨핀스코어
(핀테크) 빅데이터 신용평가모형: 앨핀스코어(핀테크) 빅데이터 신용평가모형: 앨핀스코어
(핀테크) 빅데이터 신용평가모형: 앨핀스코어
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
전자상거래 협업필터링
전자상거래 협업필터링전자상거래 협업필터링
전자상거래 협업필터링
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
빅데이터미래전략세미나 공공부문의 성공적 빅데이터 도입방안 Sas코리아이진권본부장
빅데이터미래전략세미나 공공부문의 성공적 빅데이터 도입방안 Sas코리아이진권본부장빅데이터미래전략세미나 공공부문의 성공적 빅데이터 도입방안 Sas코리아이진권본부장
빅데이터미래전략세미나 공공부문의 성공적 빅데이터 도입방안 Sas코리아이진권본부장
 
[IBM Korea 김상훈] Watson Explorer
[IBM Korea 김상훈] Watson Explorer[IBM Korea 김상훈] Watson Explorer
[IBM Korea 김상훈] Watson Explorer
 
Big data활용 ss
Big data활용 ssBig data활용 ss
Big data활용 ss
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
 
Digital curation
Digital curationDigital curation
Digital curation
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
 
디포커스 전홍구
디포커스 전홍구디포커스 전홍구
디포커스 전홍구
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data Analytics
 
Mitigation of big data regulation deogtae kim
Mitigation of big data regulation deogtae kimMitigation of big data regulation deogtae kim
Mitigation of big data regulation deogtae kim
 
Nia 빅 데이터 세미나 이경일 (1)
Nia 빅 데이터 세미나   이경일 (1)Nia 빅 데이터 세미나   이경일 (1)
Nia 빅 데이터 세미나 이경일 (1)
 
시맨틱 소셜 네트워크 분석 사례 소개
시맨틱 소셜 네트워크 분석 사례 소개시맨틱 소셜 네트워크 분석 사례 소개
시맨틱 소셜 네트워크 분석 사례 소개
 

More from Kwang Woo NAM

메타버스시대의_디지털트윈과_지역성v01.pdf
메타버스시대의_디지털트윈과_지역성v01.pdf메타버스시대의_디지털트윈과_지역성v01.pdf
메타버스시대의_디지털트윈과_지역성v01.pdfKwang Woo NAM
 
해양디지털트윈v02.pdf
해양디지털트윈v02.pdf해양디지털트윈v02.pdf
해양디지털트윈v02.pdfKwang Woo NAM
 
Moving objects media data computing(2019)
Moving objects media data computing(2019)Moving objects media data computing(2019)
Moving objects media data computing(2019)Kwang Woo NAM
 
Moving Objects and Spatial Data Computing
Moving Objects and Spatial Data ComputingMoving Objects and Spatial Data Computing
Moving Objects and Spatial Data ComputingKwang Woo NAM
 
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석Kwang Woo NAM
 
[공간정보시스템 개론] L04 항공사진의 이해
[공간정보시스템 개론] L04 항공사진의 이해[공간정보시스템 개론] L04 항공사진의 이해
[공간정보시스템 개론] L04 항공사진의 이해Kwang Woo NAM
 
[공간정보시스템 개론] L03 지구의형상과좌표체계
[공간정보시스템 개론] L03 지구의형상과좌표체계[공간정보시스템 개론] L03 지구의형상과좌표체계
[공간정보시스템 개론] L03 지구의형상과좌표체계Kwang Woo NAM
 
[공간정보시스템 개론] L02 공간정보와 지리정보
[공간정보시스템 개론] L02 공간정보와 지리정보[공간정보시스템 개론] L02 공간정보와 지리정보
[공간정보시스템 개론] L02 공간정보와 지리정보Kwang Woo NAM
 
[공간정보시스템 개론] L01 공간정보시스템개요
[공간정보시스템 개론] L01 공간정보시스템개요[공간정보시스템 개론] L01 공간정보시스템개요
[공간정보시스템 개론] L01 공간정보시스템개요Kwang Woo NAM
 
[공간정보시스템 개론] L12 공간정보분석
[공간정보시스템 개론] L12 공간정보분석[공간정보시스템 개론] L12 공간정보분석
[공간정보시스템 개론] L12 공간정보분석Kwang Woo NAM
 
[공간정보시스템 개론] L11 공간정보의 구축
[공간정보시스템 개론] L11 공간정보의 구축[공간정보시스템 개론] L11 공간정보의 구축
[공간정보시스템 개론] L11 공간정보의 구축Kwang Woo NAM
 
[공간정보시스템 개론] L10 수치표고모델
[공간정보시스템 개론] L10 수치표고모델[공간정보시스템 개론] L10 수치표고모델
[공간정보시스템 개론] L10 수치표고모델Kwang Woo NAM
 
[공간정보시스템 개론] L09 공간 데이터 모델
[공간정보시스템 개론] L09 공간 데이터 모델[공간정보시스템 개론] L09 공간 데이터 모델
[공간정보시스템 개론] L09 공간 데이터 모델Kwang Woo NAM
 
[공간정보시스템 개론] L08 gnss의 개념과 활용
[공간정보시스템 개론] L08 gnss의 개념과 활용[공간정보시스템 개론] L08 gnss의 개념과 활용
[공간정보시스템 개론] L08 gnss의 개념과 활용Kwang Woo NAM
 
[공간정보시스템 개론] L07 원격탐사의 개념과 활용
[공간정보시스템 개론] L07 원격탐사의 개념과 활용[공간정보시스템 개론] L07 원격탐사의 개념과 활용
[공간정보시스템 개론] L07 원격탐사의 개념과 활용Kwang Woo NAM
 
[공간정보시스템 개론] L06 GIS의 이해
[공간정보시스템 개론] L06 GIS의 이해[공간정보시스템 개론] L06 GIS의 이해
[공간정보시스템 개론] L06 GIS의 이해Kwang Woo NAM
 
[공간정보시스템 개론] L05 우리나라의 수치지도
[공간정보시스템 개론] L05 우리나라의 수치지도[공간정보시스템 개론] L05 우리나라의 수치지도
[공간정보시스템 개론] L05 우리나라의 수치지도Kwang Woo NAM
 
Swift 3 Programming for iOS : Protocol
Swift 3 Programming for iOS : ProtocolSwift 3 Programming for iOS : Protocol
Swift 3 Programming for iOS : ProtocolKwang Woo NAM
 
Swift 3 Programming for iOS : extension
Swift 3 Programming for iOS : extensionSwift 3 Programming for iOS : extension
Swift 3 Programming for iOS : extensionKwang Woo NAM
 
Swift 3 Programming for iOS : Enumeration
Swift 3 Programming for iOS : EnumerationSwift 3 Programming for iOS : Enumeration
Swift 3 Programming for iOS : EnumerationKwang Woo NAM
 

More from Kwang Woo NAM (20)

메타버스시대의_디지털트윈과_지역성v01.pdf
메타버스시대의_디지털트윈과_지역성v01.pdf메타버스시대의_디지털트윈과_지역성v01.pdf
메타버스시대의_디지털트윈과_지역성v01.pdf
 
해양디지털트윈v02.pdf
해양디지털트윈v02.pdf해양디지털트윈v02.pdf
해양디지털트윈v02.pdf
 
Moving objects media data computing(2019)
Moving objects media data computing(2019)Moving objects media data computing(2019)
Moving objects media data computing(2019)
 
Moving Objects and Spatial Data Computing
Moving Objects and Spatial Data ComputingMoving Objects and Spatial Data Computing
Moving Objects and Spatial Data Computing
 
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
 
[공간정보시스템 개론] L04 항공사진의 이해
[공간정보시스템 개론] L04 항공사진의 이해[공간정보시스템 개론] L04 항공사진의 이해
[공간정보시스템 개론] L04 항공사진의 이해
 
[공간정보시스템 개론] L03 지구의형상과좌표체계
[공간정보시스템 개론] L03 지구의형상과좌표체계[공간정보시스템 개론] L03 지구의형상과좌표체계
[공간정보시스템 개론] L03 지구의형상과좌표체계
 
[공간정보시스템 개론] L02 공간정보와 지리정보
[공간정보시스템 개론] L02 공간정보와 지리정보[공간정보시스템 개론] L02 공간정보와 지리정보
[공간정보시스템 개론] L02 공간정보와 지리정보
 
[공간정보시스템 개론] L01 공간정보시스템개요
[공간정보시스템 개론] L01 공간정보시스템개요[공간정보시스템 개론] L01 공간정보시스템개요
[공간정보시스템 개론] L01 공간정보시스템개요
 
[공간정보시스템 개론] L12 공간정보분석
[공간정보시스템 개론] L12 공간정보분석[공간정보시스템 개론] L12 공간정보분석
[공간정보시스템 개론] L12 공간정보분석
 
[공간정보시스템 개론] L11 공간정보의 구축
[공간정보시스템 개론] L11 공간정보의 구축[공간정보시스템 개론] L11 공간정보의 구축
[공간정보시스템 개론] L11 공간정보의 구축
 
[공간정보시스템 개론] L10 수치표고모델
[공간정보시스템 개론] L10 수치표고모델[공간정보시스템 개론] L10 수치표고모델
[공간정보시스템 개론] L10 수치표고모델
 
[공간정보시스템 개론] L09 공간 데이터 모델
[공간정보시스템 개론] L09 공간 데이터 모델[공간정보시스템 개론] L09 공간 데이터 모델
[공간정보시스템 개론] L09 공간 데이터 모델
 
[공간정보시스템 개론] L08 gnss의 개념과 활용
[공간정보시스템 개론] L08 gnss의 개념과 활용[공간정보시스템 개론] L08 gnss의 개념과 활용
[공간정보시스템 개론] L08 gnss의 개념과 활용
 
[공간정보시스템 개론] L07 원격탐사의 개념과 활용
[공간정보시스템 개론] L07 원격탐사의 개념과 활용[공간정보시스템 개론] L07 원격탐사의 개념과 활용
[공간정보시스템 개론] L07 원격탐사의 개념과 활용
 
[공간정보시스템 개론] L06 GIS의 이해
[공간정보시스템 개론] L06 GIS의 이해[공간정보시스템 개론] L06 GIS의 이해
[공간정보시스템 개론] L06 GIS의 이해
 
[공간정보시스템 개론] L05 우리나라의 수치지도
[공간정보시스템 개론] L05 우리나라의 수치지도[공간정보시스템 개론] L05 우리나라의 수치지도
[공간정보시스템 개론] L05 우리나라의 수치지도
 
Swift 3 Programming for iOS : Protocol
Swift 3 Programming for iOS : ProtocolSwift 3 Programming for iOS : Protocol
Swift 3 Programming for iOS : Protocol
 
Swift 3 Programming for iOS : extension
Swift 3 Programming for iOS : extensionSwift 3 Programming for iOS : extension
Swift 3 Programming for iOS : extension
 
Swift 3 Programming for iOS : Enumeration
Swift 3 Programming for iOS : EnumerationSwift 3 Programming for iOS : Enumeration
Swift 3 Programming for iOS : Enumeration
 

집단지성 프로그래밍 01-데이터마이닝 개요

  • 1. Data Mining Kwang Woo Nam Department of Computer and Information Engineering Kunsan National University kwnam@kunsan.ac.kr Textbook: Programming in Collective Intelligence, Toby Segaran
  • 2. 데이터마이닝의 소개  데이터 마이닝(Data Mining)  Knowledge Discovery, Machine Learning  Big Data  데이터 마이닝의 정의 대량의 데이터로부터 그 안에 함축되어 있는(implicit) 전에 알려지지 않았던(previously unknown), 가치있고(non-trivial), 잠정적으로 유용한(potentially useful) 정보 (information)나 패턴(patterns)을 찾는 작업 대용량의 데이터 (Large Database) Mining 데이터마이닝 : Collective Intelligence 2
  • 3. 데이터마이닝의 소개  데이터 마이닝의 역사  데이터의 축적(OLTP) – 거대한 양의 데이터를 축적하게 됨 (데이터의 홍수)  데이터의 통합 및 분석(OLAP) – 분산된 데이터를 통합하고 분석하여 의미있는 정보를 찾음  데이터 마이닝의 출현 – 자동화된 시스템을 통한 지식(Knowledge)의 추출과 활용 인공지능 통계학 60년대 70년대 MIS출현 - 데이터 축적 DB 통합 - 데이터의 통합 80년대 대용량 DB - 통합 데이터 베이스 발전 마이닝 90년대 대용량 DB - DW 발전 데이터마이닝 : Collective Intelligence 3 자료출처 : http://ai-times.tistory.com/32
  • 4. 데이터마이닝의 대상 데이터  데이터의 예  거래데이터 (Transaction DB) – 고객ID, 구매일, 거래점, 거래파트, 브랜드명, 상품명, 가격. 자료출처 : http://ai-times.tistory.com/32 데이터마이닝 : Collective Intelligence 4
  • 5. 데이터마이닝의 대상 데이터  데이터의 예  고객 프로파일 데이터 (User Profile DB) – 성별,나이,주소,거주형태,자택여부,결혼여부,회원타입,가입일,가입점 자료출처 : http://ai-times.tistory.com/32 데이터마이닝 : Collective Intelligence 5
  • 6. 데이터마이닝의 대상 데이터  웹 로그 데이터(web log) 데이터마이닝 : Collective Intelligence 6
  • 7. 데이터마이닝의 과정 – Data mining: the core of knowledge discovery process. Knowledge Interpretation Data Mining Task-relevant Data Data transformations Preprocessed Data Data Cleaning Data Integration Databases Selection 자료출처 : osu 강의자료 데이터마이닝 : Collective Intelligence 7
  • 8. 데이터마이닝의 과정 Select Transform Mine Assimilate 자료선택 자료변환 정보추출 해석 및 취합 DATABASE 추출된 데이타 Selected Data Extracted Data Assimilated Transformed Data data Visualization 가시화 자료출처 : KISTI 김진형 데이터마이닝 : Collective Intelligence 8
  • 9. 데이터마이닝의 과정  고객관리 데이터 마이닝의 예 Select Transform Mine Assimilate 자료선택 자료변환 정보추출 해석 및 취합 Customers Purchased frozen orange juice in 12oz cans Royal Customers (buys the same brand 80% of time) 60세 넘으신 분들 이 많이 산다 Target Audience 자료출처 : KISTI 김진형 데이터마이닝 : Collective Intelligence 9 Purchase History Point of Sale Data Survey data
  • 10. 데이터 마이닝의 차별성  가설 확인 중심의 기존 방식 질의도구 시각화도구 OLAP도구 DATA  가설 자체를 발견하는 데이터 마이닝 방식 가설 고객의 직업과 수입 정도가 신용불량 여 부와 관련이 많다. 데이터마이닝 데이터마이닝 : Collective Intelligence 10 DATA 어떤 사람들이 신용불 량자(잠재)일까? 가설 *직업이 자영업,무 직등에 속한 사람들 *수입이 233만원이 하이고, 지역이A지 역에 거주하는 경우 신용불량 확률높음 검증 정보 자료출처 : http://ai-times.tistory.com/32
  • 11. Data Mining 기법의 분류  발견할 지식의 종류에 따라  Association(연관성 발견)  Characterization(특성발견)  Classification(분류)  Summarization(요약)  Clustering(군집화)  Sequential Pattern Discovery(연속패턴발견)  Trend(경향 발견)  Deviation Detection(추세변화발견) 데이터마이닝 : Collective Intelligence 11
  • 12. 주요 Data Mining 기법  연관 규칙(association rule)의 탐사  A => B 1 소 주 ,콜 라 ,맥 주 2 소 주 ,콜 라 ,포 도 주 3 소 주 ,주 스 4 콜 라 ,맥 주 5 소 주 ,콜 라 ,맥 주 ,포 도 주 6 주 스 Association Rules with Maximum support of 50% 판매 기록 Rules with Support>50% Supporting Transactions Confidence 소주콜라 1,2,5 75% 콜라소주 1,2,5 75% 콜라맥주 1,4,5 75% 맥주콜라 1,4,5 100% 자료출처 : KISTI 김진형 데이터마이닝 : Collective Intelligence 12
  • 13. 주요 Data Mining 기법  분류화(classification)의 탐사 나이 가족수 직업 월수입 기대출신용액 Classifier Class 1 신용도 우량 Class 2 신용도 보통 Class 3 신용도 불량 자료출처 : KISTI 김진형 데이터마이닝 : Collective Intelligence 13
  • 14. 주요 Data Mining 기법  분류화(classification)의 탐사  Decision Tree 직업 ? 유 무 월수입 >=200 기대출금 <200 부양가족수 나이>25 No Yes =0 >=1 <1000 >=3000 >=1000 <3000  데이터로부터 Decision Tree 자동생성 가능  ID3 algorithm 우량 보통 불량 자료출처 : KISTI 김진형 데이터마이닝 : Collective Intelligence 14
  • 15. 주요 Data Mining 기법  sequential 패턴의 탐사 Transaction Time Customer Items Bought 96-06-20 10:13 am J.Kim Juice, Coke 96-06-20 11:03 am P.Jin W hisky 96-06-20 11:47 am J.Kim Beer 96-06-20 02:32 pm B.Mim Beer 96-06-21 09:23 am J.Kim Wine, W ater, Cider 96-06-21 03:19 pm S.Moon Beer, G in, C ider 96-06-21 05:55 pm B.Ahn Beer 96-06-21 06:03 pm B.Min Wine, C ider 96-06-22 10:34 am B.Ahn W hisky 96-06-22 05:31 pm B.Min W hisky Sequential Pattern with Support > 40% Sequential Pattern in DataBase Supporting Customer (Beer)(Whisky) B.Ahn,B.Min (Beer)(Wine,Cider) J.Kim,B.Min 자료출처 : KISTI 김진형 데이터마이닝 : Collective Intelligence 15
  • 16. 주요 Data Mining 기법  Time Series 패턴의 탐사 14 12 10 8 6 4 2 데이터마이닝 : Collective Intelligence 16 14 12 10 8 6 4 2 0 Soda 0 Soda Chips Matching Curve Found 자료출처 : KISTI 김진형
  • 17. 주요 Data Mining 기법  군집화(Clustering) ID Sex 혼인 자녀 월수입 1 M S 0 150 2 M D 1 100 3 M M 2 100 4 F M 1 150 5 F D 1 150 6 F S 0 100 7 F M 2 100 ID Sex 혼인 자녀 월수입 1 M S 0 150 6 F S 0 100 ID Sex 혼인 자녀 월수입 2 M D 1 100 4 F M 1 150 5 F D 1 150 ID Sex 혼인 자녀 월수입 3 M M 2 100 7 F M 2 100 자료출처 : KISTI 김진형 데이터마이닝 : Collective Intelligence 17
  • 18. 주요 Data Mining 기법  군집화(Clustering) Similarity = 2 ID Sex 혼인 자녀 월수입 1 M S 0 150 6 F S 0 100 ID Sex 혼인 자녀 월수입 2 M D 1 100 4 F M 1 150 5 F D 1 150 Similarity = 2 Diff=3 Diff=3 Diff=2.83 ID Sex 혼인 자녀 월수입 3 M M 2 100 7 F M 2 100 Similarity = 3 Total Score for this cluster partition = average similarity + average difference = 2.33 + 2.94 = 5.27 자료출처 : KISTI 김진형 데이터마이닝 : Collective Intelligence 18
  • 19. 국내 사례  백화점 고객 분류 신상정보 매출정보 연체정보 신용도 정보 고객분류 Scoring기준표 우량 우수 보통 불량 매우불량 각 그룹의 신용한도 자료출처 : KISTI 김진형 데이터마이닝 : Collective Intelligence 19
  • 20.  백화점 고객 분류 Credit 신청자 신청자 분류 Credit 등급 및 신용한도 설정 통합고객 DB 연체정보 신상정보 매출정보 신용도정보 Decision Tree 기존고객 분류 고객 구룹별 Scoring (Neural Network Scoring 기준표 자료출처 : KISTI 김진형 데이터마이닝 : Collective Intelligence 20
  • 21. Collective Intelligence 데이터마이닝 : Collective Intelligence 21
  • 22. 개요 : 집단지성이란?  Collective Intelligence(集團知性)  다양한 사고활동을 하는 개인들이 서로 협업하거나 경쟁을 통하여 얻게 되는 집단적 지적 능력 – 미국의 곤충학자 윌리엄 모턴 휠러(William Morton Wheeler)가 1910년 출간한 《개미:그들의 구조·발달·행동 Ants:Their Structure, Development, and Behavior》에서 처음 제시 – 개체로는 미미한 개미가 공동체로서 협업(協業)하여 거대한 개미집을 만들어내는 것을 관찰하였고, 이를 근거로 개미는 개체로서는 미미하지만 군집(群集)하여서는 높은 지능체계를 형성한다고 설명 22
  • 23. 개요 : 집단지성의 예  Wikipedia(www.wikipedia.org)  누구나 어떤 페이지도 만들고 수정할 수 있도록 만들어 놓은 백과사전 – 240년 역사의 브리태니커 백과사전 정보량을 단 몇 년 만에 뛰어 넘음  브리태니커의 정보 정확도와 유사하며 정보량은 10배  매일 약 2,000건의 새로운 항목이 등록, 200개 이상 언어 제공 23 edit
  • 24. 개요 : 집단지성의 예  Google(www.google.com)  세계 최대의 인터넷 검색엔진  PageRank 알고리즘을 이용하여 웹 페이지의 랭킹을 부여(래리 페이지) – 웹 페이지의 중요성을 외부에서 그 웹 페이지를 가르키는 링크(역링크)를 기반으로 계산하는 알고리즘 – 즉, 역링크를 많이 가지고 있는 웹페이지 일수록 중요하다는 전제하에 페이지의 순위를 계산  웹사용자들이 웹 페이지들을 만들어내고 웹 페이지에 접근하여 이용하는 집단적인 활동 속에 숨어있던 의미를 발견한 것에서 등장 24
  • 25. 개요 : 집단지성의 예  Netflix와 Amazon의 추천 시스템  Netflix – 온라인 DVD 대여회사로서, 사람들이 고른 영화를 집으로 배송해주고, 고객이 전에 빌린 영화를 기준으로 영화를 추천함 – Netflix Prize • 정확도 10% 향상자에게 100만달러의 상금 2007년 : BellKor 8.43% 2008년 : BellKor in BigChaos 9.44% 2009년 : BellKor’s Pragmatic Chaos 10.05% 데이터마이닝 : Collective Intelligence 25
  • 26. 개요 : 집단지성의 예  Netflix Prize : Bellkor 추천시스템  논문 : http://www.research.att.com/~volinsky/papers/ieeecomputer.pdf User-oriented neighberhood Latent factor approach 데이터마이닝 : Collective Intelligence 26
  • 27. 집단 지성의 범위  집단지성의 형태 데이터마이닝의 관심 분야 적용되는 방법들 기계학습과 통계, 단순상관분석,회귀분석, 의사결정트리.. 데이터마이닝 : Collective Intelligence 27
  • 28. Cognition의 사례  검색  구글의 PageRank  추천시스템  Amazon과 Netflix의 추천시스템  Prediction Market  할리우드 주식거래소(http://hsx.com)  영화 또는 영화배우에 대한 주식 거래 예측  e-Date  Eharmony.com : 데이트 상대방을 맺어주는 사이트  기타 응용  금융사기 검출 : 신용카드 분실  생물공학 : DNA 발현인자 탐색  공급망 최적화 데이터마이닝 : Collective Intelligence 28