1. 빅데이터와 기술 트렌드
그리고
“강남스타일”과 타겟마케팅
Youngwhan Lee, Ph. D.
전화: 010-7997-0345
이메일: nicklee@konkuk.ac.kr
Facebook: Youngwhan Nick Lee
Twitter: nicklee002
1
2. Internet Today
2012:
• Social Media: Facebook (1 Billion Monthly Active Users)
• 문자 발명후 2003년까지 5 엑사 바이트 2012년 현재 매일 7 엑사바이트 데이터 생성 중
• Is “big data” a big pile of garbage?
빅데이터 상에서의 마케팅은?
1-2
3. 목차
1. 웹의 진화
– 지식/정보 추출 기술
2. 롱테일 현상과 산업
3. 데이터의 웹: Linked Open Data (LOD)
4. 큐레이션
5. 소셜미디어 분석
– 예: 강남스타일과 시사점
4. 빅 데이터 생성
• 개인 정보
– 크레딧 카드 사용
– 스마트 폰
• 위치 기반 서비스 앱
– 의료 센서
– 인터넷 사용
• 게임
• 검색
• 소셜 미디어 – Facebook, Twitter, Pinterest, …
• 공공 정보
– 각종 공공 센서
– 각종 정부 기관의 활동
6. 빅데이터 처리와 정보/지식 추출 기술
Aggregation
지식구조화 LOD
RIF 큐레이션
SPARQ
L
OWL
RDF
NoSQL 데이터 마이닝
MapReduce
Cloud Computing XML
R-DBMS
Understanding
Modified, based on Gene Bellinger, Durval Castro, Anthony Mills http://www.systems-thinking.org/dikw/dikw.htm , http://yjhyjh.egloos.com/39721
7. 정보/지식 추출 기술
• 정보 검색
– SEO(Search Engine Optimization) PageRank, EdgeRank
• Data Mining: 프로그램에 의한 정보(지식) 추출 가능
– 통계분석, Rule-based Analysis, 신경망 분석
– Visualization
• 지식공학 이용
– RDF/OWL 사용한 온톨로지(Ontology) 연결
– Raw Data 연결하고 분석 가능하도록 개방 (Linked Open Data; LOD)
– 프로그램에 의한 논리분석 가능한 지식 추출
• SPARQL
• RIF(Rule-based Interface Framework)
• 인간의 힘 이용: 큐레이션
– 인간의 눈과 지식을 이용하여 정보에 의미를 부여하고 필터하고 종합하는
작업
• 예: blog, pinterest.com, videocooki.com, storify.com, scoop.it, curated.by
10. Longtail Phenomena in IT
The Long Tail by Chris Anderson (Wired, Oct. ´04) adopted to
information domains
Longtail Application Universe
Mobile Apps
iPhone Apps
Popularity
Android Apps
SNS Apps
Facebook Apps
Twitter Apps
LOD Apps
Medical Apps
공공 정보 활용 Apps
…
…
… … …
Bighead Applications
11. The Birth of New Industries
• “In fact, we get the standards right, we believe this can be a big engine
for the economic growth of the country.”
- White House CIO
(http://www.whitehouse.gov/blog/2009/12/08/promoting-
transparency-government)
President Obama’s big hopes
• 공개정보 계획안: Open Government Initiative (2009)
• 빅데이터 R&D 계획안: Big Data R&D Initiative (2012)
13. What are the Problems with the Web?
• Not easy to find information
– “Data Mining” gives an answer of 30 Million Pages
• No way to find the information that I want
– How can you find the pianist name of a song that is
being played in the radio?
• Search results cannot be connected
– Companies that got venture capital investment more
than $1 Billions that is related Pyramidal Neurons
– Landlocked countries the population more than 10
Millions
• Vocabulary sensitive
– River that flows into Atlantic ocean?
• Data, information or knowledge that I am interested
does not find me real-time
14. The Web of Data
• 기술의 변화
– 하이퍼 텍스트에서 하이퍼데이터로
– 시맨틱 웹 레이어의 개발
• LOD
– Tim Berners-Lee’s 4 Principles
– LOD clouds began exploding
• Giant Global Graph (GGG)
15. Linked Open Data (LOD) Principles
Linking Open Data (LOD) is to connect and to open data to public
A little history of LOD Project
Tim Berners-Lee proposed LOD(Linking Open Data) project (2006)
Since the proposal, numerous countries and organizations participated, caused LOD to
explode in terms of the number of data
Wikipedia DBpedia (www.dbpedia.org)
Bio2RDF project opened in 27 fields of Biology, Genetics, Medical-related, of which the
data sets are about 2.3 billions (Bio2RDF.org) (2008.10)
BBC announced to participate LOD project (www.bbc.org), now one of the institutes
actively utilizing the data
US Data.gov released 5 billion data triples
US Library of Congress announced to join LOD project.
(http://id.loc.gov/authorities/sh85042531#concept)
NY Times ( data.nytimes.com) release their data of 150 years of publication (2009.10)
US Whitehouse release a plan to open data in RDF (2009.11)
1. Use URIs as names for things
4 Principles 2. Use HTTP URIs
of LOD 3. When someone looks up a URI, provide useful information
4. Include links to other URIs
29. 전희주: 텔레콤 이탈고객 분석
■ 양방향 해지자 네트워크 분석
• Color: 해지일자 별 표현
(빨간색->보라색: 해지일자 선->
후)
• Shape: 십자가 모양 (이탈유발자)
- Connector 및 Broker 역할 점수가 평
균점수보다 모두 높은 고객
• Size: 연령 (20대 ~ 50대 분포)
• Label: 해지일자
<그림 1> 102명 해지자들 간의 네트워 해지유발자를 찾아낼 수 있다
소셜 네트워크 분석을 통하여
29
크
출처: 2012 하계 통계학회 2012-11
31. 오빤 강남 스타일
• 8억 클릭 육박 중.
•2012년 7월 15일 뮤직비디오 공개
• 2012년 8월 24일, 40(+40)일 경과: 5000만 뷰
• 2012년 9월 4일, 52 (+11)일 경과: 1억 뷰
• 2012년 9월 12일, 60 (+8)일 경과: 1.5억 뷰
• 2012년 9월 18일, 66(+6)일 경과: 2억 뷰
• 2012년 9월 26일, 74일 경과: 3억 뷰
• 2012년 10월 20일, 98일 경과: 5억 284만 뷰
• 2012년 11월 20일, 128일 경과: 7억 704만 뷰
• 참고) 역대 유투브 조회수
– 1위: 저스틴 비버의 ‘Baby’ 7억 9105만 건
– 2위: 제니퍼 로페즈의 ‘On the floor’ 6억 1072만 건