3. 3
Big Data ?
Size ?
3V ?
Volume
Velocity
Variety
2010
2011
2012
2015
2020
1.2ZB
1.8ZB
2.5ZB
7.9ZB
35ZB
1,000,000,000 Tera
= 1,000,000 Peta
= 1,000 Exta
= 1 Zetta
120분 HD영화
3천억 편
1사람이 6,500만년
볼 수 있는 분량
1초당
3백만
이메일
1분당
20시간
동영상
1일당
5천만
트윗
DBMS
센서
로그
텍스트
이메일
오피스
오디오
비디오
이미지
“기존 방법으로 처리하기 힘든
복잡도가 큰 데이터 집합”
4. 4
Big Data Superstition!
1)
“빅 데이터는 규모가 정말 큰 데이터를 말한다.”
2)
“더 큰 데이터에서 더 큰 인사이트를 얻을 수 있다”
3)
“빅 데이터 분석은 소셜 데이터(SNS)분석을 말한다”
4)
“빅 데이터 분석의 핵심은 미래 예측에 있다”
5)
“성공적 빅 데이터 분석은 신기술 이해와 적용에서 시작된다”
6)
“빅 데이터 처리는 하둡(Hadoop)의 사용이 필수적이다”
7)
“빅 데이터 기술은 거대 IT 시장을 만들어 줄 것이다”
8)
“빅 데이터 사업은 기존 BI 사업이 확장, 발전된 것이다”
9)
“빅 데이터 분석은 분석 전문가와 경영자를 위한 것이다”
5. 5
Big Data Superstition!
“빅 데이터는 규모가
정말 큰 데이터
를 말한다.”
미신 #1
“빅 데이터는 처리의
난이도가 정말
큰 데이터를 말한다”
진실 #1
6. 6
Big Data Superstition!
“더 큰 데이터에서 더 큰 인사이트를 얻을 수 있다”
미신 #2
“여전히 의미 있는
데이터를 잘 선택하는
것이 더 중요하다”
진실 #2
7. 7
Big Data Superstition!
“빅 데이터 분석은
소셜 데이터(SNS)
분석을 말한다”
미신 #3
“소셜 데이터는 빅 데이터 소스 중 일부일 뿐이다”
진실 #3
8. 8
Big Data Superstition!
“빅 데이터 분석의
핵심은 미래 예측
에 있다”
미신 #4
“현 상황의 올바른
이해와 최적화가
핵심이다”
진실 #4
9. 9
Big Data Superstition!
“성공적 빅 데이터
분석은 신기술 이해
와 적용에서 시작된다”
미신 #5
“명확한 목표 설정과
사람 중심의 기계와
협업이 성공을 좌우한다”
진실 #5
10. 10
Big Data Superstition!
“빅 데이터 처리는
하둡(Hadoop)의
사용이 필수적이다”
미신 #6
“하둡은 필요 시
사용되는 도구가
될 것이다”
진실 #6
11. 11
Big Data Superstition!
“빅 데이터 기술은
거대 IT 시장을
만들어 줄 것이다”
미신 #7
“빅 데이터 가치를
서비스로 연결한
소수만 승리할 것이다”
진실 #7
12. 12
Big Data Superstition!
“빅 데이터 사업은
기존 BI 사업이
확장, 발전된 것이다”
미신 #8
“BI는 응용 중 하나,
스트림, 그래프, 비정형 빅 데이터 분석 등,
새 가치를 추구한다”
진실 #8
13. 13
Big Data Superstition!
“빅 데이터 분석은 분석 전문가와 경영자를 위한 것이다”
미신 #9
“빅 데이터 가치
평가와 최종 수혜자는
일반인이다”
진실 #9
14. 14
빅데이터 분석 처리 기술
NLP
Machine
Learning
Text
Mining
Hadoop,
NoSQL
IR
(Search)
Semantics
Crawling
In-memory
Analytics
Statistics
(R)
Visualization
15. 15
빅 데이터 분석 플랫폼 개념
소셜 데이터
기업 데이터
금융 데이터
통신 데이터
안보 데이터
의료 데이터
사회, 시장 트랜드 분석
고객, 시민 목소리 분석
제품, 서비스 평판 분석
경쟁자 모니터링, 분석
사업 리스크 감지, 분석
부정 사용자, 비리 감지
빅 데이터
분석 플랫폼
심층 분석 서비스
기대 효과
클라우드 컴퓨팅 인프라
데이터 수집/통합/관리 인프라
분석 기술 인프라
자연어처리, 기계학습, 통계, 시맨틱/추론
분석 서비스 컴포넌트
트랜드, 분류, 군집, 사회망, 인물, 감성
분석 워크플로우 시스템
분석 서비스 응용 및 시각화
분산, 병렬처리 인프라
하둡, NoSQL(HBASE, mongoDB, …)
실시간 마케팅
최적화
경쟁 전략
최적화
동적 비용
최적화
신 사업,
정책 발굴
위험 조기 감지
사전 대응
생산 데이터
생산 시스템 모니터링
생산 시스템
최적화
16. 16
빅데이터 분석 처리 및 이해 능력
Hal R. Varian - Chief Economist at Google
데이터
획득하는 능력
데이터
처리하는 능력
데이터
이해하는 능력
데이터
전달하는 능력
데이터
가치를 추출 능력
데이터
시각화하는 능력
18. 18
1. 포인트 카드 시장 주변 둘러보기
개요/사용처
C 포인트 카드와 A그룹의 멤버십 서비스인 해피포인트 카드 기능을 결합
•
전국 GS25, GS칼텍스, 이마트,신세계백화점(적립만 가능)를 비롯한 GS&포인트 가맹점
•
교보문고, 롯데리아, 맥도날드, 스토리웨이 등의 유통 가맹점
•
2012년 상반기에 전국 던킨 도너츠, 베스킨라빈스, 파리바게뜨를 비롯한 해피포인트 가맹점으로 확대 완료
A그룹의 통합 멤버쉽 카드
•
파리크라상, 파리바게뜨, 베스킨라빈스, 던킨도너츠, 파스쿠찌, 빚은, 리나스, 타마티
•
잠바주스, 스트릿, 라그릴리아, 한상차림, 베라피자나폴리, 퀸즈파크, 쁘디5, 라브리
적립 / 사용
기본 적립율 – 5%
1천점 이상부터 현금처럼 사용 가능
B 통합 멤버쉽 카드
•
CGV
•
뚜레주르, 빕스, 투섬플레이스, 비비고, 콜드스톤크리머리, 차이나팩토리, 더플레이스, 제일제면소, CJ푸드월드, 더 스테이크하우스, 바이 빕스, 퍼스트룩,
•
CJ Mall, Tving, Mnet, 올리브영, CJ온마트, CJ E&M, 마이캐치온 등
기본 적립율 – 5%
1천점 이상부터 현금처럼 사용 가능 (제휴 정책에 따라 차별화)
적립율 – 0.5~2%
1천점 이상부터 현금처럼 사용 가능 (제휴 정책에 따라 차별화)
19. 19
2. 포인트 카드 마케팅 담당의 고민
회원가입 증가
포인트 사용
증가
제휴 가맹점
확대
캠페인효과 극대화
20. 20
3. 포인트 마케팅 담당의 고민 해결을 위해 필요한 정보는?
회원가입 증가
•
시기별 회원가입 증가 정보
•
지역별 회원가입 정보
•
연령별 회원가입 정보
포인트 사용 증가
•
시기별 포인트 적립/사용 정보
•
가맹점별(업종별) 포인트 적립/사용 정보
•
연령별 포인트 적립/사용 정보 등
제휴 가맹점
확대
•
가맹점별 포인트 적립/사용 정보
•
가맹점별-연령별 포인트 적립/사용 정보
•
가맹점별 매출액 정보 등
캠페인효과 극대화
•
캠페인 프로그램 별 회원 반응 정보
•
캠페인 대상 회원별 포인트 적립/사용 정보
•
캠페인 대상 가맹점별 포인트 적립/사용 정보
회사 외부에서 수집해야 할 정보는 무엇인가?
21. 21
오늘 실습은 크롬 브라우저를 통해 접속 합니다
http://www.kbig.kr/index.php
22. 22
실습 서버 코드
http://www.kbig.kr/index.php
XGSVYKIK
23. 23
4. 고민 해결을 위해 사전에 수집한 정보 형태
포인트 카드 사용자의 업종별 / 일자별 지출 내역 분석을 통해 차별화된 캠페인 프로그램을 기획한다
KBiG
리파지토리
카드 데이터
코드 데이터
00.get_data.sh 실행
card_trade.csv 파일 오픈한다.
code.csv 파일 오픈한다.
수집
가공
저장
분석
시각화
24. 24
5. 고민 해결을 위해 수집한 정보를 가공 후 저장
수집한 Card_Trade.csv와 Code.csv 정보를 mongoDB에 적재하기 위해
이동을 하고 DB에 저장을 한다.
수집
가공
저장
분석
시각화
카드 데이터
코드 데이터
01.move_data
_file.sh
실행
02.mongo_data
_store.sh
실행
/nia_kbig/tools/umongo 폴더 안에 있는
launch-umongo.sh를 실행한다.
mongoDB에 적재된 수집한 데이터를 확인한ㄴ다.
25. 25
6. 분석 모형을 정의하여 분석한다
수집한 정보 모두가 필요하지 않기 때문에
분석 목적에 필요한 정보만을 추출하여 분석을 한다.
수집
가공
저장
분석
시각화
03.mongo_data
_mr.sh
실행
// 동일한 키를 가지는 아이템들을 일순하면서 가격의 총합을 구한다. products.forEach(function(product) { reduced.date = product.date; reduced.kind = product.kind; reduced.totalPrice += product.totalPrice
26. 26
7. 분석된 내용을 이해하기 쉽게 시각화한다
분석 후 저장한 정보를 확인하고 해석하기 위해 시각화 한다.
수집
가공
저장
분석
시각화
04.mongo_data
_query.sh
실행
/home/eduuser/nia_kbig/card/basic/manual_result/result_json.js
/home/eduuser/nia_kbig/card/basic/visual/js 폴더로 result_json.js 복사한다.
Visual 폴더의
01.card_chart.html
더블 클릭 한다.
27. 27
7. 분석된 내용을 이해하기 쉽게 시각화한다
수집
가공
저장
분석
시각화
포인트 카드 마케팅 담당자는 분석 된 결과를
어떻게 활용할 것인지 다음 기획을 해야 합니다.
29. 29
[1. 초기 접속화면]
>초기 바탕화면에서 실습을 하기 위해서 자료가 있는 폴더로 이동 합니다. home > eduuser > nia_kbig > card > basic >실습용 셀 스크립트 00~04까지 있는 파일 확인합니다. >nia_kbig 폴더설명 card(가계부), data(분석용데이터저장),products(농산물),tools(몽고DB 볼 수 있는 umongo 툴 이 있음)
*파일 더블 크릭이 안되어서 바탕화면에서 마우스 오른쪽키를 누르고 Open In Terminal을 열어서 실습폴더 까지 가서 실행 명령어 입력 으로 처리 해주세요 ./00.get_dataset.sh
30. 30
[2. 레파지토리에서 실습용 데이터 가져오기]
1
2
>1. 00.get_dataset.sh 더블클릭 하면 우측에 팝업 화면이 출력 됩니다.
>2. [터미널에서 실행] 클릭하면 저장소에서 실습용 데이터 셋을 서버 로컬로 가져 옵니다.
32. 32
[4. 레파지토리에서 실습용데이터 – card_trade.csv, code.csv 2개 파일 가져옴]
>1. 01.move_data_file.sh 더블클릭 하면 우측에 팝업 화면이 출력 됩니다.
>2. [터미널에서 실행] 클릭하면 데이터 분석을 위해서 다운로드 한 2개 파일을 /home/eduuser/nia_kbig/data 폴더로 이동합니다. >3.실습용 dataset : card_trade.csv , 카테고리 설명 파일 : code.csv
[data 폴더 로 card_trade.csv, code.csv 이동]
1
2
33. 33
[5. data 폴더에 있는 CSV 파일을 몽고DB로 전부 Import 처리]
2
1
[dataset을 mongodb에 Import 프로세스]
>1. 02.mongo_data_store.sh 더블클릭 하면 우측에 팝업 화면이 출력 됩니다.
>2. [터미널에서 실행] 클릭하면 몽고DB에 card_trade.csv 파일을 Import 처리 합니다.
34. 34
[6. 입력된 몽고DB 내용을 확인하기 위해서 nig_kbing/tools/umongo/launch-umongo.sh 실행]
`
`
2
1
>1. lauch-umongo.sh 더블클릭 하면 우측에 팝업 화면이 출력 됩니다.
>2. [터미널에서 실행] 클릭하면 몽고DB관리 tool 화면이 실행이 됩니다.
35. 35
[7. umongo tool 실행 화면]
File > Connect 메뉴 클릭 한 후 Connect 버튼 클릭
bigdata DB 밑에 card collection이 클릭 후 오른쪽 마우스 클릭 한 후 find 메뉴를 찾아 클릭
find 메뉴 클릭 한 후 실행 화면에서 OK 버튼을 클릭
출력 목록을 클릭하면 몽고DB에 들어가 데이터를 확인
`
`
`
`
36. 36
[8. 몽고DB에 있는 원시데이터 셋에서 분석할 데이터를 가공처리 후 몽고DB에 가공 데이터셋 저장]
`
`
2
1
>1. 03.mongo_data_mr.sh 더블클릭 하면 우측에 팝업 화면이 출력 됩니다.
>2. [터미널에서 실행] 클릭하면 몽고DB에 있는 원시데이터 셋에서 분석하고 자 하는 데이터셋을 가공 처리를 합니다. 가공된 데이터셋을 몽고DB에 저장을 함 (collection 명 : card_mr_result)
37. 37
[9. umongo tool 실행화면]
File > Connect 메뉴 클릭 한 후 Connect 버튼 클릭
bigdata DB 밑에 card_mr_result collection이 클릭 후 오른쪽 마우스 클릭 한 후 find 메뉴를 찾아 클릭
find 메뉴 클릭 한 후 실행 화면에서 OK 버튼을 클릭
출력 목록을 클릭하면 몽고DB에 들어가 데이터를 확인
`
`
`
`
`
38. 38
[10. 몽고DB에 들어가 가공처리 데이터 셋에서 시각화를 보기 위해서 시각화용 데이터를 추출]
2
1
>1. 04.mongo_data_query.sh 더블클릭 하면 우측에 팝업 화면이 출력 됩니다.
>2. [터미널에서 실행] 클릭하면 몽고DB에 가공처리된 데이터에서 시각화 용 데이터를 manual_result 폴더에
시각화용 데이터 셋인 result_json.js 파일이 생성이 됩니다.
>3.result_json.js 파일을 복사를 하여 visual/js/ 폴더에 붙여넣기를 합니다.
39. 39
[11. 데이터 시각화 준비 – D3 차트 시각화]
`
`
1
2
>1. visual/js 폴더에 result_json.js 파일을 붙여넣기 합니다. D3로 시각화 하기 위해서 D3.v3.js , result_json.js 파일 2개가 있어야 합니다.
d3.v3.js(d3 chart 라이브러리 파일), result_json.js 결과 파일
2. visual 폴더에 있는 01.card_chart.html 파일을 더블 클릭 합니다.
41. 41
[13. basic 폴더 설명]
>javascript 폴더 - 로직처리 파일 구성 card_avg_price.js - 일자별 가격 평균처리 card_mr_result_query.js – m/r 처리 후 가공데이터를 몽고DB에 넣는 역할을 합니다. 데이터 가공 및 결과 저장하는 부분을 수정할려면 이 파일을 2개의 소스를 수정을 하면 됩니다.
>manual_result 폴더 – 시각화 하기위한 결과를 저장 폴더
result_json.js 파일을 생성되어 저장됩니다.
>visual 폴더 - js폴더에 d3.v3.js 라이브러리 파일과 result_json.js 결과 파일이 있어야 시각화 chart가 출력이 됩니다.
01.card_chart.html 파일을 클릭하면 브라우저에서 D3시각화 챠트가 실행이 되어 나타납니다.
>실행 셀 순서
00. ~ 04. 순서 파일로 마우스 더블클릭하여 실행 스크립트를 실행 시켜주면 분석프로세스가 진행됩니다.