14. 맵리듀스를 활용한 데이터 처리
loadlog = LOAD 's3://Bucket_name/Directory_name/Logfile_name'
USING JsonLoader
('host:chararray,user:chararray,method:chararray,path:chararray,
code:INT,size:INT,referer:chararray,agent:chararray,time:chararr
ay');
ip_data = GROUP loadlog BY host ;
ip_count = FOREACH ip_data GENERATE group AS time,COUNT(loadJson)
as total_visits ;
sort_data = RANK ip_count BY total_visits DESC ;
store sort_data into 's3://Bucket_name/Logoutput_directory/'
using PigStorage();
15. SQL on EMR의 활용
CREATE EXTERNAL TABLE Customer_info (
customer_no INT ,
birth_date DATE ,
first_name VARCHAR(14) ,
last_name VARCHAR(16) ,
gender STRING ,
login_date DATE
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE
LOCATION ‘s3://Bucket_name/Directory_name/Table_name/’
;
33. 다양한 인스턴스를 선택하세요
업무 마스터 인스턴스 그룹 코어 인스턴스 그룹 태스크 인스턴스 그룹
배치 작업 On-demand
On-demand
또는 Instance-fleet 혼합
Spot 또는
instance-fleet 혼합
데이터 변환 Spot Spot Spot
실시간 처리 On-Demand On-Demand
Spot 또는
instance-fleet 혼합
개발 테스트 Spot Spot Spot
34. 향상된 관리 기능을 활용하세요.
인스턴스 용량 설정
YARN 리소스
사용기반 설정
자동확장/축소선택
38. “시간, 언어, 공간의 제약을 넘어 인류 개개인의 도달가능한
인간관계를 전 세계로 넓힌다”
• 2014년 3월 엔지니어들을 주
축으로 설립
• 비디오 & 소셜네트워킹 기술
스타트업
• 약 20개 국적의 100명 이상의
직원들이 근무 중
39. • 화면을 넘길 때마다 전 세계의 새로운 사람들을 만날 수 있는 ‘소셜 디스커
버리‘ 플랫폼
• 최초로 WebRTC 를 모바일에 적용해 상용화
• 주요 기능 - 친구추가, 실시간 음성 번역, 얼굴인식 스티커 등
• 주요 성과
- 전 세계 200여 개 국가에서 1억 다운로드
- 160억 회 이상의 누적 매치
- 2015, 2016 구글플레이 올해의 앱 선정
40. 데이터 분석 플랫폼 구축 목표
• 다양한 분석 수요에 따른 데이터 추출 / 변환 / 적재
• DataFlow 기획 / 제작 / 관리
• 대쉬보드 / 레포트 / EDA 도구 제공
• 이상 행동 탐지, 매칭 상대 추천 등 데이터 기반 서비스 제작
42. 하지만 사용자 증가에 따라
대용량 데이터에 대한 처리 고민
• 5천만 매치 데이터 / 일
• 7억건 이벤트 / 일
• 1T 생성 / 일
43. Amazon S3와 Redshift를 활용하여
• 다양한 데이터 수집 가능
• 데이터 처리 시간 단축
Event log
Batch Analysis
Ad-hoc Analysis
Reporing
3rd party
Data
Service DB
집계 시간 – 2시간 47분
집계 시간 – 9시간 08분
3배 단축
44. 다양한 요구 등장
대용량 데이터에 대한 안정적 처리 필요
• 이벤트 로그의 전처리 과정 단축
• 배포 후 실시간 확인
• Ad-hoc레포트를 위한 데이터 준비 필요
45. 다양한 업무 요구사항 충족을 위해
Amazon EMR을 선택한 이유
• S3 에 보관하고 있는 데이터의 접근성이 높음
• CPU bound (auto scaling) 에 대한 보장
• IO bound (S3) 에 대한 보장
• 보고서 작성을 위한 SQL의 활용
52. 꼭 기억해 주세요!!!
• S3를 활용한 안전하고 비용 효과적인 저장소를 구축하세요.
• 분석 워크로드간 독립성을 유지하세요.
• 다양한 데이터 분석, 시각화 도구 활용하세요.
• Spot Fleets을 활용하여 비용을 절감하세요.
• 관리 자동화를 위해 오토 스케일링을 설정하세요.
53. 본 강연이 끝난 후…
Amazon EMR 자습서 및 샘플코드를 참조하세요.
https://aws.amazon.com/articles/Elastic-MapReduce
Amazon EMR 블로그를 통해 다양한 소식 및 사용 사례를
참조하세요.
https://aws.amazon.com/ko/blogs/aws/category/amazon-emr/
55. https://www.awssummit.kr
AWS Summit 모바일 앱을 통해 지금 세션 평가에
참여하시면, 행사 후 기념품을 드립니다.
#AWSSummitKR 해시태그로 소셜 미디어에
여러분의 행사 소감을 올려주세요.
발표 자료 및 녹화 동영상은 AWS Korea 공식 소셜
채널로 공유될 예정입니다.
여러분의 피드백을 기다립니다!