2. Amazon 과 AWS 에 대한 오해
“아마존은 크리스마스 시즌만을 위해서 서버를
잔뜩 준비할 수 밖에 없었다. 그 이후 남는 서버를
다른 기업들에게 대여해주면 어떨까? 하는
아이디어로 클라우드 서비스를 시작했다.”
KBS 명견만리+ : 프로그래머 이xx
3. Amazon 과 AWS 의 진실
“초과 용량 이야기는 신화다. AWS의 서비스 모델은
이미 서비스 지향 아키텍처 (SOA)를 기반한 서비스
플랫폼의 효용성으로 부터 시작되어, 이러한
노하우를 인프라에까지 적용하게 된 경우이다.
AWS는 Amazon.com의 소매 영업만큼이나 커질
수 있다는 기대와 함께 항상 비즈니스로
간주되었다.”
Werner Vogels, CTO @ Amazon.com
https://www.quora.com/How-and-why-did-Amazon-get-into-the-cloud-computing-business
4. The 2nd annual Prime Day
§ 2016 년 프라임 데이 : 미국 전체 소비자 전자 상거래 74 % 차지
§ 2015년 대비 글로벌 60 % 이상, 미국에서만 50 % 이상 주문 증가
§ 40시간에 걸쳐서 850억건의 클릭스트림 로그 생성 : 초당 약 60만건
§ 전 세계 Prime 회원이 하루 동안 구매한 물품
§ 서비스 지표
§ Amazon의 CloudWatch 메트릭 사용은 전주 같은 날 보다 프라임 데이에 전
세계적으로 400% 증가
§ Amazon DynamoDB는 전주의 같은 날에 비해 프라임 데이에 전 세계적으로
560 억 건의 추가 요청을 처리
2백만 + 1백만 + 90,000 + 수십만
6. Amazon.com 상품 추천 기능
§ 평가 기반 추천 도입
§ 이벤트 (Events) 및 평가
(Rating) 방식
§ 협업 필터링
(Collaborative filtering)
방식
§ 사용자 (user-user) 및 아
이템 기반 (item-item)
방식
§ 총 판매 35%가 추천 시스템으
로부터 발생(2008년 기준)
7. Amazon.com - DW 기반 웹 로그 분석
§ 사용자 행동 데이터 분석
§ 기존 100노드의 1.6PB 급 DW
시스템 - 페타 바이트 급 (가장
큰 테이블 400TB, 일간 2TB)
§ 예: 검색 후 구매하지 않은
물품, 가장 많이 구매한 물품…
§ Amazon Redshift 기반 DW로
분석 환경 변경 후 빠른 분석
가능
(2013년 부터)
8. Amazon.com 머신 러닝 활용 주문 예측
• 주문 전/후 예측 시스템
도입
머신 러닝 기법 활용
장바구니에 물건을
담기만 해도 '고객이 주문
전에 배송 계획 예측’
• 주간 사내 총 추천 예측
500억회 이상 처리
>> Amazon Machine Learning Service
9. Amazon 배송 센터: 로봇 기반 배송 예측 시스템
• 13개 물류센터에 KIVA
로봇 이동 도입
물류 순환 속도:
60~75분 ▶ 15분
재고 공간: 50% ↑
운영비용: 약 20%↓
• 이동 경로 계산 및 최적화
등에 머신 러닝 기법 활용 https://www.youtube.com/watch?v=gQpMDdJmbNs
12. Amazon Data Warehouse
§ Amazon.com 사업을 위한 신뢰할 수 있는 데이터 저장소
§ 페타바이트 규모의 데이터
§ Primary is Oracle, also Amazon EMR, and now Amazon
Redshift
§ 하드웨어 및 소프트웨어 인프라를 직접 관리
13. Amazon Data Warehouse Architecture
Control Plane (ETL Manager)
Existing
EDW
Amazon
EMR
Amazon
Redshift
14. 상황 및 문제점
§ 기존 엔터프라이즈 DW 플랫폼
§ 다수의 페타바이트 클러스터 (redundancy and jobs)
§ 높은 CPJ(Cost Per Job)
§ 데이터는 SAN에 저장 (not Exadata)
§ 10T 이상에 대한 스캔 작업시 속도 저하
§ Long procurement cycles (최소 3개월)
15. 웹 로그 관리 및 분석 목표
§ 웹 로그는 아마존의 핵심
§ 다른 데이터와 웹 로그를
결합하는 것이 아주 중요
§ 데이터의 크기가 문제를
증폭
§ About 2TB data per day,
매년 67% 이상 증가
§ 2년간의 웹 로그에 대한
쿼리를 60분 이내에
§ Eventually under 1m
§ 일정한 쿼리 시간
§ 데이터 볼륨의 증가는
서버수와 비용을 증가
§ 적시에 사용할 데이터
§ 새벽 4시까지 전날 데이터
적재 완료 : 매일 5B rows
16. 웹 로그 분석을 위한 기존 솔루션
§ Oracle RAC
§ 15 months of Web Logs with all other data
§ Scan rate: 1 week / hour
§ More data = slower queries (we’ve hit limit of RAC – 32 nodes)
§ AWS Elastic MapReduce (EMR) – e.g. Hadoop
§ ~30 teams with their own Web Log cluster
§ Scan rate: 1 month / hour
§ Expensive to administer
17. 웹 로그 분석을 위한 Amazon Redshift
§ 101-node 8XL Amazon Redshift Cluster
§ More than one petabyte usable storage
§ Largest table : 400TB (and growing)
§ 2TB of data per day
§ 3 clusters – 2 for prod, one for test & dev
§ Manifests and chunks to manage data
§ ETLM (custom IP) for scheduling and job runs
§ Also used for scheduled maintenance
19. Realized Performance
§ Pig -> Amazon Redshift: 2 days to 1 hour
§ 10B row join with 700M rows
§ Hive -> Amazon Redshift: 3 days to 2 hours
§ 21B rows join with 10B rows.
§ Oracle -> Amazon Redshift: 90 hours to 8 hours
§ Reduced number of SQLs by a factor of 3
20. 카타로그 서비스 개선
Solving Amazon's Catalog Contention With Amazon Kinesis (ARC310) | AWS re:Invent 2015
21. 제품으로 부터 시작
무엇을 판매하나요?
§ Stock Keeping Unit
(SKU)가 Key
§ 제품에 대한 일련의 속성,
e.g.
§ 어떤 유형의 제품?
§ 무슨 색?
§ 사이즈?
§ 누가 만들었는지?
Product
- SKU [PK]
- attributes
22. 다음으로 오퍼가 필요
Product
얼마나 팔고 있는지?
§ 제품과 관련된… [FK: SKU]
§ 가격
§ 판매 시작 및 중지 시점
- SKU [PK]
- attributes
- price
- when
Offer
23. 부가적인 항목 추가 가능
Product
신발을 고려해 보십시오:
§ 신발 모델은 고유해야 함
§ 그러나, 각 크기와
색상별로 다른 제품
- SKU [PK]
- attributes
- price
- when
Offer
- attributes
Relation
24. Shared Nothing Is Easy!
= ?
Sellers EC2 API
cluster
Catalog by
‘seller/sku’
CloudSearch
reverse index
DynamoDB
streams
CustomersEC2 web
hosting stack
Query
cache
25. Not enough… But Why?
§ Amazon은 가장 많은 수의 판매자들과 함께 가장 큰
셀렉션을 보유
§ 직접 검색하는 것은 사용자들에게 좋지 않은 경험:
§ 원하는 제품을 찾는 것과 가장 좋은 오퍼를 찾는 것은 다름
§ 제품 자체에 대한 피드백을 줄임 – 판매자 품질 평가와 제품
자체에 대한 품질 평가가 섞임
34. The result
Amazon Kinesis 를 아키텍처의 핵심에 적용함으로써:
§ TCO를 줄임
§ 시퀀싱 및 우선 순위를 내부화하여 액션 핸들러를
간단하게 작성
§ 새로운 기능 (엔터티 업데이트 일괄 처리)
Kinesis is not just and analytics engine, it is very much
a full distributed log and some of the things that we
can do with…
36. Amazon 물류 센터 - 저장 선반 시스템
아마존이 창고에 상품을
뒤죽박죽 보관하는 이유?
http://techneedle.com/archives/29063
"아마존 상품 배송 선반에는 물건
이 뒤죽박죽 보관되고 있다. 예를
들면 영화 DVD, 로션, 피클이 한
칸에 보관되어 있다. 자투리 공간
없이 창고 공간을 100% 활용할 수
있고, ‘이 상품군은 어디에 보관해
야 한다’ 등 배워야 할 내용이 줄
어든다. 게다가 실수로 잘못 꺼내
는 일도 적다. 상품 보관을 위한
기술은 컴퓨터 비전과 실내 위치
추적 등의 시스템을 활용한다"
37. 아마존은 왜 창고 물건을 뒤죽박죽 쌓아두나 ?
§ 공간을 효율적으로 사용
§ 마구잡이로 쌓으면 공간을 알차게 사용
§ 최소 20% 이상 공간 효율성 좋아짐
§ 배송 실수를 줄일 수 있음
§ 물건을 꺼낼 때 실수 할 확률을 줄임
§ 케첩과 머스타드 vs 케첩과 책
§ 배송 속도가 빨라짐
§ 소트(Sorter) & 피커(Picker)
§ 정확한 데이터에 기반한 최적의 동선
39. Amazon 물류 센터 - Inventory Defect 문제
물건이 잘 못 담기는 경우, 물건이 떨어지는 경우,
40. Amazon 물류 센터 - 딥러닝을 통한 문제 해결
Original
image
Activation
map
Binary map
선반 속 재고 물건 갯수 확인선반 속 재고 물건 누락 확인
2.0
1.0
41. Amazon Machine Learning
Amazon Rekognition Amazon Polly Amazon Lex
Amazon AI Building Blocks
일반 개발자
데이터 개발자
P2 Instance
Deep Learning
AMI and template
Investment in
MXNet
연구 및 고급 개발자
다양한 고객의 요구에 맞는 AI 솔루션 및 서비스를 제공합니다!
42. 본 강연이 끝난 후…
§ How and why did Amazon get into the cloud computing business?
https://www.quora.com/How-and-why-did-Amazon-get-into-the-cloud-computing-business
§ How AWS Powered Amazon’s Biggest Day Ever
https://aws.amazon.com/blogs/aws/how-aws-powered-amazons-biggest-day-ever/
§ How Amazon.com is Leveraging Amazon Redshift (DAT306) | AWS re:Invent 2013
https://www.slideshare.net/AmazonWebServices/how-amazoncom-is-leveraging-amazon-redshift-
dat306-aws-reinvent-2013
§ Solving Amazon's Catalog Contention With Amazon Kinesis (ARC310) | AWS re:Invent 2015
https://www.slideshare.net/AmazonWebServices/arc310-solving-amazons-catalog-contention-with-
amazon-kinesis
§ Transforming Industrial Processes with Deep Learning (MAC301) | AWS re:Invent 2016
https://www.slideshare.net/AmazonWebServices/aws-reinvent-2016-transforming-industrial-processes-
with-deep-learning-mac301
§ Amazon Bin Image Dataset
https://aws.amazon.com/ko/public-datasets/amazon-bin-images/