[215] Druid로 쉽고 빠르게 데이터 분석하기

•

22 likes•5,457 views

NAVER D2

Technology

지난기간(2017년 8월) 월간 데이터
순위가 바뀌는 경우가 있습니다.
데이터 변경은
없었는데…? ? ??

Country Sum(count) Ratio over total count
korea 225 20%
uk 171 15.2%
usa 33 2.9%
country count
korea 95
china 17
korea 130
usa 33
… …
country SUM(count)
korea 225
china 17
usa 33
uk 171
… …
country SUM(count)
korea 225
uk 171
usa 33
SUM(count)
1125
SUM(count)
1125

sum(count) 큰 순
+ 누적값
Country Sum(count) Ratio over total count
korea 225 20%
uk 171 15.2%
usa 33 2.9%
•
•
•
•
Cursor
TopN
Aggregation
Entry TopNResultBuilder
Row
Row
Row
TopN Queue

0
5
10
15
20
25
30
35
40
0
500
1000
1500
2000
2500
0
50
100
150
200
250
300
350
400

What's hot

CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming

Amazon Web Services Korea

[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB

NAVER D2

Little Big Data #1. 바닥부터 시작하는 데이터 인프라

Seongyun Byeon

Apache Airflow는 복잡한 데이터 처리 파이프라인의 전체적인 프로세스를 자동화하기 위한 워크플로우 관리 플랫폼이며 오픈 소스 커뮤니티에서 활발하게 기여하고 있는 top-level 프로젝트 입니다. AWS는 최근에 Amazon Managed Workflow for Apache Airflow (MWAA) 서비스를 정식 출시하였고, 본 강연에서는 Apache Airflow 및 MWAA를 소개하고 어떻게 AWS 서비스와 연동하여 데이터 처리 워크플로우를 구축할 수 있는지 데모를 통해 알려 드립니다.

아름답고 유연한 데이터 파이프라인 구축을 위한 Amazon Managed Workflow for Apache Airflow - 유다니엘 A...

Amazon Web Services Korea

기존 온프레미스 환경에서는 비즈니스 성장에 따른 유연한 확장에 어려움 있어 AWS를 이용하여 더욱 탄력적인 환경을 구축하는 프로젝트를 수행하였습니다. 이 세션을 통해 카카오게임즈가 AWS와 함께 수행한 데이터레이크 마이그레이션의 여정과, 그 과정에서 Amazon S3, EMR, Athena, Redshift 등의 다양한 기술 요소들을 활용한 경험과 팁을 전달해 드립니다.

대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...

Amazon Web Services Korea

기업들은 데이터로부터 insight를 얻기 위해서 부단한 노력을 하고 있습니다. 이를 위해 조직의 데이터를 한 곳에 모아서 보관하는 Data Lake의 구축은 데이터 분석을 위한 중심으로 자리잡고 있습니다. 본 세션에서는 AWS에서 S3를 활용하여 민첩하고 비용효율적인 Data Lake를 구축하는 방법을 소개합니다. 또한 이를 기반으로 AWS의 다양한 데이터 분석 서비스와 연동하는 법을 살펴봅니다. 대상 : 빅 데이터 및 데이터 분석 담당자, AWS 기반 데이터 분석에 관심 있는 모든 분 발표자 : 문종민 솔루션즈 아키텍트, AWS

민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS

Amazon Web Services Korea

[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈

NAVER D2

AWS Lambda를 기반으로한 실시간 빅테이터 처리하기

Amazon Web Services Korea

AWS EMR을 사용하면서 비용을 최적화하기 위해 필요한 다양한 관점의 방안을 검토하여 정리한 자료. 비용 최적화 대상은 zeppelin/jupyter notebook과 apache spark를 활용하는 서비스를 대상으로 하였으며, 해당 작업이 aws emr에서 어떻게 동작하는지 내부 구조을 파악하여 확인함. - AWS EMR이란? - AWS EMR의 과금 방식은? - 어떻게 비용을 최적화 할 것인가? - 최적의 EMR 클러스터 구성 방안 - 가성비 높은 Instance 선정 방안 - Apache Spark 성능 개선 방안 가장 중요한 것은 실행할 job의 자원사용량/성능을 모니터링하고, 이에 맞게 자원을 최적화하는 것이 필요함.

AWS EMR Cost optimization

SANG WON PARK

데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...

Amazon Web Services Korea

Data pipeline and data lake

DaeMyung Kang

효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 김태현 솔루션즈 아키텍트, AWS AWS에서는 Big Data 분석 및 처리를 위해 분석 목적에 맞는 다양한 Big Data Framework 서비스를 지원합니다. 이 세션에서는 시간이 지날수록 증가하는 데이터의 분석 및 처리를 위해 사용되는 AWS Glue와 Amazon EMR 같은 AWS Big Data Framework의 내부구조를 살펴보고 머신러닝을 포함한 다양한 분석 및 ETL을 위해 효율적으로 사용할 수 있는 방법들을 소개합니다.

효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019

Amazon Web Services Korea

Google Cloud IAM 계정, 권한 및 조직 관리

정명훈 Jerry Jeong

AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020

AWSKRUG - AWS한국사용자모임

Imply at Apache Druid Meetup in London 1-15-20

Jelena Zanko

Data Lake는 오늘날 데이터 기반에 의사 결정을 하기 위한 가장 일반적인 데이터 분석 아키텍처로 떠오르고 있습니다. 잘 설계된 Data Lake는 기업이 데이터 자산으로부터 가장 많은 비지니스 가치를 창출하도록 보장합니다. 본 세션을 통해 AWS 기반의 Data Lake 아키텍처를 소개하고, 다양한 사례를 통해 AWS 고객들은 데이터 분석 플랫폼을 어떤 방식으로 설계해서 활용하고 있는지 살펴봅니다. 다시보기 링크: https://youtu.be/mE8V9oNXdrs

글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)

Amazon Web Services Korea

OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)

SANG WON PARK

[211] HBase 기반 검색 데이터 저장소 (공개용)

NAVER D2

Amazon Kinesis Data Analytics는 실시간으로 스트리밍 데이터를 처리하고 분석할 수 있는 서버리스 서비스입니다. Kinesis Data Analytics를 사용하면 로그 분석, 클릭스트림 분석, 사물 인터넷(IoT), 광고 기술, 게임 등의 대규모의 스트림을 처리할 수 있는 애플리케이션을 신속하고 유연하게 구축할 수 있으며 유지관리의 어려움에서 벗어날 수 있습니다. 이 세션에서는 Kinesis Data Analytics의 동작과 기능, 운영상의 모범 사례에 대한 설명을 바탕으로 Streaming Application 개발, Studio Notebook 활용하는 방법을 데모를 통해 알아봅니다.

실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive

Amazon Web Services Korea

Amazon S3 이미지 온디맨드 리사이징을 통한 70% 서버 비용 줄이기 - AWS Summit Seoul 2017

Amazon Web Services Korea

What's hot (20)

CloudWatch 성능 모니터링과 신속한 대응을 위한 노하우 - 박선용 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming

[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB

Little Big Data #1. 바닥부터 시작하는 데이터 인프라

아름답고 유연한 데이터 파이프라인 구축을 위한 Amazon Managed Workflow for Apache Airflow - 유다니엘 A...

대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...

민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS

[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈

AWS Lambda를 기반으로한 실시간 빅테이터 처리하기

AWS EMR Cost optimization

데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...

Data pipeline and data lake

효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019

Google Cloud IAM 계정, 권한 및 조직 관리

AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020

Imply at Apache Druid Meetup in London 1-15-20

글로벌 기업들의 효과적인 데이터 분석을 위한 Data Lake 구축 및 분석 사례 - 김준형 (AWS 솔루션즈 아키텍트)

OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)

[211] HBase 기반 검색 데이터 저장소 (공개용)

실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive

Amazon S3 이미지 온디맨드 리사이징을 통한 70% 서버 비용 줄이기 - AWS Summit Seoul 2017

More from NAVER D2

[211] 인공지능이 인공지능 챗봇을 만든다

NAVER D2

[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...

NAVER D2

[245]Papago Internals: 모델분석과 응용기술 개발

NAVER D2

[235]Wikipedia-scale Q&A

NAVER D2

[244]로봇이 현실 세계에 대해 학습하도록 만들기

NAVER D2

[243] Deep Learning to help student’s Deep Learning

NAVER D2

[234]Fast & Accurate Data Annotation Pipeline for AI applications

NAVER D2

Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing

NAVER D2

[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지

NAVER D2

[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기

NAVER D2

[224]네이버 검색과 개인화

NAVER D2

[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)

NAVER D2

[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기

NAVER D2

[213] Fashion Visual Search

NAVER D2

[232] TensorRT를 활용한 딥러닝 Inference 최적화

NAVER D2

[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지

NAVER D2

[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터

NAVER D2

[223]기계독해 QA: 검색인가, NLP인가?

NAVER D2

[231] Clova 화자인식

NAVER D2

[232]TensorRT를 활용한 딥러닝 Inference 최적화

NAVER D2

More from NAVER D2 (20)

[211] 인공지능이 인공지능 챗봇을 만든다

[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...

[245]Papago Internals: 모델분석과 응용기술 개발

[235]Wikipedia-scale Q&A

[244]로봇이 현실 세계에 대해 학습하도록 만들기

[243] Deep Learning to help student’s Deep Learning

[234]Fast & Accurate Data Annotation Pipeline for AI applications

Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing

[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지

[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기

[224]네이버 검색과 개인화

[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)

[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기

[213] Fashion Visual Search

[232] TensorRT를 활용한 딥러닝 Inference 최적화

[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지

[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터

[223]기계독해 QA: 검색인가, NLP인가?

[231] Clova 화자인식

[232]TensorRT를 활용한 딥러닝 Inference 최적화

[215] Druid로 쉽고 빠르게 데이터 분석하기

7. • • • •

8. • • • •

9. • • • • • • •

10.

11.

12.

14.

18. • • •

19.

20.

21.

22.

23.

24.

25.

26. (저장모듈) (조회모듈) (M/R 방식)

27. 지난기간(2017년 8월) 월간 데이터 순위가 바뀌는 경우가 있습니다. 데이터 변경은 없었는데…? ? ??

28. uk 67 usa 25 korea 17

29.

30.

31. Country Sum(count) Ratio over total count korea 225 20% uk 171 15.2% usa 33 2.9% country count korea 95 china 17 korea 130 usa 33 … … country SUM(count) korea 225 china 17 usa 33 uk 171 … … country SUM(count) korea 225 uk 171 usa 33 SUM(count) 1125 SUM(count) 1125

32. sum(count) 큰 순 + 누적값 Country Sum(count) Ratio over total count korea 225 20% uk 171 15.2% usa 33 2.9% • • • • Cursor TopN Aggregation Entry TopNResultBuilder Row Row Row TopN Queue

33.

34. • • • • •

35.

36. • •

37. Country Korea UK Korea UK China China •

38. (Dataset : 44억건 로그 저장) sec sec

39. • • • • • • • • • • •

40.

41. • • • • • • • • • • • •

42. •

43. 0 5 10 15 20 25 30 35 40 0 500 1000 1500 2000 2500 0 50 100 150 200 250 300 350 400

44. •