SlideShare a Scribd company logo
1 of 104
Download to read offline
데브시스터즈
박주홍
Spark, Flintrock, Airflow 로 구현하는
탄력적이고 유연한 데이터 분산처리
자동화 인프라 구축
오늘 전하고 싶은 이야기
- 데이터 엔지니어의
고민과 해결 과정
- 분산 처리 자동화
인프라의 큰 그림
오늘 나누고 싶은 주제
- Spark, Flintrock
탄력적인 클러스터 구축
- Airflow
유연한 분석 스케줄링
2017 ~ 현재 Data Science & Infrastructure 팀장
2015 ~ 2016 쿠키런 데이터 연구 및 인프라 개발
2013 – 2015 쿠키런 서버 개발
박주홍
Juhong Park
데이터란?
데이터 엔지니어의 입장에서
데이터란?
데이터 엔지니어의 입장에서
없으면 Bad
데이터란?
데이터 엔지니어의 입장에서
없으면
있으면
Bad
Good
데이터란?
데이터 엔지니어의 입장에서
없으면
있으면
아주 많으면
Bad
Good
Excellent
데이터란?
데이터 엔지니어의 입장에서
없으면
있으면
아주 많으면
끝 없이 많으면?
Bad
Good
Excellent
데이터란?
데이터 엔지니어의 입장에서
없으면
있으면
아주 많으면
끝 없이 많으면?
Bad
Good
Excellent
Disaster
$ python analysis.py?
Single Server – 1GB
No Problem.
$ python analysis.py?
Single Server – 1TB
Yes Problem.
Out of
- Server Memory
- Server Disk
$ python analysis.py?
Single Server – 1TB
Yes Problem.
Out of
- Server Memory
- Server Disk
- Your Time
$ python analysis.py?
Single Server – 1TB
Yes Problem.
Out of
- Server Memory
- Server Disk
- Your Time
- Your Mind
데이터 엔지니어링
≒
데이터 부하 분산
Spark, Flintrock
탄력적인 클러스터 구축
https://spark.apache.org
Reference: www.jenunderwood.com
Reference: www.jenunderwood.com
• 인기 있는 분산 처리 엔진
• 속도, 안전성 면에서 합격점
• 여러 플랫폼과의 호환 지원
• SQL, Dataframe 기반의 분석 지원
AWS EC2
Spark
AWS S3
Client
AS-IS
오늘 접속한 유저의
코인 보유량을 알고 싶어요
AWS EC2
Spark
2대
AWS S3
10GB
Client
Spark Cluster Launch
6분
지난주에 접속한 유저의
코인 보유량을 알고 싶어요
1일 X 7 = 1주일
10GB X 7 = 70GB
2대 X 7 = 14대
AWS EC2
Spark
14대
AWS S3
70GB
Client
6분 X 7 = 42분?
Spark Cluster Launch
주 단위 분석 할 때마다
42분을 기다려야 한다고?
AWS S3
Client
Spark Cluster Launch 2대
Spark3분
AWS S3
Client
Spark Cluster Launch 2대
Spark3분
Spark
3분
AWS S3
Client
Spark Cluster Launch 2대
Spark3분
Spark
3분
3분 X 2 = 6분
AWS S3
Client
Spark Cluster Launch 14대
Spark
3분
3분 X 14 = 42분
X 14
클러스터를 보다 빨리
띄울 수 없을까?
클러스터를 보다 빨리
ASYNC 하게
띄울 수 없을까?
클러스터를 보다 빨리
ASYNC 하게
띄울 수 없을까?
https://github.com/nchammas/flintrock
AWS S3
Client
Spark Cluster Launch
Spark3분
Spark
3분
3분 X 2 = 6분
AWS S3
Client
Spark
Spark
3분 X 1 = 3분!
Spark Cluster Launch – Flintrock
AWS S3
Client
Spark
3분 X 1 = 3분! < 42분
실제로는 각종 Overhead 로 5분 ~ 7분 소요
Spark Cluster Launch – Flintrock
X 14
ASYNC
AWS EC2
Spark
AWS S3
Client
AS-IS
AWS EC2
Spark
AWS S3
Client
TO-BE, Flintrock
ASYNC
14대의 클러스터로 작업 도중
최근 2주 동안 접속한 유저의
코인 보유량을 알고 싶어요
기존 14대 클러스터를
2배로 키우자!
클러스터를 2배로 키우는 방법
클러스터를 2배로 키우는 방법
• 첫번째 방법
클러스터를 2배로 키우는 방법
• 첫번째 방법
1. 기존 14대 클러스터를 내린다.
클러스터를 2배로 키우는 방법
• 첫번째 방법
1. 기존 14대 클러스터를 내린다.
2. 새로운 28대 클러스터를 띄운다.
클러스터를 2배로 키우는 방법
• 첫번째 방법
1. 기존 14대 클러스터를 내린다.
2. 새로운 28대 클러스터를 띄운다.
우린 Flintrock 으로 빠르게 띄울 수 있으니까!
클러스터를 2배로 키우는 방법
• 첫번째 방법
1. 기존 14대 클러스터를 내린다.
2. 새로운 28대 클러스터를 띄운다.
우린 Flintrock 으로 빠르게 띄울 수 있으니까!
클러스터를 2배로 키우는 방법
• 첫번째 방법
1. 기존 14대 클러스터를 내린다.
2. 새로운 28대 클러스터를 띄운다.
우린 Flintrock 으로 빠르게 띄울 수 있으니까!
• 두번째 방법
클러스터를 2배로 키우는 방법
• 첫번째 방법
1. 기존 14대 클러스터를 내린다.
2. 새로운 28대 클러스터를 띄운다.
우린 Flintrock 으로 빠르게 띄울 수 있으니까!
• 두번째 방법
1. 새로운 서버 14대를 띄운다.
클러스터를 2배로 키우는 방법
• 첫번째 방법
1. 기존 14대 클러스터를 내린다.
2. 새로운 28대 클러스터를 띄운다.
우린 Flintrock 으로 빠르게 띄울 수 있으니까!
• 두번째 방법
1. 새로운 서버 14대를 띄운다.
2. SSH 로 서버에 접속한다.
클러스터를 2배로 키우는 방법
• 첫번째 방법
1. 기존 14대 클러스터를 내린다.
2. 새로운 28대 클러스터를 띄운다.
우린 Flintrock 으로 빠르게 띄울 수 있으니까!
• 두번째 방법
1. 새로운 서버 14대를 띄운다.
2. SSH 로 서버에 접속한다.
3. 기존 Spark Cluster 에 연결되도록 Setting 을 잡아준다.
클러스터를 2배로 키우는 방법
• 첫번째 방법
1. 기존 14대 클러스터를 내린다.
2. 새로운 28대 클러스터를 띄운다.
우린 Flintrock 으로 빠르게 띄울 수 있으니까!
• 두번째 방법
1. 새로운 서버 14대를 띄운다.
2. SSH 로 서버에 접속한다.
3. 기존 Spark Cluster 에 연결되도록 Setting 을 잡아준다.
4. 2~3과정을 14번 반복한다.
서버를 추가하려면
14번의 노가다를 해야 한다고?
AWS EC2
Spark
AWS S3
Client
Add, Remove Slave
ASYNC
flintrock add-slaves spark-cluster --num-slaves 14
flintrock remove-slaves spark-cluster --num-slaves 14
add-slaves
• Async 하게 빠른 속도로 클러스터 구축
• CLI 기반으로 간편하게 클러스터 셋팅
• 분석 규모에 맞춰 클러스터 사이즈를
언제든 원하는 사이즈로 탄력적으로 조정
Airflow
유연한 분석 스케줄링
AWS EC2
Spark
AWS S3
Client
AS-IS
ASYNC
매일 아침에
국가별 매출액을
리포트 해주세요.
구매 로그환율 서버상품 정보
이메일 리포트
AWS EC2
Spark
Python
가격 달러 환산
Daily Report
그리고
매일 아침 출근해서
리포트를 생성
리포트 생성을
매일 아침마다 해야 한다고?
0 0 * * * = 0시 0분 = 매일 정각
구매 로그환율 서버상품 정보
이메일 리포트
AWS EC2
Spark
Python
가격 달러 환산
Daily Report – Cron
Daily
0 0 * * *
구매 로그환율 서버상품 정보
이메일 리포트
AWS EC2
Spark
Python
가격 달러 환산
Daily Report – Cron, Retry
Daily
0 0 * * *
구매 로그환율 서버상품 정보
이메일 리포트
AWS EC2
Spark
Python
가격 달러 환산
Daily Report – Cron, Failback
Daily
0 0 * * *
구매 로그환율 서버상품 정보
이메일 리포트
AWS EC2
Spark
Python
가격 달러 환산
Daily Report – Cron, Fail Report
Daily
실패 리포트0 0 * * *
• 주기적 분석 – Daily, Weekly, Monthly
• Retry 로직 생성
• Failback 및 Fail Report
분석 스케줄링에 필요한 기능
• 주기적 분석 – Daily, Weekly, Monthly
• Retry 로직 생성
• Failback 및 Fail Report
분석 스케줄링에 필요한 기능, Cron
Airflowhttps://airflow.apache.org
• 주기적 분석 – Daily, Weekly, Monthly
• Retry 로직 생성
• Failback 및 Fail Report
Airflow
Airflow
• 주기적 분석 – Daily, Weekly, Monthly
• Retry 로직 생성
• Failback 및 Fail Report
• 유연한 분석 의존 관계 관리
Airflow
유연한 분석 의존 관계 관리 – Dag
Reference: www.qubole.com
Airflow
Reference: danidelvalle.me
유연한 분석 의존 관계 관리 – Dag Graph
Airflow
Reference: danidelvalle.me
유연한 분석 의존 관계 관리 – Dag Graph
Reference: www.predictiveanalyticstoday.com
Airflow
유연한 분석 의존 관계 관리 – Job Control
Reference: www.qubole.com
• DAG(Directed acyclic graph) 단위 관리
• Graph 형태로 분석 파이프라인 시각화
• Job Group, Sub Dag 를 통한 유연한 구조 변경
• Job 단위로 상태 로깅, 에러 확인, 재시도
Airflow
유연한 분석 의존 관계 관리
Airflow
Airflow
탄력적인 클러스터 구축 유연한 분석 스케줄링
매일 아침에
국가별 매출액을
리포트 해주세요.
매월 1일에는
국가별 월매출액도
리포트해주세요.
매일 아침에
국가별 매출액을
리포트 해주세요.
매월 1일에는
국가별 월매출액도
리포트해주세요.
Spark
Cluster
2대
Spark
Cluster
16대
Airflow
Daily Report – Airflow
Airflow
Python
환율 계산
Daily Report – Airflow
Airflow
Python
환율 계산
Cluster
Launch
2대
Daily Report – Airflow
Airflow
Python
환율 계산 Daily
매출 계산
Cluster
Launch
2대
Daily Report – Airflow
Airflow
Python
환율 계산 Daily
매출 계산
Cluster
Launch
2대
add-slaves
14대
Daily Report – Airflow
Airflow
Python
환율 계산 Daily
매출 계산
Monthly
매출 계산
Cluster
Launch
2대
add-slaves
14대
Daily Report – Airflow
Airflow
Python
환율 계산 Daily
매출 계산
Monthly
매출 계산
Cluster
Launch
2대
add-slaves
14대
Daily Report – Airflow
Airflow
Python
환율 계산 Daily
매출 계산
Monthly
매출 계산
Cluster
Launch
2대
add-slaves
14대
Daily Report – Airflow
실패 리포트
AWS EC2
Spark
AWS S3
TO-BE
ASYNC
Airflow
add-slaves
Job Scheduling
오늘 이야기 마무리
AWS EC2
Spark
AWS S3
Client
AS-IS
AWS EC2
Spark
AWS S3
Client
TO-BE, Flintrock
ASYNC
add-slaves
탄력적인 클러스터 구축
AWS EC2
Spark
AWS S3
TO-BE, Airflow
ASYNC
Airflow
add-slaves
Job Scheduling
유연한 분석 스케줄링
마무리
 데이터 엔지니어링은
끝 없는 부하 분산만이 살길이다.
탄력적인 클러스터 사이즈 조절로
인프라 전반의 효율성 극대화하자.
유연한 분석 스케줄러를 도입하면
할 일이 절반으로 줄어든다.
We’re Hiring!
Data Science & Infrastructure
데이터 과학자
데이터 엔지니어
머신러닝 엔지니어
www.devsisters.com/jobs
감사합니다.
데브시스터즈
박주홍
J.Park@devsisters.com

More Related Content

What's hot

Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101DaeMyung Kang
 
Amazon Redshift로 데이터웨어하우스(DW) 구축하기
Amazon Redshift로 데이터웨어하우스(DW) 구축하기Amazon Redshift로 데이터웨어하우스(DW) 구축하기
Amazon Redshift로 데이터웨어하우스(DW) 구축하기Amazon Web Services Korea
 
하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018
하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018
하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018승호 박
 
[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장
[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장
[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장Dylan Ko
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법Jeongsang Baek
 
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인Jae Young Park
 
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스NAVER D2
 
Massive service basic
Massive service basicMassive service basic
Massive service basicDaeMyung Kang
 
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912Yooseok Choi
 
How to build massive service for advance
How to build massive service for advanceHow to build massive service for advance
How to build massive service for advanceDaeMyung Kang
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기NAVER D2
 
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...AWSKRUG - AWS한국사용자모임
 
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)Jaikwang Lee
 
4. 대용량 아키텍쳐 설계 패턴
4. 대용량 아키텍쳐 설계 패턴4. 대용량 아키텍쳐 설계 패턴
4. 대용량 아키텍쳐 설계 패턴Terry Cho
 
아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)
아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)
아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)Brian Hong
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
 
쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기Brian Hong
 
서버 성능에 대한 정의와 이해
서버 성능에 대한 정의와 이해서버 성능에 대한 정의와 이해
서버 성능에 대한 정의와 이해중선 곽
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
 
[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기NAVER D2
 

What's hot (20)

Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101
 
Amazon Redshift로 데이터웨어하우스(DW) 구축하기
Amazon Redshift로 데이터웨어하우스(DW) 구축하기Amazon Redshift로 데이터웨어하우스(DW) 구축하기
Amazon Redshift로 데이터웨어하우스(DW) 구축하기
 
하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018
하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018
하이퍼커넥트에서 자동 광고 측정 서비스 구현하기 - PyCon Korea 2018
 
[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장
[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장
[우리가 데이터를 쓰는 법] 모바일 게임 로그 데이터 분석 이야기 - 엔터메이트 공신배 팀장
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법
 
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
[DevGround] 린하게 구축하는 스타트업 데이터파이프라인
 
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
백억개의 로그를 모아 검색하고 분석하고 학습도 시켜보자 : 로기스
 
Massive service basic
Massive service basicMassive service basic
Massive service basic
 
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1  나무기술(주) 최유석 20170912
Bigquery와 airflow를 이용한 데이터 분석 시스템 구축 v1 나무기술(주) 최유석 20170912
 
How to build massive service for advance
How to build massive service for advanceHow to build massive service for advance
How to build massive service for advance
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기
 
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
 
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
 
4. 대용량 아키텍쳐 설계 패턴
4. 대용량 아키텍쳐 설계 패턴4. 대용량 아키텍쳐 설계 패턴
4. 대용량 아키텍쳐 설계 패턴
 
아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)
아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)
아마존 클라우드와 함께한 1개월, 쿠키런 사례중심 (KGC 2013)
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
 
쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기쿠키런 1년, 서버개발 분투기
쿠키런 1년, 서버개발 분투기
 
서버 성능에 대한 정의와 이해
서버 성능에 대한 정의와 이해서버 성능에 대한 정의와 이해
서버 성능에 대한 정의와 이해
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
 
[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기
 

Similar to [NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축

Dropbox와 같은 시스템은 파일을 어떻게 저장할까?
Dropbox와 같은 시스템은 파일을 어떻게 저장할까?Dropbox와 같은 시스템은 파일을 어떻게 저장할까?
Dropbox와 같은 시스템은 파일을 어떻게 저장할까?nexusz99
 
Spark streaming tutorial
Spark streaming tutorialSpark streaming tutorial
Spark streaming tutorialMinho Kim
 
AWS Aurora 운영사례 (by 배은미)
AWS Aurora 운영사례 (by 배은미)AWS Aurora 운영사례 (by 배은미)
AWS Aurora 운영사례 (by 배은미)I Goo Lee.
 
Apache Zeppelin으로 데이터 분석하기
Apache Zeppelin으로 데이터 분석하기Apache Zeppelin으로 데이터 분석하기
Apache Zeppelin으로 데이터 분석하기SangWoo Kim
 
AWS CLOUD 2018- 관리형 Kubernetes 지원과 새로운 컨테이너 서비스 Amazon Fargate 소개 (정영준 솔루션즈 아...
AWS CLOUD 2018- 관리형 Kubernetes 지원과 새로운 컨테이너 서비스 Amazon Fargate 소개 (정영준 솔루션즈 아...AWS CLOUD 2018- 관리형 Kubernetes 지원과 새로운 컨테이너 서비스 Amazon Fargate 소개 (정영준 솔루션즈 아...
AWS CLOUD 2018- 관리형 Kubernetes 지원과 새로운 컨테이너 서비스 Amazon Fargate 소개 (정영준 솔루션즈 아...Amazon Web Services Korea
 
DataWorks Summit 2017
DataWorks Summit 2017DataWorks Summit 2017
DataWorks Summit 2017Daesung Park
 
Cloud Taekwon 2015 - AWS를 활용한 로그 분석
Cloud Taekwon 2015 - AWS를 활용한 로그 분석Cloud Taekwon 2015 - AWS를 활용한 로그 분석
Cloud Taekwon 2015 - AWS를 활용한 로그 분석Amazon Web Services Korea
 
MySQL Performance Tuning (In Korean)
MySQL Performance Tuning (In Korean)MySQL Performance Tuning (In Korean)
MySQL Performance Tuning (In Korean)OracleMySQL
 
지금 핫한 Real-time In-memory Stream Processing 이야기
지금 핫한 Real-time In-memory Stream Processing 이야기지금 핫한 Real-time In-memory Stream Processing 이야기
지금 핫한 Real-time In-memory Stream Processing 이야기Ted Won
 
Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안
Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안
Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안Opennaru, inc.
 
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...SuseongPark
 
Apache kafka 확장과 응용
Apache kafka 확장과 응용Apache kafka 확장과 응용
Apache kafka 확장과 응용JANGWONSEO4
 
SK planet Streaming system
SK planet Streaming systemSK planet Streaming system
SK planet Streaming system용휘 김
 
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Jungsu Heo
 
spark database Service
spark database Servicespark database Service
spark database Service창언 정
 
1711 azure-live
1711 azure-live1711 azure-live
1711 azure-live세준 김
 
넥슨 글로벌 플랫폼 구축 이야기 : DB Migration case study (임현수 플랫폼인프라실 Technical Manager, 넥...
넥슨 글로벌 플랫폼 구축 이야기 : DB Migration case study (임현수 플랫폼인프라실 Technical Manager, 넥...넥슨 글로벌 플랫폼 구축 이야기 : DB Migration case study (임현수 플랫폼인프라실 Technical Manager, 넥...
넥슨 글로벌 플랫폼 구축 이야기 : DB Migration case study (임현수 플랫폼인프라실 Technical Manager, 넥...Amazon Web Services Korea
 
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축Ji-Woong Choi
 
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20Amazon Web Services Korea
 
[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdfChris Hoyean Song
 

Similar to [NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축 (20)

Dropbox와 같은 시스템은 파일을 어떻게 저장할까?
Dropbox와 같은 시스템은 파일을 어떻게 저장할까?Dropbox와 같은 시스템은 파일을 어떻게 저장할까?
Dropbox와 같은 시스템은 파일을 어떻게 저장할까?
 
Spark streaming tutorial
Spark streaming tutorialSpark streaming tutorial
Spark streaming tutorial
 
AWS Aurora 운영사례 (by 배은미)
AWS Aurora 운영사례 (by 배은미)AWS Aurora 운영사례 (by 배은미)
AWS Aurora 운영사례 (by 배은미)
 
Apache Zeppelin으로 데이터 분석하기
Apache Zeppelin으로 데이터 분석하기Apache Zeppelin으로 데이터 분석하기
Apache Zeppelin으로 데이터 분석하기
 
AWS CLOUD 2018- 관리형 Kubernetes 지원과 새로운 컨테이너 서비스 Amazon Fargate 소개 (정영준 솔루션즈 아...
AWS CLOUD 2018- 관리형 Kubernetes 지원과 새로운 컨테이너 서비스 Amazon Fargate 소개 (정영준 솔루션즈 아...AWS CLOUD 2018- 관리형 Kubernetes 지원과 새로운 컨테이너 서비스 Amazon Fargate 소개 (정영준 솔루션즈 아...
AWS CLOUD 2018- 관리형 Kubernetes 지원과 새로운 컨테이너 서비스 Amazon Fargate 소개 (정영준 솔루션즈 아...
 
DataWorks Summit 2017
DataWorks Summit 2017DataWorks Summit 2017
DataWorks Summit 2017
 
Cloud Taekwon 2015 - AWS를 활용한 로그 분석
Cloud Taekwon 2015 - AWS를 활용한 로그 분석Cloud Taekwon 2015 - AWS를 활용한 로그 분석
Cloud Taekwon 2015 - AWS를 활용한 로그 분석
 
MySQL Performance Tuning (In Korean)
MySQL Performance Tuning (In Korean)MySQL Performance Tuning (In Korean)
MySQL Performance Tuning (In Korean)
 
지금 핫한 Real-time In-memory Stream Processing 이야기
지금 핫한 Real-time In-memory Stream Processing 이야기지금 핫한 Real-time In-memory Stream Processing 이야기
지금 핫한 Real-time In-memory Stream Processing 이야기
 
Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안
Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안
Final 07.컨테이너 환경에서 모니터링 이슈와 해결 방안
 
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
Spark+Cassandra Data pipeline optimazation at recommend system for recommend ...
 
Apache kafka 확장과 응용
Apache kafka 확장과 응용Apache kafka 확장과 응용
Apache kafka 확장과 응용
 
SK planet Streaming system
SK planet Streaming systemSK planet Streaming system
SK planet Streaming system
 
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
 
spark database Service
spark database Servicespark database Service
spark database Service
 
1711 azure-live
1711 azure-live1711 azure-live
1711 azure-live
 
넥슨 글로벌 플랫폼 구축 이야기 : DB Migration case study (임현수 플랫폼인프라실 Technical Manager, 넥...
넥슨 글로벌 플랫폼 구축 이야기 : DB Migration case study (임현수 플랫폼인프라실 Technical Manager, 넥...넥슨 글로벌 플랫폼 구축 이야기 : DB Migration case study (임현수 플랫폼인프라실 Technical Manager, 넥...
넥슨 글로벌 플랫폼 구축 이야기 : DB Migration case study (임현수 플랫폼인프라실 Technical Manager, 넥...
 
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
[오픈소스컨설팅]쿠버네티스를 활용한 개발환경 구축
 
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
 
[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
 

[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축