SlideShare a Scribd company logo
1 of 28
Tajo Benchmark Test
on AWS
㈜그루터
© 2015 Gruter. All rights reserved.
Test System 구성도
2
© 2015 Gruter. All rights reserved.
1차 Test 결과
1차 Test 결과
3
© 2015 Gruter. All rights reserved.
1차 Test Results
4
No. 테스트 케이스 설명 비고
1 EMR vs. EC2 비교 S3에 저장된 데이터를 EMR과 EC2에
서 읽기 성능 비교
단일 worker, “count(*)” 쿼리
2 인스턴스 종류 별 비교 인스턴스 종류(사양) 별 성능 비교:
m3.xlarge, m3.2xlarge, c3.xlarge,
c3.2xlarge, c3.4xlarge, c3.8xlarge
EMR 환경
TPC-H 1TB 데이터 처리
3 Worker 규모 별 비교 Worker 수 규모에 따른 성능 비교:
4/8/16 대 구성
EMR 환경
TPC-H 1TB 데이터 처리
4 유사 솔루션 비교 Hive, Impala, Presto, Spark 와 Tajo
간 성능 비교
EMR 환경
TPC-H 1TB 데이터 처리
Impala의 경우, 100GB 데이터 적용
• 테스트 케이스
© 2015 Gruter. All rights reserved.
기본 테스트 환경
5
• 기본 테스트 환경
• 수행 환경: EMR, AMI 버전 3.3.1
• Test case 1의 경우, 테스트 목적 상, 일부 EC2 환경에서 수행
• 데이터 셋: TPC-H 1TB 데이터s3://tajo-data-us-east-1/tpch-1t
• 데이터 생성: 소스, 사용법
• 1TB 데이터 생성을 위해 SF 값을 1000으로 설정; SF=1 은 1GB 크기의 데이터 생성
• EMR 부트스트랩: https://github.com/awslabs/emr-bootstrap-actions
• Tajo, Presto, Spark 해당; Hive와 Impala는 EMR에 built-in되어 있는 구성 사용
• 질의 셋: https://s3.amazonaws.com/tajo-benchmark/test_tool/TPC-H_test.tar.gz
• Tajo를 포함한 테스트 대상 전체 질의 셋 포함
• 클러스터 설정: https://s3.amazonaws.com/tajo-benchmark/test_tool/tajo-conf.tar.gz
• 각 인스턴스 종류 별 Tajo 설정
• AWS 리전: us-east-1
© 2015 Gruter. All rights reserved.
기본 테스트 환경
6
• Tajo 실행 환경
• JVM: Oracle Java 1.7.0_71
• GC Option: -XX:+UseParallelGC -XX:+UseParallelOldGC -XX:-UseGCOverheadLimit
• Tajo 버전: tajo-0.9.1-SNAPSHOT (2014.12.04)
• Hadoop 라이브러리 버전
• Test Case 1
• EC2: hadoop-2.2.0
• EMR: AMI-3.3.2-hadoop-2.4.0
• Test Case [2~4]
• EMR: AMI-3.3.2-hadoop-2.4.0
© 2015 Gruter. All rights reserved.
Test Case 1, EMR vs. EC2
7
• 테스트 환경
• 데이터 셋: S3에 저장된 TPC-H(100GB) 데이터 중 lineitem 테이블에 해당되는 데이터;
약 80GB
• Tajo 클러스터 구성: 1 master, 1 worker
사양 설정
Type CPU Memory(GB) Disk(GB/SSD) Network Heap size Max tasks Disk resources
c3.2xlarge 8 15 80x2 높음 12 6 3
• 테스트 방법
• EMR과 EC2 환경에서 각각 S3로부터 읽기 성능 측정.
• 3회 반복 테스트를 수행하고, 질의는 읽기 연산만 수행.
• SELECT COUNT(*) FROM lineitem
• 시간대에 따른 영향도 같이 확인하기 위해12:00, 18:00 시간대(한국 시간 기준)에 수행
• 참고 자료: http://digitalpiglet.org/research/sion2010cloud-storage.pdf
© 2015 Gruter. All rights reserved.
Test Case 1, EMR vs. EC2
8
• 결과
• S3에 저장된 데이터 읽기 성능은 EMR 보다 EC2 환경에서 평균 약 3% 정도 빠름.
• 시간대에 따른 성능 차이는 거의 없음.
• Write성능 비교는 2차 테스트에서 진행 예정.
 세부 결과 값은 별첨 참고
© 2015 Gruter. All rights reserved.
Test Case 2, EMR 인트턴스 종류(사양) 별 테스트
9
• 테스트 환경
• 데이터 셋: S3에 저장된 TPC-H 1TB 데이터
• Tajo 클러스터 구성: 1 master, 8 workers
사양 설정
Type CPU Memory(GB) Disk(GB/SSD) Network Heap size Max tasks Disk resources
m3.xlarge 4 15 40x2 높음 10 4 2
m3.2xlarge 8 30 80x2 높음 20 8 4
c3.xlarge 4 7.5 40x2 중간 5 2 1
c3.2xlarge 8 15 80x2 높음 10 4 2
c3.4xlarge 16 30 160x2 높음 20 8 4
c3.8xlarge 32 60 320x2 10Gb 50 20 10
© 2015 Gruter. All rights reserved.
Test Case 2, EMR 인트턴스 종류(사양) 별 테스트
10
• 테스트 방법
• 각 인스턴스 종류 별로 TPC-H 1TB 데이터에 질의(22개) 실행 후 수행 시간 측정
• EMR 환경에서 Tajo용 추천 인스턴스 타입 선정 목적
• 각 질의 수행 전 Cluster 재시작; 연속 질의 실행에 따른 GC 상황 최소화 목적
• 발생 이슈
• 로컬 저장소 용량 부족으로 Q9 질의 수행 중 문제 발생
• 영향 받은 구성: 40GBx2 저장소, m3.xlarge, c3.xlarge 타입 구성
• 해결책: EBS 용량 추가
• Task 수 설정 관련 GC 문제로 Q21 질의 수행 중 문제 발생
• 영향 받은 구성: m3.xlarge, c3.xlarge, c3.2xlarge, c3.8xlarge
• 해결책: task 당 가용 메모리를 늘리기 위해 task 수를 줄이는 설정 적용
© 2015 Gruter. All rights reserved.
Test Case 2, EMR 인트턴스 종류(사양) 별 테스트
11
• 테스트 결과
• 대상 타입 중 c3.8xlarge가 가장 좋은 성능을 보임
• 고사양 = 고성능
• 성능과 비용을 모두 고려한 추천 타임은 c3.4xlarge; 비용 분석은 다음 장표 참고
 세부 결과 값은 별첨 참고
Type c3.8xl c3.4xl c3.2xl m3.2xl m3.xl c3.xl
수행시간 4.20 4.80 7.40 7.40 8.60 11.70
© 2015 Gruter. All rights reserved.
Test Case 2, EMR 인트턴스 종류(사양) 별 테스트
12
Type c3.8xl c3.4xl c3.2xl m3.2xl m3.xl c3.xl
수행시간(hrs) 4.20 4.80 7.40 7.40 8.60 11.70
총비용 79.20 43.20 35.52 46.72 27.36 25.44
성능개선비용/hr 7.17 2.57 2.34 4.95 0.62 기준
 총 비용은 시간에 대해 올림 처리해서 계산; 예) 4.2 시간은 5시간에 대한 비용으로 계산
성능개선비용/hr = (c3.xl 기준 추가 비용) / (c3.xl 기준 단축 시간)
• 비용 (단위: 미국 달러)
• 일부 case에서 문제가 발생한 Q9, Q21 질의에 대한 수행 시간은 제외.
• 시간이 가장 오래 걸리지만, 총 비용이 가장 적게든 타입은 c3.xlarge 임.
• 시간에 대한 제약이 약하고, 비용에 대한 부담이 큰 경우, c3.xlarge 선택 가능.
• 성능(수행 시간)을 같이 고려할 경우,
• c3.xlarge 기준으로 성능 개선 비용 효율 관점에서 보면, m3.xlarge(시간 당 $0.62),
c3.2xlarge($2. 34), c3.4xlarge($2.57) 순서를 보임.
• 작업 완료 소요 시간은 순서대로 8시간, 7시간, 4시간 대 임을 고려 했을 때,
성능(소요 시간)과 비용을 고려하면, Tajo 용 추천 타입은 c3.4xlarge.
© 2015 Gruter. All rights reserved.
Test Case 2, EMR 인트턴스 종류(사양) 별 테스트
13
• 항목 설명
• 비용 추이
• 100% 누적 도표를 살펴보면, 오른 쪽으로 가면서
면적이 작아질수록 상대적으로 효율이 높다고 할 수
있음. 기준이 되는 c3.xl을 제외하고 c3.2xl과 c3.4xl
타입은 고르게 비율을 유지하거나 일부 항목에서 효
율이 높음. c3.8xl의 경우 소요 시간(성능)을 제외하
고는 모두 낮은 효율을 보여주며, m3.xl의 경우, 비용
측면에서 높은 효율을 보여 주지만, 성능(소요시간)
에 제약이 있음.
$/hour Hours
($ x Hours)/
10
성능 개선
비용/hour
c3.xl 2.12 11.70 2.54 0.00
m3.xl 3.04 8.60 2.74 0.62
m3.2xl 5.84 7.40 4.67 4.95
c3.2xl 4.44 7.40 3.55 2.34
c3.4xl 8.64 4.80 4.32 2.57
c3.8xl 15.84 4.20 7.92 7.17
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
인스턴스 타입 별 비용 추이
항목 설명
$/hour 시간당 사용료 (비용)
Hours 총 수행 시간 (성능)
($xHours)/10 총비용의 scale을 조정한 값 (비용)
성능개선비용
/hour
성능 개선에 소요된 시간 단위 비용;
(단위 성능 대비 비용)
© 2015 Gruter. All rights reserved.
Test Case 3, Worker 규모 별 테스트
14
• 테스트 환경
• 데이터 셋: S3에 저장된 TPC-H(1TB) 데이터
• Tajo 클러스터 구성: 1 master, 8 workers
사양 설정
Type CPU Memory(GB) Disk(GB/SSD) Network Heap size Max tasks Disk resources
c3.4xlarge 16 30 160x2 높음 20 8 4
c3.8xlarge 32 60 320x2 10Gb 50 20 10
• 테스트 방법
• c3.4xlarge, c3.8xlarge 두 가지 인스턴스에 대해,
• worker 수를 4/8/16 으로 각각 구성하여, TPC-H 질의(22개) 실행 후 성능 측정
• EMR 환경에서 1TB 데이터 기준, 추천 worker node 규모 파악 목적
• 각 질의 수행 전 Cluster 재시작; 연속 질의 실행에 따른 GC 발생 상황 최소화 목적
© 2015 Gruter. All rights reserved.
Test Case 3, Worker 규모 별 테스트
15
• 테스트 결과
• c3.8xlarge/16 workers 구성이 테스트 대상 중, 가장 높은 성능을 보임
• 고사양 = 고성능
• TPC-H 1TB 데이터 기준, 비용과 성능을 고려한 구성은, c3.4xlarge/16 workers 추천
• 일부 질의의 경우, worker 노드 규모에 영향이 상대적으로 적음; Q2, Q11, Q16, Q22
 세부 결과 값은 별첨 참고
© 2015 Gruter. All rights reserved.
Test Case 3, Worker 규모 별 테스트
16
4 worker 8 workers 16 workers
c3.8xlarge-node 0.00 0.57 0.29
c3.4xlarge-node 0.00 0.88 0.45
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
노드당성능향상기여(hrs)
노드 증가에 따른 효율 변화 추이
Workers
c3.8xlarge
소요 시간
c3.4xlarge
소요 시간
4 7.04 9.22
8 4.75 5.69
16 3.52 3.80
• Worker 노드 증가에 따른 성능 추이
• 일부 조건에서 문제가 발생한 Q21 질의에 대해서는, 처리 소요 시간에서 일괄 제외.
• Worker 수가 증가 함에 따라 전반적인 성능 향상을 보임; 노드 증가 = 성능 향상
• 4대 규모(기준)에서 16 대로 늘렸을 때 보다 8 대로 늘렸을 때 단위 노드당 효율은 더 높음.
• 단위 노드 당 효율 = (4대 구성 기준 시간 감소 량)/(4대 구성 기준 노드 증가 량)
© 2015 Gruter. All rights reserved.
Test Case 3, Worker 규모 별 테스트
17
구성 c3.8xl-16 c3.8xl-8 c3.8xl-4 c3.4xl-16 c3.4xl-8 c3.4xl-4
수행시간 3.52 4.75 7.04 3.80 5.69 9.22
총비용 125.74 79.18 64.29 68.14 51.82 44.36
성능개선비용/hr 14.18 7.78 9.13 4.38 2.11 기준
 총 비용은 시간에 대해 올림 처리해서 계산; 예) 4.75 시간은 5시간에 대한 비용으로 계산
• 비용 (단위: 미국 달러)
• 일부 조건에서 문제가 발생한 Q21 질의에 대한 소요 시간은 일괄 제외.
• 가장 느렸지만, 총 비용이 가장 적게든 구성은 c3.4xlarge/4-workers
• 시간에 대한 제약이 약하고, 비용에 대한 부담이 큰 경우, 해당 구성 선택.
• 성능(소요 시간)을 고려해야 하는 경우
• c3.4xlarge/4 workers 기준으로 시간당 비용 효율 관점에서 보면,
c3.4xlarge/8-workers(시간 당 $2.11), c3.4xlarge/16-workers($4.38),
c3.8xlarge/8-workers($7.78) 순서를 보임.
• 작업 완료 소요 시간은 순서대로 각각 5시간, 3시간, 4시간 대 임을 고려하면,
c3.4xlarge/16-workers 구성 추천.
© 2015 Gruter. All rights reserved.
Test Case 3, Worker 규모 별 테스트
18
$/hour Hours
($ x Hours)/
10
성능 개선
비용/hour
c3.4xl-4 4.44 9.22 4.44 0.00
c3.4xl-8 8.64 5.69 5.18 2.11
c3.4xl-16 17.04 3.80 6.81 4.38
c3.8xl-4 8.04 7.04 6.43 9.13
c3.8xl-8 15.84 4.75 7.92 7.78
c3.8xl-16 31.44 3.52 12.57 14.28
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Worker 노드 규모 별 비용 추이
• 비용 추이
• 오른쪽 100% 누적 도표를 살펴보면, 오른쪽 항
목으로 가면서 면적이 작아질수록 대상 노드 수 구
성들 간에 상대적인 비용 효율이 높다고 할 수 있
음. c3.4xl-4 구성의 경우, 테스트 대상 구성들 중
가장 느리지만, 비용 부담이 가장 적은 구성 임.
c3.4xl-8 또는 c3.4xl-16 구성은 높은 성능과 함께
높은 비용 대비 효율을 보여줌. c3.8xl 구성은
c3.4xl과 유사한 성능을 보여주지만, 비용 효율은
c3.4xl 에 비해 크게 낮음.
© 2015 Gruter. All rights reserved.19
• 테스트 환경
• 데이터 셋:
• TPC-H(1TB)
• Impala 의 경우 별도로 100GB 크기의 데이터 셋 준비; in-memory 처리 고려
• 대상 솔루션 버전 및 JVM 환경:
• 최신 버전의 Presto는 java8에서만 실행가능
• 클러스터 구성: 16 workers (c3.4xlarge), 1 master (c3.xlarge)
사양 설정
Type CPU Memory(GB) Disk(GB/SSD) Network Heap size Max tasks Disk resources
c3.4xlarge 16 30 160x2 높음 20 8 4
Tajo Hive Presto Impala Spark
버전 0.9.1-SNAPSHOT 0.13.1 0.89 1.2.4 1.2.0
JVM 환경 Java7 Java7 Java8 Java7 Java7
Test Case 4, 유사 솔루션 비교
© 2015 Gruter. All rights reserved.
Test Case 4, 유사 솔루션 비교
20
• 테스트 방법
• 각 솔루션 별로, c3.4xlarge 타입으로 worker 수를 16대로 구성하여, TPC-H 질의(22개)
실행 후 성능 측정
• Impala의 경우, S3 미지원 때문에, EMR HDFS에 저장된 100GB 크기의 데이터를 처리
• Spark의 경우 standalone 모드 (YARN 독립)로 실행
• 각 쿼리 테스트 간 GC 간섭을 없애기 위해 쿼리 실행 시간 측정 마다 클러스터 재 시작
솔루션 설정 및 참고
Presto
•Presto bootstrap action에서는 instance type 별로 적합한 메모리 설정 값이 제공되지 않음.
•Yarn 의 container 메모리 설정 참조하여 Presto 프로세스 heap 메모리 설정.
•GC 설정은 기본적으로 BA에 포함되어 있는 내용 적용.
Hive
•EMR에 built-in되어 있으므로, 설정 변경 없이 사용.
Impala
Spark
•RDD기반 프로그래밍이 아닌, SQL을 사용한 분석 가정.
•질의를 수행과정에서 중간 데이터 저장이 필요한 경우, S3에 저장.
• 설정 및 참고 사항:
© 2015 Gruter. All rights reserved.
Test Case 4, 유사 솔루션 비교
21
• 발생 이슈
대상 이슈
Hive • Q22 질의 실행 중 Out Of Memory 오류 발생
Presto • 질의 지원: TPC-H 22 개 질의 중 12개의 질의는 지원되지 않는 기능이라 실행 불가
Impala
• 메모리 제약: 22개 질의 중, 11개는 테이블 join 과정에서 메모리 문제로 crash; AWS EMR
Impala버전은 1.2.4로 spill to disk 기능이 없는 버전
• 데이터 import: S3 연동 기능이 제공되지 않아서, S3 데이터를 EMR 환경의 HDFS로 복제한 후에
테스트 실행; 해당 테스트케이스에 대해서, Tajo도 같은 조건으로 HDFS를 저장소로 해서 수행.
Spark
• 질의 실행 도중에 불규칙하게 hang 발생으로 테스트 불가
• 소스 코드와 로그를 통해 조사를 통해, 데이터 Shuffle과정에서 connection이 끊어진
곳으로 데이터를 보내려고 시도하는 과정에서 connection timeout 발생 확인.
• Client가 연결된 channel를 통해서 Server가 데이터를 전송하도록 되어 있으나, Client에서
서버와의 연결이 먼저 끊어지는 경우, Server가 데이터 전송할 곳을 잃어 버리는 상황 발생.
• 이 부분은 재연결 시도 등의 Spark 자체의 코드 개선이 필요한 상황으로 판단 됨.
© 2015 Gruter. All rights reserved.
결과 보기에 앞서
22
• 설정 최적화
• Tajo를 비롯한 솔루션들은 기본 설정으로 실행. 각 솔루션 전문가들이 해당 솔루션과
환경에 맞게 설정을 최적화해서 테스트를 수행한다면, 수행된 테스트 결과와는 다른
결과를 얻을 수도 있을 것으로 판단.
• 질의 최적화
• 각 솔루션들 마다 지원되는 질의 문법이나 기능이 조금씩 다를 수 있기 때문에, 같은
질의를 수행할 수 없는 경우, 동일한 결과를 얻기 위해 해당 솔루션이 지원하는 기능
범위에서 수정된 질의 셋을 수행하는 방법으로 테스트를 진행 함. 따라서 질의를 어떻게
구성하느냐에 따라 성능 결과가 달라질 수 있기 때문에 질의 최적화 정도에 따라 결과가
달라질 수 있을 것으로 판단.
• 비용 최적화
• 1차 테스트에서는 인스턴스 타입과 문제를 통제한 상태에서, 실행 시간을 비교하는 방식의
접근을 통해 성능을 평가하였지만, 각 솔루션마다 용도와 설계 목적이 다르기 때문에,
이러한 방식은 실제 사용 패턴과는 맞지 않을 수도 있음. 따라서, 이후 기회가 된다면,
해결할 문제만 통제한 상태에서, 각 솔루션에 보다 적합한 인스턴스 구성을 사용해서
시간과 비용을 비교하는 방식의 접근도 유효할 것으로 판단됨.
© 2015 Gruter. All rights reserved.
Test Case 4, 유사 솔루션 비교
23
• 테스트 결과
• Spark의 경우, hang문제로 인해 테스트를 수행할 수 없었음.
• Presto, Hive의 경우, 부분 질의 셋 실행
• Presto의 경우 12개, Hive는 1개 질의에 대해 오류 발생
• 전체적인 성능은 Tajo > Presto > Hive
• Hive 대비 평균 약 4배 정도 빠름; Q4, Q16 예외
• Presto 대비 평균 약 1.5 정도 빠름; Q16 예외
 값이 작을 수록 높은 성능
세부 결과 값은 별첨 참고
© 2015 Gruter. All rights reserved.
Test Case 4, 유사 솔루션 비교 (Impala)
24
• 테스트 결과
• Impala의 경우, 100GB 데이터를 대상으로 했음에도, 11개의 테이블 JOIN 질의에 대해서는
메모리 부족으로 crash 발생
• 성공적으로 수행된 나머지 11개의 질의의 경우, 전체적으로 Impala가 높은 성능을 보임.
• 타조에 비해 빠른 성능을 보인 질의에 대해서는 타조 대비 약 2.5배 빠른 성능을 보임
• 흥미로운 점은 일부 workload에서는 Tajo가 유사하거나 나은 성능을 보임; Q10, Q13, Q20
• Impala의 경우, S3 데이터를 HDFS로 복사해야 하는 오버헤드 발생
• 크기가 큰 테이블 간 Join을 위해서는 많은 메모리 확보 필요
 세부 결과 값은 별첨 참고
© 2015 Gruter. All rights reserved.
결론
25
• AWS EMR 환경에서 Tajo 이용자들에게 인스턴스 최적 선택 가이드 제공
• 1TB 크기의 TPC-H workload 기준,
• c3.4xlarge 타입의 16 노드 worker 클러스터 구성 추천
• 전체 22개의 질의 수행 시간 3.80 시간
• 비용 $68.14
• Tajo와 유사한 시스템들과의 벤치마크 자료 확보
대상 Query Coverage
(TPC-H 총 22)
성능
(Tajo 기준)
테스트 데이터 비고
Tajo 22 (100%) 100% 1TB (S3), 100GB(HDFS)
Hive 21 (95%) 25% 1TB (S3)
Presto 10 (45%) 67% 1TB (S3)
Impala 11 (50%) 250% 100GB (HDFS) S3 지원 안됨
Spark N/A N/A connection 오류 발생
© 2015 Gruter. All rights reserved.
0
20
40
60
80
100
Query Coverage
Performance
S3, HDFS 지원
대용량 ETL 적합
Tajo
Presto
0
20
40
60
80
100
Query Coverage
Performance
S3, HDFS 지원
대용량 ETL 적합
Tajo
Impala
0
20
40
60
80
100
Query Coverage
Performance
S3, HDFS 지원
대용량 ETL 적합
Tajo
Hive
26
• S3에 저장된 대용량 데이터를 분석하고자 하는
요구를 가진 AWS 사용자들에게, 다양한 Query
지원, 성능, 유연한 스토리지 지원, 대용량 데이터
분석/처리를 위한 아키텍처 설계 측면에서 Tajo가
경쟁력 있는 대안으로 제안될 수 있음.
Hive
Impala
Presto
결론
© 2015 Gruter. All rights reserved.
Thank you
27
© 2015 Gruter. All rights reserved.
GRUTER: YOUR PARTNER
IN THE BIG DATA REVOLUTION
Phone +82-2-508-5911
Fax +82-2-508-5912
E-mail contact@gruter.com
Web www.gruter.com
Asian HQ
5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839
US HQ
435 Tasso Street Suite 315, Palo Alto, CA 94301

More Related Content

What's hot

AWS Initiate Day Dublin 2019 – Cost Optimization on AWS
AWS Initiate Day Dublin 2019 – Cost Optimization on AWSAWS Initiate Day Dublin 2019 – Cost Optimization on AWS
AWS Initiate Day Dublin 2019 – Cost Optimization on AWSAmazon Web Services
 
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019Amazon Web Services Korea
 
Amazon Athena 初心者向けハンズオン
Amazon Athena 初心者向けハンズオンAmazon Athena 初心者向けハンズオン
Amazon Athena 初心者向けハンズオンAmazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL CompatibilityAWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL CompatibilityAmazon Web Services Japan
 
Amazon Redshift로 데이터웨어하우스(DW) 구축하기
Amazon Redshift로 데이터웨어하우스(DW) 구축하기Amazon Redshift로 데이터웨어하우스(DW) 구축하기
Amazon Redshift로 데이터웨어하우스(DW) 구축하기Amazon Web Services Korea
 
AWS EMR Cost optimization
AWS EMR Cost optimizationAWS EMR Cost optimization
AWS EMR Cost optimizationSANG WON PARK
 
AWS ベーシックトレーニング-トレーニング資料
AWS ベーシックトレーニング-トレーニング資料AWS ベーシックトレーニング-トレーニング資料
AWS ベーシックトレーニング-トレーニング資料Amazon Web Services Japan
 
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatchAmazon Web Services Japan
 
Object storage의 이해와 활용
Object storage의 이해와 활용Object storage의 이해와 활용
Object storage의 이해와 활용Seoro Kim
 
[AWS Builders] AWS와 함께하는 클라우드 컴퓨팅
[AWS Builders] AWS와 함께하는 클라우드 컴퓨팅[AWS Builders] AWS와 함께하는 클라우드 컴퓨팅
[AWS Builders] AWS와 함께하는 클라우드 컴퓨팅Amazon Web Services Korea
 
AWS S3 Cost Optimization
AWS S3 Cost OptimizationAWS S3 Cost Optimization
AWS S3 Cost OptimizationEric Kim
 
IDC 서버 몽땅 AWS로 이전하기 위한 5가지 방법 - 윤석찬 (AWS 테크에반젤리스트)
IDC 서버 몽땅 AWS로 이전하기 위한 5가지 방법 - 윤석찬 (AWS 테크에반젤리스트) IDC 서버 몽땅 AWS로 이전하기 위한 5가지 방법 - 윤석찬 (AWS 테크에반젤리스트)
IDC 서버 몽땅 AWS로 이전하기 위한 5가지 방법 - 윤석찬 (AWS 테크에반젤리스트) Amazon Web Services Korea
 
AWS를 활용한 리테일,이커머스 워크로드와 온라인 서비스 이관 사례::이동열, 임혁용:: AWS Summit Seoul 2018
AWS를 활용한 리테일,이커머스 워크로드와 온라인 서비스 이관 사례::이동열, 임혁용:: AWS Summit Seoul 2018 AWS를 활용한 리테일,이커머스 워크로드와 온라인 서비스 이관 사례::이동열, 임혁용:: AWS Summit Seoul 2018
AWS를 활용한 리테일,이커머스 워크로드와 온라인 서비스 이관 사례::이동열, 임혁용:: AWS Summit Seoul 2018 Amazon Web Services Korea
 
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)Amazon Web Services Japan
 
Accelerate Oracle to Aurora PostgreSQL Migration (GPSTEC313) - AWS re:Invent ...
Accelerate Oracle to Aurora PostgreSQL Migration (GPSTEC313) - AWS re:Invent ...Accelerate Oracle to Aurora PostgreSQL Migration (GPSTEC313) - AWS re:Invent ...
Accelerate Oracle to Aurora PostgreSQL Migration (GPSTEC313) - AWS re:Invent ...Amazon Web Services
 

What's hot (20)

AWS Initiate Day Dublin 2019 – Cost Optimization on AWS
AWS Initiate Day Dublin 2019 – Cost Optimization on AWSAWS Initiate Day Dublin 2019 – Cost Optimization on AWS
AWS Initiate Day Dublin 2019 – Cost Optimization on AWS
 
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
효율적인 빅데이터 분석 및 처리를 위한 Glue, EMR 활용 - 김태현 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
 
Amazon Athena 初心者向けハンズオン
Amazon Athena 初心者向けハンズオンAmazon Athena 初心者向けハンズオン
Amazon Athena 初心者向けハンズオン
 
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL CompatibilityAWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
 
Amazon Redshift로 데이터웨어하우스(DW) 구축하기
Amazon Redshift로 데이터웨어하우스(DW) 구축하기Amazon Redshift로 데이터웨어하우스(DW) 구축하기
Amazon Redshift로 데이터웨어하우스(DW) 구축하기
 
AWS EMR Cost optimization
AWS EMR Cost optimizationAWS EMR Cost optimization
AWS EMR Cost optimization
 
AWS ベーシックトレーニング-トレーニング資料
AWS ベーシックトレーニング-トレーニング資料AWS ベーシックトレーニング-トレーニング資料
AWS ベーシックトレーニング-トレーニング資料
 
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
 
Object storage의 이해와 활용
Object storage의 이해와 활용Object storage의 이해와 활용
Object storage의 이해와 활용
 
[AWS Builders] AWS와 함께하는 클라우드 컴퓨팅
[AWS Builders] AWS와 함께하는 클라우드 컴퓨팅[AWS Builders] AWS와 함께하는 클라우드 컴퓨팅
[AWS Builders] AWS와 함께하는 클라우드 컴퓨팅
 
Introduction to Amazon Aurora
Introduction to Amazon AuroraIntroduction to Amazon Aurora
Introduction to Amazon Aurora
 
AWS S3 Cost Optimization
AWS S3 Cost OptimizationAWS S3 Cost Optimization
AWS S3 Cost Optimization
 
AWS Blackbelt 2015シリーズ RDS
AWS Blackbelt 2015シリーズ RDSAWS Blackbelt 2015シリーズ RDS
AWS Blackbelt 2015シリーズ RDS
 
IDC 서버 몽땅 AWS로 이전하기 위한 5가지 방법 - 윤석찬 (AWS 테크에반젤리스트)
IDC 서버 몽땅 AWS로 이전하기 위한 5가지 방법 - 윤석찬 (AWS 테크에반젤리스트) IDC 서버 몽땅 AWS로 이전하기 위한 5가지 방법 - 윤석찬 (AWS 테크에반젤리스트)
IDC 서버 몽땅 AWS로 이전하기 위한 5가지 방법 - 윤석찬 (AWS 테크에반젤리스트)
 
Amazon Aurora
Amazon AuroraAmazon Aurora
Amazon Aurora
 
AWS를 활용한 리테일,이커머스 워크로드와 온라인 서비스 이관 사례::이동열, 임혁용:: AWS Summit Seoul 2018
AWS를 활용한 리테일,이커머스 워크로드와 온라인 서비스 이관 사례::이동열, 임혁용:: AWS Summit Seoul 2018 AWS를 활용한 리테일,이커머스 워크로드와 온라인 서비스 이관 사례::이동열, 임혁용:: AWS Summit Seoul 2018
AWS를 활용한 리테일,이커머스 워크로드와 온라인 서비스 이관 사례::이동열, 임혁용:: AWS Summit Seoul 2018
 
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
 
AWS Black Belt - AWS Glue
AWS Black Belt - AWS GlueAWS Black Belt - AWS Glue
AWS Black Belt - AWS Glue
 
Accelerate Oracle to Aurora PostgreSQL Migration (GPSTEC313) - AWS re:Invent ...
Accelerate Oracle to Aurora PostgreSQL Migration (GPSTEC313) - AWS re:Invent ...Accelerate Oracle to Aurora PostgreSQL Migration (GPSTEC313) - AWS re:Invent ...
Accelerate Oracle to Aurora PostgreSQL Migration (GPSTEC313) - AWS re:Invent ...
 
Amazon EMR Masterclass
Amazon EMR MasterclassAmazon EMR Masterclass
Amazon EMR Masterclass
 

Similar to Tajo TPC-H Benchmark Test on AWS

Optane DC Persistent Memory(DCPMM) 성능 테스트
Optane DC Persistent Memory(DCPMM) 성능 테스트Optane DC Persistent Memory(DCPMM) 성능 테스트
Optane DC Persistent Memory(DCPMM) 성능 테스트SANG WON PARK
 
웹서버 부하테스트 실전 노하우
웹서버 부하테스트 실전 노하우웹서버 부하테스트 실전 노하우
웹서버 부하테스트 실전 노하우IMQA
 
실전 서버 부하테스트 노하우
실전 서버 부하테스트 노하우 실전 서버 부하테스트 노하우
실전 서버 부하테스트 노하우 YoungSu Son
 
[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance TuningJi-Woong Choi
 
Alluxio: Data Orchestration on Multi-Cloud
Alluxio: Data Orchestration on Multi-CloudAlluxio: Data Orchestration on Multi-Cloud
Alluxio: Data Orchestration on Multi-CloudJinwook Chung
 
AWS 환경에서 MySQL BMT
AWS 환경에서 MySQL BMTAWS 환경에서 MySQL BMT
AWS 환경에서 MySQL BMTI Goo Lee
 
[오픈소스컨설팅]Performance Tuning How To
[오픈소스컨설팅]Performance Tuning How To[오픈소스컨설팅]Performance Tuning How To
[오픈소스컨설팅]Performance Tuning How ToJi-Woong Choi
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWSMatthew (정재화)
 
더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019Amazon Web Services Korea
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작DACON AI 데이콘
 
Amazon EC2 고급 활용 기법 및 모범 사례::이진욱::AWS Summit Seoul 2018
Amazon EC2 고급 활용 기법 및 모범 사례::이진욱::AWS Summit Seoul 2018Amazon EC2 고급 활용 기법 및 모범 사례::이진욱::AWS Summit Seoul 2018
Amazon EC2 고급 활용 기법 및 모범 사례::이진욱::AWS Summit Seoul 2018Amazon Web Services Korea
 
JVM Memory And GC Tuning Test
JVM Memory And GC Tuning Test JVM Memory And GC Tuning Test
JVM Memory And GC Tuning Test 승린 이
 
JVM Memory And GC Tuning Workflow
JVM Memory And GC Tuning WorkflowJVM Memory And GC Tuning Workflow
JVM Memory And GC Tuning Workflow승린 이
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWSGruter
 
2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)
2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)
2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)JMP Korea
 
어플리케이션 성능 최적화 기법
어플리케이션 성능 최적화 기법어플리케이션 성능 최적화 기법
어플리케이션 성능 최적화 기법Daniel Kim
 
[IMQA] performance consulting
[IMQA] performance consulting[IMQA] performance consulting
[IMQA] performance consultingIMQA
 
Reproducible research(2)
Reproducible research(2)Reproducible research(2)
Reproducible research(2)건웅 문
 
실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018
실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018
실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018Amazon Web Services Korea
 

Similar to Tajo TPC-H Benchmark Test on AWS (20)

Optane DC Persistent Memory(DCPMM) 성능 테스트
Optane DC Persistent Memory(DCPMM) 성능 테스트Optane DC Persistent Memory(DCPMM) 성능 테스트
Optane DC Persistent Memory(DCPMM) 성능 테스트
 
웹서버 부하테스트 실전 노하우
웹서버 부하테스트 실전 노하우웹서버 부하테스트 실전 노하우
웹서버 부하테스트 실전 노하우
 
실전 서버 부하테스트 노하우
실전 서버 부하테스트 노하우 실전 서버 부하테스트 노하우
실전 서버 부하테스트 노하우
 
[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning
 
Alluxio: Data Orchestration on Multi-Cloud
Alluxio: Data Orchestration on Multi-CloudAlluxio: Data Orchestration on Multi-Cloud
Alluxio: Data Orchestration on Multi-Cloud
 
AWS 환경에서 MySQL BMT
AWS 환경에서 MySQL BMTAWS 환경에서 MySQL BMT
AWS 환경에서 MySQL BMT
 
[오픈소스컨설팅]Performance Tuning How To
[오픈소스컨설팅]Performance Tuning How To[오픈소스컨설팅]Performance Tuning How To
[오픈소스컨설팅]Performance Tuning How To
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
 
더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
더 빠른 게임시스템을 위하여 개선된 서비스들 - 김병수 솔루션즈 아키텍트, AWS :: AWS Summit Seoul 2019
 
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
위성관측 데이터 활용 강수량 산출 AI 경진대회 1위 수상작
 
Amazon EC2 고급 활용 기법 및 모범 사례::이진욱::AWS Summit Seoul 2018
Amazon EC2 고급 활용 기법 및 모범 사례::이진욱::AWS Summit Seoul 2018Amazon EC2 고급 활용 기법 및 모범 사례::이진욱::AWS Summit Seoul 2018
Amazon EC2 고급 활용 기법 및 모범 사례::이진욱::AWS Summit Seoul 2018
 
JVM Memory And GC Tuning Test
JVM Memory And GC Tuning Test JVM Memory And GC Tuning Test
JVM Memory And GC Tuning Test
 
JVM Memory And GC Tuning Workflow
JVM Memory And GC Tuning WorkflowJVM Memory And GC Tuning Workflow
JVM Memory And GC Tuning Workflow
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
 
2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)
2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)
2-1: 석유화학 산업에서의 JMP 활용사례 (한화토털에너지스 김동진 프로)
 
2-1: 석유 화학 산업에서의 JMP 활용 사례
2-1: 석유 화학 산업에서의 JMP 활용 사례2-1: 석유 화학 산업에서의 JMP 활용 사례
2-1: 석유 화학 산업에서의 JMP 활용 사례
 
어플리케이션 성능 최적화 기법
어플리케이션 성능 최적화 기법어플리케이션 성능 최적화 기법
어플리케이션 성능 최적화 기법
 
[IMQA] performance consulting
[IMQA] performance consulting[IMQA] performance consulting
[IMQA] performance consulting
 
Reproducible research(2)
Reproducible research(2)Reproducible research(2)
Reproducible research(2)
 
실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018
실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018
실전! AWS 기반 데이터베이스 마이그레이션::최홍식::AWS Summit Seoul 2018
 

More from Gruter

MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기Gruter
 
Introduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data WarehouseIntroduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data WarehouseGruter
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoGruter
 
Introduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big DataIntroduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big DataGruter
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache TajoGruter
 
What's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its BeyondWhat's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its BeyondGruter
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Gruter
 
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoEfficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoGruter
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with TajoGruter
 
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter
 
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter
 
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter
 
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter
 
Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Gruter
 
Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Gruter
 
Hadoop security DeView 2014
Hadoop security DeView 2014Hadoop security DeView 2014
Hadoop security DeView 2014Gruter
 
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Gruter
 
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on HadoopBig Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on HadoopGruter
 
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...Gruter
 

More from Gruter (20)

MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기MelOn 빅데이터 플랫폼과 Tajo 이야기
MelOn 빅데이터 플랫폼과 Tajo 이야기
 
Introduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data WarehouseIntroduction to Apache Tajo: Future of Data Warehouse
Introduction to Apache Tajo: Future of Data Warehouse
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
Introduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big DataIntroduction to Apache Tajo: Data Warehouse for Big Data
Introduction to Apache Tajo: Data Warehouse for Big Data
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache Tajo
 
What's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its BeyondWhat's New Tajo 0.10 and Its Beyond
What's New Tajo 0.10 and Its Beyond
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
 
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache TajoEfficient In­‐situ Processing of Various Storage Types on Apache Tajo
Efficient In­‐situ Processing of Various Storage Types on Apache Tajo
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with Tajo
 
Gruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in TelcoGruter TECHDAY 2014 Realtime Processing in Telco
Gruter TECHDAY 2014 Realtime Processing in Telco
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
 
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
Gruter_TECHDAY_2014_04_TajoCloudHandsOn (in Korean)
 
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
Gruter_TECHDAY_2014_03_ApacheTajo (in Korean)
 
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
Gruter_TECHDAY_2014_01_SearchEngine (in Korean)
 
Apache Tajo - BWC 2014
Apache Tajo - BWC 2014Apache Tajo - BWC 2014
Apache Tajo - BWC 2014
 
Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014Elastic Search Performance Optimization - Deview 2014
Elastic Search Performance Optimization - Deview 2014
 
Hadoop security DeView 2014
Hadoop security DeView 2014Hadoop security DeView 2014
Hadoop security DeView 2014
 
Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014Vectorized processing in_a_nutshell_DeView2014
Vectorized processing in_a_nutshell_DeView2014
 
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on HadoopBig Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
Big Data Camp LA 2014 - Apache Tajo: A Big Data Warehouse System on Hadoop
 
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
Hadoop Summit 2014: Query Optimization and JIT-based Vectorized Execution in ...
 

Tajo TPC-H Benchmark Test on AWS

  • 1. Tajo Benchmark Test on AWS ㈜그루터
  • 2. © 2015 Gruter. All rights reserved. Test System 구성도 2
  • 3. © 2015 Gruter. All rights reserved. 1차 Test 결과 1차 Test 결과 3
  • 4. © 2015 Gruter. All rights reserved. 1차 Test Results 4 No. 테스트 케이스 설명 비고 1 EMR vs. EC2 비교 S3에 저장된 데이터를 EMR과 EC2에 서 읽기 성능 비교 단일 worker, “count(*)” 쿼리 2 인스턴스 종류 별 비교 인스턴스 종류(사양) 별 성능 비교: m3.xlarge, m3.2xlarge, c3.xlarge, c3.2xlarge, c3.4xlarge, c3.8xlarge EMR 환경 TPC-H 1TB 데이터 처리 3 Worker 규모 별 비교 Worker 수 규모에 따른 성능 비교: 4/8/16 대 구성 EMR 환경 TPC-H 1TB 데이터 처리 4 유사 솔루션 비교 Hive, Impala, Presto, Spark 와 Tajo 간 성능 비교 EMR 환경 TPC-H 1TB 데이터 처리 Impala의 경우, 100GB 데이터 적용 • 테스트 케이스
  • 5. © 2015 Gruter. All rights reserved. 기본 테스트 환경 5 • 기본 테스트 환경 • 수행 환경: EMR, AMI 버전 3.3.1 • Test case 1의 경우, 테스트 목적 상, 일부 EC2 환경에서 수행 • 데이터 셋: TPC-H 1TB 데이터s3://tajo-data-us-east-1/tpch-1t • 데이터 생성: 소스, 사용법 • 1TB 데이터 생성을 위해 SF 값을 1000으로 설정; SF=1 은 1GB 크기의 데이터 생성 • EMR 부트스트랩: https://github.com/awslabs/emr-bootstrap-actions • Tajo, Presto, Spark 해당; Hive와 Impala는 EMR에 built-in되어 있는 구성 사용 • 질의 셋: https://s3.amazonaws.com/tajo-benchmark/test_tool/TPC-H_test.tar.gz • Tajo를 포함한 테스트 대상 전체 질의 셋 포함 • 클러스터 설정: https://s3.amazonaws.com/tajo-benchmark/test_tool/tajo-conf.tar.gz • 각 인스턴스 종류 별 Tajo 설정 • AWS 리전: us-east-1
  • 6. © 2015 Gruter. All rights reserved. 기본 테스트 환경 6 • Tajo 실행 환경 • JVM: Oracle Java 1.7.0_71 • GC Option: -XX:+UseParallelGC -XX:+UseParallelOldGC -XX:-UseGCOverheadLimit • Tajo 버전: tajo-0.9.1-SNAPSHOT (2014.12.04) • Hadoop 라이브러리 버전 • Test Case 1 • EC2: hadoop-2.2.0 • EMR: AMI-3.3.2-hadoop-2.4.0 • Test Case [2~4] • EMR: AMI-3.3.2-hadoop-2.4.0
  • 7. © 2015 Gruter. All rights reserved. Test Case 1, EMR vs. EC2 7 • 테스트 환경 • 데이터 셋: S3에 저장된 TPC-H(100GB) 데이터 중 lineitem 테이블에 해당되는 데이터; 약 80GB • Tajo 클러스터 구성: 1 master, 1 worker 사양 설정 Type CPU Memory(GB) Disk(GB/SSD) Network Heap size Max tasks Disk resources c3.2xlarge 8 15 80x2 높음 12 6 3 • 테스트 방법 • EMR과 EC2 환경에서 각각 S3로부터 읽기 성능 측정. • 3회 반복 테스트를 수행하고, 질의는 읽기 연산만 수행. • SELECT COUNT(*) FROM lineitem • 시간대에 따른 영향도 같이 확인하기 위해12:00, 18:00 시간대(한국 시간 기준)에 수행 • 참고 자료: http://digitalpiglet.org/research/sion2010cloud-storage.pdf
  • 8. © 2015 Gruter. All rights reserved. Test Case 1, EMR vs. EC2 8 • 결과 • S3에 저장된 데이터 읽기 성능은 EMR 보다 EC2 환경에서 평균 약 3% 정도 빠름. • 시간대에 따른 성능 차이는 거의 없음. • Write성능 비교는 2차 테스트에서 진행 예정.  세부 결과 값은 별첨 참고
  • 9. © 2015 Gruter. All rights reserved. Test Case 2, EMR 인트턴스 종류(사양) 별 테스트 9 • 테스트 환경 • 데이터 셋: S3에 저장된 TPC-H 1TB 데이터 • Tajo 클러스터 구성: 1 master, 8 workers 사양 설정 Type CPU Memory(GB) Disk(GB/SSD) Network Heap size Max tasks Disk resources m3.xlarge 4 15 40x2 높음 10 4 2 m3.2xlarge 8 30 80x2 높음 20 8 4 c3.xlarge 4 7.5 40x2 중간 5 2 1 c3.2xlarge 8 15 80x2 높음 10 4 2 c3.4xlarge 16 30 160x2 높음 20 8 4 c3.8xlarge 32 60 320x2 10Gb 50 20 10
  • 10. © 2015 Gruter. All rights reserved. Test Case 2, EMR 인트턴스 종류(사양) 별 테스트 10 • 테스트 방법 • 각 인스턴스 종류 별로 TPC-H 1TB 데이터에 질의(22개) 실행 후 수행 시간 측정 • EMR 환경에서 Tajo용 추천 인스턴스 타입 선정 목적 • 각 질의 수행 전 Cluster 재시작; 연속 질의 실행에 따른 GC 상황 최소화 목적 • 발생 이슈 • 로컬 저장소 용량 부족으로 Q9 질의 수행 중 문제 발생 • 영향 받은 구성: 40GBx2 저장소, m3.xlarge, c3.xlarge 타입 구성 • 해결책: EBS 용량 추가 • Task 수 설정 관련 GC 문제로 Q21 질의 수행 중 문제 발생 • 영향 받은 구성: m3.xlarge, c3.xlarge, c3.2xlarge, c3.8xlarge • 해결책: task 당 가용 메모리를 늘리기 위해 task 수를 줄이는 설정 적용
  • 11. © 2015 Gruter. All rights reserved. Test Case 2, EMR 인트턴스 종류(사양) 별 테스트 11 • 테스트 결과 • 대상 타입 중 c3.8xlarge가 가장 좋은 성능을 보임 • 고사양 = 고성능 • 성능과 비용을 모두 고려한 추천 타임은 c3.4xlarge; 비용 분석은 다음 장표 참고  세부 결과 값은 별첨 참고 Type c3.8xl c3.4xl c3.2xl m3.2xl m3.xl c3.xl 수행시간 4.20 4.80 7.40 7.40 8.60 11.70
  • 12. © 2015 Gruter. All rights reserved. Test Case 2, EMR 인트턴스 종류(사양) 별 테스트 12 Type c3.8xl c3.4xl c3.2xl m3.2xl m3.xl c3.xl 수행시간(hrs) 4.20 4.80 7.40 7.40 8.60 11.70 총비용 79.20 43.20 35.52 46.72 27.36 25.44 성능개선비용/hr 7.17 2.57 2.34 4.95 0.62 기준  총 비용은 시간에 대해 올림 처리해서 계산; 예) 4.2 시간은 5시간에 대한 비용으로 계산 성능개선비용/hr = (c3.xl 기준 추가 비용) / (c3.xl 기준 단축 시간) • 비용 (단위: 미국 달러) • 일부 case에서 문제가 발생한 Q9, Q21 질의에 대한 수행 시간은 제외. • 시간이 가장 오래 걸리지만, 총 비용이 가장 적게든 타입은 c3.xlarge 임. • 시간에 대한 제약이 약하고, 비용에 대한 부담이 큰 경우, c3.xlarge 선택 가능. • 성능(수행 시간)을 같이 고려할 경우, • c3.xlarge 기준으로 성능 개선 비용 효율 관점에서 보면, m3.xlarge(시간 당 $0.62), c3.2xlarge($2. 34), c3.4xlarge($2.57) 순서를 보임. • 작업 완료 소요 시간은 순서대로 8시간, 7시간, 4시간 대 임을 고려 했을 때, 성능(소요 시간)과 비용을 고려하면, Tajo 용 추천 타입은 c3.4xlarge.
  • 13. © 2015 Gruter. All rights reserved. Test Case 2, EMR 인트턴스 종류(사양) 별 테스트 13 • 항목 설명 • 비용 추이 • 100% 누적 도표를 살펴보면, 오른 쪽으로 가면서 면적이 작아질수록 상대적으로 효율이 높다고 할 수 있음. 기준이 되는 c3.xl을 제외하고 c3.2xl과 c3.4xl 타입은 고르게 비율을 유지하거나 일부 항목에서 효 율이 높음. c3.8xl의 경우 소요 시간(성능)을 제외하 고는 모두 낮은 효율을 보여주며, m3.xl의 경우, 비용 측면에서 높은 효율을 보여 주지만, 성능(소요시간) 에 제약이 있음. $/hour Hours ($ x Hours)/ 10 성능 개선 비용/hour c3.xl 2.12 11.70 2.54 0.00 m3.xl 3.04 8.60 2.74 0.62 m3.2xl 5.84 7.40 4.67 4.95 c3.2xl 4.44 7.40 3.55 2.34 c3.4xl 8.64 4.80 4.32 2.57 c3.8xl 15.84 4.20 7.92 7.17 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 인스턴스 타입 별 비용 추이 항목 설명 $/hour 시간당 사용료 (비용) Hours 총 수행 시간 (성능) ($xHours)/10 총비용의 scale을 조정한 값 (비용) 성능개선비용 /hour 성능 개선에 소요된 시간 단위 비용; (단위 성능 대비 비용)
  • 14. © 2015 Gruter. All rights reserved. Test Case 3, Worker 규모 별 테스트 14 • 테스트 환경 • 데이터 셋: S3에 저장된 TPC-H(1TB) 데이터 • Tajo 클러스터 구성: 1 master, 8 workers 사양 설정 Type CPU Memory(GB) Disk(GB/SSD) Network Heap size Max tasks Disk resources c3.4xlarge 16 30 160x2 높음 20 8 4 c3.8xlarge 32 60 320x2 10Gb 50 20 10 • 테스트 방법 • c3.4xlarge, c3.8xlarge 두 가지 인스턴스에 대해, • worker 수를 4/8/16 으로 각각 구성하여, TPC-H 질의(22개) 실행 후 성능 측정 • EMR 환경에서 1TB 데이터 기준, 추천 worker node 규모 파악 목적 • 각 질의 수행 전 Cluster 재시작; 연속 질의 실행에 따른 GC 발생 상황 최소화 목적
  • 15. © 2015 Gruter. All rights reserved. Test Case 3, Worker 규모 별 테스트 15 • 테스트 결과 • c3.8xlarge/16 workers 구성이 테스트 대상 중, 가장 높은 성능을 보임 • 고사양 = 고성능 • TPC-H 1TB 데이터 기준, 비용과 성능을 고려한 구성은, c3.4xlarge/16 workers 추천 • 일부 질의의 경우, worker 노드 규모에 영향이 상대적으로 적음; Q2, Q11, Q16, Q22  세부 결과 값은 별첨 참고
  • 16. © 2015 Gruter. All rights reserved. Test Case 3, Worker 규모 별 테스트 16 4 worker 8 workers 16 workers c3.8xlarge-node 0.00 0.57 0.29 c3.4xlarge-node 0.00 0.88 0.45 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 노드당성능향상기여(hrs) 노드 증가에 따른 효율 변화 추이 Workers c3.8xlarge 소요 시간 c3.4xlarge 소요 시간 4 7.04 9.22 8 4.75 5.69 16 3.52 3.80 • Worker 노드 증가에 따른 성능 추이 • 일부 조건에서 문제가 발생한 Q21 질의에 대해서는, 처리 소요 시간에서 일괄 제외. • Worker 수가 증가 함에 따라 전반적인 성능 향상을 보임; 노드 증가 = 성능 향상 • 4대 규모(기준)에서 16 대로 늘렸을 때 보다 8 대로 늘렸을 때 단위 노드당 효율은 더 높음. • 단위 노드 당 효율 = (4대 구성 기준 시간 감소 량)/(4대 구성 기준 노드 증가 량)
  • 17. © 2015 Gruter. All rights reserved. Test Case 3, Worker 규모 별 테스트 17 구성 c3.8xl-16 c3.8xl-8 c3.8xl-4 c3.4xl-16 c3.4xl-8 c3.4xl-4 수행시간 3.52 4.75 7.04 3.80 5.69 9.22 총비용 125.74 79.18 64.29 68.14 51.82 44.36 성능개선비용/hr 14.18 7.78 9.13 4.38 2.11 기준  총 비용은 시간에 대해 올림 처리해서 계산; 예) 4.75 시간은 5시간에 대한 비용으로 계산 • 비용 (단위: 미국 달러) • 일부 조건에서 문제가 발생한 Q21 질의에 대한 소요 시간은 일괄 제외. • 가장 느렸지만, 총 비용이 가장 적게든 구성은 c3.4xlarge/4-workers • 시간에 대한 제약이 약하고, 비용에 대한 부담이 큰 경우, 해당 구성 선택. • 성능(소요 시간)을 고려해야 하는 경우 • c3.4xlarge/4 workers 기준으로 시간당 비용 효율 관점에서 보면, c3.4xlarge/8-workers(시간 당 $2.11), c3.4xlarge/16-workers($4.38), c3.8xlarge/8-workers($7.78) 순서를 보임. • 작업 완료 소요 시간은 순서대로 각각 5시간, 3시간, 4시간 대 임을 고려하면, c3.4xlarge/16-workers 구성 추천.
  • 18. © 2015 Gruter. All rights reserved. Test Case 3, Worker 규모 별 테스트 18 $/hour Hours ($ x Hours)/ 10 성능 개선 비용/hour c3.4xl-4 4.44 9.22 4.44 0.00 c3.4xl-8 8.64 5.69 5.18 2.11 c3.4xl-16 17.04 3.80 6.81 4.38 c3.8xl-4 8.04 7.04 6.43 9.13 c3.8xl-8 15.84 4.75 7.92 7.78 c3.8xl-16 31.44 3.52 12.57 14.28 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Worker 노드 규모 별 비용 추이 • 비용 추이 • 오른쪽 100% 누적 도표를 살펴보면, 오른쪽 항 목으로 가면서 면적이 작아질수록 대상 노드 수 구 성들 간에 상대적인 비용 효율이 높다고 할 수 있 음. c3.4xl-4 구성의 경우, 테스트 대상 구성들 중 가장 느리지만, 비용 부담이 가장 적은 구성 임. c3.4xl-8 또는 c3.4xl-16 구성은 높은 성능과 함께 높은 비용 대비 효율을 보여줌. c3.8xl 구성은 c3.4xl과 유사한 성능을 보여주지만, 비용 효율은 c3.4xl 에 비해 크게 낮음.
  • 19. © 2015 Gruter. All rights reserved.19 • 테스트 환경 • 데이터 셋: • TPC-H(1TB) • Impala 의 경우 별도로 100GB 크기의 데이터 셋 준비; in-memory 처리 고려 • 대상 솔루션 버전 및 JVM 환경: • 최신 버전의 Presto는 java8에서만 실행가능 • 클러스터 구성: 16 workers (c3.4xlarge), 1 master (c3.xlarge) 사양 설정 Type CPU Memory(GB) Disk(GB/SSD) Network Heap size Max tasks Disk resources c3.4xlarge 16 30 160x2 높음 20 8 4 Tajo Hive Presto Impala Spark 버전 0.9.1-SNAPSHOT 0.13.1 0.89 1.2.4 1.2.0 JVM 환경 Java7 Java7 Java8 Java7 Java7 Test Case 4, 유사 솔루션 비교
  • 20. © 2015 Gruter. All rights reserved. Test Case 4, 유사 솔루션 비교 20 • 테스트 방법 • 각 솔루션 별로, c3.4xlarge 타입으로 worker 수를 16대로 구성하여, TPC-H 질의(22개) 실행 후 성능 측정 • Impala의 경우, S3 미지원 때문에, EMR HDFS에 저장된 100GB 크기의 데이터를 처리 • Spark의 경우 standalone 모드 (YARN 독립)로 실행 • 각 쿼리 테스트 간 GC 간섭을 없애기 위해 쿼리 실행 시간 측정 마다 클러스터 재 시작 솔루션 설정 및 참고 Presto •Presto bootstrap action에서는 instance type 별로 적합한 메모리 설정 값이 제공되지 않음. •Yarn 의 container 메모리 설정 참조하여 Presto 프로세스 heap 메모리 설정. •GC 설정은 기본적으로 BA에 포함되어 있는 내용 적용. Hive •EMR에 built-in되어 있으므로, 설정 변경 없이 사용. Impala Spark •RDD기반 프로그래밍이 아닌, SQL을 사용한 분석 가정. •질의를 수행과정에서 중간 데이터 저장이 필요한 경우, S3에 저장. • 설정 및 참고 사항:
  • 21. © 2015 Gruter. All rights reserved. Test Case 4, 유사 솔루션 비교 21 • 발생 이슈 대상 이슈 Hive • Q22 질의 실행 중 Out Of Memory 오류 발생 Presto • 질의 지원: TPC-H 22 개 질의 중 12개의 질의는 지원되지 않는 기능이라 실행 불가 Impala • 메모리 제약: 22개 질의 중, 11개는 테이블 join 과정에서 메모리 문제로 crash; AWS EMR Impala버전은 1.2.4로 spill to disk 기능이 없는 버전 • 데이터 import: S3 연동 기능이 제공되지 않아서, S3 데이터를 EMR 환경의 HDFS로 복제한 후에 테스트 실행; 해당 테스트케이스에 대해서, Tajo도 같은 조건으로 HDFS를 저장소로 해서 수행. Spark • 질의 실행 도중에 불규칙하게 hang 발생으로 테스트 불가 • 소스 코드와 로그를 통해 조사를 통해, 데이터 Shuffle과정에서 connection이 끊어진 곳으로 데이터를 보내려고 시도하는 과정에서 connection timeout 발생 확인. • Client가 연결된 channel를 통해서 Server가 데이터를 전송하도록 되어 있으나, Client에서 서버와의 연결이 먼저 끊어지는 경우, Server가 데이터 전송할 곳을 잃어 버리는 상황 발생. • 이 부분은 재연결 시도 등의 Spark 자체의 코드 개선이 필요한 상황으로 판단 됨.
  • 22. © 2015 Gruter. All rights reserved. 결과 보기에 앞서 22 • 설정 최적화 • Tajo를 비롯한 솔루션들은 기본 설정으로 실행. 각 솔루션 전문가들이 해당 솔루션과 환경에 맞게 설정을 최적화해서 테스트를 수행한다면, 수행된 테스트 결과와는 다른 결과를 얻을 수도 있을 것으로 판단. • 질의 최적화 • 각 솔루션들 마다 지원되는 질의 문법이나 기능이 조금씩 다를 수 있기 때문에, 같은 질의를 수행할 수 없는 경우, 동일한 결과를 얻기 위해 해당 솔루션이 지원하는 기능 범위에서 수정된 질의 셋을 수행하는 방법으로 테스트를 진행 함. 따라서 질의를 어떻게 구성하느냐에 따라 성능 결과가 달라질 수 있기 때문에 질의 최적화 정도에 따라 결과가 달라질 수 있을 것으로 판단. • 비용 최적화 • 1차 테스트에서는 인스턴스 타입과 문제를 통제한 상태에서, 실행 시간을 비교하는 방식의 접근을 통해 성능을 평가하였지만, 각 솔루션마다 용도와 설계 목적이 다르기 때문에, 이러한 방식은 실제 사용 패턴과는 맞지 않을 수도 있음. 따라서, 이후 기회가 된다면, 해결할 문제만 통제한 상태에서, 각 솔루션에 보다 적합한 인스턴스 구성을 사용해서 시간과 비용을 비교하는 방식의 접근도 유효할 것으로 판단됨.
  • 23. © 2015 Gruter. All rights reserved. Test Case 4, 유사 솔루션 비교 23 • 테스트 결과 • Spark의 경우, hang문제로 인해 테스트를 수행할 수 없었음. • Presto, Hive의 경우, 부분 질의 셋 실행 • Presto의 경우 12개, Hive는 1개 질의에 대해 오류 발생 • 전체적인 성능은 Tajo > Presto > Hive • Hive 대비 평균 약 4배 정도 빠름; Q4, Q16 예외 • Presto 대비 평균 약 1.5 정도 빠름; Q16 예외  값이 작을 수록 높은 성능 세부 결과 값은 별첨 참고
  • 24. © 2015 Gruter. All rights reserved. Test Case 4, 유사 솔루션 비교 (Impala) 24 • 테스트 결과 • Impala의 경우, 100GB 데이터를 대상으로 했음에도, 11개의 테이블 JOIN 질의에 대해서는 메모리 부족으로 crash 발생 • 성공적으로 수행된 나머지 11개의 질의의 경우, 전체적으로 Impala가 높은 성능을 보임. • 타조에 비해 빠른 성능을 보인 질의에 대해서는 타조 대비 약 2.5배 빠른 성능을 보임 • 흥미로운 점은 일부 workload에서는 Tajo가 유사하거나 나은 성능을 보임; Q10, Q13, Q20 • Impala의 경우, S3 데이터를 HDFS로 복사해야 하는 오버헤드 발생 • 크기가 큰 테이블 간 Join을 위해서는 많은 메모리 확보 필요  세부 결과 값은 별첨 참고
  • 25. © 2015 Gruter. All rights reserved. 결론 25 • AWS EMR 환경에서 Tajo 이용자들에게 인스턴스 최적 선택 가이드 제공 • 1TB 크기의 TPC-H workload 기준, • c3.4xlarge 타입의 16 노드 worker 클러스터 구성 추천 • 전체 22개의 질의 수행 시간 3.80 시간 • 비용 $68.14 • Tajo와 유사한 시스템들과의 벤치마크 자료 확보 대상 Query Coverage (TPC-H 총 22) 성능 (Tajo 기준) 테스트 데이터 비고 Tajo 22 (100%) 100% 1TB (S3), 100GB(HDFS) Hive 21 (95%) 25% 1TB (S3) Presto 10 (45%) 67% 1TB (S3) Impala 11 (50%) 250% 100GB (HDFS) S3 지원 안됨 Spark N/A N/A connection 오류 발생
  • 26. © 2015 Gruter. All rights reserved. 0 20 40 60 80 100 Query Coverage Performance S3, HDFS 지원 대용량 ETL 적합 Tajo Presto 0 20 40 60 80 100 Query Coverage Performance S3, HDFS 지원 대용량 ETL 적합 Tajo Impala 0 20 40 60 80 100 Query Coverage Performance S3, HDFS 지원 대용량 ETL 적합 Tajo Hive 26 • S3에 저장된 대용량 데이터를 분석하고자 하는 요구를 가진 AWS 사용자들에게, 다양한 Query 지원, 성능, 유연한 스토리지 지원, 대용량 데이터 분석/처리를 위한 아키텍처 설계 측면에서 Tajo가 경쟁력 있는 대안으로 제안될 수 있음. Hive Impala Presto 결론
  • 27. © 2015 Gruter. All rights reserved. Thank you 27
  • 28. © 2015 Gruter. All rights reserved. GRUTER: YOUR PARTNER IN THE BIG DATA REVOLUTION Phone +82-2-508-5911 Fax +82-2-508-5912 E-mail contact@gruter.com Web www.gruter.com Asian HQ 5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839 US HQ 435 Tasso Street Suite 315, Palo Alto, CA 94301