Submit Search
Upload
Spark와 Hadoop, 완벽한 조합 (한국어)
•
99 likes
•
6,548 views
Teddy Choi
Follow
Spark와 Hadoop이 어떻게 실시간 예측을 위해 함께 쓰일 수 있는지 방향을 모색한다.
Read less
Read more
Software
Report
Share
Report
Share
1 of 53
Download now
Download to read offline
Recommended
Apache Hive: for business intelligence use and real-time I/O use (Korean)
Apache Hive: for business intelligence use and real-time I/O use (Korean)
Teddy Choi
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
Sang Don Kim
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
SangHoon Lee
Cloudera & Zookeeper
Cloudera & Zookeeper
Junyoung Park
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
치완 박
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
Teddy Choi
Spark Day 2017@Seoul(Spark Bootcamp)
Spark Day 2017@Seoul(Spark Bootcamp)
Sang-bae Lim
Spark은 왜 이렇게 유명해지고 있을까?
Spark은 왜 이렇게 유명해지고 있을까?
KSLUG
Recommended
Apache Hive: for business intelligence use and real-time I/O use (Korean)
Apache Hive: for business intelligence use and real-time I/O use (Korean)
Teddy Choi
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
Sang Don Kim
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
SangHoon Lee
Cloudera & Zookeeper
Cloudera & Zookeeper
Junyoung Park
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
치완 박
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
Teddy Choi
Spark Day 2017@Seoul(Spark Bootcamp)
Spark Day 2017@Seoul(Spark Bootcamp)
Sang-bae Lim
Spark은 왜 이렇게 유명해지고 있을까?
Spark은 왜 이렇게 유명해지고 있을까?
KSLUG
Spark machine learning & deep learning
Spark machine learning & deep learning
hoondong kim
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcamp
Sang-bae Lim
Spark 소개 2부
Spark 소개 2부
Jinho Yoo
Introduction to Apache Tajo
Introduction to Apache Tajo
Gruter
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
Gruter
Spark_Overview_qna
Spark_Overview_qna
현철 박
Spark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With Spark
SangHoon Lee
빅데이터 구축 사례
빅데이터 구축 사례
Taehyeon Oh
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
Gruter
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
r-kor
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
SANG WON PARK
Zeppelin(Spark)으로 데이터 분석하기
Zeppelin(Spark)으로 데이터 분석하기
SangWoo Kim
Spark sql
Spark sql
동현 강
Hadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobile
상연 최
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
Matthew (정재화)
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
Channy Yun
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
AWSKRUG - AWS한국사용자모임
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
Matthew (정재화)
빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지
빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지
위키북스
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
Hyoungjun Kim
(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)
(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)
SAMUEL SJ Cheon
Hp가 바라보는 클라우드의 미래, hp helion
Hp가 바라보는 클라우드의 미래, hp helion
SangWook Byun
More Related Content
What's hot
Spark machine learning & deep learning
Spark machine learning & deep learning
hoondong kim
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcamp
Sang-bae Lim
Spark 소개 2부
Spark 소개 2부
Jinho Yoo
Introduction to Apache Tajo
Introduction to Apache Tajo
Gruter
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
Gruter
Spark_Overview_qna
Spark_Overview_qna
현철 박
Spark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With Spark
SangHoon Lee
빅데이터 구축 사례
빅데이터 구축 사례
Taehyeon Oh
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
Gruter
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
r-kor
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
SANG WON PARK
Zeppelin(Spark)으로 데이터 분석하기
Zeppelin(Spark)으로 데이터 분석하기
SangWoo Kim
Spark sql
Spark sql
동현 강
Hadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobile
상연 최
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
Matthew (정재화)
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
Channy Yun
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
AWSKRUG - AWS한국사용자모임
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
Matthew (정재화)
빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지
빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지
위키북스
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
Hyoungjun Kim
What's hot
(20)
Spark machine learning & deep learning
Spark machine learning & deep learning
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcamp
Spark 소개 2부
Spark 소개 2부
Introduction to Apache Tajo
Introduction to Apache Tajo
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
Spark_Overview_qna
Spark_Overview_qna
Spark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With Spark
빅데이터 구축 사례
빅데이터 구축 사례
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
Zeppelin(Spark)으로 데이터 분석하기
Zeppelin(Spark)으로 데이터 분석하기
Spark sql
Spark sql
Hadoop cluster os_tuning_v1.0_20170106_mobile
Hadoop cluster os_tuning_v1.0_20170106_mobile
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지
빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
Similar to Spark와 Hadoop, 완벽한 조합 (한국어)
(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)
(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)
SAMUEL SJ Cheon
Hp가 바라보는 클라우드의 미래, hp helion
Hp가 바라보는 클라우드의 미래, hp helion
SangWook Byun
Pivotal 전략 업데이트 2015 Feb
Pivotal 전략 업데이트 2015 Feb
seungdon Choi
[OpenStack Day in Korea 2015] Keynote 3 - 엔터프라이즈 기업을 위한 개방형 클라우드 컴퓨팅
[OpenStack Day in Korea 2015] Keynote 3 - 엔터프라이즈 기업을 위한 개방형 클라우드 컴퓨팅
OpenStack Korea Community
On premise db & cloud database
On premise db & cloud database
Oracle Korea
Pivotal CF Short-20150109
Pivotal CF Short-20150109
Hakchin Kim
SaaS 동향
SaaS 동향
Seong-Bok Lee
[Mpis17,red hat] SMART Health, innovative opensoruce and security with red ha...
[Mpis17,red hat] SMART Health, innovative opensoruce and security with red ha...
SAMUEL SJ Cheon
AWS를 이용한 SAP 암호화 추진 방안 및 적용사레::남기웅 (ISTN Solutions), 강병수 (AWS)::제조업 이노베이션 데이 ...
AWS를 이용한 SAP 암호화 추진 방안 및 적용사레::남기웅 (ISTN Solutions), 강병수 (AWS)::제조업 이노베이션 데이 ...
Amazon Web Services Korea
Oracle innovation summit chatbot
Oracle innovation summit chatbot
Mee Nam Lee
기업과오픈소스 Fo4 s_ktds_v1.0_20160823
기업과오픈소스 Fo4 s_ktds_v1.0_20160823
승우 백
세션 2: 제조업의 Digital Transformation과 AWS의 주요 기술
세션 2: 제조업의 Digital Transformation과 AWS의 주요 기술
Amazon Web Services Korea
polyglot application development in the cloud
polyglot application development in the cloud
Mee Nam Lee
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
Amazon Web Services Korea
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
Treasure Data, Inc.
성공적인 AWS Cloud 마이그레이션 전략 및 사례 - 방희란 매니저:: AWS Cloud Track 1 Intro
성공적인 AWS Cloud 마이그레이션 전략 및 사례 - 방희란 매니저:: AWS Cloud Track 1 Intro
Amazon Web Services Korea
(Enterprise,RedHat) - SDC(IaaS) with SDS, Cloud References 2020-07 Samuel.pdf
(Enterprise,RedHat) - SDC(IaaS) with SDS, Cloud References 2020-07 Samuel.pdf
SAMUEL SJ Cheon
KOPENS_INTRODUCTION_2014
KOPENS_INTRODUCTION_2014
Lee Sangboo
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use Cases
Jongwook Woo
링크브릭스 2019
링크브릭스 2019
Sangkyu Kim
Similar to Spark와 Hadoop, 완벽한 조합 (한국어)
(20)
(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)
(Red hat]private cloud-osp-introduction(samuel)2017-0530(printed)
Hp가 바라보는 클라우드의 미래, hp helion
Hp가 바라보는 클라우드의 미래, hp helion
Pivotal 전략 업데이트 2015 Feb
Pivotal 전략 업데이트 2015 Feb
[OpenStack Day in Korea 2015] Keynote 3 - 엔터프라이즈 기업을 위한 개방형 클라우드 컴퓨팅
[OpenStack Day in Korea 2015] Keynote 3 - 엔터프라이즈 기업을 위한 개방형 클라우드 컴퓨팅
On premise db & cloud database
On premise db & cloud database
Pivotal CF Short-20150109
Pivotal CF Short-20150109
SaaS 동향
SaaS 동향
[Mpis17,red hat] SMART Health, innovative opensoruce and security with red ha...
[Mpis17,red hat] SMART Health, innovative opensoruce and security with red ha...
AWS를 이용한 SAP 암호화 추진 방안 및 적용사레::남기웅 (ISTN Solutions), 강병수 (AWS)::제조업 이노베이션 데이 ...
AWS를 이용한 SAP 암호화 추진 방안 및 적용사레::남기웅 (ISTN Solutions), 강병수 (AWS)::제조업 이노베이션 데이 ...
Oracle innovation summit chatbot
Oracle innovation summit chatbot
기업과오픈소스 Fo4 s_ktds_v1.0_20160823
기업과오픈소스 Fo4 s_ktds_v1.0_20160823
세션 2: 제조업의 Digital Transformation과 AWS의 주요 기술
세션 2: 제조업의 Digital Transformation과 AWS의 주요 기술
polyglot application development in the cloud
polyglot application development in the cloud
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
성공적인 AWS Cloud 마이그레이션 전략 및 사례 - 방희란 매니저:: AWS Cloud Track 1 Intro
성공적인 AWS Cloud 마이그레이션 전략 및 사례 - 방희란 매니저:: AWS Cloud Track 1 Intro
(Enterprise,RedHat) - SDC(IaaS) with SDS, Cloud References 2020-07 Samuel.pdf
(Enterprise,RedHat) - SDC(IaaS) with SDS, Cloud References 2020-07 Samuel.pdf
KOPENS_INTRODUCTION_2014
KOPENS_INTRODUCTION_2014
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use Cases
링크브릭스 2019
링크브릭스 2019
Spark와 Hadoop, 완벽한 조합 (한국어)
1.
Spark와 HDP, 완벽한
조합 (Hortonworks Data Platform) 최종욱 기술이사, Hortonworks Korea © Hortonworks Inc. 2011 – 2015. All Rights Reserved
2.
왜 오픈 엔터프라이즈
Hadoop인가? 빅데이터 시대의 분산 저장/분석 플랫폼 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
3.
4ZB DATA MOBILE DEVICES HUMAN CONTENT INTERNET OF THINGS 44ZB DATA Page 3 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Source: http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm
4.
위기 기존의 데이터 아키텍처는
데이터를 접근 불 가능하게, 불완전하게, 무관하게, 그리고 비 싸게 만듭니다 Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
5.
기회 Apache™ Hadoop® 은
여러분의 사업을 변화시켜, 어떤 고급 분석 응용 프로그램도 빅데이터에 접근 가능하게 만듭니다 Page 5 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
6.
Page 6 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoop을 향한 두 가지 접근법 사 유 소 프 트 웨 어 App App App App App App Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved 오 픈 엔 터 프 라 이 즈 H A D O O P 오 픈 커 뮤 니 티
7.
오픈 엔터프라이즈 Hadoop 개방성 호환성 집중성 준비성 Page 7 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved
8.
Page 8 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Payment Tracking Call Analysis Machine Data Product Design Social Mapping Factory Yields Defect Detection Due Diligence M & A Proactive Repair Disaster Mitigation Investment Planning Next Product Recs Store Design Risk Modeling Ad Placement Inventory Predictions Sentiment Analysis Ad Placement Basket Analysis Segments Customer Support Supply Chain Cross- Sell Customer Retention Vendor Scorecards Optimize Inventories 기업의 경영진들은 새로운 통찰, 종합적 관점, 예측적 분석이라는 빅데이터의 새로운 활용을 강화하는 차세 대 응용 프로그램들을 활용하여 변화된 성과를 이끌어내고 있습니다.사업적 성과 새로운 통찰 종합적 관점 예측적 분석
9.
Page 9 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Historical Records OPEX Reduction Mainframe Offloads Fraud Prevention Data as a Service Public Data Capture 비용 절감 IT 경영진들은 오픈 엔터프라이즈 Hadoop을 사용하여 기존 데이터 아키텍처를 현대화하여 상당한 운영 비용 절감을 달성하고 있습니다. 이러한 비용 절감 혁신은 콜드 데이터의 활성 보존본, ETL 오프로드, 그리 고 기존 데이터의 보강을 포함합니다. Digital Protection Device Data Ingest Rapid Reporting 활성 보존본 ETL 오프로드 데이터 보강
10.
Page 10 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Hortonworks의 고객들은 우리의 기술을 활용하여 새로운 사업적인 성과를 이루거나 비용을 줄여 그들의 사업을 변화시킵니다. 이 두 목표의 여정은 보통 다양한 용도에 걸쳐 함께 이루어집니다.고객의 여정 Social Mapping Payment Tracking Factory Yields Defect Detection Call Analysis Machine Data Product Design M & A Due Diligence Next Product Recs Store Design Risk Modeling Ad Placement Proactive Repair Disaster Mitigation Investment Planning Inventory Predictions Customer Support Sentiment Analysis Supply Chain Ad Placement Basket Analysis Segments Cross- Sell Customer Retention Vendor Scorecards Optimize Inventories OPEX Reduction Mainframe Offloads Historical Records Data as a Service Public Data Capture Fraud Prevention Device Data Ingest Rapid Reporting Digital Protection 새로운 통찰 종합적 관점 예측적 분석 활성 보존본 ETL 오프로드 데이터 보강 탐 색 최 적 화 전 환
11.
왜 Hortonworks인가? 오픈 엔터프라이즈
Hadoop의 리더 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
12.
Page 12 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Hortonworks만이 오픈 엔터프라이즈 Hadoop을 제공 H O R T O N W O R K S D ATA P L AT F O R M YARN: 데이터 운영 체제 클릭스트림 센서 소셜 모바일 위치 서버 로그 배치 인터랙티브 검색 스트리밍 기계 학습 기존
13.
Page 13 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Hortonworks는 Apache 커뮤니티에 큰 영향력을 행사 커미터들을 고용 Apache Hadoop™ 프로젝트 커미터의 1/3, 다른 중 요한 프로젝트에서도 다수 고용 우리의 커미터들이 혁신을 주도 오픈 엔터프라이즈 Hadoop을 확장 Hadoop 로드맵에 영향력을 행사 우리의 리더를 통해서 중요한 요구사항들을 커뮤니 티에 주고 받음 A PA C H E H A D O O P C O M M I T T E R S
14.
Page 14 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved STORAGE STORAGE Hortonworks는 전체 생명주기 지원을 제공 Hortonworks 전문성 오픈 엔터프라이즈 Hadoop의 실제 설계자들의 전 문성 연간 구독 고객사의 성공 = 우리들의 성공 Apache 커미터 고객사의 요구사항을 대변, 고객사에 로드맵을 제시 하여 고객사의 여정을 도움설계 및 구현 배포 운영 Project 1 Project 5 Project 4 Project 3 Project 2 Project 6 확장
15.
Page 15 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Hortonworks는 선제적인 지원을 제공 Hortonworks SmartSense™ 고객사의 클러스터에 대한 기계 학습과 예측적 분석 통합 고객 포털 지식 베이스 및 온디멘드 교육 지식 베이스 통합 고객 포털 온디멘드 교육 고객사 환경 모든 클라우드 • 하이브리드 환경 • 멀티터넌트 Hortonworks SmartSense
16.
Page 16 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Hortonworks가 시장을 주도 Hortonworks는 리더 Hadoop 시장에서, 포춘 100대 기업의 40%를 지 원하고 있음 • F100 통신기업 75% • F100 상해보험 65% • F100 제조기업 55% • F100 유통기업 46% • F100 건강보험 40% “Hortonworks는 오픈소스 혁신을 사랑 하며 활성화시킨다” – 2014 Forrester Wave 보고서 평가 “The Forrester Wave™: Big Data Hadoop Solutions”
17.
Page 17 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Hortonworks 소개 고객 확장세 • 556개 고객사 (2015년 8월 5일 기준) • 2015년 2분기 119개 신규 고객사 • NASDAQ에 상장됨: HDP Hortonworks Data Platform • 모든 응용과 모든 데이터를 위해 완전한 오픈 멀티터넌 트 플랫폼 • 보안, 운영, 거버넌스를 위해 일관된 기업 서비스 고객 성공의 동반자 • 오픈소스 커뮤니티의 리더이며, 기업이 필요로 하는 혁 신에 집중 • 비교 불허의 Hadoop 기술지원 구독 2011년 설립 Yahoo!의 최초 24명의 Hadoop 설계자, 개발자, 운영자 740+ 임 직 원 1350+ 생 태 계 협 력 사
18.
Page 18 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Hortonworks가 최고 IT 필수품으로 평가됨 최고의 IT 필수품 빅데이터, 웨어하우징, 분석 용도중에서 Hortonworks는 상위에 평가됨 모든 다른 Hadoop 배포판은 하위에 평가됨 개방성, 완전성, 집중형 아키텍처 특별한 기능으로 인용됨 2015년 6월 지출 목적 Shared Accounts of Hortonworks (A, I) (All Cut, n=35) Hortonworks, Big Data#1 Microsoft, Hosting#2 MongoDB, Warehousing#3 Tableau, Big Data#4 최고 벤더 20 Source: https://hortonworks.com/blog/cio-survey-hortonworks-data-platform-now-a-top-it-imperative/
19.
Spark와 HDP, 완벽한
조합 Spark on YARN, 그리고 그 이상 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
20.
Page 20 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved 우아한 개발자 API DataFrames, 기계 학습, 그리고 SQL 인터랙티브 데이터 과학 모든 응용 프로그램들은 대용량인 동시에 정밀한 예측이 필요 기계 학습을 대중화 Hive가 Hadoop에서 SQL을 했듯이 Spark가 Hadoop에서 기계 학습 을 수행 커뮤니티 개발자, 고객, 그리고 파트너의 폭 넓은 관심 데이터 운영 체제의 가치를 현실화 Hadoop 도구 상자의 주요한 도구 Hortonworks가 Spark를 사랑하는 이유 Storage YARN: Data Operating System Governance Security Operations Resource Management
21.
Page 21 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved 리소스 관리 YARN이 예측 가능한 SLA 안에서 멀티터넌트, 다양한 워크로드를 제공 계층적 메모리 저장소 오프-힙 RDD 캐시를 위한 HDFS 인메모리 티어 SQL에는 SparkSQL와 Hive 최신 메타스토어와 상호작용, HS2; 최적화된 ORC 지원 Spark와 NoSQL RDDs for predicate pushdown을 통한 HBase와 깊은 통합 알고리즘에서 용례로 – 흩어진 점들을 연결 고수준 기계 학습 추상화 – 검증, 튜닝, 파이프라인 조립… 예: 위치 사용 편의성 인터랙티브 노트북 용으로 Apache Zeppelin을 사용 Spark와 Hadoop – 어떻게 나아질 수 있을까? Storage YARN: Data Operating System Governance Security Operations Resource Management
22.
Page 22 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved 메타데이터 및 거버넌스 메타데이터를 위한 Apache Atlas, Spark 파이프라인을 위한 Apache Falcon 지원 보안 및 운영 Apache Ranger로 관리되는 인증, Apache Ambari를 통한 배포 및 관리 어느 곳에서 배포 가능 Linux, Windows, 온프레미스 또는 클라우드 셀프 서비스된 클라우드 상의 Spark Cloudbreak와 Ambari를 통해 데이터 과학 클러스터를 쉽게 실행 - Azure, AWS, GCP, OpenStack, Docker를 모두 지원 Spark와 Hadoop – 어떻게 나아질 수 있을까? Storage YARN: Data Operating System Governance Security Operations Resource Management
23.
Page 23 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved 실제 세계의 용례에 대해 이야기합시다!
24.
Page 24 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved CDO (최고 데이터 관리자) 요구 안정성을 높이고 불리한 상황을 줄임 운전 위반이 발생하기 전에 대응하고 예방적인 행 동을 취함 개발 팀의 응답 프로그램에 날씨 데이터와 운전 기사 프로필을 추가 예측 모델 특징을 위해 데이터를 탐색 예측 모델을 훈련 및 생성 운전 위반 사항을 실시간으로 예측하도록 모델을 본래 응용 프로그램에 추가 트럭 운행 용례: 실시간, 예측적 응용
25.
Page 25 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved 데이터 과학: 클라우드에서 데이터 탐색 및 모델 생성 클릭-스루 데모 클라우드에서 데이터 과학 환경 을 배포 데이터 과학 노트북을 사용하여 데이터를 탐색 예측적 모델을 생성하기 위해 알고리즘을 실행 Cloudbreak 1. 클라우드 선택 2. Spark blueprint 선택 3. HDP 실행 Microsoft Azure
26.
Page 26 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Login to launch.hortonworks.com which is a self-service portal for launching HDP clusters to the cloud (cloudbreak.sequenceiq.com)
27.
Page 27 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Select a cloud provider, then start the process of creating your cluster
28.
Page 28 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Name the cluster, choose your region, and pick your blueprint…in this case, we want “hdp-spark-cluster” for our data science work
29.
Page 29 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved We clicked “create cluster” and Cloudbreak is now provisioning our Spark environment on Azure
30.
Page 30 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved We can now access Zeppelin which is a data science notebook for Spark that’s similar to iPython notebook
31.
Page 31 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Let’s look at our data. We can see eventType, if the driver’s certified, how many hours driven, as well as weather data such as foggy, rainy, etc.
32.
Page 32 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Let’s start asking questions of our data; such as, does fatigue cause violations?
33.
Page 33 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Let’s view the data in a pie chart graphic to see how violations look by hours driven.
34.
Page 34 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved How are violations impacted by fog?
35.
Page 35 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Does location have an impact on incidents?
36.
Page 36 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved OK, we’ve learned enough about the data and what features we want to include in our model. So we’ll run a logistic regression on training data.
37.
Page 37 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Let’s run our code
38.
Page 38 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Let’s look at our model. Next step is to hand the model off to the Enterprise Architect to integrate into our real-time application.
39.
Page 39 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved YARN 위의 응용 프로그램 HDFS에 저장된 트럭 회사의 데이터 세트 실시간 예측 응용 프로그램 아키텍처 여러분의 BI 도구 예측 응용 프로그램 트럭 센서 응용 경보 (ActiveMQ) 메시지 SQL 스트림 NoSQL기계 학습 Use Model
40.
Storm에 Spark 기계
학습을 통합 실시간 예측을 위한 아키텍처 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
41.
Page 41 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved 트럭 센서 HDFS YARN 예측 분석을 스트림 프로세싱에 통합 스트림 처리 (Storm) 메시지 수신 (Kafka) 인터랙티브 질의 (Hive on Tez) 실시간 조회 (HBase) 수백만의 보완된 트럭 이벤트들 Predic'on Bolt Spark 모델을 Storm 볼트에 삽입 기계 학습 (Spark) Spark 기계 학습 모델을 수백만의 트럭 이벤트로 훈련
42.
Page 42 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Pig를 통해 분석용으로 트럭 이벤트를 보완 HDFS 트럭 이벤트날씨 데이터 세트 날씨 데이터 HCatalog (메타데이터) 직원 데이터 조직도 및 직원 DB 트럭 이벤트 적재 정제 및 필터 정제된 이벤트 변환된 이벤트 변환 조직도 및 날씨 데이 터와 결합 보완된 이벤트 보완된 이벤트 저장 Tableau
43.
Page 43 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved 예측적 Spark 기계 학습 Bolt를 사용한 트럭 데모 분산 저장소: HDFS YARN Storm 스트림 처리 Kakfa Spout HBase 직원 정보 테이블HBase Bolt HDFS Bolt 트럭 이벤트 Active MQ 감시 Bolt 웹 앱 트럭 스트리밍 데이터 T(1) T(2) T(N) 메시지 수신 (Kafka) 트럭 이벤트 토픽 예측 Bolt 이벤트 보완실시간으로 위반 을 예측하여 MQ 로 경고 실시간 예측을 사 용자 인터페이스에 표시
44.
Page 44 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved HDP 에서 예측 모델을 생성 Tableau 이벤트의 작은 서브 세트를 탐색하여 예측에 관련된 특징을 식별해내고 가설을 세움: “안개 낀 날씨는 운전 위반을 발생시 킨다” 1 모델을 학습시키기에 알맞은 기계 학습 알고리즘을 식별함 – 여기선 이벤트 데이터에 라벨을 붙였기에 분류 알고리즘들을 사용할 예정임 2 보완된 이벤트 데이터를 Spark MLlib에 친화적인 형태 로 변환 – 많은 기계 학습 라이브러리는 훈련 데이터가 특정한 형식이어야 함 3 위의 이벤트들을 훈련 입력으로 사용하여 YARN에서 회귀 분류 Spark 모델을 훈련하고 생성된 모델이 정밀해지도록 반복 훈련 4 Spark MLlib 모델을 Storm bolt로 통합하여 위반을 실시간 으로 예측 5
45.
Page 45 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Spark MLlib용 훈련 데이터 변환 보완된 이벤트 데이터 이벤트 종류 자격증 소지 여부 임금 방식 운전 시간 운전 거리 위도 경도 날씨 안개 날씨 우천 날씨 강풍 정상 예 시간 45 2721 -91.3 38.14 아니오 아니오 아니오 과속 아니오 거리 72 4152 -94.23 37.09 예 예 아니오 … … … … … … … … … … Spark MLlib 훈련 데이터 라벨 자격증 소지 여부 임금 방식 운전 시간 운전 거리 날씨 안개 날씨 우천 날씨 강풍 0 1 1 0.45 0.2721 0 0 0 1 0 0 0.72 0.4152 1 1 0 … … … … … … … … 정상 이벤트는 0, 위반 이벤트는 1 알고리즘 성능 개선을 위해 특징들의 축척을 조정 이진 값을 가지는 특징은 0과 1으로 표현
46.
Page 46 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Spark 기계 학습을 YARN에서 실행 1 spark-submit --class org.apache.spark.examples.mllib.BinaryClassification --master yarn-cluster --num-executors 3 --driver-memory 512m --executor-memory 512m --executor-cores 1 truckml.jar --algorithm LR --regType L2 --regParam 1.0 /user/root/ truck_training --numIterations 100 spark-submit 스크립트를 실행하여 Spark job을 YARN 위 에 구동 HDFS 상의 훈련 데이터 위치 2 YARN 리소스 관리자 UI에서 Spark job의 진행을 감시
47.
Page 47 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Spark 로지스틱 회귀 결과 해석 정밀도: 87.5% 재현율: 88% 위반의 상위 세 가지 전조 1. 안개 2. 우천 3. 운전 기사의 자격증
48.
Page 48 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Spark 모델을 Storm에 통합 Kafka Spout Storm 예측 Bolt § Spark 모델을 초기화 § 트럭 이벤트를 해석 § HBase 데이터로 이벤트를 보완 § 모델로 위반을 예측 § 위반이 예측되면 경보를 보냄 실시간 조회 (HBase) Active MQ 운영 센터 대쉬보드
49.
Page 49 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved 최고 데이터 관리자 (CDO) 를 위한 추천 § 우선 순위에 따른 투자 추천 1. 시야 센서와 자동 브레이크 시스템에 투자하여 안개 상황에 대처 2. 미끄러짐 방지 타이어에 투자하여 우천 상황에 대처 3. 운전 기사의 자격증 취득에 투자하여 위반 확률을 줄임 § 실시간 예측의 힘 § 고위험 상황을 실시간으로 예측하여 운전사에게 즉시 경보를 보내 40%의 위반율을 줄임
50.
Page 50 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved HDP에서 대용량 기계 학습의 가치 § 시장 및 가치 진입 시간을 가속 § 다양한 기계 학습 알고리즘을 TB의 훈련 데이터에 대해 합리적인 시간 범위 내에서 수행 § 가설을 신뢰성을 갖고 TB의 훈련 데이터로 검증 § 우리는 안개가 안전성에 영향을 끼치는 반면 임금 계산 방식이 영향을 끼치지 않음을 검증했으나, BI 도구들은 다른 결과를 내었음 § 예측 모델을 데이터 주도 응용 프로그램에 쉽게 통합 § 예측 모델을 Storm이나 여러분 회사 내의 다른 어떤 응용 프로그램에 라도 구동 § 위의 모든 내용을 멀티터넌트 YARN 클러스터에 구동 § YARN에서 대규모 기계 학습은 HDP 클러스터의 다른 작업들을 존중
51.
Page 51 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved Storm Bolt에서 Spark를 호출 § 로지스틱 회귀 모델의 출력은 가중치들과 하나의 절편: val algorithm = new LogisticRegressionWithSGD() val model = algorithm.run(training).clearThreshold() println(model.weights) println(model.intercept) Weights[-0.40819922025591465,0.06392530395655666,-0.1346227352186122,-0.07188217286407801,0.7277326276521062 ,0.508779221680863,-0.024689093098281954] Intercept 0.0 § 해당 모델은 예측을 만들기 위해 위의 가중치와 함께 Storm bolt에서 재생성될 수 있 음 import org.apache.spark.mllib.classification.LogisticRegressionModel; import org.apache.spark.mllib.linalg.Vectors; ……….. Vector weights = (Vectors.dense(new double[] <array of weights like above>) LogisticRegressionModel model = new LogisticRegressionModel(weights, 0.0); double prediction = model.predict(<input features>)
52.
Page 52 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved 감사합니다 Page 52 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
53.
Page 53 ©
Hortonworks Inc. 2011 – 2015. All Rights Reserved This presentation contains forward-looking statements involving risks and uncertainties. Such forward- looking statements in this presentation generally relate to future events, our ability to increase the number of support subscription customers, the growth in usage of the Hadoop framework, our ability to innovate and develop the various open source projects that will enhance the capabilities of the Hortonworks Data Platform, anticipated customer benefits and general business outlook. In some cases, you can identify forward-looking statements because they contain words such as “may,” “will,” “should,” “expects,” “plans,” “anticipates,” “could,” “intends,” “target,” “projects,” “contemplates,” “believes,” “estimates,” “predicts,” “potential” or “continue” or similar terms or expressions that concern our expectations, strategy, plans or intentions. You should not rely upon forward-looking statements as predictions of future events. We have based the forward-looking statements contained in this presentation primarily on our current expectations and projections about future events and trends that we believe may affect our business, financial condition and prospects. We cannot assure you that the results, events and circumstances reflected in the forward-looking statements will be achieved or occur, and actual results, events, or circumstances could differ materially from those described in the forward-looking statements. The forward-looking statements made in this prospectus relate only to events as of the date on which the statements are made and we undertake no obligation to update any of the information in this presentation. Trademarks Hortonworks is a trademark of Hortonworks, Inc. in the United States and other jurisdictions. Other names used herein may be trademarks of their respective owners. Page 53 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Download now