Hadoop最新事情とHortonworks Data Platform

Hadoop最新事情と
Hortonworks Data Pla0orm
Joe Ooura & Yuta Imai
2016/4/8
© Hortonworks Inc. 2011 – 2015. All Rights Reserved

2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
はじめに
Ã  質問はQUESTIONSというボタンからお願いします。プレゼンター以外には見えま
せん。
Ã  TwiGer経由でもコメント、質問歓迎です。 #hwxjp

自己紹介
Ã  大浦譲太郎 TwiGer：@JOOOURA
Ã  5歳児と8歳児の父
Ã  サーバ、ストレージのシステム営業を経て2011年に
フラッシュメモリストレージ企業の日本法人立ち上げに
参画。Evangelist、プリセールスSE、広報、営業など一通り
をカバー
エンタープライズフラッシュの代名詞ともなるioDriveシ
リーズを日本国内の通信キャリア、金融機関、WEBサービ
ス事業者、アドテク、DC事業者に多数導入。
Ã  2016年1月より、ホートンワークスジャパンの二人目の営
業として参画。
現在はエヴァンジェリスト活動及びエンタープライズ向け
セールス、パートナー支援を行なっている。

Agenda
Ã  Hortonworks?
Ã  Hadoopやビッグデータを取り巻く最近の事情
Ã  Hortonworks Data Platform

Agenda
Ã  Hortonworks?

About Hortonworks
お客様との歩み
•  ~800 社 (2016年2月現在)
•  152 社は 2015年第三四半期で
•  2015年10月NASDAQへ上場: HDP
The Leader in Connected Data
Platforms
•  Hortonworks DataFlow for data in moon
•  Hortonworks Data Pla]orm for data at rest
•  Powering new modern data applicaons
Partner for Customer Success
•  Leader in open-source community, focused on
innovaon to meet enterprise needs
•  Unrivaled support subscripons
Founded in 2011
Yahoo! で初代の Hadoop 開発を手
がけたアーキテクト、デベロッパー、オ
ペレータ　24名によって創立
1000+
E M P L O Y E E S
1500+
E C O S Y S T E M
PA R T N E R S

Our Model: Drive an Enterprise-focused Roadmap
1.  Innovate Exis?ng Projects
–  Hive/Snger, YARN, HDFS, common ops & security via Ambari & Ranger
2.  Incubate New Projects
–  Metron (was OpenSOC), Ranger, Knox, Atlas, Falcon, Ambari, Tez, etc.
3.  Acquire IP & Contribute
–  Acquired XASecure and created Apache Ranger; contributed OpenSOC
4.  Partner & Deliver Joint Solu?ons
–  Microsom, EMC, HP, SAS, Pivotal, Red Hat, Teradata, etc.
5.  Rally the Ecosystem
–  Fast SQL via Snger iniave, Data Governance iniave, ODPi
DataAccess
(batch,interactive,realtime)
Integration&
GovernanceOperationsSecurity
Apache Project
Hortonworks
CommiPers
Hortonworks
PMC
HWX % of
CommiPers
Hadoop 29 24 31%
Accumulo 2 2 9%
Calcite 6 3 43%
HBase 8 5 17%
Hive 19 11 38%
NiFi 5 5 42%
Phoenix 5 5 22%
Pig 5 5 24%
Slider 12 12 100%
Spark 1 0 2%
Storm 4 4 19%
Tez 15 15 44%
Atlas 7 0 35%
Falcon 7 5 41%
Flume 1 1 4%
Ka[a 0 0 0%
Sqoop 1 1 4%
Ambari 39 30 76%
Oozie 4 2 22%
Zookeeper 2 1 13%
Knox 12 2 80%
Ranger 13 11 76%
TOTAL 197 144
Source: Apache Somware Foundaon. As of October 5, 2015.
A commi'er is someone who has “earned their stripes” within the Apache community and has the ability
to commit code directly to their corresponding Apache project source code repository

8 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
100% Open Source Connected
Data Pla0orms
Eliminates Risk
of vendor lock-in by delivering 100% Apache open
source technology
Maximizes Community Innovation
with hundreds of developers across hundreds of
companies
Integrates Seamlessly
through commiGed co-engineering partnerships
with other leading technologies
M A X I M U M C O M M U N I T Y I N N O VAT I O N
T H E
I N N O VAT I O N
A D VA N TA G E
P R O P R I E T A R Y
H A D O O P
T I M E INNOVATION
O P E N
C O M M U N I T Y

Agenda
Ã  Hortonworks?

自己紹介
Ã  今井雄太 TwiGer：@imai_factory
Ã  Soluons Engineer
Ã  広告配信サーバーのレポート作成のために
MapReduce(perl + streaming!)を使ったのがHadoopとの出
会い。
Ã  その後、AWSにてアドテクやゲームのお客様を担当しつ
つ、EMRやS3などのビッグデータなプロダクトを主に担
当。そんなつながりでHortonworksに入社してHadoopを
やっています。

HadoopはもともとMapReduceそのものだった

1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
HDFS Hadoop Distributed File System
DATA MANAGEMENT
MapReduce


1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
DATA MANAGEMENT
ストレージ(HDFS)とコンピュー
ティング(MapReduce)が結合し
ていた
MapReduce


1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
DATA MANAGEMENT
ていた
MapReduce
クラスタ全体のリソース管理や、
多数のアプリケーション起動時の
性能的なボトルネックなどいくつ
かの課題があった


1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
DATA MANAGEMENT
ていた
MapReduce
クラスタ全体のリソース管理や、
多数のアプリケーション起動時の
性能的なボトルネックなどいくつ
かの課題があった
SQL Script Machine Learning アプリケーションはいずれも
MapReduceを実⾏エンジンとし
て利⽤していた。MapReduceは
遅かった。

Hadoopはバッチ処理に使われていた
•  例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の
様なアーキテクチャが⾮常にメジャーだった。
•  クエリにはそれなりに時間がかかることが多く、定期ジョブとして実⾏され
ることが多かった。
Web
Web
Web
Hadoop
log
log
log

Hadoopはバッチ処理に使われていた
•  例えばWebサービスのアクセスレポートの作成などによく利⽤され、以下の
様なアーキテクチャが⾮常にメジャーだった。
•  クエリにはそれなりに時間がかかることが多く、定期ジョブとして実⾏され
ることが多かった。
Web
Web
Web
Hadoop
log
log
log
⼤量のデータに対して⼤きな処理をするために利⽤さ
れるのがHadoopでありMapReduceだった。

SQL on ビッグデータを⾼速化する試み
Hive(MapReduce)の速度はインタラクティブなクエリには不⼗分だった。
•  Presto
•  Impala
•  Drill
•  Shark(今のSparkSQL)

SQL on ビッグデータ - クラウドサービスの登場
•  Amazon Redshift
•  Google BigQuery

Apache Sparkの登場
•  UCバークレーのAmplabで開発
•  RDDと呼ばれる分散データセットを処理のコアとした、インメモリのデータ
処理フレームワーク
•  SparkSQL(SQL on ビッグデータ)、SparkStreaming(ストリーム処理)、
Mllib(機械学習)、GraphX(グラフ処理)など、様々なコンポーネントを持っ
ている
•  インメモリで処理を⾏うため、機械学習のように同じデータを何度も何度も
参照するような処理において、MapReduceとくらべて劇的に⾼速

Apache Sparkの登場
•  UCバークレーのAmplabで開発
•  RDDと呼ばれる分散データセットを処理のコアとした、インメモリのデータ
処理フレームワーク
•  SparkSQL(SQL on ビッグデータ)、SparkStreaming(ストリーム処理)、
Mllib(機械学習)、GraphX(グラフ処理)など、様々なコンポーネントを持っ
ている
•  インメモリで処理を⾏うため、機械学習のように同じデータを何度も何度も
参照するような処理において、MapReduceとくらべて劇的に⾼速
SparkはSQLだけでなく、プログラムによる
ビッグデータ処理の⾼速化に⼤きく貢献をし
た

リアルタイム処理/ストリーム処理のポピュラー化
•  Amazon KinesisやCloud Dataﬂow、Spark Streamingの登場により、スト
リーム処理の実装が⾮常に容易になった。
•  これにより、これまでの⼤規模データに対するSQLのようなワークロード以
外にも、スマートメーターのようなIoT的な⽤途、店舗の売上や在庫管理の
ための利⽤など、基幹系のシステムにもStormやSpark、Kafkaのようなオー
プンソース・ソフトウェアの利⽤が広がった。

Hadoopや関連ソフトウェアのユースケースの変遷
•  MapReduceアプリケーションを実装してのバッチ処理。⼤きなデータに対す
る⼤きな計算のために利⽤されていた。
•  Hiveによるレポート・集計系のバッチ処理への導⼊
•  (数年)
•  Impala, PrestoなどによるSQL⾼速化によって、よりオンライン/インタラク
ティブなクエリに利⽤されるように
•  StormやSpark Streamingなどによって逐次処理が容易になり、集計以外の
ユースとして在庫や売上管理の領域に
•  IoT的な⽂脈では、⾞の⾛⾏データを収集し、保険の査定や割引算定のための
利⽤なども出てくる。

4ZB
DATAINTERNET
OF
ANYTHING
Page 23 © Hortonworks Inc. 2011 – 2016. All Rights Reserved
増え続けるデータ量

4ZB
DATAINTERNET
OF
ANYTHING
44ZB
DATA
TOMORROW
増え続けるデータ量

D A T A I N M O T I O N
STORAGE
STORAGE
GROUP 2GROUP 1
GROUP 4GROUP 3
D A T A
A T R E S T
INTERNET
OF
ANYTHING
高まるリアルタイムに対する要求

Hadoop⾃体の進化は・・・？


YARN : Data Operating System
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
DATA MANAGEMENT
YARN – Hadoop2の登場


Others
ISV Engines
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
Batch
MapReduce
Script
Pig
Search
Solr
SQL
Hive
NoSQL
HBase
Accumulo
Phoenix
Stream
Storm
In-memory
Spark
TezTez Tez Slider Slider
DATA MANAGEMENT


Others
ISV Engines
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
Batch
MapReduce
Script
Pig
Search
Solr
SQL
Hive
NoSQL
HBase
Accumulo
Phoenix
Stream
Storm
In-memory
Spark
DATA MANAGEMENT
YARNの柔軟なAPIによりリソー
スが抽象化され、様々なアプリ
ケーションが共存できるように
なった。
HDFSはマルチテナントな巨⼤な
データストアとなった。


Others
ISV Engines
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
Batch
MapReduce
Script
Pig
Search
Solr
SQL
Hive
NoSQL
HBase
Accumulo
Phoenix
Stream
Storm
In-memory
Spark
DATA MANAGEMENT
なった。
YARN これにより、様々な組織や部署の
ひとが共⽤Hadoopクラスタを使
うようになった。
Division A Division B

•  JobTracker
•  TaskTracker
•  Tasks
Hadoop 1 Architecture
Page 31

YARN Architecture
• Cluster Operating System
• Enable’s Generic Data Processing Tasks with ‘Containers’
• Big Compute (Metal Detectors) for Big Data (Hay Stack)

• Resource Manager
• Global resource scheduler
• Node Manager
• Per-machine agent
• Manages the life-cycle of container & resource monitoring
• Application Master
• Per-application master that manages application scheduling and task execution
• E.g. MapReduce Application Master
• Container
• Basic unit of allocation
• Fine-grained resource allocation across multiple resource types
• (memory, cpu, disk, network, gpu etc.)

Hadoop2(YARN) - Summary
•  JobTackerという⼤きなボトルネックの解消
•  タスクの実⾏環境のコンテナ化と、コンテナ払い出しをパブリックAPI化する
ことによって、MapReduceだけではなく様々なアプリケーションのOS的な
役割をすることができるようになった。

HDPが実現する完全にオープンなデータプラットフォーム
Hortonworks Data Pla0ormはエンタープライズ企業向けHadoopを提供します：
セントラライズ・アーキテクチャは、あらゆるデータを、あらゆるアプリケーションでの処理を可能に
完全にオープン
•  HDPは企業データプラットフォー
ムに求められる全ての要素を統合
します：データストレージ、デー
タ・アクセス、ガバナンス、セ
キュリティ、オペレーション
•  全てのコンポーネントはオープン
ソースとして開発され、過酷なテ
ストを経て、適正が保証された状
態で、使いやすい形でオープン
ソースプラットフォームとして提
供されます。

YARN: Data Operating System
(Cluster Resource Management)
1 ° ° ° ° ° ° °
° ° ° ° ° ° ° °
ApachePig
° °
° °
° ° °
° ° °
HDFS
(Hadoop Distributed File System)

GOVERNANCE BATCH, INTERACTIVE & REAL-TIME DATA ACCESS
Apache Falcon
ApacheHive
Cascading
ApacheHBase
ApacheAccumulo
ApacheSolr
ApacheSpark
ApacheStorm
Apache Sqoop
Apache Flume
Apache Kafka

SECURITY
Apache Ranger
Apache Knox
Apache Falcon

OPERATIONS
Apache Ambari
Apache
Zookeeper
Apache Oozie
Delivered Completely in the OPEN

Agenda
Ã  Hortonworks?

Ã  Overview – Components walkthrough
Ã  Apache Ambari – Cluster Manager
Ã  Sample architectures
Ã  Security
Ã  Cloudbreak
Ã  Geung Started

Ã  Security
Ã  Cloudbreak
Ã  Geung Started


YARN: Data Operating System
(Cluster Resource Management)
1 ° ° ° ° ° ° °
° ° ° ° ° ° ° °
ApachePig
° °
° °
° ° °
° ° °
HDFS
(Hadoop Distributed File System)

GOVERNANCE BATCH, INTERACTIVE & REAL-TIME DATA ACCESS
Apache Falcon
ApacheHive
Cascading
ApacheHBase
ApacheAccumulo
ApacheSolr
ApacheSpark
ApacheStorm
Apache Sqoop
Apache Flume
Apache Kafka

SECURITY
Apache Ranger
Apache Knox
Apache Falcon

OPERATIONS
Apache Ambari
Apache Zookeeper
Apache Oozie
Hortonworks Data Platform

HDPのバージョン

Ã  Security
Ã  Cloudbreak
Ã  Geung Started

Apache Ambari – A cluster manager

Apache Ambari – A cluster manager
Ambari
Server
Ambari
Agent
Metrics
Monitors
RM NN
Ambari
Agent
Metrics
Monitors
NM DN
Ambari
Agent
Metrics
Monitors
NM DN
Ã  Ambari Serverが提供するWebUIや
REST APIを経由した統⼀的な
Hadoopオペレーション
WEBUI
RESTAPI

Ã  Security
Ã  Cloudbreak
Ã  Geung Started

もちろんこれまで通りのHiveも
Web
Web
Web
Hadoop
log
log
log
WebHDFSなど
Hiveserver2
Hiveの高速化についてはこちら
hGp://www.slideshare.net/uprush/hive-
presentandfeaturedbtechshowcaseyifeng

KafkaとSpark Streamingでラムダアーキテクチャも
Web
Web
Web
Hadoop
log
log
log
Hiveserver2Kafka Spark
HBase Phoenix

Distributed Storage: HDFS
Many Workloads: YARN
Stream Processing
(Storm)
Inbound Messaging
(Kava)
Real-me Serving
(HBase)
Alerts & Events
(AcveMQ)
Real-Time
User Interface
One cluster with consistent
security, governance &
opera?ons
SQL
Interacve Query
(Hive on Tez)
Truck Sensors
HDP for テレメトリクス

Page 47
HDFS
Input Feed
Hive
Storm
Search UI(Banana)
Query UI
Output Feed
Solr
HDP Search(Solr Cloud)を使ったビジュアライズ

Ã  Security
Ã  Cloudbreak
Ã  Geung Started


Others
ISV Engines
DATA ACCESS
1 ° ° ° ° ° ° ° ° °
° ° ° ° ° ° ° ° ° °
°
N
Batch
MapReduce
Script
Pig
Search
Solr
SQL
Hive
NoSQL
HBase
Accumulo
Phoenix
Stream
Storm
In-memory
Spark
DATA MANAGEMENT
なった。
YARN これにより、様々な組織や部署の
ひとが共⽤Hadoopクラスタを使
うようになった。
Division A Division B

In Hortonworks Data Pla0orm:
Administra?on
Central management & consistent security
Authen?ca?on
Authencate users and systems
Authoriza?on
Provision access to data
Audit
Maintain a record of data access
Data Protec?on
Protect data at rest and in moon
Kerberos, Apache Knox
Apache Ranger, HDFS Permission
Apache Ranger
HDFS Transparent Data Encryption
with Ranger KMS
Apache Ambari

Typical Access Control Flow - SQL


HDFS
Typical Flow – SQL Access through Beeline client

HiveServer 2
A B C
Beeline
Client
Security set up with Hortonworks Data Platform


HDFS
Typical Flow – Authenticate through Kerberos or LDAP

HiveServer 2
A B C
KDC
Login into Hive
Hive gets
Namenode (NN)
service cket
Hive creates map
reduce using NN
ST
Client gets
service cket for
Hive
Beeline
Client
Acve
Directory
Hiveserver2はKerberosもしくはLDAP認証を⾏える
※カスタムな認証も実装可能


HDFS
Typical Flow – Add Authorization through Ranger

HiveServer 2
A B C
KDC
Hive gets
Namenode (NN)
service cket
Column level
access control,
auding
Ranger
Beeline
Client
File level access
control
Acve
Directory
Import users/
groups from
LDAP
Login into Hive using AD
password


HDFS
Typical Flow – Firewall, Route through Knox Gateway

HiveServer 2
A B C
KDC
Use Hive ST,
submit query
Hive gets
Namenode (NN)
service cket
Hive creates map
reduce using NN
ST
Ranger
Knox gets service
cket for Hive
Knox runs as proxy
user using Hive ST
Original request
w/user id/
password
Client gets
query result
Beeline
Client
Apache
Knox
Acve
Directory


HDFS
Typical Flow – Add Wire and File Encryption

HiveServer 2
A B C
KDC
Use Hive ST,
submit query
Hive gets
Namenode (NN)
service cket
Hive creates map
reduce using NN
ST
Ranger
Knox gets service
cket for Hive
Knox runs as proxy
user using Hive ST
Original request
w/user id/
password
Client gets
query result
SSL
Beeline
Client
SSL SASL
SSL SSL
Apache
Knox
Acve
Directory

Ã  Security
Ã  Cloudbreak
Ã  Geung Started

Cloudbreak
Ã  SequenceIQが開発したオープンソースのクラウド向けHadoopデプロイツール
BI / Analy?cs
(Hive)
IoT Apps
(Storm, HBase, Hive)
Dev / Test
(all HDP services)
Data Science
(Spark)
Cloudbreak
1.  Pick a Blueprint
2.  Choose a Cloud
3.  Launch HDP!
Example Ambari Blueprints:
IoT Apps, BI / Analycs, Data Science,
Dev / Test

Page 59
•  クラスタを容易にデプロイするための
洗練されたUIやAPI
•  複数のクラスタの管理も可能
•  クラウドのインフラストラクチャ上に
Dockerを使ってHadoopクラスタをデ
プロイ
•  クラスタのAutoScaleもサポート
Cloudbreak

Cloudbreak
AWS
Page 60
Ambari Blueprint
AWS IAM Role
Scaling Policies
VM VM VM
VM VM VM
VM VM
1. Provision VMs & Storage
2. Install Ambari
Ambari
Mgt
3. Install Ambari Blueprint
Master
YARN RM
Master
Slave
NN
Slave Slave
Slave Slave
Data Data Data
Storm Spark
VM
Slave
Spark
4. Scale up Spark
Cloudbreak

Ã  Security
Ã  Cloudbreak
Ã  Geung Started

Getting started with HDP
HDPクラスタを構築するにはAmbari Serverをインストールして、そこからクラ
スタ構築ウィザードを⾛らせればOK
Ã  Ambari Serverをインストール(yum, apt-get)
Ã  Login to http://AMBARI_SERVER:8080
Ã  クラスタ構築ウィザードを起動
hGp://goo.gl/gsQyKw

Getting started with HDP - Sandbox
Hortonworks Sandboxは構築済みのAmbari、HDPのVMイメージ。VirtualBoxと
VMware⽤のイメージが⽤意されている。また、Microsoft Azure上で簡単にトラ
イすることも可能。
hGp://hortonworks.com/products/hortonworks-sandbox/#install

Agenda
Ã  Hortonworks?

次回！
Ã  4/22(⾦) 12:00
Ã  タイトル: HiveもしくはSparkについて(仮)
今⽇のウェビナーはオンデマンドでも閲覧可能です！
品質改善のため、RATINGSからウェビナーの評価をお願いします！

Hadoop最新事情とHortonworks Data Platform

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Hadoop最新事情とHortonworks Data Platform

Similar to Hadoop最新事情とHortonworks Data Platform (20)

More from Yuta Imai

More from Yuta Imai (14)

Hadoop最新事情とHortonworks Data Platform