SlideShare a Scribd company logo
1 of 40
Download to read offline
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoop  Trends  &  Hadoop  on  EC2
Yifeng  Jiang
Solutions  Engineer,  Hortonworks,  inc.
March  22,  2015  
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
自己紹介
蒋  逸峰  (Yifeng  Jiang)
•  Solutions  Engineer  @  Hortonworks  Japan
•  HBase  book  author
•  ⽇日本に来て10年年経ちました…
•  趣味は⼭山登り
•  Twitter:  @uprush
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
アジェンダ
•  Hadoopの最新状況
•  Hadoop技術アップデートとロードマップ
•  Hadoop  on  EC2  Deployment  Options
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopの最新状況
Modern Data Architecture
Page 4
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopコミュニティのアクティビティ
Number  of  Issues  Resolved Number  of  Line  of  Code  Increased
http://ajisakaa.blogspot.jp
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Open  Leadership
Code  Contributed  in  2014  by  Organization
http://ajisakaa.blogspot.jp
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
専門家集団: 開発に深く携わるコア・メンバーにより構成
沿革
2011年6月:
Yahoo! で初代の Hadoop 開発を手がけたアーキテクト、デベロッパー、
オペレータ 24名によって創立
2014年12月:
社員数600を超えるHadoopの専門家集団に成長
Apache Project Committers
PMC
Members
Hadoop 27 21
Pig 5 5
Hive 18 6
Tez 16 15
HBase 6 4
Phoenix 4 4
Accumulo 2 2
Storm 3 2
Slider 11 11
Falcon 5 3
Flume 1 1
Sqoop 1 1
Ambari 36 28
Oozie 3 2
Zookeeper 2 1
Knox 13 3
Ranger 11 n/a
TOTAL 164 109
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
急拡⼤大する顧客層
顧客数が示す急速な成長
7四半期で 400社以上。現在、四半期ごとに75社
以上の新規顧客
•  お客様の2/3は Fortune 1000 企業
•  更新率100%
© Hortonworks Inc. 2011 – 2014. All Rights Reserved
Hadoopを早くから導入されたお客様も
Hortonworksのディストリビューションを採用
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDP	
  (Hortonworks	
  Data	
  Pla/orm)	
  
次世代モダン・データアーキテクチャ (MDA)
Modern Data Architecture
•  データレークの実現へ
•  データは1つのHDFSに
•  データセットのサイズ、種類を問わずア
プリケーションを活用できる柔軟性
•  運用管理は1つで済む
•  一元管理されたセキュリティ
Clickstream	
   Web	
  	
  
&	
  Social	
  
Geoloca;on	
   Sensor	
  	
  
&	
  Machine	
  
Server	
  	
  
Logs	
  
Unstructured	
  
SOURCES
Existing Systems
ERP	
   CRM	
   SCM	
  
ANALYTICS
Data
Marts
Business
Analytics
Visualization
& Dashboards
ANALYTICS
Applications
Business
Analytics
Visualization
& Dashboards
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
°
HDFS
(Hadoop Distributed File System)
YARN: Data Operating System
Interactive Real-TimeBatch Partner ISVBatch BatchMPP	
   EDW	
  
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hortonworks Data Platform 2.2 Stack
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDP IS Apache Hadoop
There is ONE Enterprise Hadoop: everything else is a vendor derivation
Hortonworks Data Platform 2.2
Hadoop
&YARN
Pig
Hive&HCatalog
HBase
Sqoop
Oozie
Zookeeper
Ambari
Storm
Flume
Knox
Phoenix
Accumulo
2.2.0
0.12.0
0.12.0
2.4.0
0.12.1
Data
Management
0.13.0
0.96.1
0.98.0
0.9.1
1.4.4
1.3.1
1.4.0
1.4.4
1.5.1
3.3.2
4.0.0
3.4.5
0.4.0
4.0.0
1.5.1
Falcon
0.5.0
Ranger
Spark
Kafka
0.14.0
0.14.0
0.98.4
1.6.1
4.2
0.9.3
1.2.0
0.6.0
0.8.1
1.4.5
1.5.0
1.7.0
4.1.0
0.5.0
0.4.0
2.6.0
* version numbers are targets and subject to change at time of general availability in accordance with ASF release process
3.4.5
Tez
0.4.0
Slider
0.60
HDP 2.0
October
2013
HDP 2.2
October
2014
HDP 2.1
April
2014
Solr
4.7.2
4.10.0
0.5.1
Data Access
Governance
& Integration
SecurityOperations
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoop技術アップデートとロードマップ
Hive,  Ambari,  Ranger,  and  more
Page 13
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFS: more Efficient Data Lake Storage
•  Tiered  Storage
–  DataNodeはストレージのコレクション
–  DISK,  SSD,  RAM,  ARCHIVAL
•  HDFS  NFS  Gateway
–  HDFSをNFSマウント
•  Roadmap:  ⼤大規模ストレージの効率率率化
–  Archival  Tier  GA
o  ストレージコストが最⼤大8倍削減
–  Erasure  Coding
o  ストレージコストが3xから1.4xに
S3
Swift
SAN
Filers
Collection of tiered storages
All disks as a single storage
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARN: extends Hadoop into Data OS
•  CPU スケジューリング
•  Cgroup
•  YARN Node Label
NM NM
RS
NM NM NM NM
RS
NM NM …
RS MR
Label: HBaseRegionServer
Label: HBaseRegionServer
hbase
HBase on Slider
YARN App CS Queue
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Slider: more YARN Ready Engines
YARN: Data Operating System
(Cluster Resource Management)
1 ° ° ° ° ° ° °
° ° ° ° ° ° ° °
Script
Pig
SQL
Hive
Tez
Tez
Others
Engines
Tez
Java
Scala
Cascading
Tez
° °
° °
° ° ° ° °
° ° ° ° °
°
°
°
°
°
°
Others
ISV
Engines
°
°
Storm
Stream
Others
Engines
Slider
Solr
Search
HBase
NoSQL
Slider
Accumulo
NoSQL
Slider
Spark
In-Memory
Kafka
Slider
°
°
°
°
HDFS
(Hadoop Distributed File System)
•  あらゆるアプリやサービスをYARNに動かす
•  HBase, Accumulo, Storm
•  SDK for 3rd-party ISVs
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hive:  Enterprise  SQL  at  Hadoop  Scale
•  トランザクション
– 現在: Insert, Update, Delete
– Roadmap: BEGIN, COMMIT, ROLLBACK
•  パフォーマンス: 100倍早くなった
– ORC File
– Hive on Tez
– Cost Based Optimizer
– Roadmap: 1秒以下のレスポンス、LLAP利用
17
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Spark: Enterprise Ready Spark on HDP 2.2.3
SparkとHadoopの連携に注⼒力力
•  Spark  1.2  GA
•  Spark  on  YARN
•  ORCサポート
•  Hive  on  Spark
•  Spark  with  Ambari
•  セキュリティ
18
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
5つのセキュリティ要件
認証
Kerberos
認可 監査
?
暗号化
HDP  2.2
現状のセキュリティ対応/サポート…
RANGER
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Ranger:  ⼀一元化されたセキュリティ管理理
20
テーブル/カ
ラムのアクセ
スコントロー
ル、柔軟な定
義  
グループ/ユー
ザーの権限管理理
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Ambari: Hadoopの顔
Apache Ambari: Hadoop for Everyone, 100% Open Source
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoop on EC2
Deployment Options
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Best  Practices
常時稼働Hadoopと⼀一時的Hadoop(例例:  EMR)の要件が違う
(常時稼働)Hadoop  on  EC2の基本的な考え⽅方
•  ローカルストレージがポイント
•  データノードのデータはインスタンス  ストアのみ利利⽤用
•  マスタノードのデータはEBSに
•  データはS3にバックアップ
•  ディストリビューション(HDP)を使う
•  運⽤用管理理ツール、可⽤用性、セキュリティ
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
EC2インスタンスタイプ
Big and cheapなタイプを
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
ハードウェア:オンプレミスの場合
そもそも今どきのHadoopのお勧めハードウェア  スペックは?
ポイント:Big  and  cheap
•  12  cores
•  Dual  Intel  Xeon  E5-‐‑‒2650v2  (8c)  or  E5-‐‑‒2660v2  (10c)  Processors
•  128GB  or  256GB  RAM
•  12  SATA  /  NLSAS,  1~∼4TB  per  drivers
•  1  or  10GbE  nic
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
インスタンスタイプ
Hadoopの最適なEC2インスタンスタイプは?
ポイント:Big  and  cheap
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Deploy例: 異なるインスタンスタイプの活用
•  I2とHs1を同じクラスタにすることも可能
•  異なるデータを一箇所に集め、集中して運用管理したい場合
•  1クラスタで色々な処理パターン:バッチ、リアルタイム、インタラクティブ、インメモリ
•  HDFS Tiered Storage
•  YARN Node Label
HDP Cluster
I2.8xlarge
I2.8xlarge
I2.8xlarge
Hs1.8xlarge
I2.8xlarge
Hs1.8xlarge
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Storage Policy: SSD & Hot
SSD
SSD
SSD
SSD
SSD
SSD
SSD
SSD
SSD
DISK
DISK
DISK
DISK
DISK
DISK
HDP Cluster
A
DISK
DISK
DISK
A A
SSD
All replicas on SSDDataSet A
(e.g., HBase)
Hot
All replicas on
DISK
DataSet B
(others)
B B B
I2.8x I2.8x I2.8x hs1.8x hs1.8x hs1.8x
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Storage  Policy:  実際にやってみる
Ambariにて、HDFS  Configuration  Groups  作成
•  I2⽤用グループ
•  Hs1⽤用グループ
Ambariにて、GroupsごとにDataNodeストレージタイプ、パスを定義
dfs.datanode.data.dir を下記に設定
•  I2  group:  [SSD]/hadoop/hdfs/data1,[SSD]/hadoop/hdfs/data2,…
•  Hs1  group:  [DISK]/hadoop/hdfs/data1,[DISK]/hadoop/hdfs/data2,…
HDFS再起動
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Storage Policyを設定してみる
$ hdfs dfs -mkdir /hbase

$ hdfs dfsadmin -setStoragePolicy /hbase ALL_SSD
Set storage policy ALL_SSD on /hbase

$ hdfs dfsadmin -getStoragePolicy /ssd
The storage policy of /ssd:
BlockStoragePolicy{ALL_SSD:12, storageTypes=[SSD], creationFallbacks=[DISK], 
replicationFallbacks=[DISK]}
HBaseのデータをすべてSSD(i2)に保存
•  /hbase  配下を  ALL_̲SSD  に設定
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Ambari Blueprintを使ったデプロイ
ElasticなHadoop
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Ambari Blueprints
The “CloudFormation” for Hadoop
•  クラスタ・インストールを自動化(特にクラウド環境で役に立つ)
•  実例:Microsoft Azureポータル内でのHDPクラスタインストール
•  クラスタのスケールアップ/ダウンを簡素化
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
ブループリントとブループリントAPI
ブループリントとはクラスタの設定状態をJSONで表したもの
ブループリントAPIに入力してクラスタをインストール
Blueprint	
  
ブループリント	
  
	
  
Ambari	
  Server	
  
Blueprint	
  API	
  
ブループリントAPI	
  
IMPORT
インポート
CLUSTER	
  
クラスタ	
  
INSTANTIATE
作成
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
実行中のクラスタの復元
実行中のクラスタからブループリントをエクスポートが可能
設定が同じまたはほぼ同じクラスタの復元に役立つ
CLUSTER	
  
クラスタ	
  
EXPORT
エクスポート
Blueprint	
  
ブループリント	
  
	
  
GET /api/v1/clusters/mycluster?format=blueprint
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
例:100台クラスタのインストール
{
"configurations" : [
{
”hdfs-site" : {
"dfs.datanode.data.dir" : ”/hadoop/1,/hadoop/2,/hadoop/3"
}
}
],
"host_groups" : [
{
"name" : ”master-host",
"components" : [
{ "name" : "NAMENODE” },
{ "name" : "RESOURCEMANAGER” },
…
],
"cardinality" : "1"
},
{
"name" : ”worker-host",
"components" : [
{ "name" : ”DATANODE” },
{ "name" : ”NODEMANAGER” },
…
],
"cardinality" : "1+"
},
],
"Blueprints" : {
"blueprint_name" : ”multi-node-hdfs-yarn",
"stack_name" : "HDP",
"stack_version" : "2.0"
}
}
{
"blueprint" : ”multi-node-hdfs-yarn",
"host_groups" :[
{
"name" : ”master-host",
"hosts" : [
{
"fqdn" : ”master001.ambari.apache.org”
}
]
},
{
"name" : ”worker-host",
"hosts" : [
{
"fqdn" : ”worker001.ambari.apache.org”
},
{
"fqdn" : ”worker002.ambari.apache.org”
},
…
{
"fqdn" : ”worker099.ambari.apache.org”
}
]
}
]
}
1. POST -d @hakone-blueprint.json /
api/v1/blueprints/hakone
2. POST -d @hosts.json /api/v1/
clusters/hakone
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
貧乏男の2台クラスタ…
事前準備:  Base  AMI作成
•  Ambari  Server
•  Ambari  Agent
Ambari  Server⼀一台起動
Ambari  Agent  AMIよりEC2  2台起動
•  BootstrapでAmbari  server  IPを設定
•  もちろん、Spotインスタンスで
Blueprintインポート  API
クラスタ作成  API
⾊色々テスト…
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
貧乏男の2台クラスタ…
節約のために…寝る前にはクラスタのインスタンスを削除します
翌⽇日は同様のクラスタを⽴立立ち上げる
# Ambari Reset (to clear previous installed clusters)
ambari-server stop
ambari-server reset
ambari-server start

# Launch ec2 spot instances
ec2-request-spot-instances

# re-create cluster
curl -X POST -d @hakone-blueprint.json -u admin:admin localhost:8080/api/v1/blueprints/hakone
curl -X POST -d @hosts.json -u admin:admin localhost:8080/api/v1/clusters/hakone
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
まとめ
HDPセキュリティ
Page 38
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoop  Trends  and  Hadoop  on  EC2
•  Hadoopは常に早く進化しています
•  次世代モダン・データアーキテクチャ (MDA)はHadoopにて実現
•  Hadoopはより効率率率、安全、早くなっています
•  誰でもHadoopが使えます
•  Hadoop  on  EC2は効率率率や柔軟性が⾼高い
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Thank  you
Yifeng  Jiang,  Solutions  Engineer,  Hortonworks
@uprush

More Related Content

What's hot

[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)Amazon Web Services Japan
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006Cloudera Japan
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Noritaka Sekiyama
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015Cloudera Japan
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DMCloudera Japan
 
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りHiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りYukinori Suda
 
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_caHBase活用事例 #hbase_ca
HBase活用事例 #hbase_caCloudera Japan
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介Cloudera Japan
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltCloudera Japan
 
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpHBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpCloudera Japan
 
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokubenCDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokubenCloudera Japan
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Cloudera Japan
 
Hadoop Operations #cwt2013
Hadoop Operations #cwt2013Hadoop Operations #cwt2013
Hadoop Operations #cwt2013Cloudera Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Manager 5 (hadoop運用)  #cwt2013Cloudera Manager 5 (hadoop運用)  #cwt2013
Cloudera Manager 5 (hadoop運用) #cwt2013Cloudera Japan
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング Cloudera Japan
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 
AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)
AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)
AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)Amazon Web Services Japan
 
[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon Redshift[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon RedshiftAmazon Web Services Japan
 
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-Yuta Imai
 

What's hot (20)

[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りHiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
 
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_caHBase活用事例 #hbase_ca
HBase活用事例 #hbase_ca
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
 
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpHBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejp
 
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokubenCDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 
Hadoop Operations #cwt2013
Hadoop Operations #cwt2013Hadoop Operations #cwt2013
Hadoop Operations #cwt2013
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Manager 5 (hadoop運用)  #cwt2013Cloudera Manager 5 (hadoop運用)  #cwt2013
Cloudera Manager 5 (hadoop運用) #cwt2013
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)
AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)
AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)
 
[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon Redshift[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon Redshift
 
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
 

Viewers also liked

AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)
AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)
AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)Sanehiko Yogi
 
Movable Type for AWS Hands-on
Movable Type for AWS Hands-onMovable Type for AWS Hands-on
Movable Type for AWS Hands-onYuji Takayama
 
JAWS DAYS 2015 「DevOpsが普及した今だからこそ 考える DevOpsの次の姿」
JAWS DAYS 2015 「DevOpsが普及した今だからこそ 考える DevOpsの次の姿」JAWS DAYS 2015 「DevOpsが普及した今だからこそ 考える DevOpsの次の姿」
JAWS DAYS 2015 「DevOpsが普及した今だからこそ 考える DevOpsの次の姿」Teruo Adachi
 
JAWS DAYS 2015 AWS OpsWorksの仕組みと活用方法のご紹介
JAWS DAYS 2015 AWS OpsWorksの仕組みと活用方法のご紹介JAWS DAYS 2015 AWS OpsWorksの仕組みと活用方法のご紹介
JAWS DAYS 2015 AWS OpsWorksの仕組みと活用方法のご紹介Kenji Funasaki
 
JAWS-DAYS 2015 / 北海道 x 農業 x クラウド
JAWS-DAYS 2015 / 北海道 x 農業 x クラウドJAWS-DAYS 2015 / 北海道 x 農業 x クラウド
JAWS-DAYS 2015 / 北海道 x 農業 x クラウドTakehito Tanabe
 
AWS ロボ in JAWSDAYS
AWS ロボ in JAWSDAYSAWS ロボ in JAWSDAYS
AWS ロボ in JAWSDAYS崇之 清水
 
コンソールゲームを世界展開してみた - JAWS DAYS 2015
コンソールゲームを世界展開してみた - JAWS DAYS 2015コンソールゲームを世界展開してみた - JAWS DAYS 2015
コンソールゲームを世界展開してみた - JAWS DAYS 2015Ryo Nakamaru
 
IoT時代のデータ伝送とインフラに求められている機能 / JAWS DAYS 2015
IoT時代のデータ伝送とインフラに求められている機能 / JAWS DAYS 2015IoT時代のデータ伝送とインフラに求められている機能 / JAWS DAYS 2015
IoT時代のデータ伝送とインフラに求められている機能 / JAWS DAYS 2015Kohei MATSUSHITA
 
AMIMOTO ハンズオン JAWS DAYS 2015
AMIMOTO ハンズオン JAWS DAYS 2015AMIMOTO ハンズオン JAWS DAYS 2015
AMIMOTO ハンズオン JAWS DAYS 2015Hiromichi Koga
 
クラウドとコミュニティのこれまでとこれから 20150322_#JAWSDAYS
クラウドとコミュニティのこれまでとこれから 20150322_#JAWSDAYSクラウドとコミュニティのこれまでとこれから 20150322_#JAWSDAYS
クラウドとコミュニティのこれまでとこれから 20150322_#JAWSDAYSHideki Ojima
 
モバイルファースト時代のクラウドネイティブアーキテクチャ JAWS DAYS 2015
モバイルファースト時代のクラウドネイティブアーキテクチャ JAWS DAYS 2015モバイルファースト時代のクラウドネイティブアーキテクチャ JAWS DAYS 2015
モバイルファースト時代のクラウドネイティブアーキテクチャ JAWS DAYS 2015Rikitake Oohashi
 
[JAWS Days 2015 LT]使い始めて3年半、ようやくテスト始めました
[JAWS Days 2015 LT]使い始めて3年半、ようやくテスト始めました[JAWS Days 2015 LT]使い始めて3年半、ようやくテスト始めました
[JAWS Days 2015 LT]使い始めて3年半、ようやくテスト始めましたTetsuya Mase
 
Data Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdaysData Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdaysKenta Suzuki
 
「納品のない受託開発」の先にある「エンジニアの働きかたの未来」
「納品のない受託開発」の先にある「エンジニアの働きかたの未来」「納品のない受託開発」の先にある「エンジニアの働きかたの未来」
「納品のない受託開発」の先にある「エンジニアの働きかたの未来」Yoshihito Kuranuki
 
JAWS DAYS 2015 SimpleWorkflowとOpsWorksでサービスを開発して解ったこと
JAWS DAYS 2015 SimpleWorkflowとOpsWorksでサービスを開発して解ったことJAWS DAYS 2015 SimpleWorkflowとOpsWorksでサービスを開発して解ったこと
JAWS DAYS 2015 SimpleWorkflowとOpsWorksでサービスを開発して解ったことTetsuya Chiba
 
東急ハンズのクラウドデザインパターン アーキテクチャー編
東急ハンズのクラウドデザインパターン アーキテクチャー編東急ハンズのクラウドデザインパターン アーキテクチャー編
東急ハンズのクラウドデザインパターン アーキテクチャー編一成 田部井
 
Amazon Cognito + SNS + Zabbixでサーバー監視アプリを作ってみた
Amazon Cognito + SNS + Zabbixでサーバー監視アプリを作ってみたAmazon Cognito + SNS + Zabbixでサーバー監視アプリを作ってみた
Amazon Cognito + SNS + Zabbixでサーバー監視アプリを作ってみたHikaru Ashino
 
Windowsシステムの AWS移行とMulti-AZ化 - JAWS DAYS 2015
WindowsシステムのAWS移行とMulti-AZ化 - JAWS DAYS 2015 WindowsシステムのAWS移行とMulti-AZ化 - JAWS DAYS 2015
Windowsシステムの AWS移行とMulti-AZ化 - JAWS DAYS 2015 Takayuki Enomoto
 
JAWS DAYS 2015-ド・エンタープライズな情シスとクラウドと私 @applebear_ayu #jawsdays #jawsug
JAWS DAYS 2015-ド・エンタープライズな情シスとクラウドと私 @applebear_ayu #jawsdays #jawsugJAWS DAYS 2015-ド・エンタープライズな情シスとクラウドと私 @applebear_ayu #jawsdays #jawsug
JAWS DAYS 2015-ド・エンタープライズな情シスとクラウドと私 @applebear_ayu #jawsdays #jawsugAyumi Tada
 
モバイル開発を支えるAWS Mobile Services
モバイル開発を支えるAWS Mobile Servicesモバイル開発を支えるAWS Mobile Services
モバイル開発を支えるAWS Mobile ServicesKeisuke Nishitani
 

Viewers also liked (20)

AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)
AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)
AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)
 
Movable Type for AWS Hands-on
Movable Type for AWS Hands-onMovable Type for AWS Hands-on
Movable Type for AWS Hands-on
 
JAWS DAYS 2015 「DevOpsが普及した今だからこそ 考える DevOpsの次の姿」
JAWS DAYS 2015 「DevOpsが普及した今だからこそ 考える DevOpsの次の姿」JAWS DAYS 2015 「DevOpsが普及した今だからこそ 考える DevOpsの次の姿」
JAWS DAYS 2015 「DevOpsが普及した今だからこそ 考える DevOpsの次の姿」
 
JAWS DAYS 2015 AWS OpsWorksの仕組みと活用方法のご紹介
JAWS DAYS 2015 AWS OpsWorksの仕組みと活用方法のご紹介JAWS DAYS 2015 AWS OpsWorksの仕組みと活用方法のご紹介
JAWS DAYS 2015 AWS OpsWorksの仕組みと活用方法のご紹介
 
JAWS-DAYS 2015 / 北海道 x 農業 x クラウド
JAWS-DAYS 2015 / 北海道 x 農業 x クラウドJAWS-DAYS 2015 / 北海道 x 農業 x クラウド
JAWS-DAYS 2015 / 北海道 x 農業 x クラウド
 
AWS ロボ in JAWSDAYS
AWS ロボ in JAWSDAYSAWS ロボ in JAWSDAYS
AWS ロボ in JAWSDAYS
 
コンソールゲームを世界展開してみた - JAWS DAYS 2015
コンソールゲームを世界展開してみた - JAWS DAYS 2015コンソールゲームを世界展開してみた - JAWS DAYS 2015
コンソールゲームを世界展開してみた - JAWS DAYS 2015
 
IoT時代のデータ伝送とインフラに求められている機能 / JAWS DAYS 2015
IoT時代のデータ伝送とインフラに求められている機能 / JAWS DAYS 2015IoT時代のデータ伝送とインフラに求められている機能 / JAWS DAYS 2015
IoT時代のデータ伝送とインフラに求められている機能 / JAWS DAYS 2015
 
AMIMOTO ハンズオン JAWS DAYS 2015
AMIMOTO ハンズオン JAWS DAYS 2015AMIMOTO ハンズオン JAWS DAYS 2015
AMIMOTO ハンズオン JAWS DAYS 2015
 
クラウドとコミュニティのこれまでとこれから 20150322_#JAWSDAYS
クラウドとコミュニティのこれまでとこれから 20150322_#JAWSDAYSクラウドとコミュニティのこれまでとこれから 20150322_#JAWSDAYS
クラウドとコミュニティのこれまでとこれから 20150322_#JAWSDAYS
 
モバイルファースト時代のクラウドネイティブアーキテクチャ JAWS DAYS 2015
モバイルファースト時代のクラウドネイティブアーキテクチャ JAWS DAYS 2015モバイルファースト時代のクラウドネイティブアーキテクチャ JAWS DAYS 2015
モバイルファースト時代のクラウドネイティブアーキテクチャ JAWS DAYS 2015
 
[JAWS Days 2015 LT]使い始めて3年半、ようやくテスト始めました
[JAWS Days 2015 LT]使い始めて3年半、ようやくテスト始めました[JAWS Days 2015 LT]使い始めて3年半、ようやくテスト始めました
[JAWS Days 2015 LT]使い始めて3年半、ようやくテスト始めました
 
Data Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdaysData Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdays
 
「納品のない受託開発」の先にある「エンジニアの働きかたの未来」
「納品のない受託開発」の先にある「エンジニアの働きかたの未来」「納品のない受託開発」の先にある「エンジニアの働きかたの未来」
「納品のない受託開発」の先にある「エンジニアの働きかたの未来」
 
JAWS DAYS 2015 SimpleWorkflowとOpsWorksでサービスを開発して解ったこと
JAWS DAYS 2015 SimpleWorkflowとOpsWorksでサービスを開発して解ったことJAWS DAYS 2015 SimpleWorkflowとOpsWorksでサービスを開発して解ったこと
JAWS DAYS 2015 SimpleWorkflowとOpsWorksでサービスを開発して解ったこと
 
東急ハンズのクラウドデザインパターン アーキテクチャー編
東急ハンズのクラウドデザインパターン アーキテクチャー編東急ハンズのクラウドデザインパターン アーキテクチャー編
東急ハンズのクラウドデザインパターン アーキテクチャー編
 
Amazon Cognito + SNS + Zabbixでサーバー監視アプリを作ってみた
Amazon Cognito + SNS + Zabbixでサーバー監視アプリを作ってみたAmazon Cognito + SNS + Zabbixでサーバー監視アプリを作ってみた
Amazon Cognito + SNS + Zabbixでサーバー監視アプリを作ってみた
 
Windowsシステムの AWS移行とMulti-AZ化 - JAWS DAYS 2015
WindowsシステムのAWS移行とMulti-AZ化 - JAWS DAYS 2015 WindowsシステムのAWS移行とMulti-AZ化 - JAWS DAYS 2015
Windowsシステムの AWS移行とMulti-AZ化 - JAWS DAYS 2015
 
JAWS DAYS 2015-ド・エンタープライズな情シスとクラウドと私 @applebear_ayu #jawsdays #jawsug
JAWS DAYS 2015-ド・エンタープライズな情シスとクラウドと私 @applebear_ayu #jawsdays #jawsugJAWS DAYS 2015-ド・エンタープライズな情シスとクラウドと私 @applebear_ayu #jawsdays #jawsug
JAWS DAYS 2015-ド・エンタープライズな情シスとクラウドと私 @applebear_ayu #jawsdays #jawsug
 
モバイル開発を支えるAWS Mobile Services
モバイル開発を支えるAWS Mobile Servicesモバイル開発を支えるAWS Mobile Services
モバイル開発を支えるAWS Mobile Services
 

Similar to Hadoop Trends & Hadoop on EC2

Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng Jiang
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組みNTT DATA OSS Professional Services
 
OLAP options on Hadoop
OLAP options on HadoopOLAP options on Hadoop
OLAP options on HadoopYuta Imai
 
HDP Security Overview
HDP Security OverviewHDP Security Overview
HDP Security OverviewYifeng Jiang
 
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0DataWorks Summit
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
IoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFiIoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFiYuta Imai
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちAdvancedTechNight
 
クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境Kimihiko Kitase
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16Yifeng Jiang
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...Insight Technology, Inc.
 
Apache Hiveの今とこれから
Apache Hiveの今とこれからApache Hiveの今とこれから
Apache Hiveの今とこれからYifeng Jiang
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopCloudera Japan
 
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)NTT DATA OSS Professional Services
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】NTT DATA OSS Professional Services
 

Similar to Hadoop Trends & Hadoop on EC2 (20)

Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-public
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
OLAP options on Hadoop
OLAP options on HadoopOLAP options on Hadoop
OLAP options on Hadoop
 
HDP Security Overview
HDP Security OverviewHDP Security Overview
HDP Security Overview
 
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreadingApache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
 
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
IoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFiIoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFi
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
 
クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
 
Apache Hiveの今とこれから
Apache Hiveの今とこれからApache Hiveの今とこれから
Apache Hiveの今とこれから
 
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoopHDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
 
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
 
Hadoop基盤を知る
Hadoop基盤を知るHadoop基盤を知る
Hadoop基盤を知る
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
 
Oracle R Advanced Analytics for Hadoop利用方法
Oracle R Advanced Analytics for Hadoop利用方法Oracle R Advanced Analytics for Hadoop利用方法
Oracle R Advanced Analytics for Hadoop利用方法
 
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
 
Apache Hadoopを改めて知る
Apache Hadoopを改めて知るApache Hadoopを改めて知る
Apache Hadoopを改めて知る
 

More from Yifeng Jiang

Hive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfsHive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfsYifeng Jiang
 
introduction-to-apache-kafka
introduction-to-apache-kafkaintroduction-to-apache-kafka
introduction-to-apache-kafkaYifeng Jiang
 
Hive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big DataHive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big DataYifeng Jiang
 
Introduction to Streaming Analytics Manager
Introduction to Streaming Analytics ManagerIntroduction to Streaming Analytics Manager
Introduction to Streaming Analytics ManagerYifeng Jiang
 
HDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for EveryoneHDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for EveryoneYifeng Jiang
 
Hortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 UpdatesHortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 UpdatesYifeng Jiang
 
Introduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWSIntroduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWSYifeng Jiang
 
Real-time Analytics in Financial
Real-time Analytics in FinancialReal-time Analytics in Financial
Real-time Analytics in FinancialYifeng Jiang
 
Sub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scaleSub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scaleYifeng Jiang
 
Hive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-publicHive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-publicYifeng Jiang
 
Yifeng spark-final-public
Yifeng spark-final-publicYifeng spark-final-public
Yifeng spark-final-publicYifeng Jiang
 
Kinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-diveKinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-diveYifeng Jiang
 
Hive present-and-feature-shanghai
Hive present-and-feature-shanghaiHive present-and-feature-shanghai
Hive present-and-feature-shanghaiYifeng Jiang
 
Hadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise HadoopHadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise HadoopYifeng Jiang
 
Data Science on Hadoop
Data Science on HadoopData Science on Hadoop
Data Science on HadoopYifeng Jiang
 

More from Yifeng Jiang (18)

Hive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfsHive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfs
 
introduction-to-apache-kafka
introduction-to-apache-kafkaintroduction-to-apache-kafka
introduction-to-apache-kafka
 
Hive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big DataHive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big Data
 
Introduction to Streaming Analytics Manager
Introduction to Streaming Analytics ManagerIntroduction to Streaming Analytics Manager
Introduction to Streaming Analytics Manager
 
HDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for EveryoneHDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for Everyone
 
Hortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 UpdatesHortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 Updates
 
Spark Security
Spark SecuritySpark Security
Spark Security
 
Introduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWSIntroduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWS
 
Real-time Analytics in Financial
Real-time Analytics in FinancialReal-time Analytics in Financial
Real-time Analytics in Financial
 
Nifi workshop
Nifi workshopNifi workshop
Nifi workshop
 
Sub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scaleSub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scale
 
Hive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-publicHive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-public
 
Yifeng spark-final-public
Yifeng spark-final-publicYifeng spark-final-public
Yifeng spark-final-public
 
Kinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-diveKinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-dive
 
Hive present-and-feature-shanghai
Hive present-and-feature-shanghaiHive present-and-feature-shanghai
Hive present-and-feature-shanghai
 
Hadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise HadoopHadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise Hadoop
 
HDFS Deep Dive
HDFS Deep DiveHDFS Deep Dive
HDFS Deep Dive
 
Data Science on Hadoop
Data Science on HadoopData Science on Hadoop
Data Science on Hadoop
 

Hadoop Trends & Hadoop on EC2

  • 1. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoop  Trends  &  Hadoop  on  EC2 Yifeng  Jiang Solutions  Engineer,  Hortonworks,  inc. March  22,  2015  
  • 2. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 自己紹介 蒋  逸峰  (Yifeng  Jiang) •  Solutions  Engineer  @  Hortonworks  Japan •  HBase  book  author •  ⽇日本に来て10年年経ちました… •  趣味は⼭山登り •  Twitter:  @uprush
  • 3. © Hortonworks Inc. 2011 – 2015. All Rights Reserved アジェンダ •  Hadoopの最新状況 •  Hadoop技術アップデートとロードマップ •  Hadoop  on  EC2  Deployment  Options
  • 4. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopの最新状況 Modern Data Architecture Page 4
  • 5. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopコミュニティのアクティビティ Number  of  Issues  Resolved Number  of  Line  of  Code  Increased http://ajisakaa.blogspot.jp
  • 6. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Open  Leadership Code  Contributed  in  2014  by  Organization http://ajisakaa.blogspot.jp
  • 7. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 専門家集団: 開発に深く携わるコア・メンバーにより構成 沿革 2011年6月: Yahoo! で初代の Hadoop 開発を手がけたアーキテクト、デベロッパー、 オペレータ 24名によって創立 2014年12月: 社員数600を超えるHadoopの専門家集団に成長 Apache Project Committers PMC Members Hadoop 27 21 Pig 5 5 Hive 18 6 Tez 16 15 HBase 6 4 Phoenix 4 4 Accumulo 2 2 Storm 3 2 Slider 11 11 Falcon 5 3 Flume 1 1 Sqoop 1 1 Ambari 36 28 Oozie 3 2 Zookeeper 2 1 Knox 13 3 Ranger 11 n/a TOTAL 164 109
  • 8. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 急拡⼤大する顧客層 顧客数が示す急速な成長 7四半期で 400社以上。現在、四半期ごとに75社 以上の新規顧客 •  お客様の2/3は Fortune 1000 企業 •  更新率100% © Hortonworks Inc. 2011 – 2014. All Rights Reserved Hadoopを早くから導入されたお客様も Hortonworksのディストリビューションを採用
  • 9. © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 10. © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDP  (Hortonworks  Data  Pla/orm)   次世代モダン・データアーキテクチャ (MDA) Modern Data Architecture •  データレークの実現へ •  データは1つのHDFSに •  データセットのサイズ、種類を問わずア プリケーションを活用できる柔軟性 •  運用管理は1つで済む •  一元管理されたセキュリティ Clickstream   Web     &  Social   Geoloca;on   Sensor     &  Machine   Server     Logs   Unstructured   SOURCES Existing Systems ERP   CRM   SCM   ANALYTICS Data Marts Business Analytics Visualization & Dashboards ANALYTICS Applications Business Analytics Visualization & Dashboards ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° HDFS (Hadoop Distributed File System) YARN: Data Operating System Interactive Real-TimeBatch Partner ISVBatch BatchMPP   EDW  
  • 11. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hortonworks Data Platform 2.2 Stack
  • 12. © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDP IS Apache Hadoop There is ONE Enterprise Hadoop: everything else is a vendor derivation Hortonworks Data Platform 2.2 Hadoop &YARN Pig Hive&HCatalog HBase Sqoop Oozie Zookeeper Ambari Storm Flume Knox Phoenix Accumulo 2.2.0 0.12.0 0.12.0 2.4.0 0.12.1 Data Management 0.13.0 0.96.1 0.98.0 0.9.1 1.4.4 1.3.1 1.4.0 1.4.4 1.5.1 3.3.2 4.0.0 3.4.5 0.4.0 4.0.0 1.5.1 Falcon 0.5.0 Ranger Spark Kafka 0.14.0 0.14.0 0.98.4 1.6.1 4.2 0.9.3 1.2.0 0.6.0 0.8.1 1.4.5 1.5.0 1.7.0 4.1.0 0.5.0 0.4.0 2.6.0 * version numbers are targets and subject to change at time of general availability in accordance with ASF release process 3.4.5 Tez 0.4.0 Slider 0.60 HDP 2.0 October 2013 HDP 2.2 October 2014 HDP 2.1 April 2014 Solr 4.7.2 4.10.0 0.5.1 Data Access Governance & Integration SecurityOperations
  • 13. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoop技術アップデートとロードマップ Hive,  Ambari,  Ranger,  and  more Page 13
  • 14. © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFS: more Efficient Data Lake Storage •  Tiered  Storage –  DataNodeはストレージのコレクション –  DISK,  SSD,  RAM,  ARCHIVAL •  HDFS  NFS  Gateway –  HDFSをNFSマウント •  Roadmap:  ⼤大規模ストレージの効率率率化 –  Archival  Tier  GA o  ストレージコストが最⼤大8倍削減 –  Erasure  Coding o  ストレージコストが3xから1.4xに S3 Swift SAN Filers Collection of tiered storages All disks as a single storage
  • 15. © Hortonworks Inc. 2011 – 2015. All Rights Reserved YARN: extends Hadoop into Data OS •  CPU スケジューリング •  Cgroup •  YARN Node Label NM NM RS NM NM NM NM RS NM NM … RS MR Label: HBaseRegionServer Label: HBaseRegionServer hbase HBase on Slider YARN App CS Queue
  • 16. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Slider: more YARN Ready Engines YARN: Data Operating System (Cluster Resource Management) 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° Script Pig SQL Hive Tez Tez Others Engines Tez Java Scala Cascading Tez ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° Others ISV Engines ° ° Storm Stream Others Engines Slider Solr Search HBase NoSQL Slider Accumulo NoSQL Slider Spark In-Memory Kafka Slider ° ° ° ° HDFS (Hadoop Distributed File System) •  あらゆるアプリやサービスをYARNに動かす •  HBase, Accumulo, Storm •  SDK for 3rd-party ISVs
  • 17. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hive:  Enterprise  SQL  at  Hadoop  Scale •  トランザクション – 現在: Insert, Update, Delete – Roadmap: BEGIN, COMMIT, ROLLBACK •  パフォーマンス: 100倍早くなった – ORC File – Hive on Tez – Cost Based Optimizer – Roadmap: 1秒以下のレスポンス、LLAP利用 17
  • 18. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Spark: Enterprise Ready Spark on HDP 2.2.3 SparkとHadoopの連携に注⼒力力 •  Spark  1.2  GA •  Spark  on  YARN •  ORCサポート •  Hive  on  Spark •  Spark  with  Ambari •  セキュリティ 18
  • 19. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 5つのセキュリティ要件 認証 Kerberos 認可 監査 ? 暗号化 HDP  2.2 現状のセキュリティ対応/サポート… RANGER
  • 20. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Ranger:  ⼀一元化されたセキュリティ管理理 20 テーブル/カ ラムのアクセ スコントロー ル、柔軟な定 義   グループ/ユー ザーの権限管理理
  • 21. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Ambari: Hadoopの顔 Apache Ambari: Hadoop for Everyone, 100% Open Source
  • 22. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoop on EC2 Deployment Options
  • 23. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Best  Practices 常時稼働Hadoopと⼀一時的Hadoop(例例:  EMR)の要件が違う (常時稼働)Hadoop  on  EC2の基本的な考え⽅方 •  ローカルストレージがポイント •  データノードのデータはインスタンス  ストアのみ利利⽤用 •  マスタノードのデータはEBSに •  データはS3にバックアップ •  ディストリビューション(HDP)を使う •  運⽤用管理理ツール、可⽤用性、セキュリティ
  • 24. © Hortonworks Inc. 2011 – 2015. All Rights Reserved EC2インスタンスタイプ Big and cheapなタイプを
  • 25. © Hortonworks Inc. 2011 – 2015. All Rights Reserved ハードウェア:オンプレミスの場合 そもそも今どきのHadoopのお勧めハードウェア  スペックは? ポイント:Big  and  cheap •  12  cores •  Dual  Intel  Xeon  E5-‐‑‒2650v2  (8c)  or  E5-‐‑‒2660v2  (10c)  Processors •  128GB  or  256GB  RAM •  12  SATA  /  NLSAS,  1~∼4TB  per  drivers •  1  or  10GbE  nic
  • 26. © Hortonworks Inc. 2011 – 2015. All Rights Reserved インスタンスタイプ Hadoopの最適なEC2インスタンスタイプは? ポイント:Big  and  cheap
  • 27. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Deploy例: 異なるインスタンスタイプの活用 •  I2とHs1を同じクラスタにすることも可能 •  異なるデータを一箇所に集め、集中して運用管理したい場合 •  1クラスタで色々な処理パターン:バッチ、リアルタイム、インタラクティブ、インメモリ •  HDFS Tiered Storage •  YARN Node Label HDP Cluster I2.8xlarge I2.8xlarge I2.8xlarge Hs1.8xlarge I2.8xlarge Hs1.8xlarge
  • 28. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Storage Policy: SSD & Hot SSD SSD SSD SSD SSD SSD SSD SSD SSD DISK DISK DISK DISK DISK DISK HDP Cluster A DISK DISK DISK A A SSD All replicas on SSDDataSet A (e.g., HBase) Hot All replicas on DISK DataSet B (others) B B B I2.8x I2.8x I2.8x hs1.8x hs1.8x hs1.8x
  • 29. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Storage  Policy:  実際にやってみる Ambariにて、HDFS  Configuration  Groups  作成 •  I2⽤用グループ •  Hs1⽤用グループ Ambariにて、GroupsごとにDataNodeストレージタイプ、パスを定義 dfs.datanode.data.dir を下記に設定 •  I2  group:  [SSD]/hadoop/hdfs/data1,[SSD]/hadoop/hdfs/data2,… •  Hs1  group:  [DISK]/hadoop/hdfs/data1,[DISK]/hadoop/hdfs/data2,… HDFS再起動
  • 30. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Storage Policyを設定してみる $ hdfs dfs -mkdir /hbase $ hdfs dfsadmin -setStoragePolicy /hbase ALL_SSD Set storage policy ALL_SSD on /hbase $ hdfs dfsadmin -getStoragePolicy /ssd The storage policy of /ssd: BlockStoragePolicy{ALL_SSD:12, storageTypes=[SSD], creationFallbacks=[DISK], replicationFallbacks=[DISK]} HBaseのデータをすべてSSD(i2)に保存 •  /hbase  配下を  ALL_̲SSD  に設定
  • 31. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Ambari Blueprintを使ったデプロイ ElasticなHadoop
  • 32. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Ambari Blueprints The “CloudFormation” for Hadoop •  クラスタ・インストールを自動化(特にクラウド環境で役に立つ) •  実例:Microsoft Azureポータル内でのHDPクラスタインストール •  クラスタのスケールアップ/ダウンを簡素化
  • 33. © Hortonworks Inc. 2011 – 2015. All Rights Reserved ブループリントとブループリントAPI ブループリントとはクラスタの設定状態をJSONで表したもの ブループリントAPIに入力してクラスタをインストール Blueprint   ブループリント     Ambari  Server   Blueprint  API   ブループリントAPI   IMPORT インポート CLUSTER   クラスタ   INSTANTIATE 作成
  • 34. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 実行中のクラスタの復元 実行中のクラスタからブループリントをエクスポートが可能 設定が同じまたはほぼ同じクラスタの復元に役立つ CLUSTER   クラスタ   EXPORT エクスポート Blueprint   ブループリント     GET /api/v1/clusters/mycluster?format=blueprint
  • 35. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 例:100台クラスタのインストール { "configurations" : [ { ”hdfs-site" : { "dfs.datanode.data.dir" : ”/hadoop/1,/hadoop/2,/hadoop/3" } } ], "host_groups" : [ { "name" : ”master-host", "components" : [ { "name" : "NAMENODE” }, { "name" : "RESOURCEMANAGER” }, … ], "cardinality" : "1" }, { "name" : ”worker-host", "components" : [ { "name" : ”DATANODE” }, { "name" : ”NODEMANAGER” }, … ], "cardinality" : "1+" }, ], "Blueprints" : { "blueprint_name" : ”multi-node-hdfs-yarn", "stack_name" : "HDP", "stack_version" : "2.0" } } { "blueprint" : ”multi-node-hdfs-yarn", "host_groups" :[ { "name" : ”master-host", "hosts" : [ { "fqdn" : ”master001.ambari.apache.org” } ] }, { "name" : ”worker-host", "hosts" : [ { "fqdn" : ”worker001.ambari.apache.org” }, { "fqdn" : ”worker002.ambari.apache.org” }, … { "fqdn" : ”worker099.ambari.apache.org” } ] } ] } 1. POST -d @hakone-blueprint.json / api/v1/blueprints/hakone 2. POST -d @hosts.json /api/v1/ clusters/hakone
  • 36. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 貧乏男の2台クラスタ… 事前準備:  Base  AMI作成 •  Ambari  Server •  Ambari  Agent Ambari  Server⼀一台起動 Ambari  Agent  AMIよりEC2  2台起動 •  BootstrapでAmbari  server  IPを設定 •  もちろん、Spotインスタンスで Blueprintインポート  API クラスタ作成  API ⾊色々テスト…
  • 37. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 貧乏男の2台クラスタ… 節約のために…寝る前にはクラスタのインスタンスを削除します 翌⽇日は同様のクラスタを⽴立立ち上げる # Ambari Reset (to clear previous installed clusters) ambari-server stop ambari-server reset ambari-server start # Launch ec2 spot instances ec2-request-spot-instances # re-create cluster curl -X POST -d @hakone-blueprint.json -u admin:admin localhost:8080/api/v1/blueprints/hakone curl -X POST -d @hosts.json -u admin:admin localhost:8080/api/v1/clusters/hakone
  • 38. © Hortonworks Inc. 2011 – 2015. All Rights Reserved まとめ HDPセキュリティ Page 38
  • 39. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoop  Trends  and  Hadoop  on  EC2 •  Hadoopは常に早く進化しています •  次世代モダン・データアーキテクチャ (MDA)はHadoopにて実現 •  Hadoopはより効率率率、安全、早くなっています •  誰でもHadoopが使えます •  Hadoop  on  EC2は効率率率や柔軟性が⾼高い
  • 40. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Thank  you Yifeng  Jiang,  Solutions  Engineer,  Hortonworks @uprush