Submit Search
Upload
Hadoop Trends & Hadoop on EC2
•
12 likes
•
4,418 views
Yifeng Jiang
Follow
Hadoop Trends, Hadoop on EC2 Best Practices, Deploy Options
Read less
Read more
Technology
Report
Share
Report
Share
1 of 40
Download now
Download to read offline
Recommended
簡単!お手軽!!RDSでDR環境構築 - JAWS DAYS 2015
簡単!お手軽!!RDSでDR環境構築 - JAWS DAYS 2015
Naomi Yamasaki
CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013
Cloudera Japan
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
Cloudera Japan
Apache Ambari Overview -- Hadoop for Everyone
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
Cloudera Japan
Impalaチューニングポイントベストプラクティス
Impalaチューニングポイントベストプラクティス
Yahoo!デベロッパーネットワーク
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
Cloudera Japan
Recommended
簡単!お手軽!!RDSでDR環境構築 - JAWS DAYS 2015
簡単!お手軽!!RDSでDR環境構築 - JAWS DAYS 2015
Naomi Yamasaki
CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013
Cloudera Japan
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
Cloudera Japan
Apache Ambari Overview -- Hadoop for Everyone
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
Cloudera Japan
Impalaチューニングポイントベストプラクティス
Impalaチューニングポイントベストプラクティス
Yahoo!デベロッパーネットワーク
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
Cloudera Japan
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
Amazon Web Services Japan
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
Cloudera Japan
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
Cloudera Japan
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
Cloudera Japan
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
Yukinori Suda
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_ca
Cloudera Japan
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Cloudera Japan
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejp
Cloudera Japan
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
Cloudera Japan
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Cloudera Japan
Hadoop Operations #cwt2013
Hadoop Operations #cwt2013
Cloudera Japan
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Japan
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Cloudera Japan
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)
AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)
Amazon Web Services Japan
[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon Redshift
Amazon Web Services Japan
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
Yuta Imai
AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)
AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)
Sanehiko Yogi
Movable Type for AWS Hands-on
Movable Type for AWS Hands-on
Yuji Takayama
More Related Content
What's hot
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
Amazon Web Services Japan
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
Cloudera Japan
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
Cloudera Japan
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
Cloudera Japan
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
Yukinori Suda
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_ca
Cloudera Japan
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Cloudera Japan
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejp
Cloudera Japan
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
Cloudera Japan
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Cloudera Japan
Hadoop Operations #cwt2013
Hadoop Operations #cwt2013
Cloudera Japan
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Japan
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Cloudera Japan
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)
AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)
Amazon Web Services Japan
[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon Redshift
Amazon Web Services Japan
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
Yuta Imai
What's hot
(20)
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_ca
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejp
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoop Operations #cwt2013
Hadoop Operations #cwt2013
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Manager 5 (hadoop運用) #cwt2013
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)
AWS初心者向けWebinar RDBのAWSへの移行方法(Oracleを例に)
[AWSマイスターシリーズ] Amazon Redshift
[AWSマイスターシリーズ] Amazon Redshift
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
Viewers also liked
AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)
AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)
Sanehiko Yogi
Movable Type for AWS Hands-on
Movable Type for AWS Hands-on
Yuji Takayama
JAWS DAYS 2015 「DevOpsが普及した今だからこそ 考える DevOpsの次の姿」
JAWS DAYS 2015 「DevOpsが普及した今だからこそ 考える DevOpsの次の姿」
Teruo Adachi
JAWS DAYS 2015 AWS OpsWorksの仕組みと活用方法のご紹介
JAWS DAYS 2015 AWS OpsWorksの仕組みと活用方法のご紹介
Kenji Funasaki
JAWS-DAYS 2015 / 北海道 x 農業 x クラウド
JAWS-DAYS 2015 / 北海道 x 農業 x クラウド
Takehito Tanabe
AWS ロボ in JAWSDAYS
AWS ロボ in JAWSDAYS
崇之 清水
コンソールゲームを世界展開してみた - JAWS DAYS 2015
コンソールゲームを世界展開してみた - JAWS DAYS 2015
Ryo Nakamaru
IoT時代のデータ伝送とインフラに求められている機能 / JAWS DAYS 2015
IoT時代のデータ伝送とインフラに求められている機能 / JAWS DAYS 2015
Kohei MATSUSHITA
AMIMOTO ハンズオン JAWS DAYS 2015
AMIMOTO ハンズオン JAWS DAYS 2015
Hiromichi Koga
クラウドとコミュニティのこれまでとこれから 20150322_#JAWSDAYS
クラウドとコミュニティのこれまでとこれから 20150322_#JAWSDAYS
Hideki Ojima
モバイルファースト時代のクラウドネイティブアーキテクチャ JAWS DAYS 2015
モバイルファースト時代のクラウドネイティブアーキテクチャ JAWS DAYS 2015
Rikitake Oohashi
[JAWS Days 2015 LT]使い始めて3年半、ようやくテスト始めました
[JAWS Days 2015 LT]使い始めて3年半、ようやくテスト始めました
Tetsuya Mase
Data Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdays
Kenta Suzuki
「納品のない受託開発」の先にある「エンジニアの働きかたの未来」
「納品のない受託開発」の先にある「エンジニアの働きかたの未来」
Yoshihito Kuranuki
JAWS DAYS 2015 SimpleWorkflowとOpsWorksでサービスを開発して解ったこと
JAWS DAYS 2015 SimpleWorkflowとOpsWorksでサービスを開発して解ったこと
Tetsuya Chiba
東急ハンズのクラウドデザインパターン アーキテクチャー編
東急ハンズのクラウドデザインパターン アーキテクチャー編
一成 田部井
Amazon Cognito + SNS + Zabbixでサーバー監視アプリを作ってみた
Amazon Cognito + SNS + Zabbixでサーバー監視アプリを作ってみた
Hikaru Ashino
WindowsシステムのAWS移行とMulti-AZ化 - JAWS DAYS 2015
WindowsシステムのAWS移行とMulti-AZ化 - JAWS DAYS 2015
Takayuki Enomoto
JAWS DAYS 2015-ド・エンタープライズな情シスとクラウドと私 @applebear_ayu #jawsdays #jawsug
JAWS DAYS 2015-ド・エンタープライズな情シスとクラウドと私 @applebear_ayu #jawsdays #jawsug
Ayumi Tada
モバイル開発を支えるAWS Mobile Services
モバイル開発を支えるAWS Mobile Services
Keisuke Nishitani
Viewers also liked
(20)
AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)
AWSを使って沖縄から世界へ (JAWS DAYS 2015 A-1 GP LT大会)
Movable Type for AWS Hands-on
Movable Type for AWS Hands-on
JAWS DAYS 2015 「DevOpsが普及した今だからこそ 考える DevOpsの次の姿」
JAWS DAYS 2015 「DevOpsが普及した今だからこそ 考える DevOpsの次の姿」
JAWS DAYS 2015 AWS OpsWorksの仕組みと活用方法のご紹介
JAWS DAYS 2015 AWS OpsWorksの仕組みと活用方法のご紹介
JAWS-DAYS 2015 / 北海道 x 農業 x クラウド
JAWS-DAYS 2015 / 北海道 x 農業 x クラウド
AWS ロボ in JAWSDAYS
AWS ロボ in JAWSDAYS
コンソールゲームを世界展開してみた - JAWS DAYS 2015
コンソールゲームを世界展開してみた - JAWS DAYS 2015
IoT時代のデータ伝送とインフラに求められている機能 / JAWS DAYS 2015
IoT時代のデータ伝送とインフラに求められている機能 / JAWS DAYS 2015
AMIMOTO ハンズオン JAWS DAYS 2015
AMIMOTO ハンズオン JAWS DAYS 2015
クラウドとコミュニティのこれまでとこれから 20150322_#JAWSDAYS
クラウドとコミュニティのこれまでとこれから 20150322_#JAWSDAYS
モバイルファースト時代のクラウドネイティブアーキテクチャ JAWS DAYS 2015
モバイルファースト時代のクラウドネイティブアーキテクチャ JAWS DAYS 2015
[JAWS Days 2015 LT]使い始めて3年半、ようやくテスト始めました
[JAWS Days 2015 LT]使い始めて3年半、ようやくテスト始めました
Data Engineering at VOYAGE GROUP #jawsdays
Data Engineering at VOYAGE GROUP #jawsdays
「納品のない受託開発」の先にある「エンジニアの働きかたの未来」
「納品のない受託開発」の先にある「エンジニアの働きかたの未来」
JAWS DAYS 2015 SimpleWorkflowとOpsWorksでサービスを開発して解ったこと
JAWS DAYS 2015 SimpleWorkflowとOpsWorksでサービスを開発して解ったこと
東急ハンズのクラウドデザインパターン アーキテクチャー編
東急ハンズのクラウドデザインパターン アーキテクチャー編
Amazon Cognito + SNS + Zabbixでサーバー監視アプリを作ってみた
Amazon Cognito + SNS + Zabbixでサーバー監視アプリを作ってみた
WindowsシステムのAWS移行とMulti-AZ化 - JAWS DAYS 2015
WindowsシステムのAWS移行とMulti-AZ化 - JAWS DAYS 2015
JAWS DAYS 2015-ド・エンタープライズな情シスとクラウドと私 @applebear_ayu #jawsdays #jawsug
JAWS DAYS 2015-ド・エンタープライズな情シスとクラウドと私 @applebear_ayu #jawsdays #jawsug
モバイル開発を支えるAWS Mobile Services
モバイル開発を支えるAWS Mobile Services
Similar to Hadoop Trends & Hadoop on EC2
Yifeng hadoop-present-public
Yifeng hadoop-present-public
Yifeng Jiang
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
OLAP options on Hadoop
OLAP options on Hadoop
Yuta Imai
HDP Security Overview
HDP Security Overview
Yifeng Jiang
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Yahoo!デベロッパーネットワーク
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
DataWorks Summit
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
IoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFi
Yuta Imai
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境
Kimihiko Kitase
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
Insight Technology, Inc.
Apache Hiveの今とこれから
Apache Hiveの今とこれから
Yifeng Jiang
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
Cloudera Japan
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
NTT DATA OSS Professional Services
Hadoop基盤を知る
Hadoop基盤を知る
日本ヒューレット・パッカード株式会社
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
Oracle R Advanced Analytics for Hadoop利用方法
Oracle R Advanced Analytics for Hadoop利用方法
オラクルエンジニア通信
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
オラクルエンジニア通信
Apache Hadoopを改めて知る
Apache Hadoopを改めて知る
日本ヒューレット・パッカード株式会社
Similar to Hadoop Trends & Hadoop on EC2
(20)
Yifeng hadoop-present-public
Yifeng hadoop-present-public
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
OLAP options on Hadoop
OLAP options on Hadoop
HDP Security Overview
HDP Security Overview
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
IoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFi
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
Apache Hiveの今とこれから
Apache Hiveの今とこれから
HDFS HA セミナー #hadoop
HDFS HA セミナー #hadoop
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop基盤を知る
Hadoop基盤を知る
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
Oracle R Advanced Analytics for Hadoop利用方法
Oracle R Advanced Analytics for Hadoop利用方法
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
Apache Hadoopを改めて知る
Apache Hadoopを改めて知る
More from Yifeng Jiang
Hive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfs
Yifeng Jiang
introduction-to-apache-kafka
introduction-to-apache-kafka
Yifeng Jiang
Hive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big Data
Yifeng Jiang
Introduction to Streaming Analytics Manager
Introduction to Streaming Analytics Manager
Yifeng Jiang
HDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for Everyone
Yifeng Jiang
Hortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 Updates
Yifeng Jiang
Spark Security
Spark Security
Yifeng Jiang
Introduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWS
Yifeng Jiang
Real-time Analytics in Financial
Real-time Analytics in Financial
Yifeng Jiang
Nifi workshop
Nifi workshop
Yifeng Jiang
Sub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scale
Yifeng Jiang
Hive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-public
Yifeng Jiang
Yifeng spark-final-public
Yifeng spark-final-public
Yifeng Jiang
Kinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-dive
Yifeng Jiang
Hive present-and-feature-shanghai
Hive present-and-feature-shanghai
Yifeng Jiang
Hadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise Hadoop
Yifeng Jiang
HDFS Deep Dive
HDFS Deep Dive
Yifeng Jiang
Data Science on Hadoop
Data Science on Hadoop
Yifeng Jiang
More from Yifeng Jiang
(18)
Hive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfs
introduction-to-apache-kafka
introduction-to-apache-kafka
Hive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big Data
Introduction to Streaming Analytics Manager
Introduction to Streaming Analytics Manager
HDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for Everyone
Hortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 Updates
Spark Security
Spark Security
Introduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWS
Real-time Analytics in Financial
Real-time Analytics in Financial
Nifi workshop
Nifi workshop
Sub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scale
Hive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-public
Yifeng spark-final-public
Yifeng spark-final-public
Kinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-dive
Hive present-and-feature-shanghai
Hive present-and-feature-shanghai
Hadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise Hadoop
HDFS Deep Dive
HDFS Deep Dive
Data Science on Hadoop
Data Science on Hadoop
Hadoop Trends & Hadoop on EC2
1.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoop Trends & Hadoop on EC2 Yifeng Jiang Solutions Engineer, Hortonworks, inc. March 22, 2015
2.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 自己紹介 蒋 逸峰 (Yifeng Jiang) • Solutions Engineer @ Hortonworks Japan • HBase book author • ⽇日本に来て10年年経ちました… • 趣味は⼭山登り • Twitter: @uprush
3.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved アジェンダ • Hadoopの最新状況 • Hadoop技術アップデートとロードマップ • Hadoop on EC2 Deployment Options
4.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoopの最新状況 Modern Data Architecture Page 4
5.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoopコミュニティのアクティビティ Number of Issues Resolved Number of Line of Code Increased http://ajisakaa.blogspot.jp
6.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Open Leadership Code Contributed in 2014 by Organization http://ajisakaa.blogspot.jp
7.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 専門家集団: 開発に深く携わるコア・メンバーにより構成 沿革 2011年6月: Yahoo! で初代の Hadoop 開発を手がけたアーキテクト、デベロッパー、 オペレータ 24名によって創立 2014年12月: 社員数600を超えるHadoopの専門家集団に成長 Apache Project Committers PMC Members Hadoop 27 21 Pig 5 5 Hive 18 6 Tez 16 15 HBase 6 4 Phoenix 4 4 Accumulo 2 2 Storm 3 2 Slider 11 11 Falcon 5 3 Flume 1 1 Sqoop 1 1 Ambari 36 28 Oozie 3 2 Zookeeper 2 1 Knox 13 3 Ranger 11 n/a TOTAL 164 109
8.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 急拡⼤大する顧客層 顧客数が示す急速な成長 7四半期で 400社以上。現在、四半期ごとに75社 以上の新規顧客 • お客様の2/3は Fortune 1000 企業 • 更新率100% © Hortonworks Inc. 2011 – 2014. All Rights Reserved Hadoopを早くから導入されたお客様も Hortonworksのディストリビューションを採用
9.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved
10.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved HDP (Hortonworks Data Pla/orm) 次世代モダン・データアーキテクチャ (MDA) Modern Data Architecture • データレークの実現へ • データは1つのHDFSに • データセットのサイズ、種類を問わずア プリケーションを活用できる柔軟性 • 運用管理は1つで済む • 一元管理されたセキュリティ Clickstream Web & Social Geoloca;on Sensor & Machine Server Logs Unstructured SOURCES Existing Systems ERP CRM SCM ANALYTICS Data Marts Business Analytics Visualization & Dashboards ANALYTICS Applications Business Analytics Visualization & Dashboards ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° HDFS (Hadoop Distributed File System) YARN: Data Operating System Interactive Real-TimeBatch Partner ISVBatch BatchMPP EDW
11.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hortonworks Data Platform 2.2 Stack
12.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved HDP IS Apache Hadoop There is ONE Enterprise Hadoop: everything else is a vendor derivation Hortonworks Data Platform 2.2 Hadoop &YARN Pig Hive&HCatalog HBase Sqoop Oozie Zookeeper Ambari Storm Flume Knox Phoenix Accumulo 2.2.0 0.12.0 0.12.0 2.4.0 0.12.1 Data Management 0.13.0 0.96.1 0.98.0 0.9.1 1.4.4 1.3.1 1.4.0 1.4.4 1.5.1 3.3.2 4.0.0 3.4.5 0.4.0 4.0.0 1.5.1 Falcon 0.5.0 Ranger Spark Kafka 0.14.0 0.14.0 0.98.4 1.6.1 4.2 0.9.3 1.2.0 0.6.0 0.8.1 1.4.5 1.5.0 1.7.0 4.1.0 0.5.0 0.4.0 2.6.0 * version numbers are targets and subject to change at time of general availability in accordance with ASF release process 3.4.5 Tez 0.4.0 Slider 0.60 HDP 2.0 October 2013 HDP 2.2 October 2014 HDP 2.1 April 2014 Solr 4.7.2 4.10.0 0.5.1 Data Access Governance & Integration SecurityOperations
13.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoop技術アップデートとロードマップ Hive, Ambari, Ranger, and more Page 13
14.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved HDFS: more Efficient Data Lake Storage • Tiered Storage – DataNodeはストレージのコレクション – DISK, SSD, RAM, ARCHIVAL • HDFS NFS Gateway – HDFSをNFSマウント • Roadmap: ⼤大規模ストレージの効率率率化 – Archival Tier GA o ストレージコストが最⼤大8倍削減 – Erasure Coding o ストレージコストが3xから1.4xに S3 Swift SAN Filers Collection of tiered storages All disks as a single storage
15.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved YARN: extends Hadoop into Data OS • CPU スケジューリング • Cgroup • YARN Node Label NM NM RS NM NM NM NM RS NM NM … RS MR Label: HBaseRegionServer Label: HBaseRegionServer hbase HBase on Slider YARN App CS Queue
16.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Slider: more YARN Ready Engines YARN: Data Operating System (Cluster Resource Management) 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° Script Pig SQL Hive Tez Tez Others Engines Tez Java Scala Cascading Tez ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° Others ISV Engines ° ° Storm Stream Others Engines Slider Solr Search HBase NoSQL Slider Accumulo NoSQL Slider Spark In-Memory Kafka Slider ° ° ° ° HDFS (Hadoop Distributed File System) • あらゆるアプリやサービスをYARNに動かす • HBase, Accumulo, Storm • SDK for 3rd-party ISVs
17.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hive: Enterprise SQL at Hadoop Scale • トランザクション – 現在: Insert, Update, Delete – Roadmap: BEGIN, COMMIT, ROLLBACK • パフォーマンス: 100倍早くなった – ORC File – Hive on Tez – Cost Based Optimizer – Roadmap: 1秒以下のレスポンス、LLAP利用 17
18.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Spark: Enterprise Ready Spark on HDP 2.2.3 SparkとHadoopの連携に注⼒力力 • Spark 1.2 GA • Spark on YARN • ORCサポート • Hive on Spark • Spark with Ambari • セキュリティ 18
19.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 5つのセキュリティ要件 認証 Kerberos 認可 監査 ? 暗号化 HDP 2.2 現状のセキュリティ対応/サポート… RANGER
20.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Ranger: ⼀一元化されたセキュリティ管理理 20 テーブル/カ ラムのアクセ スコントロー ル、柔軟な定 義 グループ/ユー ザーの権限管理理
21.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Ambari: Hadoopの顔 Apache Ambari: Hadoop for Everyone, 100% Open Source
22.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoop on EC2 Deployment Options
23.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Best Practices 常時稼働Hadoopと⼀一時的Hadoop(例例: EMR)の要件が違う (常時稼働)Hadoop on EC2の基本的な考え⽅方 • ローカルストレージがポイント • データノードのデータはインスタンス ストアのみ利利⽤用 • マスタノードのデータはEBSに • データはS3にバックアップ • ディストリビューション(HDP)を使う • 運⽤用管理理ツール、可⽤用性、セキュリティ
24.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved EC2インスタンスタイプ Big and cheapなタイプを
25.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved ハードウェア:オンプレミスの場合 そもそも今どきのHadoopのお勧めハードウェア スペックは? ポイント:Big and cheap • 12 cores • Dual Intel Xeon E5-‐‑‒2650v2 (8c) or E5-‐‑‒2660v2 (10c) Processors • 128GB or 256GB RAM • 12 SATA / NLSAS, 1~∼4TB per drivers • 1 or 10GbE nic
26.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved インスタンスタイプ Hadoopの最適なEC2インスタンスタイプは? ポイント:Big and cheap
27.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Deploy例: 異なるインスタンスタイプの活用 • I2とHs1を同じクラスタにすることも可能 • 異なるデータを一箇所に集め、集中して運用管理したい場合 • 1クラスタで色々な処理パターン:バッチ、リアルタイム、インタラクティブ、インメモリ • HDFS Tiered Storage • YARN Node Label HDP Cluster I2.8xlarge I2.8xlarge I2.8xlarge Hs1.8xlarge I2.8xlarge Hs1.8xlarge
28.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Storage Policy: SSD & Hot SSD SSD SSD SSD SSD SSD SSD SSD SSD DISK DISK DISK DISK DISK DISK HDP Cluster A DISK DISK DISK A A SSD All replicas on SSDDataSet A (e.g., HBase) Hot All replicas on DISK DataSet B (others) B B B I2.8x I2.8x I2.8x hs1.8x hs1.8x hs1.8x
29.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Storage Policy: 実際にやってみる Ambariにて、HDFS Configuration Groups 作成 • I2⽤用グループ • Hs1⽤用グループ Ambariにて、GroupsごとにDataNodeストレージタイプ、パスを定義 dfs.datanode.data.dir を下記に設定 • I2 group: [SSD]/hadoop/hdfs/data1,[SSD]/hadoop/hdfs/data2,… • Hs1 group: [DISK]/hadoop/hdfs/data1,[DISK]/hadoop/hdfs/data2,… HDFS再起動
30.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Storage Policyを設定してみる $ hdfs dfs -mkdir /hbase $ hdfs dfsadmin -setStoragePolicy /hbase ALL_SSD Set storage policy ALL_SSD on /hbase $ hdfs dfsadmin -getStoragePolicy /ssd The storage policy of /ssd: BlockStoragePolicy{ALL_SSD:12, storageTypes=[SSD], creationFallbacks=[DISK], replicationFallbacks=[DISK]} HBaseのデータをすべてSSD(i2)に保存 • /hbase 配下を ALL_̲SSD に設定
31.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Ambari Blueprintを使ったデプロイ ElasticなHadoop
32.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Ambari Blueprints The “CloudFormation” for Hadoop • クラスタ・インストールを自動化(特にクラウド環境で役に立つ) • 実例:Microsoft Azureポータル内でのHDPクラスタインストール • クラスタのスケールアップ/ダウンを簡素化
33.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved ブループリントとブループリントAPI ブループリントとはクラスタの設定状態をJSONで表したもの ブループリントAPIに入力してクラスタをインストール Blueprint ブループリント Ambari Server Blueprint API ブループリントAPI IMPORT インポート CLUSTER クラスタ INSTANTIATE 作成
34.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 実行中のクラスタの復元 実行中のクラスタからブループリントをエクスポートが可能 設定が同じまたはほぼ同じクラスタの復元に役立つ CLUSTER クラスタ EXPORT エクスポート Blueprint ブループリント GET /api/v1/clusters/mycluster?format=blueprint
35.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 例:100台クラスタのインストール { "configurations" : [ { ”hdfs-site" : { "dfs.datanode.data.dir" : ”/hadoop/1,/hadoop/2,/hadoop/3" } } ], "host_groups" : [ { "name" : ”master-host", "components" : [ { "name" : "NAMENODE” }, { "name" : "RESOURCEMANAGER” }, … ], "cardinality" : "1" }, { "name" : ”worker-host", "components" : [ { "name" : ”DATANODE” }, { "name" : ”NODEMANAGER” }, … ], "cardinality" : "1+" }, ], "Blueprints" : { "blueprint_name" : ”multi-node-hdfs-yarn", "stack_name" : "HDP", "stack_version" : "2.0" } } { "blueprint" : ”multi-node-hdfs-yarn", "host_groups" :[ { "name" : ”master-host", "hosts" : [ { "fqdn" : ”master001.ambari.apache.org” } ] }, { "name" : ”worker-host", "hosts" : [ { "fqdn" : ”worker001.ambari.apache.org” }, { "fqdn" : ”worker002.ambari.apache.org” }, … { "fqdn" : ”worker099.ambari.apache.org” } ] } ] } 1. POST -d @hakone-blueprint.json / api/v1/blueprints/hakone 2. POST -d @hosts.json /api/v1/ clusters/hakone
36.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 貧乏男の2台クラスタ… 事前準備: Base AMI作成 • Ambari Server • Ambari Agent Ambari Server⼀一台起動 Ambari Agent AMIよりEC2 2台起動 • BootstrapでAmbari server IPを設定 • もちろん、Spotインスタンスで Blueprintインポート API クラスタ作成 API ⾊色々テスト…
37.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 貧乏男の2台クラスタ… 節約のために…寝る前にはクラスタのインスタンスを削除します 翌⽇日は同様のクラスタを⽴立立ち上げる # Ambari Reset (to clear previous installed clusters) ambari-server stop ambari-server reset ambari-server start # Launch ec2 spot instances ec2-request-spot-instances # re-create cluster curl -X POST -d @hakone-blueprint.json -u admin:admin localhost:8080/api/v1/blueprints/hakone curl -X POST -d @hosts.json -u admin:admin localhost:8080/api/v1/clusters/hakone
38.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved まとめ HDPセキュリティ Page 38
39.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoop Trends and Hadoop on EC2 • Hadoopは常に早く進化しています • 次世代モダン・データアーキテクチャ (MDA)はHadoopにて実現 • Hadoopはより効率率率、安全、早くなっています • 誰でもHadoopが使えます • Hadoop on EC2は効率率率や柔軟性が⾼高い
40.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Thank you Yifeng Jiang, Solutions Engineer, Hortonworks @uprush
Download now