SlideShare a Scribd company logo
1 of 53
Download to read offline
1© Cloudera, Inc. All rights reserved.
Cloudera in the Cloud
Tsuyoshi Miyake | Sr. Systems Engineer | Cloudera
2© Cloudera, Inc. All rights reserved.
⾃⼰紹介
三宅 剛史(みやけ つよし / Tsuyoshi Miyake)
Sr. Systems Engineer & SE Specialization - Cloud
Career: Sun, GS, Pivotal, AWS etc.
@tsuyokb | tsuyo@cloudera.com | github.com/tsuyo
3© Cloudera, Inc. All rights reserved.
アジェンダ
• なぜデータ分析をクラウドでやるのか?
• Why Cloudera in the Cloud?
• デプロイパターンとストレージオプション
• Cloudera Director
• Cloudera Altus
• Workload Analytics
• まとめ
4© Cloudera, Inc. All rights reserved.
なぜデータ分析をクラウドでやるのか?
5© Cloudera, Inc. All rights reserved.
⼤規模データが⽣
成・保存されアプ
リケーションがデ
プロイされる場所
である
6© Cloudera, Inc. All rights reserved.
いつでも使えて
「伸縮可能」
「従量課⾦」
7© Cloudera, Inc. All rights reserved.
データがどこからで
もアクセスできる
8© Cloudera, Inc. All rights reserved.
Why Cloudera in the Cloud?
9© Cloudera, Inc. All rights reserved.
ハイブリッド・マルチクラウドに対応
アプリケーションがどんな環境でも透過的に動くことが必須
10© Cloudera, Inc. All rights reserved.
様々なユースケースに対応
Modern data processing
(ETL) at scale
Data
Engineering
Explore, analyze, and
understand all your data
Analytic DB
Data-driven applications to
deliver real-time insights
Operational
DB
Multi-Storage,
Multi-Environment
Exploratory data science
and machine learning
Data Science
特に⼀時的・⻑期的なクラスターの使い分けは必須
11© Cloudera, Inc. All rights reserved.
商⽤利⽤可能な環境
OPERATIONS
DATA+MANAGEMENT
UNIFIED+SERVICES
PROCESS,+ANALYZE,+SERVE
STORE
INTEGRATE
Impala
Navigator
Navigator
Optimizer
Hive-on-
Spark
Hue BI Partners
12© Cloudera, Inc. All rights reserved.
デプロイパターンと
ストレージオプション
13© Cloudera, Inc. All rights reserved.
⼀時的なクラスター
(Cloud-native)
デプロイモデルの選択
Object Store
⻑時間稼働のクラスター
(Lift and Shift)
14© Cloudera, Inc. All rights reserved.
Pets vs. Cattle
15© Cloudera, Inc. All rights reserved.
⻑時間クラスター (Lift-and-shift) ユースケース
⻑時間クラスターへの要求
• ⾼可⽤性とディザスタリカバリ
• 運⽤管理(リソース管理・パッチ・ローリングアップグレード)
• セキュリティ
• クラスターの動的な伸縮
ユースケース
• HBase/Kudu/Kafka clusters
• Persistent Batch/BI (>50-60% Usage)
• Large, multi-user clusters
16© Cloudera, Inc. All rights reserved.
Cloud-native アプリケーションパターン
クラスタの短期利⽤、
コスト削減
リソース競合を回避、
ワークロードの最適化
Object Store
ストレージと計算の分離
ストレージ
計算
17© Cloudera, Inc. All rights reserved.
⼀時的なクラスター (Cloud-native) ユースケース
⼀時的なクラスターへの要求
• Cloud-native アプリケーション(前掲)
ユースケース
• ⾮定期的な Batch/BI (<50% Usage)
• 突発的な ETL に対応
• 開発・テスト環境の複製(稼働率によって⻑
期的なクラスターへの移⾏も)
18© Cloudera, Inc. All rights reserved.
アーキテクチャー・パターン (1)
HDFS S3
Persistent Transient
#2 Persistent
Batch
(最もコントロー
ルしやすい)
Cloud デプロイ・パターン
ストレージオプション
クラスターライフサイクル
デフォルト
#3 Persistent
Batch on HDFS
(最も速い)
#1 Transient Batch
(最も柔軟)
19© Cloudera, Inc. All rights reserved.
アーキテクチャー・パターン (2)
Native Support
20© Cloudera, Inc. All rights reserved.
ハイブリッド・ストレージオプション (HDFS + S3)
• S3 をバックアップとして都度 HDFS にコピーする Hybrid 型(下図)
• 中間データは HDFS に書き、最終結果を S3 に格納する Hybrid 型
S3
Run jobStart Cluster Stop Cluster
Copy to HDFSStart Cluster Run Job Copy to S3 Stop Cluster
HDFS
Time
S3 Only
Hybrid
21© Cloudera, Inc. All rights reserved.
Cloudera Director
22© Cloudera, Inc. All rights reserved.
Overview (1)
オンデマンドのクラスター
起動・拡張・縮⼩・終了
● Cloudera Manager との連携
● 既存クラスターへ新規ノードの
追加や削除が可能
● 外部の DB や RDS をサポート
● Transient クラスター⽤の従量
課⾦モデル
23© Cloudera, Inc. All rights reserved.
Overview (2)
マルチクラウドのサポート
● AWS, Azure, GCP
● ハイブリッド
● OSS SPI で独⾃のプラグイン
24© Cloudera, Inc. All rights reserved.
Overview (3)
プログラム化・反復可能
● クラスターを反復可能な設定
ファイルベースで定義
● 様々なベストプラクティスが存
在 (director-scripts)
● クラスターの⽴ち上げ時や
シャットダウン時にカスタムの
スクリプトを流すことが可能
25© Cloudera, Inc. All rights reserved.
Overview (4)
Long-Running クラスター
● CDH & CM のアップグレード
● クラスターのトポロジー変更や
再構成
● != 24 hrs クラスター
26© Cloudera, Inc. All rights reserved.
Overview (5)
セキュリティー
● Cloudera Director DB の⾃動暗
号化
● CM & CDH の Kerberos 認証サ
ポート
● Cloudera Navigator のデプロイ
サポート(監査・リネージ)
27© Cloudera, Inc. All rights reserved.
Overview (6)
強⼒な Web UI
● マルチクラウドにまたがったク
ラスターと CM の⼀元管理
● クラスターのオペレーション全
般(作成・拡張・縮⼩・終了)
28© Cloudera, Inc. All rights reserved.
Overview (7)
安定したライフサイクル
● ワーカーノードの Auto-Repair
● クラスターのライフサイクル全
般においてインスタンスロス
(Spot, Preemptible) に対する安
定した対応
● S3Guard
29© Cloudera, Inc. All rights reserved.
クラスターのライフサイクル管理
Cloudera
Director
AWS
Azure
GCP
Plugins
CM
CM
CM
CM
BU1 – VPC1
BU2 – VPC2
BU3
BU4
CDH Cluster 1
CDH Cluster 2
CDH Cluster
CDH Cluster
CDH Cluster
30© Cloudera, Inc. All rights reserved.
Azure
Director Architecture with Java SPI (plugins)
Web UI
API console
SDKs
Director ServerAPI SPI CM-2CDH5
CDH5
AWS
GCP
Director Client.conf file
local state
bootstrap
SPI
CM-1CDH5
CDH5
bootstrap-remote
terminate-remote
import
31© Cloudera, Inc. All rights reserved.
Let’s get started with cloudera-boot
まずはサクッと試してみたい⽅に
● https://github.com/tsuyo/cloudera-boot/
32© Cloudera, Inc. All rights reserved.
Cloudera Altus
33© Cloudera, Inc. All rights reserved.
ユーザーがフォーカスしたいのは
クラスター管理ではなくジョブ
ログを失うとクラスター起動の失
敗や実⾏時のパフォーマンス問題
への対処が不可能
独⾃のストレージ・ファイル構造
がインフラのロックインを引き起
こす
運⽤の負荷 アプリのトラブルシューティング サイロなサービス・ロックイン
クラウドでビッグデータを扱う際の課題
34© Cloudera, Inc. All rights reserved.
● Cloudera PaaS のブラン
ド名
● サービスを構築するため
のフレームワークの基礎
要素(右図)
● サービスの第⼀弾が
Altus for Data Engineering
Analytic
DBMS
Operational
DBMS
Data
Engineering
Altus Platform Services
Altus PaaS Foundation
= 現在 = 計画中
Cloudera Altus はビッグデータ分析⽤の PaaS
35© Cloudera, Inc. All rights reserved.
Data Engineering のための Cloudera Altus
AWS 上での ETL・機械学習・
データ処理⽤の PaaS
● MR2, Hive, Spark, Hive-on-Spark
のサポート
● Job ファースト
● 迅速かつ容易なワークロードト
ラブルシューティング・分析
● Cloudera プラットフォーム・
パートナーテクノロジーとの運
⽤互換性
36© Cloudera, Inc. All rights reserved.
Altus でユーザーが解放されること
ソフトウェアのインストール
ハードウェアのインストール
クラスターの構成
クラスターのアップグレード・再構成
OS のアップグレード・パッチ適⽤
リソース管理
37© Cloudera, Inc. All rights reserved.
ジョブを中⼼にエンドユーザーに焦点を
ワークロードトラブルシュー
ティング・分析
● クラスター終了後のログ・構成
を⽤いたジョブのトラブル
シューティング
● ジョブ失敗の直接的原因の表⽰
● 遅いジョブの特定及び根本原因
の分析
38© Cloudera, Inc. All rights reserved.
Altus サービスアーキテクチャー
39© Cloudera, Inc. All rights reserved.
ジョブのリアルタイム監視
via Cloudera Manager
40© Cloudera, Inc. All rights reserved.
Altus UI から終了したジョブの確認
過去に実⾏された
ジョブの⼀覧を表⽰
特定のクラスタで
実⾏されたジョブ
の⼀覧を表⽰
41© Cloudera, Inc. All rights reserved.
Workload Analytics
42© Cloudera, Inc. All rights reserved.
What is ‘Workload Analytics’ (WA) ?
• パブリッククラウドサービス上の Cloudera 管理のマネージドサービス
• オプトイン形式(デフォルトではオフ)、利⽤に際してコストは発⽣しない
• Altus クラスターから分析に必要な情報を収集
• 失敗・遅いワークロードに対してのトラブルシューティング及びパフォーマン
ス管理を提供
• ⼀時的なクラスターをシャットダウンした後にも利⽤可能
• 特に繰り返し実⾏されるワークロードに関して最適化されている
43© Cloudera, Inc. All rights reserved.
WA がない場合
44© Cloudera, Inc. All rights reserved.
ジョブ終了時、Telemetry Publisher が最新のワークロード情報を Altus に送信
• YARN アプリケーションログ(AM、task/executor logs)
• メトリック
• MR-based: .jhist files
• Spark : event logs
• Oozie workflow (XML)
• Job 構成情報など
• Hive post-execution hook info(クエリレベルの情報を取得可能)
収集されるデータ
45© Cloudera, Inc. All rights reserved.
ヘルスチェック(致命的エラー)
46© Cloudera, Inc. All rights reserved.
• パフォーマンスの問題を特定
• ステージレベルでボトルネックを特定
ヘルスチェック(データの偏り)
2シグマ (σ) 外であれば
Outlier(外れ値)として表⽰
47© Cloudera, Inc. All rights reserved.
• Hadoop history server (SHS/JHS) 同等機能
• クラスター停⽌後もデータを利⽤可能
• Spark と MR で統⼀のインタフェース
ログ・メトリック・構成
48© Cloudera, Inc. All rights reserved.
• 同じ名前のジョブをトラック
• 異常値(± 2σ)の検知
ジョブのトレンドと異常検知
49© Cloudera, Inc. All rights reserved.
まとめ
50© Cloudera, Inc. All rights reserved.
まとめ: Why Cloudera in the Cloud?
- アプリケーションのポータビ
リティを保持
- 単に複数の環境を使うことで
はない
- ベンダーロックインを避ける
- 特に⼀時的・⻑期的なユース
ケース両⽅に対応していること
が重要(詳細は後述)
- 統合的な管理性
- 可⽤性
- セキュリティ
- データガバナンス
など商⽤環境に求められる要件
を保持したままリスクを低減
ハイブリッド・マルチクラウド 様々なユースケース 商⽤利⽤可能
51© Cloudera, Inc. All rights reserved.
まとめ: Altus
低コスト
• ノードごとの時間課⾦
• Spot インスタンスとセルフヒーリング対応
エンドユーザーに焦点
• クラスター管理をユーザーから解放
• エンドユーザーがセルフサービスで利⽤可能
• Workload
統合プラットフォーム
• オンプレ・クラウドで同⼀の Cloudera プラット
フォーム
セキュア
• AWS セキュリティとの統合
• Cloudera は顧客データに⼀切アクセス不可能
• 複数 AWS アカウントのサポート
52© Cloudera, Inc. All rights reserved.
最後に: Pets “&” Cattle
Cloudera はお客様のワークロー
ドが最も価値のある場所で実⾏
されることを信じています
53© Cloudera, Inc. All rights reserved.
Thank you!
tsuyo@cloudera.com

More Related Content

What's hot

基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015Cloudera Japan
 
認証/認可が実現する安全で高速分析可能な分析処理基盤
認証/認可が実現する安全で高速分析可能な分析処理基盤認証/認可が実現する安全で高速分析可能な分析処理基盤
認証/認可が実現する安全で高速分析可能な分析処理基盤Masahiro Kiura
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015Cloudera Japan
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Cloudera Japan
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015Cloudera Japan
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DMCloudera Japan
 
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_caHBase活用事例 #hbase_ca
HBase活用事例 #hbase_caCloudera Japan
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介Cloudera Japan
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Cloudera Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計Cloudera Japan
 
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpHBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpCloudera Japan
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015Cloudera Japan
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltCloudera Japan
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpCloudera Japan
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015Cloudera Japan
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014Cloudera Japan
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSCloudera Japan
 

What's hot (20)

基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015
 
認証/認可が実現する安全で高速分析可能な分析処理基盤
認証/認可が実現する安全で高速分析可能な分析処理基盤認証/認可が実現する安全で高速分析可能な分析処理基盤
認証/認可が実現する安全で高速分析可能な分析処理基盤
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_caHBase活用事例 #hbase_ca
HBase活用事例 #hbase_ca
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
 
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpHBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejp
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
 

Similar to Cloudera in the Cloud #CWT2017

Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Cloudera Japan
 
M20_Azure SQL Database 最新アップデートをまとめてキャッチアップ [Microsoft Japan Digital Days]
M20_Azure SQL Database 最新アップデートをまとめてキャッチアップ [Microsoft Japan Digital Days]M20_Azure SQL Database 最新アップデートをまとめてキャッチアップ [Microsoft Japan Digital Days]
M20_Azure SQL Database 最新アップデートをまとめてキャッチアップ [Microsoft Japan Digital Days]日本マイクロソフト株式会社
 
Managed Instance チートシート
Managed Instance チートシートManaged Instance チートシート
Managed Instance チートシートMasayuki Ozawa
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltCloudera Japan
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006Cloudera Japan
 
20130714 July Tech Festa 日本CloudStackユーザー会
20130714 July Tech Festa 日本CloudStackユーザー会20130714 July Tech Festa 日本CloudStackユーザー会
20130714 July Tech Festa 日本CloudStackユーザー会samemoon
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015Cloudera Japan
 
Azure IaaS update (2018年6月~8月 発表版)
Azure IaaS update (2018年6月~8月 発表版) Azure IaaS update (2018年6月~8月 発表版)
Azure IaaS update (2018年6月~8月 発表版) Takamasa Maejima
 
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう! Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう! Yoichi Kawasaki
 
Web App for Containers + MySQLでコンテナ対応したRailsアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したRailsアプリを作ろう!Web App for Containers + MySQLでコンテナ対応したRailsアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したRailsアプリを作ろう!Yoichi Kawasaki
 
【RDS】Cloud SQL をまとめてみる
【RDS】Cloud SQL をまとめてみる【RDS】Cloud SQL をまとめてみる
【RDS】Cloud SQL をまとめてみるYuya Ohara
 
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)オラクルエンジニア通信
 
サポート エンジニアが語る、Microsoft Azure を支えるインフラの秘密
サポート エンジニアが語る、Microsoft Azure を支えるインフラの秘密サポート エンジニアが語る、Microsoft Azure を支えるインフラの秘密
サポート エンジニアが語る、Microsoft Azure を支えるインフラの秘密ShuheiUda
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例terurou
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」オラクルエンジニア通信
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeHideo Takagi
 
Open stack reference architecture v1 2
Open stack reference architecture v1 2Open stack reference architecture v1 2
Open stack reference architecture v1 2Dell TechCenter Japan
 

Similar to Cloudera in the Cloud #CWT2017 (20)

Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015
 
M20_Azure SQL Database 最新アップデートをまとめてキャッチアップ [Microsoft Japan Digital Days]
M20_Azure SQL Database 最新アップデートをまとめてキャッチアップ [Microsoft Japan Digital Days]M20_Azure SQL Database 最新アップデートをまとめてキャッチアップ [Microsoft Japan Digital Days]
M20_Azure SQL Database 最新アップデートをまとめてキャッチアップ [Microsoft Japan Digital Days]
 
Serverless analytics on aws
Serverless analytics on awsServerless analytics on aws
Serverless analytics on aws
 
Managed Instance チートシート
Managed Instance チートシートManaged Instance チートシート
Managed Instance チートシート
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakaltImpala概要 道玄坂LT祭り 20150312 #dogenzakalt
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
20130714 July Tech Festa 日本CloudStackユーザー会
20130714 July Tech Festa 日本CloudStackユーザー会20130714 July Tech Festa 日本CloudStackユーザー会
20130714 July Tech Festa 日本CloudStackユーザー会
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015基礎から学ぶ超並列SQLエンジンImpala #cwt2015
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
 
Azure IaaS update (2018年6月~8月 発表版)
Azure IaaS update (2018年6月~8月 発表版) Azure IaaS update (2018年6月~8月 発表版)
Azure IaaS update (2018年6月~8月 発表版)
 
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう! Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したPHPアプリを作ろう!
 
Web App for Containers + MySQLでコンテナ対応したRailsアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したRailsアプリを作ろう!Web App for Containers + MySQLでコンテナ対応したRailsアプリを作ろう!
Web App for Containers + MySQLでコンテナ対応したRailsアプリを作ろう!
 
【RDS】Cloud SQL をまとめてみる
【RDS】Cloud SQL をまとめてみる【RDS】Cloud SQL をまとめてみる
【RDS】Cloud SQL をまとめてみる
 
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
 
サポート エンジニアが語る、Microsoft Azure を支えるインフラの秘密
サポート エンジニアが語る、Microsoft Azure を支えるインフラの秘密サポート エンジニアが語る、Microsoft Azure を支えるインフラの秘密
サポート エンジニアが語る、Microsoft Azure を支えるインフラの秘密
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
 
[Japan Tech summit 2017] DAL 003
[Japan Tech summit 2017] DAL 003[Japan Tech summit 2017] DAL 003
[Japan Tech summit 2017] DAL 003
 
Open stack reference architecture v1 2
Open stack reference architecture v1 2Open stack reference architecture v1 2
Open stack reference architecture v1 2
 

More from Cloudera Japan

HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とはCloudera Japan
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera Japan
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelCloudera Japan
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017Cloudera Japan
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechCloudera Japan
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera Japan
 
基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015Cloudera Japan
 

More from Cloudera Japan (8)

HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 
基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015
 

Cloudera in the Cloud #CWT2017

  • 1. 1© Cloudera, Inc. All rights reserved. Cloudera in the Cloud Tsuyoshi Miyake | Sr. Systems Engineer | Cloudera
  • 2. 2© Cloudera, Inc. All rights reserved. ⾃⼰紹介 三宅 剛史(みやけ つよし / Tsuyoshi Miyake) Sr. Systems Engineer & SE Specialization - Cloud Career: Sun, GS, Pivotal, AWS etc. @tsuyokb | tsuyo@cloudera.com | github.com/tsuyo
  • 3. 3© Cloudera, Inc. All rights reserved. アジェンダ • なぜデータ分析をクラウドでやるのか? • Why Cloudera in the Cloud? • デプロイパターンとストレージオプション • Cloudera Director • Cloudera Altus • Workload Analytics • まとめ
  • 4. 4© Cloudera, Inc. All rights reserved. なぜデータ分析をクラウドでやるのか?
  • 5. 5© Cloudera, Inc. All rights reserved. ⼤規模データが⽣ 成・保存されアプ リケーションがデ プロイされる場所 である
  • 6. 6© Cloudera, Inc. All rights reserved. いつでも使えて 「伸縮可能」 「従量課⾦」
  • 7. 7© Cloudera, Inc. All rights reserved. データがどこからで もアクセスできる
  • 8. 8© Cloudera, Inc. All rights reserved. Why Cloudera in the Cloud?
  • 9. 9© Cloudera, Inc. All rights reserved. ハイブリッド・マルチクラウドに対応 アプリケーションがどんな環境でも透過的に動くことが必須
  • 10. 10© Cloudera, Inc. All rights reserved. 様々なユースケースに対応 Modern data processing (ETL) at scale Data Engineering Explore, analyze, and understand all your data Analytic DB Data-driven applications to deliver real-time insights Operational DB Multi-Storage, Multi-Environment Exploratory data science and machine learning Data Science 特に⼀時的・⻑期的なクラスターの使い分けは必須
  • 11. 11© Cloudera, Inc. All rights reserved. 商⽤利⽤可能な環境 OPERATIONS DATA+MANAGEMENT UNIFIED+SERVICES PROCESS,+ANALYZE,+SERVE STORE INTEGRATE Impala Navigator Navigator Optimizer Hive-on- Spark Hue BI Partners
  • 12. 12© Cloudera, Inc. All rights reserved. デプロイパターンと ストレージオプション
  • 13. 13© Cloudera, Inc. All rights reserved. ⼀時的なクラスター (Cloud-native) デプロイモデルの選択 Object Store ⻑時間稼働のクラスター (Lift and Shift)
  • 14. 14© Cloudera, Inc. All rights reserved. Pets vs. Cattle
  • 15. 15© Cloudera, Inc. All rights reserved. ⻑時間クラスター (Lift-and-shift) ユースケース ⻑時間クラスターへの要求 • ⾼可⽤性とディザスタリカバリ • 運⽤管理(リソース管理・パッチ・ローリングアップグレード) • セキュリティ • クラスターの動的な伸縮 ユースケース • HBase/Kudu/Kafka clusters • Persistent Batch/BI (>50-60% Usage) • Large, multi-user clusters
  • 16. 16© Cloudera, Inc. All rights reserved. Cloud-native アプリケーションパターン クラスタの短期利⽤、 コスト削減 リソース競合を回避、 ワークロードの最適化 Object Store ストレージと計算の分離 ストレージ 計算
  • 17. 17© Cloudera, Inc. All rights reserved. ⼀時的なクラスター (Cloud-native) ユースケース ⼀時的なクラスターへの要求 • Cloud-native アプリケーション(前掲) ユースケース • ⾮定期的な Batch/BI (<50% Usage) • 突発的な ETL に対応 • 開発・テスト環境の複製(稼働率によって⻑ 期的なクラスターへの移⾏も)
  • 18. 18© Cloudera, Inc. All rights reserved. アーキテクチャー・パターン (1) HDFS S3 Persistent Transient #2 Persistent Batch (最もコントロー ルしやすい) Cloud デプロイ・パターン ストレージオプション クラスターライフサイクル デフォルト #3 Persistent Batch on HDFS (最も速い) #1 Transient Batch (最も柔軟)
  • 19. 19© Cloudera, Inc. All rights reserved. アーキテクチャー・パターン (2) Native Support
  • 20. 20© Cloudera, Inc. All rights reserved. ハイブリッド・ストレージオプション (HDFS + S3) • S3 をバックアップとして都度 HDFS にコピーする Hybrid 型(下図) • 中間データは HDFS に書き、最終結果を S3 に格納する Hybrid 型 S3 Run jobStart Cluster Stop Cluster Copy to HDFSStart Cluster Run Job Copy to S3 Stop Cluster HDFS Time S3 Only Hybrid
  • 21. 21© Cloudera, Inc. All rights reserved. Cloudera Director
  • 22. 22© Cloudera, Inc. All rights reserved. Overview (1) オンデマンドのクラスター 起動・拡張・縮⼩・終了 ● Cloudera Manager との連携 ● 既存クラスターへ新規ノードの 追加や削除が可能 ● 外部の DB や RDS をサポート ● Transient クラスター⽤の従量 課⾦モデル
  • 23. 23© Cloudera, Inc. All rights reserved. Overview (2) マルチクラウドのサポート ● AWS, Azure, GCP ● ハイブリッド ● OSS SPI で独⾃のプラグイン
  • 24. 24© Cloudera, Inc. All rights reserved. Overview (3) プログラム化・反復可能 ● クラスターを反復可能な設定 ファイルベースで定義 ● 様々なベストプラクティスが存 在 (director-scripts) ● クラスターの⽴ち上げ時や シャットダウン時にカスタムの スクリプトを流すことが可能
  • 25. 25© Cloudera, Inc. All rights reserved. Overview (4) Long-Running クラスター ● CDH & CM のアップグレード ● クラスターのトポロジー変更や 再構成 ● != 24 hrs クラスター
  • 26. 26© Cloudera, Inc. All rights reserved. Overview (5) セキュリティー ● Cloudera Director DB の⾃動暗 号化 ● CM & CDH の Kerberos 認証サ ポート ● Cloudera Navigator のデプロイ サポート(監査・リネージ)
  • 27. 27© Cloudera, Inc. All rights reserved. Overview (6) 強⼒な Web UI ● マルチクラウドにまたがったク ラスターと CM の⼀元管理 ● クラスターのオペレーション全 般(作成・拡張・縮⼩・終了)
  • 28. 28© Cloudera, Inc. All rights reserved. Overview (7) 安定したライフサイクル ● ワーカーノードの Auto-Repair ● クラスターのライフサイクル全 般においてインスタンスロス (Spot, Preemptible) に対する安 定した対応 ● S3Guard
  • 29. 29© Cloudera, Inc. All rights reserved. クラスターのライフサイクル管理 Cloudera Director AWS Azure GCP Plugins CM CM CM CM BU1 – VPC1 BU2 – VPC2 BU3 BU4 CDH Cluster 1 CDH Cluster 2 CDH Cluster CDH Cluster CDH Cluster
  • 30. 30© Cloudera, Inc. All rights reserved. Azure Director Architecture with Java SPI (plugins) Web UI API console SDKs Director ServerAPI SPI CM-2CDH5 CDH5 AWS GCP Director Client.conf file local state bootstrap SPI CM-1CDH5 CDH5 bootstrap-remote terminate-remote import
  • 31. 31© Cloudera, Inc. All rights reserved. Let’s get started with cloudera-boot まずはサクッと試してみたい⽅に ● https://github.com/tsuyo/cloudera-boot/
  • 32. 32© Cloudera, Inc. All rights reserved. Cloudera Altus
  • 33. 33© Cloudera, Inc. All rights reserved. ユーザーがフォーカスしたいのは クラスター管理ではなくジョブ ログを失うとクラスター起動の失 敗や実⾏時のパフォーマンス問題 への対処が不可能 独⾃のストレージ・ファイル構造 がインフラのロックインを引き起 こす 運⽤の負荷 アプリのトラブルシューティング サイロなサービス・ロックイン クラウドでビッグデータを扱う際の課題
  • 34. 34© Cloudera, Inc. All rights reserved. ● Cloudera PaaS のブラン ド名 ● サービスを構築するため のフレームワークの基礎 要素(右図) ● サービスの第⼀弾が Altus for Data Engineering Analytic DBMS Operational DBMS Data Engineering Altus Platform Services Altus PaaS Foundation = 現在 = 計画中 Cloudera Altus はビッグデータ分析⽤の PaaS
  • 35. 35© Cloudera, Inc. All rights reserved. Data Engineering のための Cloudera Altus AWS 上での ETL・機械学習・ データ処理⽤の PaaS ● MR2, Hive, Spark, Hive-on-Spark のサポート ● Job ファースト ● 迅速かつ容易なワークロードト ラブルシューティング・分析 ● Cloudera プラットフォーム・ パートナーテクノロジーとの運 ⽤互換性
  • 36. 36© Cloudera, Inc. All rights reserved. Altus でユーザーが解放されること ソフトウェアのインストール ハードウェアのインストール クラスターの構成 クラスターのアップグレード・再構成 OS のアップグレード・パッチ適⽤ リソース管理
  • 37. 37© Cloudera, Inc. All rights reserved. ジョブを中⼼にエンドユーザーに焦点を ワークロードトラブルシュー ティング・分析 ● クラスター終了後のログ・構成 を⽤いたジョブのトラブル シューティング ● ジョブ失敗の直接的原因の表⽰ ● 遅いジョブの特定及び根本原因 の分析
  • 38. 38© Cloudera, Inc. All rights reserved. Altus サービスアーキテクチャー
  • 39. 39© Cloudera, Inc. All rights reserved. ジョブのリアルタイム監視 via Cloudera Manager
  • 40. 40© Cloudera, Inc. All rights reserved. Altus UI から終了したジョブの確認 過去に実⾏された ジョブの⼀覧を表⽰ 特定のクラスタで 実⾏されたジョブ の⼀覧を表⽰
  • 41. 41© Cloudera, Inc. All rights reserved. Workload Analytics
  • 42. 42© Cloudera, Inc. All rights reserved. What is ‘Workload Analytics’ (WA) ? • パブリッククラウドサービス上の Cloudera 管理のマネージドサービス • オプトイン形式(デフォルトではオフ)、利⽤に際してコストは発⽣しない • Altus クラスターから分析に必要な情報を収集 • 失敗・遅いワークロードに対してのトラブルシューティング及びパフォーマン ス管理を提供 • ⼀時的なクラスターをシャットダウンした後にも利⽤可能 • 特に繰り返し実⾏されるワークロードに関して最適化されている
  • 43. 43© Cloudera, Inc. All rights reserved. WA がない場合
  • 44. 44© Cloudera, Inc. All rights reserved. ジョブ終了時、Telemetry Publisher が最新のワークロード情報を Altus に送信 • YARN アプリケーションログ(AM、task/executor logs) • メトリック • MR-based: .jhist files • Spark : event logs • Oozie workflow (XML) • Job 構成情報など • Hive post-execution hook info(クエリレベルの情報を取得可能) 収集されるデータ
  • 45. 45© Cloudera, Inc. All rights reserved. ヘルスチェック(致命的エラー)
  • 46. 46© Cloudera, Inc. All rights reserved. • パフォーマンスの問題を特定 • ステージレベルでボトルネックを特定 ヘルスチェック(データの偏り) 2シグマ (σ) 外であれば Outlier(外れ値)として表⽰
  • 47. 47© Cloudera, Inc. All rights reserved. • Hadoop history server (SHS/JHS) 同等機能 • クラスター停⽌後もデータを利⽤可能 • Spark と MR で統⼀のインタフェース ログ・メトリック・構成
  • 48. 48© Cloudera, Inc. All rights reserved. • 同じ名前のジョブをトラック • 異常値(± 2σ)の検知 ジョブのトレンドと異常検知
  • 49. 49© Cloudera, Inc. All rights reserved. まとめ
  • 50. 50© Cloudera, Inc. All rights reserved. まとめ: Why Cloudera in the Cloud? - アプリケーションのポータビ リティを保持 - 単に複数の環境を使うことで はない - ベンダーロックインを避ける - 特に⼀時的・⻑期的なユース ケース両⽅に対応していること が重要(詳細は後述) - 統合的な管理性 - 可⽤性 - セキュリティ - データガバナンス など商⽤環境に求められる要件 を保持したままリスクを低減 ハイブリッド・マルチクラウド 様々なユースケース 商⽤利⽤可能
  • 51. 51© Cloudera, Inc. All rights reserved. まとめ: Altus 低コスト • ノードごとの時間課⾦ • Spot インスタンスとセルフヒーリング対応 エンドユーザーに焦点 • クラスター管理をユーザーから解放 • エンドユーザーがセルフサービスで利⽤可能 • Workload 統合プラットフォーム • オンプレ・クラウドで同⼀の Cloudera プラット フォーム セキュア • AWS セキュリティとの統合 • Cloudera は顧客データに⼀切アクセス不可能 • 複数 AWS アカウントのサポート
  • 52. 52© Cloudera, Inc. All rights reserved. 最後に: Pets “&” Cattle Cloudera はお客様のワークロー ドが最も価値のある場所で実⾏ されることを信じています
  • 53. 53© Cloudera, Inc. All rights reserved. Thank you! tsuyo@cloudera.com