More Related Content
Similar to Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017 (20)
More from Cloudera Japan (11)
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
- 1. 1© Cloudera, Inc. All rights reserved.
Cloudera が提供するエンタープライズ向け運
用、データ管理ツールの使い方
Cloudera 株式会社 川崎 達夫
- 2. 2© Cloudera, Inc. All rights reserved.
• 創立 2008年
• 社員数 1600人以上
• 機械学習と分析プラットフォーム
• シェアードデータエクスペリエンス
• クラウドネイティブとクラウドの差別化
• オープンソースの革新性と効率性
- 4. 4© Cloudera, Inc. All rights reserved.
• 独自のプロプラのツールとインフラを必要とする多くのデータサイロ
• オンプレとクラウドで、異なるベンダー、製品、サービス
• 細分化されたアプローチは、難解で、高価で、リスクが高い
データ管理における課題
SQL
分析データ
ベース
NoSQLと
リアルタイム
データベース
データエンジ
ニアリングと
ETL環境
データウェアハ
ウスと
データマート
- 7. 7© Cloudera, Inc. All rights reserved. 7
クラウドに最適化された機械学習と分析向けのモダンプラットフォーム
拡張サービス
CORE SERVICES
DATA
ENGINEERING
OPERATIONAL
DATABASE
ANALYTIC
DATABASE
データカタログ
データ投入 &
レプリケーション
セキュリティ ガバナンス ワークロード管理
DATA
SCIENCE
NEW
OFFERINGS
Cloudera Enterprise
Amazon S3 Microsoft ADLS HDFS KUDU
STORAGE
SERVICES
- 9. 9© Cloudera, Inc. All rights reserved.
容易な管理を実現する
• 各サービスを俯瞰的に見る
• 自動化されたデプロイと設定
• カスタマイズ可能な監視とレポート
マルチテナント管理と可視化
• ダイナミックリソースマネジメントやクラス
タ利用レポート
迅速なトラブルシュート
• ワークロードの監視と診断
• 複数のホストに渡ったログ検索、監査
• 診断データの送付、Clouderaサポートに
よるクラスタの予測サポート
Cloudera Manager
- 10. 10© Cloudera, Inc. All rights reserved.
+
構築・設定 監視 ワークフロー
イベント
アラート
ログ検索 診断 レポート
アクティビティ
監視
Clouderaなしで管理する場合
Clouderaありで管理する場合
Cloudera Managerで全てのプロセスを管理可能
- 16. 16© Cloudera, Inc. All rights reserved.
セキュリティの要素
認証
Authentication
認可
Authorization
暗号化
Encryption
監査
Auditing
- 17. 17© Cloudera, Inc. All rights reserved.
Hadoopクラスターのセキュア化
レベル0
• 一切セキュア化されていないクラスター
レベル1
• 最低限のセキュア化
• 認証 (Kerberos)、認可 (Apache Sentry) 、監査 (Cloudera Navigator)
レベル2
• データセキュリティとデータガバナンス (Cloudera Navigator)
• リネージによる可視化(Cloudera Navigator)、メタデータ (Cloudera Navigator)、暗号化
(Cloudera Navigator Encrypt)と鍵管理 (Cloudera Navigator Key Trustee Server )
レベル3
• 完全にコンプライアンスに準拠した環境
• 例)PCI-DSS
- 18. 18© Cloudera, Inc. All rights reserved.
セキュリティ事例: MasterCard
課題: 個人情報を扱う全てのアプリケーション、データベース、
ファイルシステムは完全なPCI認証の環境下に置かなけれ
ばならない
解決策: MasterCard の Cloudera 環境は PCI-DSS V 2.0 セ
キュリティ標準に完全準拠し、PCIデータセットを保存すること
ができるだけでなく、他の社内システムとも連携できるように
なった
Clouderaは世界初のPCI認証取得Hadoop
プラットフォームです
「データプライバシーと保護はMasterCardにとっ
て最優先課題です。パートナーやベンダーの最
新技術を最大限に活用するためには、我々の定
める厳密なセキュリティ標準を満たさねばなりま
せんでした。Clouderaが同一標準を満たしたこと
により、我々はデータセンターを管理するための
新たな選択肢を手にすることができたのです」
Gary VonderHaar
Chief Technology Officer,
Architecture
MasterCard
- 20. 20© Cloudera, Inc. All rights reserved.
Hadoop の利点
無制限のデータを一ヶ所に
• あらゆるデータ・タイプ
• 多様なデータ・ソース
• より迅速な、より大規模なデータの取り込み
多様なデータアクセス
• より多くのユーザーが
• より多くのツールを用い
• より頻繁に変更を加える
- 21. 21© Cloudera, Inc. All rights reserved.
…はデータ管理を困難にする
コンプライアンス
データの追跡、理解、
アクセスの保護
監査の準備はしているか?
機密データにアクセスしているのは誰か
?
彼らはデータで何をしているか?
機密データは管理、保護されているか?
スチュワードシップ
Hadoopスケールのデータ資産を
管理、および編成
インジェストからパージまでのデータ
のライフサイクルを効率的に管理する
にはどうすれば良いか?
私のすべてのデータを効率的に整理し
て分類するにはどうすれば良いか?
エンドユーザーが効率的にデータを利
用できるようにするにはどうすれば良
いか?
エンドユーザーの生産性
最も重要なデータを簡単に
見つけて信頼する
自分でデータセットを検索するにはどう
すれば良いか?
見つけたデータは信頼できるか?
見つけたデータをどう使うか?
関連するデータセットを見つけて使用す
るにはどうすれば良いか?
管理
ユーザーの生産性とクラスターの
パフォーマンスを高める
データは現在のアクセスパターンをサ
ポートするように最適化されているか?
将来のワークロードのためにどのよう
に最適化できるか?
リスクなくワークロードをHadoopに移
行するにはどうすれば良いか?
Hadoopのガバナンスの基盤
- 22. 22© Cloudera, Inc. All rights reserved.
メタデータ管理こそビッグデータ基盤の急所
• 意味のわからないデータは無価値
• 例:以下のテーブルには何のデータが入っている?
sales_tmp_1_new
• スキーマレスは楽?
• JSONならフィールドを追加するのが簡単!
• しかし、分析する側は非常に大変
• フィールド foo がないレコードは、
• 欠損データなのか
• バージョンが古いため存在していないだけなのか
• 複数のシステムを統合すると、この複雑さはより顕著になる
- 23. 23© Cloudera, Inc. All rights reserved.
Cloudera Navigator
メタデータ管理ツール
• S3を含む、ビッグデータ基盤の全
アクティビティの監査ログの収集、
閲覧
• データの出所がわかるリネージ機
能
• ファイルやテーブル、クエリのメタ
データの管理、検索
• ポリシーによるメタデータの自動付
与
• データライフサイクル管理
- 24. 24© Cloudera, Inc. All rights reserved.
テキスト検索可能なメタデータ
技術メタデータとビジネスメタ
データの管理
• 分析したいデータはどこにあるの
か?
• 3年以上前に作成された、ユーザー
training のファイルはどれか
• 営業部門のデータだけを検索した
い例)「空港*」に一致するファイル、
操作、メタ情報等を検索
- 25. 25© Cloudera, Inc. All rights reserved.
技術メタデータとビジネスメタデータ
ビジネスメタデータ(明示的に付与できる) 技術メタデータ(自動で付与される)
- 26. 26© Cloudera, Inc. All rights reserved.
大規模データのライフサイクルを自動化
データ管理者向け
効率的なライフサクルポリ
シーの管理
• ポリシーエンジンによるデータ管理
とキュレーションの自動化
• バックアップ&ディザスタリカバリ機
能によるビジネスの継続
• パートナーツールとの統合
例)7年以上前のファイルをアー
カイブするポリシーを作成し、手
動、自動で適用する
- 27. 27© Cloudera, Inc. All rights reserved.
データの探索と分析
ビジネスユーザー・データサイエンティスト向け
最も関連のある、信頼ある
データを容易に探し出す
• 統一されたメタデータリポジトリから
探索
• コンテキストと可視性をデータセット
に付与
• 類似した関連データを簡単に見つ
ける
自動、または明示的にビジネスメタ情報を
付与しておき、検索できる
- 28. 28© Cloudera, Inc. All rights reserved.
コンプライアンス・レディなガバナンスと防御
コンプライアンス担当者向け
機密データへのアクセスを
追跡、防御
• 全エコシステムの監査情報の検索
• 直感的なリネージによりデータがど
のように使われ変更されたかを調査
• 高性能な暗号化と鍵管理による
データの保護
• パートナーツールと統合例)training ユーザーの
2016/11/12-2017/11/12の
監査情報を検索
- 29. 29© Cloudera, Inc. All rights reserved.
Demo (1)
Sqoopでmovieratingテーブルをインポートした時のリネージ
1) Sqoop (MapReduce) ジョブが実行され、
2) mysqlのmovieratingテーブルからデータを取り込み
3) HDFSの/user/hive/warehouse/movieratingに格納され
4) movieratingテーブルが作成された
- 32. 32© Cloudera, Inc. All rights reserved.
Demo (4)
Demo(3) で追加したビジネスメタデータを検索
ビジネスメタデータ、DepartmentがSalesのデータを検索
- 33. 33© Cloudera, Inc. All rights reserved.
これらの領域が今日のデータ
ガバナンスでの大きな課題
現在のビッグデータガバナンスの状態
混沌: 「データハブに
何があるのかわから
ない」
基本コンプライアンス
:
生ガバナンスデータ
をキャプチャ
セルフサービスのた
めのビジネスメタデー
タ:
データのキュレーショ
ンの自動化
情報ライフサイクル
の自動化:
データスチュワード
シップとライフサイク
ルの自動化
継続的改善:
継続的な最適化
1
2
3
4
5
初期
コンプライアンス
探索とコラボレー
ション
データスチュワー
ドシップ
最適化とリファク
タリング
- 35. 35© Cloudera, Inc. All rights reserved.
• 独自のプロプラのツールとインフラを必要とする多くのデータサイロ
• オンプレとクラウドで、異なるベンダー、製品、サービス
• 細分化されたアプローチは、難解で、高価で、リスクが高い
データ管理における課題
SQL
分析データ
ベース
NoSQLと
リアルタイム
データベース
データエンジ
ニアリングと
ETL環境
データウェアハ
ウスと
データマート
- 36. 36© Cloudera, Inc. All rights reserved.
従来のアプリケーション
36
• 1種類のデータ
• 1つの分析機能
• 統合が困難
Data
Exploration
STORAGE
SECURITY
GOVERNANCE
WORKLOAD MGMT
INGEST &
REPLICATION
DATA CATALOG
SQL & BI
Analytics
STORAGE
SECURITY
GOVERNANCE
WORKLOAD MGMT
INGEST & REPLICATION
DATA CATALOG
Operational
Real-Time DB
STORAGE
SECURITY
GOVERNANCE
WORKLOAD MGMT
INGEST & REPLICATION
DATA CATALOG
ETL & Data
Processing
STORAGE
SECURITY
GOVERNANCE
WORKLOAD MGMT
INGEST &
REPLICATION
DATA CATALOG
Custom
Functions
STORAGE
SECURITY
GOVERNANCE
WORKLOAD MGMT
INGEST & REPLICATION
DATA CATALOG
- 37. 37© Cloudera, Inc. All rights reserved.
多機能分析の
サポート
ワークロード追加
時間の最小化
エラスティックな
ワークロードに対
応
セルフサービスの
有効化
データを共有する
ためのスケーラブ
ルなモデルを提
供
コスト削減 テナントの分離を
増やす
セキュアな環境
現在のデータ管理チームに重要な設計目標
- 38. 38© Cloudera, Inc. All rights reserved.
共有ストレージ (HDFS, Kudu)
従来のオンプレミスのデプロイメントには良好
シェアードデータエクスペリエンス (Metadata, Security, Governance)
一つの物理クラスタが、複数のワークロード/テナントに
シェアードデータエクスペリエンスを提供する
… しかし、今後は十分ではない
強: マルチファンクション対応
強: シェアードデータエクスペリエンス
強: 情報セキュリティモデル
中: コスト管理
中: テナントの分離
中: ワークロードの弾力性
弱: セルフサービス
弱: デプロイにかかる時間
- 39. 39© Cloudera, Inc. All rights reserved.
従来のクラウドへのデプロイは、オンプレミスが弱いところでは強力
だが、ワークロードのサイロが生じるという対価を払う
… しかし、今後は十分ではない
共有オブジェクトストレージ
Cloud
中: マルチファンクション対応
弱: シェアードデータエクスペリエンス
弱: 情報セキュリティモデル
中: コスト管理
強: テナントの分離
強: ワークロードの弾力性
強: セルフサービス
強: デプロイにかかる時間
- 40. 40© Cloudera, Inc. All rights reserved.
現在: 単一プラットフォーム、複数ワークロード
DATA ENGINEERING OPERATIONAL
DATABASE
ANALYTIC DATABASE DATA
SCIENCE
無制限のデータを、迅速か
つコスト効率よく
保存して処理する
「プログラムによる
データ処理と機械学習」
すべてのデータを
探索、分析して
理解する
「高速かつ柔軟な、
オープンソースの
並列データベース」
データドリブンなアプリケー
ションを構築し、リアルタイム
の洞察を提供する
「オンラインアプリケーション、
Lambda/Kappa アーキテク
チャー」
- 41. 41© Cloudera, Inc. All rights reserved.
ワークロードとは?
データ + データのコンテキスト + 計算
データのコンテキスト:
• HMS: スキーマ定義
• Sentry: セキュリティ(認可)
• Navigator: 監査ログ
• Navigator: ビジネスグロッサリー
• Navigator: ビジネスメタデータ
• Navigator: リネージ
- 42. 42© Cloudera, Inc. All rights reserved.
複数のワークロードの場合は?
Cluster
Hive/HMS
Sentry
NavigatorSpark
Keys
HDFS, Kudu, S3, Private Cloud Storage
- 43. 43© Cloudera, Inc. All rights reserved.
複数のワークロードにおけるデータのコンテキスト
従来のHadoopクラスター
計算、データ、データの
コンテキストを含む
一時的なHadoopクラスター
計算、データのコンテキストを
含むがデータは外部化される
HDFS, Kudu, S3, Private Cloud Storage
データと一緒で
はなく、データ
のコンテキスト
が各クラスター
に格納されてい
るのはなぜか?
?
- 44. 44© Cloudera, Inc. All rights reserved.
データのコンテキストの一貫性の問題
計算とデータはさらに分離されつつある
• 計算はステートレス: クラウドベース/オンプレミス、一時的/長期間実行かのいずれか
• データはステートフル: クラウドベース、またはオンプレのHDFS, Kudu, S3, ADLS, Isilon な
ど
データのコンテキストは?
• スキーマ定義 (Hive Metastore)
• 権限 (Apache Sentry)
• 暗号鍵 (KMS)
• ガバナンス (Cloudera Navigator)
データのコンテキストはステートフルであるべきだが現在はステートレス
• これにより、管理者とエンドユーザーの両方で同期とユーザビリティの課題が生じる
- 45. 45© Cloudera, Inc. All rights reserved.
ソリューション: シェアードデータエクスペリエンス
データコンテキストサービスを共有サービス
として外部化する
DATA
ENGINEERING
OPERATIONAL
DATABASE
ANALYTIC
DATABASE
DATA
SCIENCE
利点
• すべてのワークロードにわたる共通スキーマ、アクセス
権限、分類、およびガバナンス
• 所有コストの削減: 管理するハードウェア、ソフトウェアを削
減
• エンドユーザーの生産性向上: データは全クラスターで一貫
して表現される
• より早い拡張: 管理者は新しいクラスターごとにデータコンテ
キストサービスを作り直す必要がない
KEYSHMS SENTRY NAVIGATOR KEYSHMS SENTRY NAVIGATOR
HDFS, Kudu, S3, Private Cloud StorageHDFS, Kudu, S3, Private Cloud Storage
- 46. 46© Cloudera, Inc. All rights reserved. 46
クラウドに最適化された機械学習と分析向けのモダンプラットフォーム
拡張サービス
CORE SERVICES
DATA
ENGINEERING
OPERATIONAL
DATABASE
ANALYTIC
DATABASE
データカタログ
データ投入 &
レプリケーション
セキュリティ ガバナンス ワークロード管理
DATA
SCIENCE
NEW
OFFERINGS
Cloudera Enterprise
Amazon S3 Microsoft ADLS HDFS KUDU
STORAGE
SERVICES
- 47. 47© Cloudera, Inc. All rights reserved.
2つのデプロイオプション
Cloudera SDX
Cloudera SDX: Customer-managed
• RDSを使用するHive Metastore
• RDSを使用するApache Sentry
• お客様が管理しているCloudera Navigator
次のような場合に理想的:
• Directorで立ち上げたワークロード
• CMが管理しているワークロード
Cloudera Altus SDX: Cloudera-
managed
• サーバーレスHive Metastore
• サーバーレスApache Sentry
• サーバーレスCloudera Navigator
次のような場合に理想的:
• Altus SDX ワークロード
• ハイブリッドワークロード
- 48. 48© Cloudera, Inc. All rights reserved.
SDXでのクラウドへのデプロイは全ての設計目標を最適化する
シェアードデータエクスペリエンス (Metadata, Security, Governance)
一つの論理クラスターが、複数のワークロードとテナントにシェ
アードデータエクスペリエンスを提供する
SDXはオンプレの設計の強みをクラウドに移行できるようにする
共有オブジェクトストレージCloud
強: マルチファンクション対応
強: シェアードデータエクスペリエンス
強: 情報セキュリティモデル
強: コスト管理
強: テナントの分離
強: ワークロードの弾力性
強: セルフサービス
強: デプロイにかかる時間