More Related Content
Similar to データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」 (20)
データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」
- 1. 1© Copyright 2016 Pivotal. All rights reserved. 1© Copyright 2016 Pivotal. All rights reserved.
データ活用を推進する
「Pivotal HDB(Apache HAWQ(ホーク))」
2016年12月14日
Pivotalジャパン株式会社
技術統括部
松下 正之
- SQL on Hadoop の決定版、Pivotal HDB2.0技術解説 -
- 2. 2© Copyright 2016 Pivotal. All rights reserved.
Pivotalの提供するサイクルモデル
データ活用成功のためのサイクルモデル
- 3. 3© Copyright 2016 Pivotal. All rights reserved.
Pivotalの主要製品ポートフォリオ
クラウド
アジャイル
Pivotal Cloud Foundry
PaaS基盤 (オープンソース・商用版)
Pivotal Labs
アジャイル開発&データサイエンス
オープンソース
Spring, Rabbit MQ, Redis等
Pivotal
Greenplum
並列処理DB
Pivotal GemFire
インメモリ
データストア
ビッグデータ
Pivotal HDB
Hadoop及びNative SQLエンジン
クラウドサービス=新たなハードウェア
- 5. 5© Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB or Apache HAWQ ?
Ÿ これまで商用版として提供していた、Pivotal HAWQを昨年OSS化
Ÿ それに伴い名称変更
– 商用版: Pivotal HDB OSS版: Apache HAWQ
- 6. 6© Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB 概要
• Pivotal HDB
– オープンソースのApache HAWQの商用版
– HAWQ: HAdoop With Query、読み方: ホーク
– 参考URL: http://hawq.incubator.apache.org/
– Pivotal HDB 2.1(最新)の主要機能
– 性能:HDFSに対する標準SQLによる高速クエリ処理
– 連携:Hive、Hbase、Avro、等 Hadoopデータとの連携
– エンタープライズストレージ対応
– EMC Isilonとの連携
– Pivotalのデータレーク・アーキテクチャの分析エンジンの要
- 7. 7© Copyright 2016 Pivotal. All rights reserved.
SQL on Hadoop “HDB(HAWQ)”
Ÿ HDFS上の高速データベースエンジン
– ビッグデータに対する高速クエリ処理
– 標準SQL準拠
– データ・ローカリティ/ショート・サーキット・
リード機能
– 統計解析関数 MADlib に対応
▪ http://madlib.incubator.apache.org/
Ÿ HDB 2.x - 主なハイライト -
– Elastic Query Execution Runtime機能
– Ambariによる統合管理
– YARN対応
– HCatalog対応
HDFS
PigMapReduce
Hadoop
- 8. 8© Copyright 2016 Pivotal. All rights reserved.
Pivotal HDP/HDBのコンポーネント
Apache
Pivotal追加機能
セキュリティ
プロビジョ
ニング
管理
監視
Ranger
Knox
Atlas
HDFS
encrypt
ion
スケジュー
リング
Oozie
Ambari
Cloudbr
eak
Zookee
per
データ
ライフサイクル
&
ガバナンス
Atlas
Falcon
データ
ワークフロー
WebHDFS
NFS
Kafka
Flume
Sqoop
Xtension
フレームワーク
カタログ
サービス
クエリオプティマイザ
ANSI SQL + アナリティクス
Pivotal HDB
MADlib アルゴリズム
ダイナミックパイプライニング
Map
Reduce
Solr
Spark
Pig
Tez
Hive
Tez
Storm
Slider
Slider
Hbase
Accumulo
Phoenix
HDB
ツール
Ambari
User
Views
Zeppelin
Hadoop分散ファイルシステム
HDFS
YARN
データアクセス
Pivotal HDP
- 9. 9© Copyright 2016 Pivotal. All rights reserved.
Hadoop処理をより高速に
OS
HDFS
MapReduce
OS
GPDB
データ
処理層
データ
IO層
OS
HDFS
HDB
• Cプロセスによる低
いオーバヘッド
• 中間データのオン
メモリ処理
• Javaプロセスによる
高いオーバヘッド
• 中間データのオンディ
スク処理
HDFSレイヤーにIO処理
時のオーバヘッド
• Cプロセスによる低
いオーバヘッド
• 中間データのオン
メモリ処理
- 10. 10© Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB2.x系性能検証 (業界標準指標TPC-DSを使用)
Ÿ TPC-DS Performance Review
– 比較: Pivotal HDB2.0 vs. Cloudera Impala 2.5
Ÿ 別資料で説明致します
– Pivotal HDBの導入を検討されている方で、本内容にご興味のある方は、
私(松下)もしくはPivotal社員まで別途お問い合せ下さい
- 11. 11© Copyright 2016 Pivotal. All rights reserved.
Pivotal eXtension Framework(PXF)
Ÿ HDB(HAWQ)から外部データに対して、
クエリアクセスを可能にする拡張フレー
ムワーク
Ÿ HDFS上のファイル、Hiveテーブル、
Hbaseテーブルのデータなどにアクセ
スするためのビルトイン・コネクタ
– HDFS/Hive/HBase/AVRO
Ÿ 拡張フレームワークによる、連携対象
データの追加も可能
– ユーザは他のデータストアにアクセスするた
めのオリジナル・コネクタ(Java)を作成するこ
とも可能
HDFS HBase Hive
Xtension Framework
- 12. 12© Copyright 2016 Pivotal. All rights reserved.
HDB(HAWQ)高度分析機能の標準実装
Ÿ パラレル処理による高い性能
Ÿ SQLインタフェイス
Ÿ 分析関数 MADLib の標準実装
– 線形回帰
– ロジスティック回帰
– 多重ロジスティック回帰
– K平均
– アソシエーションルール
– PLDA
– …
- 13. 13© Copyright 2016 Pivotal. All rights reserved.
高度分析機能MADlibの標準実装
予測的モデリングライブラリ
線形システム解析
• 疎行列ソルバー
• 密行列ソルバー
行列因子分解
• 特異値分解 (SVD)
• 低ランク近似
一般化線形モデル
• 線形回帰
• ロジスティック回帰
• 多項ロジスティック回帰
• コックス比例ハザード
• 回帰分析
• エラスティックネット型正規化
• サンドイッチ推定
機械学習アルゴリズム
• 主成分分析(PCA)
• アソシエーションルール分析 (アフィニティ分
析,マーケットバスケット分析)
• トピックモデリング (パラレルLDA)
• 決定木
• アンサンブル学習(ランダムフォレスト)
• サポートベクターマシン
• コンディショナルランダムフィールズ(CRF)
• クラスタリング (K平均法)
• クロスバリデーション
記述統計
スケッチベース推定
• CountMinスケッチ
• Flajolet-Martinスケッチ
• 最頻値スケッチ
相関関係
統計値サマリ
サポートモジュール
配列演算
疎ベクトル
ランダムサンプリング
確率関数
Latest release: MADlib v1.9, URL: madlib.net
- 15. 15© Copyright 2016 Pivotal. All rights reserved.
HAWQ
Ÿ HAWQのサービス
Ÿ マスターサービス
Ÿ クライアント接続の制御
Ÿ 問い合わせへの回答
Ÿ クエリプランの作成
Ÿ スレーブノードへの処理の割り当て、処理
結果のとりまとめ
Ÿ メタデータ (global system catalog)の保
持・管理(ユーザデータは保持しない)
HAWQ Standby Master
HAWQ Segment Server
HAWQ Master
Ÿ マスターサービス
Ÿ HA構成におけるウォーム・スタンバイノード(手動HA)
Ÿ HAWQ Masterとの間でトランザクションログのレプリ
ケーションを実施(メタデータの同期)
Ÿ スレーブサービス
Ÿ Masterからのクエリプランに従いHDFS上のユーザ
データを処理
- 16. 16© Copyright 2016 Pivotal. All rights reserved.
HAWQ
Ÿ HAWQの構成
– マスター/スレーブ構成。マスターサービスはActive – Standby のHA構成
– HDFS稼働が前提。
– PXFを通じてHive / HBase連携する場合はその準備も必要
– スケールアウト (必要に応じてスレーブノードの追加が可能)
HAWQ
Segment Server
HAWQ
Master
HAWQ
Standby Master
マスター系ノード(HA構成)
スレーブ系ノード
HAWQ
Segment Server
HAWQ
Segment Server
HAWQ
Segment Server
HAWQ
Segment Server
HA
HDFS
- 17. 17© Copyright 2016 Pivotal. All rights reserved.
HAWQ データ書き込み(InsertによるCSVファイルのロード)
Inter Connect
HAWQ
Master
HDFS
DataNode
HAWQ
Segment 2
HDFS
DataNode
HAWQ
Segment 3
HDFS
DataNode
HAWQ
Segment 1
1 1 1
libhdfs3 libhdfs3 libhdfs3
HDFS
DataNode
HAWQ
Segment 4
libhdfs3
2 2 2
3 33
書き込み要求
HDFS
NameNode
HAWQ
Metadata
HDFS
NameNode
Address HDFS
Datanode list
Point!
Pivotalが改良した
libhdfs3(C API)により高
速にHDFSへデータ配置
Point!
<Data Locality>
セグメントに割り振られた
データブロックの1つを必ず
自身のデータノードに配置
gpfdist
- 18. 18© Copyright 2016 Pivotal. All rights reserved.
Read 要求
HAWQ Data読み込み(Selectによるデータの参照)
Inter Connect
HAWQ
Master
HDFS
NameNode
HDFS
DataNode
HAWQ
Segment 2
HDFS
DataNode
HAWQ
Segment 3
HDFS
DataNode
HAWQ
Segment 1
1 1 1
libhdfs3 libhdfs3
HDFS
DataNode
HAWQ
Segment 4
libhdfs3
2 2 2
3 33
List of file
to read HDFS
Datanode list
Point!
<Short circuit read>
ローカルディスクにあるデータブロッ
クをlibhdfs3を通して、最優先で読
み込む。
DataNode(Java)を介さず直接HDD
より読み込むことで高速化を実現し
ている。
これをShort circuit readをいう。
libhdfs3
- 19. 19© Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB(Apache HAWQ)がもたらす価値
Ÿ インタラクティブな分析環境の提供
– Hiveと比較して数十倍から数百倍の性能向上
Ÿ 既存資産(プログラムとスキル)の活用
– ANSI SQL92,98,2003への対応
Ÿ Hadoop環境でBI/BAツールを利用してデータ分析
– ODBC/JDBC標準インターフェースを提供
Ÿ データ連携機能により、Hadoop/HDB間のデータ移動が不要
– PXF機能によるHive、Hbase、Avro、等のHadoopデータへの透過的クエリアクセス
Ÿ 既存DBとのデータ二重持ちコストの削減
– HDFS上への全データの統合
- 20. 20© Copyright 2016 Pivotal. All rights reserved.
おまけ
Ÿ Pivotal HDBをちょっと使ってみたい方には、
– HDB 2.0 Sandbox on HDP VM をご用意しております
– https://network.pivotal.io/products/pivotal-hdb#/releases/1695 (無償・ユーザ登録)
Ÿ Pivotal Japan Tech Community のご紹介
– Pivotal関連の技術情報を共有するグループ
– https://pivotal-japan.connpass.com/