Pivotal Greenplumで実現する次世代データ分析基盤のご紹介

1© Copyright 2017 Pivotal. All rights reserved. 1© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplumで実現する
次世代データ分析基盤のご紹介
~ データレイク・アーキテクチャのコンセプトとPivotal Greenplum技術のご紹介 ~
2017年9月6日
Pivotalジャパン株式会社
技術統括部
松下正之

2© Copyright 2017 Pivotal. All rights reserved.
Agenda & このセッションで持ち帰って頂きたい事
Ÿ  はじめに
–  Pivotalご紹介
–  デジタル革命で打ち勝つためのサイクル
Ÿ  データ分析基盤のための「データレイク・アーキテクチャ」のコンセプトと技術要素
Ÿ  Pivotal Greenplum技術紹介
Ÿ  事例
Ÿ  デモ(時間に応じて)

2000s
メソドロジの
確⽴立立
シリコンバレーを代表する　
インターネット企業のソフト
ウェア開発に影響を与える様
な新たなメソロドジーを確⽴立立
1990s
メソドロジの創
設
ソフトウェア開発にアジャイル、
迅速なイテレーション、テスト
駆動型アプローチなどを導⼊入
2015
デジタル変⾰革
の推進役へ
グローバルの代表的な企業が
クラウドネイティブなソフト
ウェア・カンパニーへと変⾰革
を遂げる時代へ
2013
エンタープライ
ズへの展開
先進的なソフトウェア開発⼿手法
とクラウド・プラットフォーム
を⽤用いて世界のエンタープライ
ズ企業のデジタル変⾰革を⽀支援
Founded
EMC, ヴイエムウェア及びGE出資
従業員約2,000名
クラウド, ビッグデータ基盤の提供
およびアジャイル⼿手法を軸とした
アプリケーション開発を推進

デジタル・トランスフォーメーション
競争の鍵
アナリティクス
アプリケーションデータサイエンス
マシンラーニング
ビッグデータ
(DWH/Hadoop)
リーン&
アジャイル開発
オープンクラウド
(IaaS/PaaS) ファストデータ
(M2M/リアルタイム)
DevOps
CI/CD
デジタル革命で打ち勝つためのサイクル
プラットフォーム
クラウドネイティブ
アプリ

データレイクが実現するデータ分析基盤
RDBMS
Hadoop
インメモリ
Analytics
Apps
Online
Apps
Mobile
Apps
Analytics
Apps
Online
Apps
Mobile
Apps
データレイク
アプリ
ユーザ
構造化データ
売上情報
顧客情報
商品マスタ
ファストデータ
1. Hadoopへの Pivotal技術の統合
2. ファストデータ・ビッグデータへの対応
3. SQLにも対応した高い開発生産性
Machine
PIVOTAL
GREENPLUM
PIVOTAL HDB
PIVOTAL
GEMFIRE
Pivotal HDP

より自由に、柔軟に、迅速にビジネス要求に答える
Data Lakeアーキテクチャ
Data Lake評価視点 EDW（エンタープライズデータウェアハウス）
データモデル
生データ＋目的別データ
（事前に定義しない）
目的別データ
（事前に利用目的を確定）
データの質 Full spectrum 1 0
0 1 01 0
0 1
0 1
1 1 0
データの種類
インタフェイス SQL, SAS, R, MapReduce, NoSQL SQL のみ
混合ワークロード
vs
QoS
低レイテンシー / 対話型 / バッチ
混合ワークロードには
運用でQoS対応

HDFSビッグデータ
高度分析 /
機械学習
インメモリ
リアルタイム
データ
ストリームパイプライン
データレイクのこれから
特徴
•  データ収集のストリーム処理化
•  データ収集の人手を削減
•  分析の自動化
•  アクションの自動化

データレイクが実現するデータ分析基盤
RDBMS
Hadoop
インメモリ
Analytics
Apps
Online
Apps
Mobile
Apps
Analytics
Apps
Online
Apps
Mobile
Apps
データレイク
アプリ
ユーザ
構造化データ
売上情報
顧客情報
商品マスタ
ファストデータ
1. Hadoopへの Pivotal技術の統合
2. ファストデータ・ビッグデータへの対応
3. SQLにも対応した高い開発生産性
4. 様々なデータ収集と配信(API化)に対応
Machine
PIVOTAL
GREENPLUM
PIVOTAL HDB
PIVOTAL
GEMFIRE
Pivotal HDP
Spring Cloud
Data Flow
ストリーム
パイプライン

“Pivotalコネクテッドカー”レファレンスアーキテクチャ
投入
JSON / HTTP
ストリーム処理
Spring XD加工エンリッチ
データレイク
Pivotal HDP
連携
アナリティクス
Pivotal HDB(HAWQ)
リアルタイムデータ処理
Pivotal GemFire
モバイルサービス
マイクロサービス
Pivotal
Cloud Foundry ダッシュボード分析アプリシミュレータ
IoT アプリ
プッシュ
自動車からの車載データを活用した、クラウドサービス基盤
適用例：走行経路予測とレコメンデーション
参考URL: Demo: IoT Realized with Spring XD - The Connected Car
https://www.youtube.com/watch?v=5gySgGWJMHA&feature=youtu.be
https://spring.io/blog/2014/09/24/demo-iot-realized-with-spring-xd-the-connected-car

Pivotalが提唱するデータレイクとは
Ÿ  デジタル革命で打ち勝つためのサイクル
–  データ蓄積・分析→アプリケーション開発→迅速なデプロイのサイクル
Ÿ  データ分析活用基盤「データレイク・アーキテクチャ」
–  あらゆるデータの蓄積基盤はHDFSもしくはスケールアウト
可能な基盤
–  処理要件に応じて、バッチ処理(Hadoop)/ニアリアルタイム処
理(DWH)/リアルタイム処理(In-Memory)それぞれをデータ
レイクと連携
–  様々なデータの取り込みとデータ活用を意識した配信(API化
)の仕組みを提供
–  オープンソースをベースとしたソフトウェア技術で実現
実現すべきデータ活用のサイクル

Hadoop Data Lakes
Massively Parallel Architecture
Public Cloud Data Lakes
Predefined Libraries
Programmatic
GPText
Parallel Configurable Data Load
High Speed
Ingestion
Analytical
Data to cache
In-Memory Data Grid
Parallel Data Load and External Tables
Pivotal Data Suite を使ったこれからのデータ分析処理基盤
In-DB Predictive Analytics
ColdHotWarm
DataTemperature
PIVOTAL
GEMFIRE
PIVOTAL
GREENPLUM
(Data Warehouse)
PIVOTAL HDB
(SQL on Hadoop)

Pivotal Greenplum
技術概要

Pivotal Greenplum ３つの特長
•  データ分析基盤向け「Pivotal Data Suite」(CPUコアでのライセンス体系)
•  運用負荷を軽減するチューニングレス思想
•  導入・運用コストを削減するアプラインス製品
•  テスト・開発環境については仮想環境の利用も可能
•  MPP型DBによる超高速の並列処理性能
•  データロード、処理、アンロードまでを完全に並列で実行
•  標準搭載の豊富な高速化機能(データ圧縮、カラムストア、マルチレベルパーティション etc..)
•  必要な時に最適なシステム投資を実現するスケールアウトアーキテクチャ
•  サーバノード追加により性能もリニアに向上
•  クラウド、仮想化、コモディティサーバ、アプライアンスと豊富な実装環境に対応
拡張性
高速性
コストパフォーマンス

Pivotal Greenplum アーキテクチャ
MPP (Massively Parallel Processing)
シェアードナッシングアーキテクチャ
インタコネクト
バス
... ...
マスター
サーバ x 2台
クエリプランニング＆
ディスパッチ
セグメント
サーバ x 2台〜
クエリの実行＆
データの格納
SQL
外部ソース
ローディング、
ストリーミング等
SQLを解析し、
セグメントサーバのための最適
な並列実行プランを作成
パラレルデータ
フローエンジンが
ハードサーバ性能を
最大活用
gNetソフトウェア
インタコネクトによる
セグメント間の効率的な
データ送受信
パラレルロードによる
高速ローディング
EMC DCAは、マスターサーバ、インタコネクトバス、セグメントサーバ、そして、これらを管理するための管理スイッチから
構成されています。

CPU
メモリ
ディスクI/Oを分散して処理を高速化
ディスク
CPU
メモリ
ディスク
CPU
メモリ
ディスク
CPU
メモリ
ディスク
CPU
メモリ
ディスク
CPUを
使いきれない
CPUを
使いきれる
CPUを
使いきれる
CPUを
使いきれる
CPUを
使いきれる
ディスクI/Oがボトルネックとなり、単一
ノードでは処理の多重度に限界がある

並列処理することで、I/Oが分散され、

HW本来の性能を使い切ることができる

従来型RDB
使
用
率
使
用
率
並列分散処理型DB
使
用
率
使
用
率
使
用
率

パラレルデータフロー
エンジン
エンジン
エンジン
エンジン
セグメントサーバ
ローディング
プロセス
マスタサーバ

データソース
データソース
他社
他社処理方式とGreenplum方式の比較

Pivotal Greenplum
最大の特長：選択出来る実装環境
仮想化
クラウド
コモディティH/W
EMC DCA
•  EMC DCAでの導入
–  最適(最速)環境
–  サポート負荷軽減
•  仮想化S/W上で稼働可能
–  仮想インフラ上での開発環境
•  コモディティH/Wでの導入
–  柔軟な拡張性
–  お客様要件に合わせた機器構成
•  パブリッククラウド上での稼働
–  Amazon VPC等を使ったトレーニング・
検証環境の構築
アプライアンス構成ソフトウェア構成

Pivotal Greenplum 高速化技術
カラムストア
圧縮
リソースキュー(ワークロード管理)
パーティション
• 
–  RDBMS
– 
• 
– 
–  IO
–  DB
A B C D A B C D
IO IO
• 
• 
– 
– 
• 
1
2008 2009 2010 2011 2012
? ? ? ??
? ? ? ?? ?
?
?
?
? ? ? ?? ? ? ?
?
?
?
? ? ? ?
? ? ? ?
: HIGH
: LOW
: Medium
XXX
YYY
ZZZ
?
?
? ? ? ? ? ? ? ?
? ? ? ?
AAA
( )
( )
BBB
CCC

Pivotal Greenplum/Hadoop 連携
Hadoop ノード
Hadoop ノード
Hadoop ノード
Hadoop ノード
Greenplum
Greenplum
Greenplum
Pivotal Greenplumの外部表機能を使ったシームレスなデータアクセス
→ データがDB上にあるかHadoop上にあるかを意識せずに処理を記述することが可能
Pivotal Greenplum/Hadoop間での、効率的かつ高速なデータ転送
→ 大量データの移動にかかる時間を減らし、トータルの集計・分析時間を短縮
Pivotal Greenplum/Hadoopは両方ともスケールアウト型の並列処理アーキテクチャ
→ 処理の増大、容量の拡張に応じて柔軟に拡張ができる
多ノード対多ノードの
パラレルデータ転送
10Gb ネットワーク
Pivotal Greenplumの各セグメント
サーバとHadoopの各ノード間では、
ダイレクトかつパラレルなデータ転送
が行われる
Pivotal Greenplumの外部表機能
を使い、Hadoop上のファイルをDB
テーブルとして扱うことが可能

外部表機能は様々なデータ格納場所や鮮度をサポートする
計算と格納の本格的な分割
Hadoop Data Lakes Public Cloud Data Lakes HybridLocal

インフラ非依存型データウェアハウス
On Premise Public CloudPrivate Cloud
お客様の必要に応じて、どこにでも分析環境を稼働出来ます

クラウド・マーケットプレイスとそのパートナー

多様な分析ユースケースを構築
テキストクラスタリング
回帰分析
分類
STRUCTURED QUERY LANGUAGE
グラフ地理・空間情報

事例

Pivotal Greenplumを用いた日本最大級のID-POSデータ分析基盤を構築
導入事例: 株式会社True Data様(旧：カスタマー・コミュニケーションズ株式会社)
背景
•  ユーザの分析処理のオンライン化を実現したい(バッチ
処理からの脱却)
•  マルチテナント・多重処理を前提として、保有する全件
データの分析処理においてもオンライン化したい
•  高コスト体質の既存ベンダから脱却し、運用コストを削
減したい
•  将来のデータ量・ユーザの増加にも柔軟に対応したい
課題
•  大量ID-POSデータ分析を高速処理可能な基盤構築
•  将来的な容量・性能の枯渇への柔軟な対応
提案(Pivotal Greenplum)
•  MPP型DBによる超高速の並列処理性能
•  標準搭載の豊富な高速化機能(データ圧縮、カラムスト
ア、マルチレベルパーティション等)
•  必要な時に最適なシステム投資を実現するスケールア
ウト・アーキテクチャ
結果
•  Pivotal Greenplumの採用により、分析サービスのオ
ンライン化と大幅なコスト削減を実現
•  容易にスケールアウト可能なため、将来のビジネス成
長に追従・対応可能な分析基盤を構築
背景・課題
提案・結果
Ÿ  以前はバッチ処理で分析結果を提供していたが、高速処理基盤の構築によってオンラインサービス化を実現
Ÿ  スケールアウト・アーキテクチャの採用により、データ量・ユーザ数の増加に柔軟に対応

優れたコストパフォーマンスと柔軟な拡張性を備え、高度分析が行えるデータ分析基盤を構築
導入事例: 京阪電気鉄道様
プロファイル
• 　グループカード会員の顧客管理(顧客情報利活用)システム
採用理由
• 　増え続ける顧客の乗車履歴、取引明細のデータをスケーラブルな蓄積・分析用途のデータベースシステムとして、
　　コストパフォーマンスの高い「Pivotal Greenplum」を採用
•  高度分析のコンサルティングやトレーニングなどのサポートも評価され採用
•  SAS Access to Greenplum, SAS Scoring Accelerator with Greenplumを採用
導入効果
• 　Greenplumの大規模並列処理による高速性により、年間1億件(初期3年分)の顧客取引明細の分析を高速処理可能
• 　大量データを蓄積・処理でき、迅速な意思決定を支援する分析サービスをグループ各社に提供可能
• 　Greenplumの柔軟な拡張性により、今後、SNSなど社外のデータを分析対象として取込予定
会員基本
情報
クレジットカード
利用履歴
乗車履歴
その他
（キャンペーン反応など）
高度分析
データ抽出
定型帳票
高度分析
コンサルティング
高度分析
トレーニング
SAS+Greenplum事例
ポイント
履歴

Pivotal Greenplumで実現する次世代データ分析基盤のご紹介

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Pivotal Greenplumで実現する次世代データ分析基盤のご紹介

Similar to Pivotal Greenplumで実現する次世代データ分析基盤のご紹介 (20)

Pivotal Greenplumで実現する次世代データ分析基盤のご紹介