SlideShare a Scribd company logo
1 of 28
Download to read offline
1© Copyright 2017 Pivotal. All rights reserved. 1© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplumで実現する
次世代データ分析基盤のご紹介
~ データレイク・アーキテクチャのコンセプトとPivotal Greenplum技術のご紹介 ~
2017年9月6日	
Pivotalジャパン株式会社	
技術統括部	
松下 正之
2© Copyright 2017 Pivotal. All rights reserved.
Agenda & このセッションで持ち帰って頂きたい事
Ÿ  はじめに
–  Pivotalご紹介
–  デジタル革命で打ち勝つためのサイクル
Ÿ  データ分析基盤のための「データレイク・アーキテクチャ」のコンセプトと技術要素
Ÿ  Pivotal Greenplum技術紹介
Ÿ  事例
Ÿ  デモ(時間に応じて)
3© Copyright 2017 Pivotal. All rights reserved.
2000s
メソドロジの
確⽴立立
シリコンバレーを代表する  
インターネット企業のソフト
ウェア開発に影響を与える様
な新たなメソロドジーを確⽴立立
1990s
メソドロジの創
設
ソフトウェア開発にアジャイル、
迅速なイテレーション、テスト
駆動型アプローチなどを導⼊入
2015
デジタル変⾰革
の推進役へ
グローバルの代表的な企業が
クラウドネイティブなソフト
ウェア・カンパニーへと変⾰革
を遂げる時代へ
2013
エンタープライ
ズへの展開
先進的なソフトウェア開発⼿手法
とクラウド・プラットフォーム
を⽤用いて世界のエンタープライ
ズ企業のデジタル変⾰革を⽀支援
Founded
EMC,  ヴイエムウェア及びGE出資
従業員約2,000名
クラウド,  ビッグデータ基盤の提供
およびアジャイル⼿手法を軸とした
アプリケーション開発を推進
デジタル・トランスフォーメーション
競争の鍵
アナリティクス
アプリケーション データサイエンス
マシンラーニング
ビッグデータ
(DWH/Hadoop)
リーン&
アジャイル開発
オープンクラウド
(IaaS/PaaS) ファストデータ
(M2M/リアルタイム)
DevOps
CI/CD
デジタル革命で打ち勝つためのサイクル
プラットフォーム
クラウドネイティブ
アプリ
5© Copyright 2017 Pivotal. All rights reserved.
データレイクが実現するデータ分析基盤
RDBMS
Hadoop
インメモリ	
Analytics
Apps
Online
Apps
Mobile
Apps
Analytics
Apps
Online
Apps
Mobile
Apps
データレイク	
 アプリ	
 ユーザ	
構造化データ
売上情報
顧客情報
商品マスタ
ファストデータ
1. Hadoopへの Pivotal技術の統合	
2. ファストデータ・ビッグデータへの対応	
3. SQLにも対応した高い開発生産性	
Machine
PIVOTAL
GREENPLUM
PIVOTAL HDB
PIVOTAL
GEMFIRE
Pivotal HDP
6© Copyright 2017 Pivotal. All rights reserved.
より自由に、柔軟に、迅速にビジネス要求に答える
Data Lakeアーキテクチャ
Data Lake評価視点 EDW(エンタープライズデータウェアハウス)
データモデル
生データ+目的別データ
(事前に定義しない)
目的別データ
(事前に利用目的を確定)
データの質 Full spectrum 1 0
0 1 01 0
0 1
0 1
1 1 0
データの種類
インタフェイス SQL, SAS, R, MapReduce, NoSQL SQL のみ
混合ワークロード
vs
QoS
低レイテンシー / 対話型 / バッチ
混合ワークロードには
運用でQoS対応
7© Copyright 2017 Pivotal. All rights reserved.
HDFSビッグデータ
高度分析 /
機械学習
インメモリ
リアルタイム
データ
ストリームパイプライン
データレイクのこれから
特徴	
•  データ収集のストリーム処理化
•  データ収集の人手を削減
•  分析の自動化
•  アクションの自動化
8© Copyright 2017 Pivotal. All rights reserved.
データレイクが実現するデータ分析基盤
RDBMS
Hadoop
インメモリ	
Analytics
Apps
Online
Apps
Mobile
Apps
Analytics
Apps
Online
Apps
Mobile
Apps
データレイク	
 アプリ	
 ユーザ	
構造化データ
売上情報
顧客情報
商品マスタ
ファストデータ
1. Hadoopへの Pivotal技術の統合	
2. ファストデータ・ビッグデータへの対応	
3. SQLにも対応した高い開発生産性	
4. 様々なデータ収集と配信(API化)に対応	
Machine
PIVOTAL
GREENPLUM
PIVOTAL HDB
PIVOTAL
GEMFIRE
Pivotal HDP
Spring Cloud
Data Flow
ストリーム	
パイプライン
9© Copyright 2017 Pivotal. All rights reserved.
“Pivotalコネクテッドカー”レファレンスアーキテクチャ
投入
JSON / HTTP
ストリーム処理
Spring XD加工エンリッチ
データレイク
Pivotal HDP
連携
アナリティクス
Pivotal HDB(HAWQ)
リアルタイムデータ処理
Pivotal GemFire
モバイルサービス
マイクロサービス
Pivotal
Cloud Foundry ダッシュボード 分析アプリ シミュレータ
IoT アプリ
プッシュ
自動車からの車載データを活用した、クラウドサービス基盤
適用例:走行経路予測とレコメンデーション
参考URL: Demo: IoT Realized with Spring XD - The Connected Car
https://www.youtube.com/watch?v=5gySgGWJMHA&feature=youtu.be
https://spring.io/blog/2014/09/24/demo-iot-realized-with-spring-xd-the-connected-car
10© Copyright 2017 Pivotal. All rights reserved.
Pivotalが提唱するデータレイクとは
Ÿ  デジタル革命で打ち勝つためのサイクル	
–  データ蓄積・分析→アプリケーション開発→迅速なデプロイのサイクル
Ÿ  データ分析活用基盤「データレイク・アーキテクチャ」	
–  あらゆるデータの蓄積基盤はHDFSもしくはスケールアウト
可能な基盤
–  処理要件に応じて、バッチ処理(Hadoop)/ニアリアルタイム処
理(DWH)/リアルタイム処理(In-Memory)それぞれをデータ
レイクと連携
–  様々なデータの取り込みとデータ活用を意識した配信(API化
)の仕組みを提供	
–  オープンソースをベースとしたソフトウェア技術で実現	
 実現すべきデータ活用のサイクル
Hadoop Data Lakes
Massively Parallel Architecture
Public Cloud Data Lakes
Predefined Libraries
Programmatic
GPText
Parallel Configurable Data Load
High Speed
Ingestion
Analytical
Data to cache
In-Memory Data Grid
Parallel Data Load and External Tables
Pivotal Data Suite を使ったこれからのデータ分析処理基盤
In-DB Predictive Analytics
ColdHotWarm
DataTemperature
PIVOTAL
GEMFIRE
PIVOTAL
GREENPLUM
(Data Warehouse)
PIVOTAL HDB
(SQL on Hadoop)
12© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplum
技術概要
13© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplum 3つの特長
•  データ分析基盤向け「Pivotal Data Suite」(CPUコアでのライセンス体系)
•  運用負荷を軽減するチューニングレス思想
•  導入・運用コストを削減するアプラインス製品
•  テスト・開発環境については仮想環境の利用も可能
•  MPP型DBによる超高速の並列処理性能
•  データロード、処理、アンロードまでを完全に並列で実行
•  標準搭載の豊富な高速化機能(データ圧縮、カラムストア、マルチレベルパーティション etc..)
•  必要な時に最適なシステム投資を実現するスケールアウトアーキテクチャ
•  サーバノード追加により性能もリニアに向上
•  クラウド、仮想化、コモディティサーバ、アプライアンスと豊富な実装環境に対応
拡張性
高速性
コストパフォーマンス
14© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplum アーキテクチャ
MPP (Massively Parallel Processing)
シェアードナッシングアーキテクチャ	
インタコネクト
バス	
... ...
マスター	
サーバ x 2台	
クエリプランニング&	
ディスパッチ
セグメント	
サーバ x 2台〜	
クエリの実行&	
データの格納	
SQL
外部ソース
ローディング、	
ストリーミング等	
SQLを解析し、
セグメントサーバのための最適
な並列実行プランを作成	
パラレルデータ	
フローエンジンが	
ハードサーバ性能を	
最大活用	
gNetソフトウェア	
インタコネクトによる	
セグメント間の効率的な
データ送受信	
パラレルロードによる
高速ローディング	
EMC DCAは、マスターサーバ、インタコネクトバス、セグメントサーバ、そして、これらを管理するための管理スイッチから
構成されています。
15© Copyright 2017 Pivotal. All rights reserved.
CPU
メモリ
ディスクI/Oを分散して処理を高速化
ディスク
CPU
メモリ
ディスク
CPU
メモリ
ディスク
CPU
メモリ
ディスク
CPU
メモリ
ディスク
CPUを
使いきれない
CPUを
使いきれる
CPUを
使いきれる
CPUを
使いきれる
CPUを
使いきれる
ディスクI/Oがボトルネックとなり、単一
ノードでは処理の多重度に限界がある	
  
並列処理することで、I/Oが分散され、	
  
HW本来の性能を使い切ることができる	
  
従来型RDB
使
用
率
使
用
率
並列分散処理型DB
使
用
率
使
用
率
使
用
率
16© Copyright 2017 Pivotal. All rights reserved.
パラレルデータフロー
エンジン	
パラレルデータフロー
エンジン	
パラレルデータフロー
エンジン	
パラレルデータフロー
エンジン	
セグメントサーバ	
ローディング
プロセス	
マスタサーバ	
  
データソース	
 データソース	
セグメントサーバ	
他社
他社処理方式とGreenplum方式の比較
17© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplum
最大の特長:選択出来る実装環境
仮想化	
クラウド	
コモディティH/W	
EMC DCA	
•  EMC DCAでの導入
–  最適(最速)環境
–  サポート負荷軽減	
•  仮想化S/W上で稼働可能	
–  仮想インフラ上での開発環境
•  コモディティH/Wでの導入
–  柔軟な拡張性
–  お客様要件に合わせた機器構成
•  パブリッククラウド上での稼働
–  Amazon VPC等を使ったトレーニング・
検証環境の構築
アプライアンス構成 ソフトウェア構成
18© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplum 高速化技術
カラムストア	
 圧縮	
リソースキュー(ワークロード管理)	
パーティション	
• 
–  RDBMS
– 
• 
– 
–  IO
–  DB
A B C D A B C D
IO IO
• 
• 
– 
– 
• 
1
2008 2009 2010 2011 2012
? ? ? ??
? ? ? ?? ?
?
?
?
? ? ? ?? ? ? ?
?
?
?
? ? ? ?
? ? ? ?
: HIGH
: LOW
: Medium
XXX
YYY
ZZZ
?
?
? ? ? ? ? ? ? ?
? ? ? ?
AAA
( )
( )
BBB
CCC
19© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplum/Hadoop 連携
Hadoop ノード	
Hadoop ノード	
Hadoop ノード	
Hadoop ノード	
Greenplum
セグメントサーバ	
Greenplum
セグメントサーバ	
Greenplum
セグメントサーバ	
Pivotal Greenplumの外部表機能を使ったシームレスなデータアクセス
→ データがDB上にあるかHadoop上にあるかを意識せずに処理を記述することが可能
Pivotal Greenplum/Hadoop間での、効率的かつ高速なデータ転送
→ 大量データの移動にかかる時間を減らし、トータルの集計・分析時間を短縮
Pivotal Greenplum/Hadoopは両方ともスケールアウト型の並列処理アーキテクチャ
→ 処理の増大、容量の拡張に応じて柔軟に拡張ができる
多ノード対多ノードの
パラレルデータ転送	
10Gb ネットワーク	
Pivotal Greenplumの各セグメント
サーバとHadoopの各ノード間では、
ダイレクトかつパラレルなデータ転送
が行われる
Pivotal Greenplumの外部表機能
を使い、Hadoop上のファイルをDB
テーブルとして扱うことが可能
20© Copyright 2017 Pivotal. All rights reserved.
外部表機能は様々なデータ格納場所や鮮度をサポートする
計算と格納の本格的な分割
Hadoop Data Lakes Public Cloud Data Lakes HybridLocal
21© Copyright 2017 Pivotal. All rights reserved.
インフラ非依存型データウェアハウス
On Premise Public CloudPrivate Cloud
お客様の必要に応じて、どこにでも分析環境を稼働出来ます
22© Copyright 2017 Pivotal. All rights reserved.
クラウド・マーケットプレイスとそのパートナー
23© Copyright 2017 Pivotal. All rights reserved.
多様な分析ユースケースを構築
テキスト クラスタリング
回帰分析
分類
STRUCTURED QUERY LANGUAGE
グラフ地理・空間情報
24© Copyright 2017 Pivotal. All rights reserved.
事例
25© Copyright 2017 Pivotal. All rights reserved.
Pivotal Greenplumを用いた日本最大級のID-POSデータ分析基盤を構築	
導入事例: 株式会社True Data様(旧:カスタマー・コミュニケーションズ株式会社)
背景
•  ユーザの分析処理のオンライン化を実現したい(バッチ
処理からの脱却)
•  マルチテナント・多重処理を前提として、保有する全件
データの分析処理においてもオンライン化したい
•  高コスト体質の既存ベンダから脱却し、運用コストを削
減したい
•  将来のデータ量・ユーザの増加にも柔軟に対応したい
課題	
•  大量ID-POSデータ分析を高速処理可能な基盤構築
•  将来的な容量・性能の枯渇への柔軟な対応
提案(Pivotal Greenplum)
•  MPP型DBによる超高速の並列処理性能	
•  標準搭載の豊富な高速化機能(データ圧縮、カラムスト
ア、マルチレベルパーティション等)
•  必要な時に最適なシステム投資を実現するスケールア
ウト・アーキテクチャ
結果
•  Pivotal Greenplumの採用により、分析サービスのオ
ンライン化と大幅なコスト削減を実現
•  容易にスケールアウト可能なため、将来のビジネス成
長に追従・対応可能な分析基盤を構築	
背景・課題	
 提案・結果	
Ÿ  以前はバッチ処理で分析結果を提供していたが、高速処理基盤の構築によってオンラインサービス化を実現
Ÿ  スケールアウト・アーキテクチャの採用により、データ量・ユーザ数の増加に柔軟に対応
26© Copyright 2017 Pivotal. All rights reserved.
優れたコストパフォーマンスと柔軟な拡張性を備え、高度分析が行えるデータ分析基盤を構築	
導入事例: 京阪電気鉄道様
プロファイル
•  グループカード会員の顧客管理(顧客情報利活用)システム
採用理由	
•  増え続ける顧客の乗車履歴、取引明細のデータをスケーラブルな蓄積・分析用途のデータベースシステムとして、
  コストパフォーマンスの高い「Pivotal Greenplum」を採用
•  高度分析のコンサルティングやトレーニングなどのサポートも評価され採用
•  SAS Access to Greenplum, SAS Scoring Accelerator with Greenplumを採用
導入効果	
•  Greenplumの大規模並列処理による高速性により、年間1億件(初期3年分)の顧客取引明細の分析を高速処理可能
•  大量データを蓄積・処理でき、迅速な意思決定を支援する分析サービスをグループ各社に提供可能
•  Greenplumの柔軟な拡張性により、今後、SNSなど社外のデータを分析対象として取込予定
会員基本
情報
クレジットカード
利用履歴
乗車履歴
その他
(キャンペーン反応など)
高度分析
データ抽出
定型帳票
高度分析
コンサルティング
高度分析
トレーニング
SAS+Greenplum事例
ポイント
履歴
Hadoop Data Lakes
Massively Parallel Architecture
Public Cloud Data Lakes
Predefined Libraries
Programmatic
GPText
Parallel Configurable Data Load
High Speed
Ingestion
Analytical
Data to cache
In-Memory Data Grid
Parallel Data Load and External Tables
Pivotal Data Suite を使ったこれからのデータ分析処理基盤
In-DB Predictive Analytics
ColdHotWarm
DataTemperature
PIVOTAL
GEMFIRE
PIVOTAL
GREENPLUM
(Data Warehouse)
PIVOTAL HDB
(SQL on Hadoop)
28© Copyright 2017 Pivotal. All rights reserved.

More Related Content

What's hot

そんなトランザクションマネージャで大丈夫か?
そんなトランザクションマネージャで大丈夫か?そんなトランザクションマネージャで大丈夫か?
そんなトランザクションマネージャで大丈夫か?
takezoe
 

What's hot (20)

ZOZOTOWNのマルチクラウドへの挑戦と挫折、そして未来
ZOZOTOWNのマルチクラウドへの挑戦と挫折、そして未来ZOZOTOWNのマルチクラウドへの挑戦と挫折、そして未来
ZOZOTOWNのマルチクラウドへの挑戦と挫折、そして未来
 
V$SQLとその周辺でER図を描いてみよう!
V$SQLとその周辺でER図を描いてみよう!V$SQLとその周辺でER図を描いてみよう!
V$SQLとその周辺でER図を描いてみよう!
 
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
 
Cassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpn
Cassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpnCassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpn
Cassandra導入事例と現場視点での苦労したポイント cassandra summit2014jpn
 
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
 
HDFSネームノードのHAについて #hcj13w
HDFSネームノードのHAについて #hcj13wHDFSネームノードのHAについて #hcj13w
HDFSネームノードのHAについて #hcj13w
 
クラウドDWHとしても進化を続けるPivotal Greenplumご紹介
クラウドDWHとしても進化を続けるPivotal Greenplumご紹介クラウドDWHとしても進化を続けるPivotal Greenplumご紹介
クラウドDWHとしても進化を続けるPivotal Greenplumご紹介
 
AWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザAWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザ
 
Redis勉強会資料(2015/06 update)
Redis勉強会資料(2015/06 update)Redis勉強会資料(2015/06 update)
Redis勉強会資料(2015/06 update)
 
そんなトランザクションマネージャで大丈夫か?
そんなトランザクションマネージャで大丈夫か?そんなトランザクションマネージャで大丈夫か?
そんなトランザクションマネージャで大丈夫か?
 
Oracle Cloud Infrastructure:2021年6月度サービス・アップデート
Oracle Cloud Infrastructure:2021年6月度サービス・アップデートOracle Cloud Infrastructure:2021年6月度サービス・アップデート
Oracle Cloud Infrastructure:2021年6月度サービス・アップデート
 
NTT DATA と PostgreSQL が挑んだ総力戦
NTT DATA と PostgreSQL が挑んだ総力戦NTT DATA と PostgreSQL が挑んだ総力戦
NTT DATA と PostgreSQL が挑んだ総力戦
 
Optimizing Apache Spark SQL Joins
Optimizing Apache Spark SQL JoinsOptimizing Apache Spark SQL Joins
Optimizing Apache Spark SQL Joins
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPANのOracle構成-2017年版
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
 
Amazon s3へのデータ転送における課題とその対処法を一挙紹介
Amazon s3へのデータ転送における課題とその対処法を一挙紹介Amazon s3へのデータ転送における課題とその対処法を一挙紹介
Amazon s3へのデータ転送における課題とその対処法を一挙紹介
 
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
 

Similar to Pivotal Greenplumで実現する次世代データ分析基盤のご紹介

[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
Insight Technology, Inc.
 
[C14] 超高速データベースエンジンを用いたTPC-Hベンチマーク100TBクラス世界初登録への挑戦 by Shinji Fujiwara
[C14] 超高速データベースエンジンを用いたTPC-Hベンチマーク100TBクラス世界初登録への挑戦 by Shinji Fujiwara[C14] 超高速データベースエンジンを用いたTPC-Hベンチマーク100TBクラス世界初登録への挑戦 by Shinji Fujiwara
[C14] 超高速データベースエンジンを用いたTPC-Hベンチマーク100TBクラス世界初登録への挑戦 by Shinji Fujiwara
Insight Technology, Inc.
 
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
Insight Technology, Inc.
 
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
Insight Technology, Inc.
 
[B15] HiRDBのSQL実行プランはどのように決定しているのか?by Masaaki Narita
[B15] HiRDBのSQL実行プランはどのように決定しているのか?by Masaaki Narita[B15] HiRDBのSQL実行プランはどのように決定しているのか?by Masaaki Narita
[B15] HiRDBのSQL実行プランはどのように決定しているのか?by Masaaki Narita
Insight Technology, Inc.
 
Classmethod共催IT部門向け Tableauを活用した全社レベルのデータ民主化とガバナンス
Classmethod共催IT部門向け Tableauを活用した全社レベルのデータ民主化とガバナンスClassmethod共催IT部門向け Tableauを活用した全社レベルのデータ民主化とガバナンス
Classmethod共催IT部門向け Tableauを活用した全社レベルのデータ民主化とガバナンス
Takeo Hirakawa
 

Similar to Pivotal Greenplumで実現する次世代データ分析基盤のご紹介 (20)

[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
[D24] あなたのビジネスを変えるInfiniDBケーススタディ by Toshihide Hanatani
 
20191115-PGconf.Japan
20191115-PGconf.Japan20191115-PGconf.Japan
20191115-PGconf.Japan
 
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか  by 日本ヒューレット・パッカード株式会社 後藤宏[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか  by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
 
Hadoop基盤を知る
Hadoop基盤を知るHadoop基盤を知る
Hadoop基盤を知る
 
[db tech showcase Sapporo 2015] A22:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの...
[db tech showcase Sapporo 2015] A22:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの...[db tech showcase Sapporo 2015] A22:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの...
[db tech showcase Sapporo 2015] A22:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの...
 
[C14] 超高速データベースエンジンを用いたTPC-Hベンチマーク100TBクラス世界初登録への挑戦 by Shinji Fujiwara
[C14] 超高速データベースエンジンを用いたTPC-Hベンチマーク100TBクラス世界初登録への挑戦 by Shinji Fujiwara[C14] 超高速データベースエンジンを用いたTPC-Hベンチマーク100TBクラス世界初登録への挑戦 by Shinji Fujiwara
[C14] 超高速データベースエンジンを用いたTPC-Hベンチマーク100TBクラス世界初登録への挑戦 by Shinji Fujiwara
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
C27 基幹領域への適用におけるpostgre sqlの抱える課題 by 原嘉彦
 
ビッグデータ時代に対応する最新データベース・テクノロ ジーとは?
ビッグデータ時代に対応する最新データベース・テクノロ ジーとは?ビッグデータ時代に対応する最新データベース・テクノロ ジーとは?
ビッグデータ時代に対応する最新データベース・テクノロ ジーとは?
 
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
[db tech showcase OSS 2017] A22: NoSQL:誰のための、何のためのデータベース?その将来は?by Aerospike, ...
 
[Japan Tech summit 2017] CLD 007
[Japan Tech summit 2017]  CLD 007[Japan Tech summit 2017]  CLD 007
[Japan Tech summit 2017] CLD 007
 
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
[A34] HDDからインメモリーテクノジーへ by Yusuke Miyake
 
Talk 1「データインテグレーションとは何か」
Talk 1「データインテグレーションとは何か」Talk 1「データインテグレーションとは何か」
Talk 1「データインテグレーションとは何か」
 
[B15] HiRDBのSQL実行プランはどのように決定しているのか?by Masaaki Narita
[B15] HiRDBのSQL実行プランはどのように決定しているのか?by Masaaki Narita[B15] HiRDBのSQL実行プランはどのように決定しているのか?by Masaaki Narita
[B15] HiRDBのSQL実行プランはどのように決定しているのか?by Masaaki Narita
 
[db tech showcase Tokyo 2017] A27: ストレージ視点から見たMariaDB性能チューニング by 東芝メモリ株式会社 佐藤修一
[db tech showcase Tokyo 2017] A27: ストレージ視点から見たMariaDB性能チューニング by 東芝メモリ株式会社 佐藤修一[db tech showcase Tokyo 2017] A27: ストレージ視点から見たMariaDB性能チューニング by 東芝メモリ株式会社 佐藤修一
[db tech showcase Tokyo 2017] A27: ストレージ視点から見たMariaDB性能チューニング by 東芝メモリ株式会社 佐藤修一
 
性能問題を起こしにくい信頼されるクラウド RDB のつくりかた
性能問題を起こしにくい信頼されるクラウド RDB のつくりかた性能問題を起こしにくい信頼されるクラウド RDB のつくりかた
性能問題を起こしにくい信頼されるクラウド RDB のつくりかた
 
FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化FPGAによる大規模データ処理の高速化
FPGAによる大規模データ処理の高速化
 
stapy_028_talk1
stapy_028_talk1stapy_028_talk1
stapy_028_talk1
 
Classmethod共催IT部門向け Tableauを活用した全社レベルのデータ民主化とガバナンス
Classmethod共催IT部門向け Tableauを活用した全社レベルのデータ民主化とガバナンスClassmethod共催IT部門向け Tableauを活用した全社レベルのデータ民主化とガバナンス
Classmethod共催IT部門向け Tableauを活用した全社レベルのデータ民主化とガバナンス
 
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
 

Pivotal Greenplumで実現する次世代データ分析基盤のご紹介

  • 1. 1© Copyright 2017 Pivotal. All rights reserved. 1© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplumで実現する 次世代データ分析基盤のご紹介 ~ データレイク・アーキテクチャのコンセプトとPivotal Greenplum技術のご紹介 ~ 2017年9月6日 Pivotalジャパン株式会社 技術統括部 松下 正之
  • 2. 2© Copyright 2017 Pivotal. All rights reserved. Agenda & このセッションで持ち帰って頂きたい事 Ÿ  はじめに –  Pivotalご紹介 –  デジタル革命で打ち勝つためのサイクル Ÿ  データ分析基盤のための「データレイク・アーキテクチャ」のコンセプトと技術要素 Ÿ  Pivotal Greenplum技術紹介 Ÿ  事例 Ÿ  デモ(時間に応じて)
  • 3. 3© Copyright 2017 Pivotal. All rights reserved. 2000s メソドロジの 確⽴立立 シリコンバレーを代表する   インターネット企業のソフト ウェア開発に影響を与える様 な新たなメソロドジーを確⽴立立 1990s メソドロジの創 設 ソフトウェア開発にアジャイル、 迅速なイテレーション、テスト 駆動型アプローチなどを導⼊入 2015 デジタル変⾰革 の推進役へ グローバルの代表的な企業が クラウドネイティブなソフト ウェア・カンパニーへと変⾰革 を遂げる時代へ 2013 エンタープライ ズへの展開 先進的なソフトウェア開発⼿手法 とクラウド・プラットフォーム を⽤用いて世界のエンタープライ ズ企業のデジタル変⾰革を⽀支援 Founded EMC,  ヴイエムウェア及びGE出資 従業員約2,000名 クラウド,  ビッグデータ基盤の提供 およびアジャイル⼿手法を軸とした アプリケーション開発を推進
  • 5. 5© Copyright 2017 Pivotal. All rights reserved. データレイクが実現するデータ分析基盤 RDBMS Hadoop インメモリ Analytics Apps Online Apps Mobile Apps Analytics Apps Online Apps Mobile Apps データレイク アプリ ユーザ 構造化データ 売上情報 顧客情報 商品マスタ ファストデータ 1. Hadoopへの Pivotal技術の統合 2. ファストデータ・ビッグデータへの対応 3. SQLにも対応した高い開発生産性 Machine PIVOTAL GREENPLUM PIVOTAL HDB PIVOTAL GEMFIRE Pivotal HDP
  • 6. 6© Copyright 2017 Pivotal. All rights reserved. より自由に、柔軟に、迅速にビジネス要求に答える Data Lakeアーキテクチャ Data Lake評価視点 EDW(エンタープライズデータウェアハウス) データモデル 生データ+目的別データ (事前に定義しない) 目的別データ (事前に利用目的を確定) データの質 Full spectrum 1 0 0 1 01 0 0 1 0 1 1 1 0 データの種類 インタフェイス SQL, SAS, R, MapReduce, NoSQL SQL のみ 混合ワークロード vs QoS 低レイテンシー / 対話型 / バッチ 混合ワークロードには 運用でQoS対応
  • 7. 7© Copyright 2017 Pivotal. All rights reserved. HDFSビッグデータ 高度分析 / 機械学習 インメモリ リアルタイム データ ストリームパイプライン データレイクのこれから 特徴 •  データ収集のストリーム処理化 •  データ収集の人手を削減 •  分析の自動化 •  アクションの自動化
  • 8. 8© Copyright 2017 Pivotal. All rights reserved. データレイクが実現するデータ分析基盤 RDBMS Hadoop インメモリ Analytics Apps Online Apps Mobile Apps Analytics Apps Online Apps Mobile Apps データレイク アプリ ユーザ 構造化データ 売上情報 顧客情報 商品マスタ ファストデータ 1. Hadoopへの Pivotal技術の統合 2. ファストデータ・ビッグデータへの対応 3. SQLにも対応した高い開発生産性 4. 様々なデータ収集と配信(API化)に対応 Machine PIVOTAL GREENPLUM PIVOTAL HDB PIVOTAL GEMFIRE Pivotal HDP Spring Cloud Data Flow ストリーム パイプライン
  • 9. 9© Copyright 2017 Pivotal. All rights reserved. “Pivotalコネクテッドカー”レファレンスアーキテクチャ 投入 JSON / HTTP ストリーム処理 Spring XD加工エンリッチ データレイク Pivotal HDP 連携 アナリティクス Pivotal HDB(HAWQ) リアルタイムデータ処理 Pivotal GemFire モバイルサービス マイクロサービス Pivotal Cloud Foundry ダッシュボード 分析アプリ シミュレータ IoT アプリ プッシュ 自動車からの車載データを活用した、クラウドサービス基盤 適用例:走行経路予測とレコメンデーション 参考URL: Demo: IoT Realized with Spring XD - The Connected Car https://www.youtube.com/watch?v=5gySgGWJMHA&feature=youtu.be https://spring.io/blog/2014/09/24/demo-iot-realized-with-spring-xd-the-connected-car
  • 10. 10© Copyright 2017 Pivotal. All rights reserved. Pivotalが提唱するデータレイクとは Ÿ  デジタル革命で打ち勝つためのサイクル –  データ蓄積・分析→アプリケーション開発→迅速なデプロイのサイクル Ÿ  データ分析活用基盤「データレイク・アーキテクチャ」 –  あらゆるデータの蓄積基盤はHDFSもしくはスケールアウト 可能な基盤 –  処理要件に応じて、バッチ処理(Hadoop)/ニアリアルタイム処 理(DWH)/リアルタイム処理(In-Memory)それぞれをデータ レイクと連携 –  様々なデータの取り込みとデータ活用を意識した配信(API化 )の仕組みを提供 –  オープンソースをベースとしたソフトウェア技術で実現 実現すべきデータ活用のサイクル
  • 11. Hadoop Data Lakes Massively Parallel Architecture Public Cloud Data Lakes Predefined Libraries Programmatic GPText Parallel Configurable Data Load High Speed Ingestion Analytical Data to cache In-Memory Data Grid Parallel Data Load and External Tables Pivotal Data Suite を使ったこれからのデータ分析処理基盤 In-DB Predictive Analytics ColdHotWarm DataTemperature PIVOTAL GEMFIRE PIVOTAL GREENPLUM (Data Warehouse) PIVOTAL HDB (SQL on Hadoop)
  • 12. 12© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplum 技術概要
  • 13. 13© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplum 3つの特長 •  データ分析基盤向け「Pivotal Data Suite」(CPUコアでのライセンス体系) •  運用負荷を軽減するチューニングレス思想 •  導入・運用コストを削減するアプラインス製品 •  テスト・開発環境については仮想環境の利用も可能 •  MPP型DBによる超高速の並列処理性能 •  データロード、処理、アンロードまでを完全に並列で実行 •  標準搭載の豊富な高速化機能(データ圧縮、カラムストア、マルチレベルパーティション etc..) •  必要な時に最適なシステム投資を実現するスケールアウトアーキテクチャ •  サーバノード追加により性能もリニアに向上 •  クラウド、仮想化、コモディティサーバ、アプライアンスと豊富な実装環境に対応 拡張性 高速性 コストパフォーマンス
  • 14. 14© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplum アーキテクチャ MPP (Massively Parallel Processing) シェアードナッシングアーキテクチャ インタコネクト バス ... ... マスター サーバ x 2台 クエリプランニング& ディスパッチ セグメント サーバ x 2台〜 クエリの実行& データの格納 SQL 外部ソース ローディング、 ストリーミング等 SQLを解析し、 セグメントサーバのための最適 な並列実行プランを作成 パラレルデータ フローエンジンが ハードサーバ性能を 最大活用 gNetソフトウェア インタコネクトによる セグメント間の効率的な データ送受信 パラレルロードによる 高速ローディング EMC DCAは、マスターサーバ、インタコネクトバス、セグメントサーバ、そして、これらを管理するための管理スイッチから 構成されています。
  • 15. 15© Copyright 2017 Pivotal. All rights reserved. CPU メモリ ディスクI/Oを分散して処理を高速化 ディスク CPU メモリ ディスク CPU メモリ ディスク CPU メモリ ディスク CPU メモリ ディスク CPUを 使いきれない CPUを 使いきれる CPUを 使いきれる CPUを 使いきれる CPUを 使いきれる ディスクI/Oがボトルネックとなり、単一 ノードでは処理の多重度に限界がある   並列処理することで、I/Oが分散され、   HW本来の性能を使い切ることができる   従来型RDB 使 用 率 使 用 率 並列分散処理型DB 使 用 率 使 用 率 使 用 率
  • 16. 16© Copyright 2017 Pivotal. All rights reserved. パラレルデータフロー エンジン パラレルデータフロー エンジン パラレルデータフロー エンジン パラレルデータフロー エンジン セグメントサーバ ローディング プロセス マスタサーバ   データソース データソース セグメントサーバ 他社 他社処理方式とGreenplum方式の比較
  • 17. 17© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplum 最大の特長:選択出来る実装環境 仮想化 クラウド コモディティH/W EMC DCA •  EMC DCAでの導入 –  最適(最速)環境 –  サポート負荷軽減 •  仮想化S/W上で稼働可能 –  仮想インフラ上での開発環境 •  コモディティH/Wでの導入 –  柔軟な拡張性 –  お客様要件に合わせた機器構成 •  パブリッククラウド上での稼働 –  Amazon VPC等を使ったトレーニング・ 検証環境の構築 アプライアンス構成 ソフトウェア構成
  • 18. 18© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplum 高速化技術 カラムストア 圧縮 リソースキュー(ワークロード管理) パーティション •  –  RDBMS –  •  –  –  IO –  DB A B C D A B C D IO IO •  •  –  –  •  1 2008 2009 2010 2011 2012 ? ? ? ?? ? ? ? ?? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? : HIGH : LOW : Medium XXX YYY ZZZ ? ? ? ? ? ? ? ? ? ? ? ? ? ? AAA ( ) ( ) BBB CCC
  • 19. 19© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplum/Hadoop 連携 Hadoop ノード Hadoop ノード Hadoop ノード Hadoop ノード Greenplum セグメントサーバ Greenplum セグメントサーバ Greenplum セグメントサーバ Pivotal Greenplumの外部表機能を使ったシームレスなデータアクセス → データがDB上にあるかHadoop上にあるかを意識せずに処理を記述することが可能 Pivotal Greenplum/Hadoop間での、効率的かつ高速なデータ転送 → 大量データの移動にかかる時間を減らし、トータルの集計・分析時間を短縮 Pivotal Greenplum/Hadoopは両方ともスケールアウト型の並列処理アーキテクチャ → 処理の増大、容量の拡張に応じて柔軟に拡張ができる 多ノード対多ノードの パラレルデータ転送 10Gb ネットワーク Pivotal Greenplumの各セグメント サーバとHadoopの各ノード間では、 ダイレクトかつパラレルなデータ転送 が行われる Pivotal Greenplumの外部表機能 を使い、Hadoop上のファイルをDB テーブルとして扱うことが可能
  • 20. 20© Copyright 2017 Pivotal. All rights reserved. 外部表機能は様々なデータ格納場所や鮮度をサポートする 計算と格納の本格的な分割 Hadoop Data Lakes Public Cloud Data Lakes HybridLocal
  • 21. 21© Copyright 2017 Pivotal. All rights reserved. インフラ非依存型データウェアハウス On Premise Public CloudPrivate Cloud お客様の必要に応じて、どこにでも分析環境を稼働出来ます
  • 22. 22© Copyright 2017 Pivotal. All rights reserved. クラウド・マーケットプレイスとそのパートナー
  • 23. 23© Copyright 2017 Pivotal. All rights reserved. 多様な分析ユースケースを構築 テキスト クラスタリング 回帰分析 分類 STRUCTURED QUERY LANGUAGE グラフ地理・空間情報
  • 24. 24© Copyright 2017 Pivotal. All rights reserved. 事例
  • 25. 25© Copyright 2017 Pivotal. All rights reserved. Pivotal Greenplumを用いた日本最大級のID-POSデータ分析基盤を構築 導入事例: 株式会社True Data様(旧:カスタマー・コミュニケーションズ株式会社) 背景 •  ユーザの分析処理のオンライン化を実現したい(バッチ 処理からの脱却) •  マルチテナント・多重処理を前提として、保有する全件 データの分析処理においてもオンライン化したい •  高コスト体質の既存ベンダから脱却し、運用コストを削 減したい •  将来のデータ量・ユーザの増加にも柔軟に対応したい 課題 •  大量ID-POSデータ分析を高速処理可能な基盤構築 •  将来的な容量・性能の枯渇への柔軟な対応 提案(Pivotal Greenplum) •  MPP型DBによる超高速の並列処理性能 •  標準搭載の豊富な高速化機能(データ圧縮、カラムスト ア、マルチレベルパーティション等) •  必要な時に最適なシステム投資を実現するスケールア ウト・アーキテクチャ 結果 •  Pivotal Greenplumの採用により、分析サービスのオ ンライン化と大幅なコスト削減を実現 •  容易にスケールアウト可能なため、将来のビジネス成 長に追従・対応可能な分析基盤を構築 背景・課題 提案・結果 Ÿ  以前はバッチ処理で分析結果を提供していたが、高速処理基盤の構築によってオンラインサービス化を実現 Ÿ  スケールアウト・アーキテクチャの採用により、データ量・ユーザ数の増加に柔軟に対応
  • 26. 26© Copyright 2017 Pivotal. All rights reserved. 優れたコストパフォーマンスと柔軟な拡張性を備え、高度分析が行えるデータ分析基盤を構築 導入事例: 京阪電気鉄道様 プロファイル •  グループカード会員の顧客管理(顧客情報利活用)システム 採用理由 •  増え続ける顧客の乗車履歴、取引明細のデータをスケーラブルな蓄積・分析用途のデータベースシステムとして、   コストパフォーマンスの高い「Pivotal Greenplum」を採用 •  高度分析のコンサルティングやトレーニングなどのサポートも評価され採用 •  SAS Access to Greenplum, SAS Scoring Accelerator with Greenplumを採用 導入効果 •  Greenplumの大規模並列処理による高速性により、年間1億件(初期3年分)の顧客取引明細の分析を高速処理可能 •  大量データを蓄積・処理でき、迅速な意思決定を支援する分析サービスをグループ各社に提供可能 •  Greenplumの柔軟な拡張性により、今後、SNSなど社外のデータを分析対象として取込予定 会員基本 情報 クレジットカード 利用履歴 乗車履歴 その他 (キャンペーン反応など) 高度分析 データ抽出 定型帳票 高度分析 コンサルティング 高度分析 トレーニング SAS+Greenplum事例 ポイント 履歴
  • 27. Hadoop Data Lakes Massively Parallel Architecture Public Cloud Data Lakes Predefined Libraries Programmatic GPText Parallel Configurable Data Load High Speed Ingestion Analytical Data to cache In-Memory Data Grid Parallel Data Load and External Tables Pivotal Data Suite を使ったこれからのデータ分析処理基盤 In-DB Predictive Analytics ColdHotWarm DataTemperature PIVOTAL GEMFIRE PIVOTAL GREENPLUM (Data Warehouse) PIVOTAL HDB (SQL on Hadoop)
  • 28. 28© Copyright 2017 Pivotal. All rights reserved.