検証にもとづくビッグデータの分析に最適な環境とは

1 © NEC Corporation 2017
検証にもとづくビッグデータの分析に最適な環境とは
2017/11/08
NEC 新郷美紀

自己紹介
新郷美紀（しんごうみき）
2013年からデータセンター向けHWプラットフォーム開発を担当し、その後
ビッグデータ・ソリューション・アーキテクトとして活動。
ビッグデータ関連パートナーとの連携によるソリューションの企画・検証・提案
がメイン。
2015年からはODPi（Open Data Platform Initiative)というビッグデータの普及
に向けた標準化企画のメンバー。
2014年からビッグデータの可視化、集計等でTableauを評価し、連携を推進。

目次
1. ビッグデータとBIの連携について
2. DruidとHiveの説明
3. 検証システムの説明
4. デモ
5. なぜNECか

1. ビッグデータとBIの連携について

ビッグデータの必要性
利用価値の低い情報
（少ないボリュームで単発情報
だけの場合）
・何時に乗降したか
・どこで乗降したか
・乗った距離でいくらかかったか
2. データ量が増えることで理解できること
・どの位置で乗降が多いか
・渋滞はどの時間帯で起きるか
・平日と休日で利用場所が変わるか
（ビジネス用途かレジャー用途か）
利用価値の高い情報
1. 他の情報を付加されることで理解できること
・人気の施設は利用客が多いか
・天気の違いで利用客数が変わるか
・・・
天気情報施設関連情報
データ種類の増加
▌データ単体では利用価値の低い情報も、データ量の増加
▌他の情報と掛け合わせることで利用価値が高められる
乗車情報（単発）
タクシーの乗降時間
タクシーの乗降位置（GPS情報のみ）
タクシーの乗降距離
タクシーの料金
タクシーのチップ

ビッグデータを取り巻く環境
▌試せるデータサンプルもビッグデータの基盤もかなり揃ってきました
▌ストリーム処理とバッチ処理の高速化技術の革新が目まぐるしい
1. データ量・新たなデータタイプの増加
・企業で扱えるデータも増えた
・さらにオープンデータも活用できるようになってきた
（といっても海外の方が進んでます。）
→ オープンデータだけを使ってみます。（みなさまも試せます）
2. ビッグデータ処理基盤も整備されてきた
・Hadoop/Spark関連技術の進化
・データ分析エコシステムの進歩
機械学習、ディープラーニングなどいろんなものが使えるようになってきた
・データアクセス高速化技術の組み込みも間近
Hortonworksは次期HadoopディストリビューションでDruidというOLAPツールをサポート予定
→ 早速、DruidをTableauとつないでクエリがどれだけ早いか試してみました

バッチSQL
インタラクティブ
SQL
高速（サブセカンド）
SQL
¥¥¥
Hive0.x
（MapReduce)
Hive1.2-
（Tez, Vectorise,
ORC, CBO)
Hive 2.0
（LLAP)
ACID
MERGE
OLAP
Cube
Hive WIP
（Hive/HBase)
Druid
Kylin
製品：
Kyvos Insight
AtScale
BI連携で用いられるHadoopエコシステム
・ETL
・データ・マイニング
・綿密な分析
・レポーティング・アドホック
・ドリルダウン
・持続的なデータ
更新
・多次元分析
Presto
Impala
Drill
Spark SQL
HAWQ
クエリ速度低高
出展： An Apache Hive Based Data Warehouseを参考
https://www.slideshare.net/HadoopSummit/an-apache-hive-based-data-warehouse
機能少多

バッチSQL
インタラクティブ
SQL
高速（サブセカンド）
SQL
¥¥¥
Hive0.x
（MapReduce)
Hive1.2-
（Tez, Vectorise,
ORC, CBO)
Hive 2.0
（LLAP)
ACID
MERGE
OLAP
Cube
Hive WIP
（Hive/HBase)
Druid
Kylin
製品：
Kyvos Insight
AtScale
今回の検証で用いるツール
・ETL
・データ・マイニング
・綿密な分析
・レポーティング・アドホック
・ドリルダウン
・持続的なデータ
更新
・多次元分析
Presto
Impala
Drill
Spark SQL
HAWQ
機能少多
出展： An Apache Hive Based Data Warehouseを参考
https://www.slideshare.net/HadoopSummit/an-apache-hive-based-data-warehouse
クエリ速度低高

2. DruidおよびHiveの説明

ノード
LLAPの高速化
・デーモンによる起動のオーバーヘッド削減
・インメモリにホットデータを蓄積
・一度に複数行を処理可能なベクトル型SQL
エンジンの実装
（カラム型でデータをキャッシング）
HDFS
LLAP処理
クエリ
フラグメント
Hive/LLAP HiveとDruidの統合
ファクト/ヒストリカル
イベント
（Hive/LLAP）
HDFS
Hive SQLのクエリインターフェース
更新がある
ディメンジョン
（Hive/LLAP）
時系列イベント
(Druid）
集計
イベント
（Druid）
Druidの高速化
・集計データについて1秒以内のクエリ応答時間の実現
・時系列分析のサポート
・優れた並列クエリのサポート
・テラバイトスケールのスケーラビリティ対応
Hive/LLAPとDruidの組み合わせ概要

DruidとHiveの補完関係のまとめ
得意なアクセスパターン特徴
Hiveのレイヤ大規模および複雑な分析処理 join
サブクエリ
ウィンドウ関数処理
多段の変換処理
複雑な集計
高度なソート
UDF
Druidのレイヤ大規模な多次元データの中か
らごく少数のデータを検索す
るタイプのクエリ処理
多次元集計
トップNクエリ
最大値・最小値
時系列クエリ

Druidとは
リアルタイム処理、高可用性に対応可能なカラム型の分散データストア
特徴
・カラム型の分散型データストア
・１秒以内でのクエリ応答時間の実現
・データをさまざまな属性を切り口にフィルタリング
・スケーラビリティ： 1日に数兆のイベント処理が可能
・インタラクティブ：低レイテンシクエリの実行が可能
・データの自動集計
・ペタバイトデータへのスケーラブル対応
・高可用性
・複雑なデータストリームをリアルタイムに可視化
・近似アルゴリズム対応（HyperLogLog, theta)
データセット全体をダンプするようなことには向きません。
（全文検索等は考慮外）

Druidのデータ構造・概要
Druidのデータはセグメント・ファイルという単位でストアされる。
Segment
Jan
2017年1月
Segment
Feb
Segment
March
Segment
April
2017年3月 2017年4月
タイムスタンプディメンジョン
__time
2017-07-01T01:00:00Z
2017-07-01T01:00:00Z
2017-07-01T01:00:00Z
2017-07-01T01:00:00Z
medallion
7822FC6EE165W756EA5D125F5550BE
メトリックス
tolsl_amount
3.00
6.50
12.75
8.70
セグメント・ファイルの構成
・タイムスタンプ・カラム
・ディメンジョン・カラム
・メトリック・カラム
・高速なルックアップと集計用のインデックス
DE97BV0NE08SEP0847N39BC0746ED
F67BK053NAPEA8325CA70EC97143EE
20DCB977EA122ED654BEC017BC0E5B
Verndor_id
CMT
CMT
VTS
VTS
・・・
tip_amount
0.00
1.00
2.00
1.25
mta_tax
0.00
0.00
0.50
0.50
・・・
・・・

注）リアルタイムのデータ収集ではExactly once semanticsは
ロードマップにあるものの現時点ではサポートされていない
ストリームデータ
（センサー等）
リアルタイム
ノード
コーディネート
ノード
MySQL Zookeeper
ヒストリカル
ノード
ヒストリカル
ノード
ヒストリカル
ノード
ブローカ
ノード
Kafka
（メッセージ）
バッチデータ
（RDB等）
データ収集
（Sqoop)
ディープ
ストレージ
（HDFS)
クライアント
（Tableau等）
Druidコンポーネント
Druid以外で必須なコンポーネント
クエリ処理
メタデータ処理
データ処理
（Segment中心)
Druidのシステム概要
リアルタイム
ノード
リアルタイム
ノード

クライアント
ブローカ
リアルタイム
ディープ
ストレージ
インデックス化
ストリーム
データ
バッチ
データ
ヒストリカル
データ
クエリ
Druidの概念図
出典： Druidオフィシャルページ
http://druid.io/docs/0.8.3/design/design.html

クライアント
ブローカ
リアルタイム
ディープ
ストレージ
ストリーム
データ
バッチ
データ
ヒストリカル
データ
クエリ
Druidの内部連携
ヒストリカル
コーディネータ
メタデータ
ストレージ
（MySQL)
Zookeeper
リアルタイム
ブローカ
出典： Druidオフィシャルページ
http://druid.io/docs/0.8.3/design/design.html

2017/01
2017/02
2017/03
2017/04
2017/05
0:00 – 0:59
1:00 – 1:59
2:00 – 2:59
3:00 – 3:59
4:00 – 4:59
月ごと
（セグメント）
時間ごと
Druidのキュービング・イメージ
SELECT * FROM tripdata_druid
WHERE `__time` >= "2017-01-01 03:00:00"
AND `__time` < "2017-01-01 04:00:00"
AND range_of_total_amount = "$40~$50"
支払額ごと
サンプル・クエリ・コード

ブローカ
リアルタイム
テーブル・スキャン
レコード・リーダ
ヒストリカル
Timeseries, TopN, GroupBy
出典： HortonworksのInteractive Analytics atScale
https://www.slideshare.net/HadoopSummit/interactive-analytics-at-scale-in-apache-hive-using-druid
Select
・Druidにクエリを送信し、クエリの結果からレコードを生成
・Timeseries, TopN, GroupByクエリはパーティションされない
・Selectクエリはリアルタイム・ヒストリカルノードのいずれも直接接続される
Druidの入力フォーマット
ノードノードノード

3.検証システムについて

生データ収集マスターデータ蓄積
分析用データ作成
タクシー料金
テーブル
タクシー運行
テーブル
NYCタクシー
運行データ
NYCタクシー
料金データ
タクシーデータ
（キューブ）
ETL
データ分析
検証システムのデータモデル

Express Server 1ノード
・CPU Xeon(R) E5-2699 v3
[18core36thread]
・Memory 256GB
Micro Modular Server [DX2000]
Server 20ノード … Master Node ×3／Slave Node ×17
・CPU ： Xeon(R) D-1527 [4core/8thread × 20]
・Memory ： 1,240GB （62GB × 20台）
・Storage ： SSD 5,120GB （256GB×20台） … HDFS：3TB
データ分析データ連携
ETL
(Hive)
データ処理
データベース
（Hive+HDFS）
CSVファイル
（HDFS）
非構造化データ
蓄積/加工
Cube
(Druid)
ＢＩツール
（tableau）
検証システム構成図

タクシー運行データ
medallion
hack_license
vendor_id
rate_code
store_and_fwd_flag
pickup_datetime
dropoff_datetime
passenger_count
trip_time_in_secs
trip_distance
pickup_longitude
pickup_latitude
dropoff_longitude
dropoff_latitude
string
string
string
int
string
timestamp
timestamp
int
int
double
decimal(10,7)
decimal(10,7)
decimal(10,7)
decimal(10,7)
タクシー料金データ
medallion
hack_license
vendor_id
pickup_datetime
payment_type
fare_amount
surcharge
mta_tax
tip_amount
tolls_amount
total_amount
string
string
string
timestamp
string
double
double
double
double
double
double
分析用データ（キューブ）
__time
medallion
hack_license
vendor_id
rate_code
store_and_fwd_flag
pickup_datetime
dropoff_datetime
range_of_pickup_time
passenger_count
trip_time_in_secs
trip_distance
pickup_longitude
pickup_latitude
dropoff_longitude
dropoff_latitude
payment_type
fare_amount
surcharge
mta_tax
tip_amount
tolls_amount
total_amount
range_of_total_amount
timestamp
string
string
string
int
string
string
string
string
int
int
double
decimal(10,7)
decimal(10,7)
decimal(10,7)
decimal(10,7)
string
double
double
double
double
double
double
string
キュービング
データソース
Druidのタイムスタンプ・カ
ラム
timestamp型が許されるのは
これのみで、他のtimestamp
型だったpickup_datetime
等はstring型に変更

クエリ測定結果（お試し）
▌SSB（Star Schema Benchmark）を使用したクエリの実行パフォーマン
スを検証システムで実行
0
0.5
1
1.5
2
2.5
3
3.5
Q1.1 Q1.2 Q1.3 Q2.1 Q2.2 Q2.3 Q3.1 Q3.2 Q3.3 Q3.4 Q4.1 Q4.2 Q4.3
秒
クエリ番号
SSB(Star Schema Benchmark) 実行結果
hive
druid
データ件数：
約10億件(1,191,994,569)
参考：https://github.com/cartershanklin/hive-druid-ssb
平均で10倍
以上高速

クエリ測定結果（お試し）
▌Druidが得意でないクエリも存在します。
タイムスタンプやディメンジョンで条件を絞ったクエリは早いが、メトリックで
のクエリは苦手
ディメンジョン指定したクエリ
< Hive >
< Druid >
メトリックを指定したクエリ
< Hive >
< Druid >
SELECT * FROM tripdata_join WHERE hack_license="2013043162";
16 rows selected (3.109 seconds)
SELECT * FROM tripdata_druid WHERE hack_license="2013043162";
16 rows selected (0.337 seconds)
SELECT * FROM tripdata_join WHERE trip_distance<=0.01;
25,518 rows selected (8.345 seconds)
SELECT * FROM tripdata_druid WHERE trip_distance<=0.01;
1,047 rows selected (176.305 seconds)
１つのセグメントから取
り出すレコードを一定の
件数で打ち切るため、結
果の値が異なっている

事前検証済みビッグデータ分析基盤 Data Platform for Hadoop
すぐに分析を開始できるビッグデータ分析基盤と関連サービス
構造化データ
業務システム
ERP/CRM
SCM…
非構造化データ
SNS センサー
Log
システムログ
準構造化データ
XML JSON
時系列XML JSON
設計・最適化済みのHDP基盤の提供
取り込み加工蓄積
統合
関連付け
分析可視化
分析ツール
との連携
データフロー
連携
Red Hat
SAS
Tableau
etc.

データ活用の段階に合わせたHWアーキテクチャ選択
 スモールスタート可
能なデータレイクソ
リューションを導入
 蓄積データの容量／種
別の増加に合わせ、
Express5800を追加
しシステム拡張
 AIを活用した高度分析のた
め、DX2000を追加し高いコ
ンピューティング性能を確保
コンピュート／
ストレージ拡張
コンピュート強化
Express5800 Express5800 Express5800 DX2000
既存データの
見える化
多様なデータに
基づく予測分析
AIを活用した
データドリブン
意思決定

顧客の用途に最適なHadoopシステム構成
Data Platform for Hadoop
既存データ
RDBMS
Mainframe
EDW(*)
Application
IoT連携
Data SystemData Sources
RDBMS EDW MPP
SNS
Sensors
System
Log
Geospatial
data
BI/BA
EDW 連携ツール
HDF
ソリューションモデルを設計／検証
データフロー
制御
*Enterprise Data Warehouse
既存データの見える化

Hortonworks認定済みのプラットフォーム
プラットフォーム上で動作する機能と性能を事前に検証済み
Data Platform for Hadoop
標準PF

DPHサービス：構築サービス
標準化された構築サービスで導入期間を短縮
データ活用設計
ＨＷ・ＳＷの
選定
構築サービスを利用した場合
チューニング
サイジング
アプリケーションの
開発と運用
拡張性の設計
アプリケーションの
開発と運用
プラットフォームの
の導入
プ
ラ
ッ
ト
フ
ォ
ー
ム
品
質
の
安
定
導
入
期
間
の
短
縮
個別SIの場合
プラットフォームの
テスト
プ
ラ
ッ
ト
フ
ォ
ー
ム
の
設
計
と
導
入
標準オペレーション

当社ではこれまで、ユーザー部門が販売戦略の立案や予
算管理などに使う分析レポートを情報システム部が提供し
ていました。まず「どのような分析レポートが必要か」を要
件定義するところから始めて、社内システムから情報を集
めて、ExcelやAccessで集計・加工して、BIツールを使っ
て提供する……といった手順を踏んでいました。そのため、
実際に分析レポートがユーザーの元に届くまでには半年
程度かかってしまい、せっかく作っても「情報が古い」「求め
ていたものとちょっと違う」などと言われることも。ユーザー
が自分たちで手間をかけて、PowerPointなどでレポート
を作成している例もありました。
社内にある情報利活用を促進し、業務改善や意志決定
の迅速化を図ることを目的に、新たなBIツールの導入を検
討していました。
そこで導入したのがセルフサービスBIの「Tableau」です。ユーザー自ら
がデータを取得し、ドラッグ＆ドロップの操作で直感的に、ビジュアル化し
たレポートを作成できるツールです。PCにインストールして手持ちのデータ
をロードすれば、すぐに分析環境を構築できます。まずは2事業部に協力
してもらい、Tableauをテスト導入することに。検討開始から約3カ月という
短期間で一通りのシステムを構築し、ユーザーに公開することができまし
た。
分析レポートに半年。ユーザーのニーズに応
えられていなかった
ユーザー自らが分析する「Tableau」
データ公開基盤 DWH
目的別
データマート
「Tableau」画面
課題導入したソリューション
プロト作成ブラッシュアップパブリッシュ情報参照
Tableau Desktop Tableau Server
現場社員
情報システム部
クラウドサービス事業部
データコンシェルジュTableau技術支援
情報システム部
運用/権限
問合せ
参照
2次利用
現場社員
基幹システムデータオープンデータ
経理販売購買取引先 Project 設備 etc 郵便番号緯度経度企業 etc
「Tableau」画面
NECグループのTableau導入事例紹介

Tableauを活用してもらうために、まずユーザーに「どのよう
なデータを収集し、どんな見せ方をするか」を聞き、情報システ
ム部門が設定をしました。ただこれは非常に簡単で、当日か翌
日には分析レポートのサンプルを見せることができますし、「検
索項目を追加したい」「地図で見せたい」などの要望があれば、
画面を見せながらその場で修正できます。
Tableauを公開したところ、非常に好評です。従来は提供まで
に半年かかっていた分析レポートを素早く提供。ユーザーがい
つでも簡単にデータ分析をできるようになりました。データ収集・
集計にかかる手間と時間が効率化されたためです。ある部門で
は、これまで予算会議の資料づくりに何日もかけていました。
会議の場でTableauの画面を見せるようにしたことで、資料づ
くりの時間を削減できました。グラフにしたり散布図
分析レポートの取得が素早く簡単に
成果
Tableauを導入したことで、現場社員自らが、素早く簡単にデータ分析を
できるようになり、業務効率が向上しました。今後、全社展開を進めるこ
とで、多くの現場社員が自らデータ分析・活用をして、ビジネスを成長させ
ていけるような「データドリブン」な企業文化をつくっていきたいです。
「データドリブン」な企業文化へ
データ収集加工・集計
収集集計
分析
分析プロアクティブ
手作業手作業
自動化
Before
After
加工・集計の手間を省き、「分析・行動変容」を促す
今後の展開
弊社も全社で導入し、現場の意志決定に｢データ活用｣が可能となりました。
にしたりと見せ方を変えられるので、会議参加者から質問があってもその場
で返答できるようになったとのことです。担当者の業務効率化、マネージャー
や経営層の意志決定の迅速化に役立っています。
導入事例 NECソリューションイノベータ

まとめ
・ビッグデータとBIを連携をするうえでは、用途によりさまざまなツールの
組み合わせが必要で、最適なものを選択することが重要
・1社ですべてをまかなうことはできないので、さまざまな企業と連携し
各企業のプロフェッショナル領域を最大限に活用できるパートナリングが重要
Tableau, Hortonworks, NECが皆さまの事業のご支援をさせていただける
機会に恵まれれば幸いです。

検証にもとづくビッグデータの分析に最適な環境とは

検証にもとづくビッグデータの分析に最適な環境とは

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (10)

Similar to 検証にもとづくビッグデータの分析に最適な環境とは

Similar to 検証にもとづくビッグデータの分析に最適な環境とは (20)

検証にもとづくビッグデータの分析に最適な環境とは