Treasure Data Intro for Data Enthusiast!!

1

February 14th, 2014

Presented
by

Takahiro
Inoue
–
Chief
Data
Scien:st

2

Agenda
Sec.0
Company
&
Product
Overview

Sec.1
Data
Collec:on

Sec.2
Data
Storage

Sec.3
Data
Management

Management
Console

Sec.4
Data
Processing

Treasure
Query
Accelerator

Presented
by

Takahiro
Inoue
–
Chief
Data
Scien:st

Sec.5
Data
Processing
Design

Cubic
Data
Processing
Design

Graph
Data
Processing
Design

Sec.6
Data
Visualiza:on

Treasure
Viewer

Dashboard:
Metric
Insights

Business
Intelligence:
Tableau

Sec.7
Learning
Visualiza:on
PaTerns
(blog
link)

3

Introduc-on
•  Takahiro
Inoue
(TwiTer:
@doryokujin
)

•  Majored
in
Mathema:cs
in
Keio
University

•  Chief
Data
Scien:st
and
Solu:on
Architect
@
Treasure-‐Data

Presented
by

•  Leader
of
Japanese
MongoDB
Community,
MData
Scien:st

Takahiro
Inoue
–
Chief
ongo
Masters

4

Sec.0
Company
&
Product
Over
View

5

会社概要
チーム概要

2011年12月創業、米国カリフォルニア州。
創業者は日本人3人組。2013年12月現在、
社員約30名。

Hiro Yoshikawa – CEO
Open source business veteran
Kaz Ohta – CTO
Founder of world’s largest Hadoop Group

Company & Product Over View
ビッグデータの収集・保存・解析を一手に行

Jeﬀ Yuan – Director, Engineering
LinkedIn, MIT / Michale Stonebraker Lab

えるクラウドサービスを提供。他のサービス
と異なり、数日で始められるのが特徴。

Keith Goldstein – VP Sales & BD
VP, Business Devt, Tibco and Talend

Presented
by

サービスコンセプト
•  すぐに使い始められる
•  クラウドサービスとしての提供を行う
•  シンプルな機能セット、手厚いサポート

•  “Trend Setting Products” in Data for
2014 
(Database Trends and Applications)

•  “5 Hot Big Data Startups” 
(Enterprise Apps Today)

Rich Ghiossi – VP Marketing
VP Marketing, ParAccel and HP

Takahiro
Inoue
–
Chief
Data
Scien:st

投資家概要

Sierra Ventures – (Tim Guleri)
Leading venture capital ﬁrm in Big Data
Bill Tai
Renown investor, GP Charles River Ventures
Jerry Yang
Founder, Yahoo!
Yukihiro “Matz” Matusmoto
Creator, “Ruby” programming language
James Lindenbaum
Founder, Heroku

6

事業概要
(2013年12月8日現在)
>50%

>100

顧客数
四半期のアカウント数の伸び
Presented
by

>4,000

>150,000

Takahiro
Inoue
–
Chief
Data
Scien:st

顧客がデータ収集を行っている
アプリケーションサーバー数

1秒間に保存されている
レコード数

>7,000,000

>2,500,000,000,000

実行した解析ジョブの数

お客様から預かっている
レコード数

7

Product
Overview

収集・保存・解析まで単一のサービスでの提供を行うサービスはTreasure Dataのみ。
Data Collection

Data Storage

Data Analysis


Web logs

Treasure Agent

App logs

Streaming Log !
Collector (JSON)!

Sensor

Cloud DB, Web App,
& Command Line

BI Connectivity

Flexible, Scalable,
Columnar Storage!
Presented
by

REST API, SQL, Pig,
JDBC / ODBC!

Tableau, Metric Insights,
BI Tools
Dr.Sum, Excel, etc.

New!!
Treasure Viewer

Treasure Batch Query
Takahiro
Inoue
–
Chief
Data
Scien:st

&
New!!
Treasure Query Accelerator

RDBMS
Bulk Import
CRM

Parallel Upload from
CSV, MySQL, etc.!

ERP

Time to Value
Value
Proposi-on
1

New!!
Management Console
No Command Line,!
Every Operation is Here! !

Economy & Flexibility
Value
Proposi-on
2

Result Push
REST API, SQL,
Pig!

Dashboards
Custom App, Local DB,
FTP Server, etc.

Simple & Supported
Value
Proposi-on
3

8

ビッグデータ活用：7つのステージ
最適化

データ解析

What s
the
best?

予測分析

What s
a
trend?

統計分析

Presented
by

Why?

アラート

Takahiro
Inoue
–
Chief
Data
Scien:st

Error?

ドリルダウン

アドホックレポート

Where?

定型レポート

レポーティング

Where
exactly?

What
happened?

お客様の進化に合わせて、我々のサービスも進化を続ける。

9

価格プラン:
Premium
Plan
Free

Standard

Premium

Custom

価格

$0

$3000/月

$7500/月

-‐

レコード数

年間20億件

バッチクエリ

0コア

8コア

16コア

Unlimited

アドホック

クエリ

N/A

N/A

○

Unlimited

ユーザー数

1

5ユーザー

20ユーザー

Unlimited

サポート

オンライン

通常

専任

Nego:able

年間150億件
年間500億件

Unlimited

大企業様からの要望に答える形で、サポート体制の強化を行ったプランを新設

10

サービスポジショニング
マーケティングクラウド
(DMP)

クラウド

アプリケーションログの
レポーティング、分析

セキュリティ/法律上

クラウドにデータが

上げられない事が多い

センサーデータ/M2M
Internet of Things

補完関係

自社
データ 
センター

自社データセンターで

保存・解析するには

コスト・人材面でマッチしない

構造化データソース
非構造化、新しいデータ・ソース
(取引履歴、会計、個人情報、etc)
(Web、センサー、デバイス、etc)

11

なぜ Treasure
Data?
–
実装の早さ、本質的な作業に集中
•  既存のデータウェアハウスの実装プロセス
Data Collection

ETL

Data Warehouse

BI/Reporting

6ヶ月 ~ 1年, 5-10億円+maintenance, ベンダーロックイン

•  Treasure Dataのクラウドサービス
Data Collection

ETL

Data Warehouse

2 – 3週間
月額課金制での支払い
既存のBI/Reportingが利用可能

BI/Reporting

12

Value
Proposi-on

•  Faster
-me
to
value

•  Cloud
ﬂexibility
and
economics

•  Simple
and
well
supported

13

Advantage
of
Treasure
Data
Value

Advantage

Faster
-me
to
Value

Data Collection
• 
• 

Bulk Import 機能が大規模データの高速インポートを
サポート。
Streaming 機能によってほぼリアルタイムにデータ収
集を開始できる。

Data Processing
• 
• 

計算ノードのオンタイムによる追加で高速に並列処理
が実行可能。
Streaming 機能によって，デイリーのバッチ処理を待
たずして分析が可能。

14

Advantage
of
Treasure
Data
Value

Advantage

Cloud ﬂexibility and economics

Data Collection
• 
• 

テキスト，DB，FTP など多様なデータソースへのプラグ
インを用意。
Streaming 機能によってほぼリアルタイムにデータ収
集を開始できる。

Data Storage
• 
• 

最低限のコストで∞ストレージを提供。
JSON ライクの，スキーマレスを実現。

Data Processing
• 
• 

必要に応じてノード数をオンタイムで変更可能。
ストレージ・ノード数に応じた従量制の価格体系。

Data Result Export
• 

JDBC, ODBC プラグインを用意。

• 

集計済のデータのエクスポート先 CSV，ダッシュボード，
BI，DB など多様なプラグインを用意。

15

Advantage
of
Treasure
Data
Value

Advantage

Simple
and
well
supported

Data Collection
• 

Fluentd の豊富なドキュメントと様々なプラグインに
よってラーニングコストを最小化。

Data Storage
• 

Management Console からデータの参照が可能。

Data Processing
• 

SQL ライクの簡潔なクエリ言語によって実行可能。

Data Result Export
• 

Treasure Viewer, Metric Insights, Tableau をサポート。

16

Sec.1
Data
Collec-on

•  Treasure
Agent
(Fluentd)

17

Sec.1
Data
Collec-on
Data Storage

Data Collection

Data Analysis

Web logs
Treasure Agent
App logs

Streaming Log !
Collector (JSON)!

Cloud DB, Web App,
& Command Line

BI Connectivity
REST API, SQL, Pig,
JDBC / ODBC!

Flexible, Scalable,
Columnar Storage!

Sensor
&
New!!

Tableau, Tools etc.
BI Dr.Sum,

New!!
Treasure Viewer

RDBMS
Bulk Import
CRM

CSV, MySQL, etc.!

ERP

New!!
Management Console
No Command Line,!

Result Push
REST API, SQL,
Pig!

Dashboards
Metric Insights, etc.

Focus!
Time to Value


Simple & Supported

18

”データ解析の世界をシンプルにする”

”データ収集をシンプルにする”

19

データソースに応じた2種類のインポートメソッド
RDBMS

Web logs
Treasure Agent
App logs

Bulk Import

Streaming Log !
Collector (JSON)!

CSV, MySQL, etc.!

Sensor

Treasure Data
Cloud

CRM
ERP

新しいデータソース

従来のデータソース

•  「新しいデータソース」 = 各自のアプリケーション
から Treasure Data Library を利用して取得する
データ
•  例：Heroku アプリケーションログ（Heroku
Plugin）・ソーシャルゲームログ・モバイルデバイ
スログ・センサーデータ・etc…
•  これらのデータはデータ量が変化しやすく，また
既に取得項目が構造化されている。

•  「従来のデータソース」 = 既に過去に蓄積され，
データベースなどに保存されているもの。
•  例：POSデータ，Site CatalystやMedia Mindなど
の分析ツールが裏で保持しているローデータ。
•  試験プロセスとして過去の特定の期間のデータ
をアップロードする場合。
•  これらのデータは Bulk Import ツールを用いた
並列インポートで効率良く一気にクラウドスト
レージに送る。

20

Data
Acquisi-on
–
Bulk
Loader
RDBMS

App

SaaS

CSV,
TSV,
JSON,

MessagePack,
Apache,

regex,
MySQL,
FTP

FTP

Bulk
Loader

Prepare
>
Upload
>
Perform
>
Commit

Treasure Data
Cloud

21

Data
Acquisi-on
–
Streaming
Capture
Applica:on
Server

# Application Code
...
...

•  Automa:c
Micro-‐batching

•  Local
buﬀering
Fall-‐back

•  Network
Tolerance

# Post event to Treasure Data
TD.event.post('access',
{:uid=>123})
...
...

Treasure
Data
Library

Java,
Ruby,
PHP,
Perl,
Python,
Scala,
Node.js

Treasure Data
Cloud
Treasure
Agent
(local)

22

Treasure
Data
が提案する新しいデータ：
Event
Base
Logs
For
Social
Game
Analy:cs

# Application Ruby Code
...
TD.event.post(’login',
{:uid => 123,
:device => ’smart phone’
:time => 138959673
})
...
TD.event.post(’pay',
{:uid => 123,
:name => ’ItemA’,
:sub_category => ’a’,
:category => A,
:count => 2,
:price => 300
:time => 138959673
})
...
TD.event.post(’invite',
{:uid => 123,
:invited_uid => 456,
:campaign_name => ’invite_event_2’,
:time => 138959673
})

For
Web
Analy:cs

# HTML Source
...
TD.event.post(‘login',
{‘uid’ : get_session(),
‘time’ : 138959673
})
...
TD.event.post(’conversion',
{‘uid’ : 123,
‘conversion_id’ : ’conv_1’,
‘referer’ : ’www.top.html’,
‘time’ : 138959673
})
...
TD.event.post(’add_cart',
{‘uid’ : 123,
‘product_name’ : ‘book1’,
‘cart_id’ : 1,
‘time’ : 138959673
})
...
TD.event.post(’subscribe',
{‘uid’ : 123,
‘mail’ : ‘doryokujin@treasure.com’,
‘plan’ : ‘$300’,
‘time’ : 138959673
})

Treasure
Data
Library

Java,
Ruby,
PHP,
Perl,
Python,
Scala,
Node.js

,
JS
Tag
Library

23

Treasure
Data
が提案する新しいデータ：
Event
Base
Logs
For
Telema:cs
Analy:cs

# Java Code
...
TD.event.post(’ignition_on',
{‘uid’ : 123,
‘longitude’ : 135,
‘latitude’ : 36,
‘odometer’ : ‘100km’,
‘room_temperature’: 24
‘last_iginition_off_time’ : 138959000,
‘time’ : 138959673
})
...
TD.event.post(’airbag_on',
{‘uid’ : 123,
‘time’ : 138959673
})
...
TD.event.post(’pedal_accelerator',
{‘uid’ : 123,
‘speed’ : ‘70km/h’,
‘acceleration’ : ’1m/s^2’,
:time : 138959673
})

For
EC
Analy:cs

# HTML Source
...
TD.event.post(‘pay',
{‘uid’ : get_session(),
‘price’ : 1000,
‘genka’ : 800,
‘area’ : ‘Tokyo’,
‘time’ : 138959673
})
...
TD.event.post(’post_comment',
{‘uid’ : 123,
‘item_name’ : ’itemA’,
‘rating’ : 4,
‘comment’ : ‘使いやすくてTD最高です！’,
‘time’ : 138959673
})
...
TD.event.post(’visit_from_affiliate',
{‘url’ : ‘www.hoge.com’,
‘affliate_url’ : ‘www.sale.com’,
‘session_id’ : get_session(),
‘time’ : 138959673
})
…

Treasure
Data
Library

Java,
Ruby,
PHP,
Perl,
Python,
Scala,
Node.js

,
JS
Tag
Library

Heroku
Add-‐on:
Treasure
Data
Hadoop
hTps://addons.heroku.com/treasure-‐data
Before

After

Heroku Add-on: Treasure Data Hadoop によって Herokuアプリケーションからの
ログのストリーミング収集が容易かつ低コストで実現。
*
参考記事： hTp://doryokujin.hatenablog.jp/entry/2012/07/05/025737

25

Project
• 
Treasure
Data
のデータコレクタ部分は、オープンソース化

–  2013年、国内外で広く浸透

–  世界中でデータを解析可能な形で収集するのに一役買っている

"We use Fluentd to collect massive data logs for our platforms. Having
developed a system based on Fluentd, we are now effectively monitoring
and analyzing our services in real-time. We are very much satisfied with
its flexibility, especially how easy it is to use in tandem with other
systems."

"We utilize Fluentd to collect a very large amount of logs. The
logs are written into Hadoop HDFS clusters, and are also used
to analyze various service statuses in realtime. We also use
many plugins from rubygems.org to further enhance this
mechanism."

Fluentd is very similar to Apache Flume or Facebook’s
Scribe [but] it’s easier to install and maintain and has
better documentation and support than either Flume or
Scribe”

Fluentd
オープンソースプロジェクトのユーザー例

26

Before
Fluentd:
M
x
N
通りのデータ収集・活用方法

27

Aer
Fluentd:
M
+
N
通りに経路を集約して簡素化
Access logs
Apache

Alerting
Nagios

App logs
Frontend
Backend

Analysis
MongoDB
MySQL
Hadoop

System logs
syslogd
Databases

filter / buffer / routing

Archiving
Amazon S3

28

Treasure
Agent
Monitoring
Service
•  td-‐agentのモニタリングサービス

–  Treasure
Dataのクラウドサービスの一機能

–  ﬂuent-‐plugin-‐td-‐monitoringをインストール

•  td-‐agent
v1.1.18
にはこっそり既に入っております

Treasure
Agent

td-‐monitoring

Treasure
Data
Service

統計情報の定期送付
(毎分)

•  システム統計情報

•  Fluentd内部メトリクス情報

•  SSLによる送信

29

Summary
-‐
Our
2
Import
Methods
-‐
Streaming

Bulk
Loader

•  ほぼリアルタイムにログの収集が可能。
•  あらゆるデータソースを接続口として持
つ（Fluentd In-Plugin）。
•  あらゆるアウトプット形式に対応
（Fluentd Out-Plugin）。
•  定常的にネットワーク帯域を使える。
•  ネットワークの遅延などにより，多少の
データロストがある場合がある。

•  数十GB〜数TBの大規模データに対応。
•  並列処理で高速にアップロード。
•  データのロストが無く安心。

これから取得するデータはStreamingで，既に蓄積している
数年分のデータはBulk Loaderを用いることでデータの一元
管理が可能。

30

Sec.2
Data
Storage

•  Treasure
Cloud
Storage

31

Sec.2
Data
Storage
Data Collection

Data Storage

Data Analysis

Web logs
Treasure Agent
App logs

Streaming Log !
Collector (JSON)!

Cloud DB, Web App,
& Command Line

BI Connectivity
REST API, SQL, Pig,
JDBC / ODBC!

Flexible, Scalable,
Columnar Storage!

Sensor
&
New!!

New!!
Treasure Viewer

Focus!

RDBMS
Bulk Import
CRM

Tableau, Tools etc.
BI Dr.Sum,

CSV, MySQL, etc.!

ERP

Time to Value

New!!
Management Console
No Command Line,!


Result Push
REST API, SQL,
Pig!

Dashboards

Simple & Supported

32

Data
Storage
Treasure
Data

Cloud

Default
(schema-‐less)

-me

v

1384160400

{“ip”:”135.52.211.23”,
“code”:”0”}

1384162200

{“ip”:”45.25.38.156”,
“code”:”-‐1”}

1384164000

{“ip”:”97.12.76.55”,
“code”:”99”}

• 

• 
• 

Schema
applied

~30%
Faster

-me

ip
:
string

code
:
int

1384160400

135.52.211.23

0

1384162200

45.25.38.156

-‐1

1384164000

97.12.76.55

99

• 

*スキーマを定義することでパフォーマンスが
大幅にアップ。

• 

“スキーマレス”
な
JSON形式で保存

–  変更されたスキーマも既存の
テーブルへの保存が可能。

列指向データベースを採用。

スキーマを定義する事でパフォーマ
ンスが大幅に上昇。

特に時間をキーにしたフィルタリン
グに強み。

「容量を気にすることなく，あらゆる
データをとにかく蓄積していく，必要
なことものはそれから考えましょう」

33

従来のストレージ，SQL，No
SQL
210.233.9.2
-‐
-‐
[07/Aug/2006:10:45:40
+0900]
"GET
/img/
mtdc.gif
HTTP/1.1"
200
1242
"hTp://mermaid-‐tavern.com/"

"Mozilla/4.0
(compa:ble;
MSIE
6.0;
Windows
NT
5.1;
SV1)

従来の（クラウド）ストレージ

-me

Ip

1384160400
135.52.211.23

1384162200
45.25.38.156

Code

0

-‐1

• 

非構造化によるデータの保持

• 

データ抽出，集計時にファイルの読込が毎回必要

• 

210.233.9.2
-‐
-‐
[07/Aug/2006:10:45:40
+0900]
"GET
/img/
mtdc.gif
HTTP/1.1"
200
1242
"hTp://mermaid-‐tavern.com/"

"Mozilla/4.0
(compa:ble;
MSIE
6.0;
Windows
NT
5.1;
SV1)

圧縮，解凍は入出力の際にマニュアル処理

SQL
• 

構造化とインデックスで高速処理が可能

• 

スキーマの追加が困難

• 

スケールしにくく，その場合の管理コストが大

No SQL
• 

柔軟なデータ保持方法

• 

スケーリングに強いものも

• 

歴史が浅く，情報源が少ない

• 

各No SQLに特化した人材コスト

34

Treasure
Data
Cloud
のメリット

Treasure Data Cloud のメリット
Treasure
Data
Cloud

“巨大な列指向データベース“

-me

v

1384160400
{“ip”:”135.52.211.23”,
“code”:”0”}

1384162200

{“ip”:”45.25.38.156”,
“code”:”-‐1”}

1384164000

{“ip”:”97.12.76.55”,
“code”:”99”}

•  変更されたスキーマも既存のテーブル
への保存が可能
•  （S3に準ずる）高いデータの機密性・
堅牢性を保持
•  レコード数に応じた課金体系，多くの
場合は非常に低コストで利用可能
•  データは自動で圧縮して保存
•  Hive（SQL Like）クエリによるデータの
抽出および集計がダイレクトに可能
•  データの管理・運用にかかる人材コス
トが不要

35

Treasure
Management
Console
によるデータ管理

Database

Table

指定したDB名，Table名に対してHive (SQL-Like)
Query を実行することによりデータの抽出および集計
がストレージに対してダイレクトに行える。

New
Query

36

サービスポジショニング
マーケティングクラウド
(DMP)

クラウド

アプリケーションログの
レポーティング、分析

セキュリティ/法律上

クラウドにデータが

上げられない事が多い

センサーデータ/M2M
Internet of Things

補完関係

自社
データ 
センター

自社データセンターで

保存・解析するには

コスト・人材面でマッチしない

構造化データソース
非構造化、新しいデータ・ソース
(取引履歴、会計、個人情報、etc)
(Web、センサー、デバイス、etc)

37

Try
&
Error
Itera-on：中間データをどこに保持するか
- フィルタ済データ

ローデータ

クラウド

- テンポラリデータ

中間データ群を自社データセンター
に保存するだけで大幅なコスト。

様々な
Try
And
Error
の末に保存対
象となったナレッジデータのみローカ
ルに保存することでコスト減。

自社
データ 
センター

ローデータ，クラウドに上げ
られないデータ

ローデータ，フィルタ済データ，
分析用中間データ，tempデータ

Try
&
Error
Itera-on

- 分析用中間データ
- データキューブ

38

データ横串分析１：中古車相場データからの応用
業者間オークション :
B to B の中古車相場

個人間オークション :
C to C の中古車相場

業者が卸してから販売
する際のマージンに注目

業者の販売値と個人間の
販売値との乖離 = （整
備・保証料）に注目

Car Sensor :
B to C の中古車相場

新車からの値落ち率と
年式等との関係に注目
新車カタログ :
新車価格，車両情報

レビューの高さと中古車
相場の関係に注目

レビューサイト :
車両レビュー

39

データ横串分析２：オンラインゲーム横断分析

40

新しいデータ：The
Internet
of
Things(IoT)
When everything has an ID, and can send data about itself…

41

テレマティクスとは
• 
Telecommunica:on（通信）
+
Informa:cs（情報科学）

–  自動車などの移動体に通信システムを組み合わせて、リアルタイム
に情報サービスを提供すること

•  モダン・テレマティクスデータの特徴

–  車両のID（車載機）と、運転者のID（スマートフォン）を別々に管理す
ることができるため、どの車に誰が乗ったかを自動的に判別可能。
–  拡張性：車載器だけでなく，スマートフォンからも詳細なデータ取得
が可能に。モニターやカメラ、加速度センサーなど、スマートフォン
に搭載されているデバイスであれば、ハードの追加無く拡張可能。

42

Telema-cs
Data
Analysis

自動車保険:

-‐  走行距離連動型保険

-‐  運転の雑さを指標化

Bulk Import
並列アップロード

電気スタンド需要

-‐  駐車が多い施設の特定

Treasure Agent
ストリーミングアップロード!

-‐ 
-‐ 
-‐ 
-‐ 

緯度・経度

アクセルON/OFF

イグニッションON/OFF

車速・燃費

電気自動車需要

渋滞予測システム

-‐  一回の走行距離・距離が

　少ないエリアの特定

-‐  車速や単位当たりの移動距離

から渋滞エリアを特定

43

Leading/Well-Known Auto Manufacturer
•  Telematics!
–  200 sensors in new cars!
–  Each collect data every 10 seconds!

•  Business Beneﬁts!
–  Dramatically lowers friction for!
new projects!
•  And prototypes!

–  Focus resources on the cars !
and the data!
•  Not the data collection or storage!

–  Big Data pipeline up in days!
•  Minimal upfront investment!
•  Initial results in few days!

44

World’s largest OBD provider

•  Telematics!
–  On-board Diagnostics (OBD) vendor!
–  Building a embeddable solution for auto
manufacturers!

–  Looking to build a turn-key !
solution for auto manufacturers
•  But they don’t have Big Data expertise!
•  They want to focus on their OBD solution
and leadership position!

–  ROI expected at 25-50x!
•  Over using a traditional data warehouse
approach!

45

Innovative Semiconductor Company

•  Wearable Sensors!
–  Wrist-band activity sensor!
–  Tracks movement & exercise!

–  Looking to build a turn-key solution !
for ﬁtness brands
•  As a semiconductor company, !
they don’t have in-house expertise !
on Big Data infrastructure!

–  They need to develop quickly !
to secure a leadership position !
with major brands before their competitors
do!

Androi
d

46

Sec.3
Data
Management

•  Treasure
Management
Console

47

Sec.3
Data
Management
Data Collection

Data Storage

Data Analysis

Web logs
Treasure Agent
App logs

Streaming Log !
Collector (JSON)!

Cloud DB, Web App,
& Command Line

BI Connectivity
REST API, SQL, Pig,
JDBC / ODBC!

Flexible, Scalable,
Columnar Storage!

Sensor
&
New!!

Tableau, Tools etc.
BI Dr.Sum,

New!!
Treasure Viewer

RDBMS
Bulk Import
CRM

CSV, MySQL, etc.!

ERP

Result Push

New!!
Management Console
No Command Line,!

REST API, SQL,
Pig!

Dashboards

Focus!
Time to Value


Simple & Supported

48

Our
2
Management
Tools
Treasure Command Line Tools
( for Engineer )

Treasure
Management
Console

(
for
Analyst,
Decision
Maker
)

•  豊富なコマンド群を通じて詳細な情報を得
ることが可能。
•  シェルスクリプトなどと合わせて自動化が
できる。
•  UIでなくコマンドラインでないと落ち着かな
いエンジニア向けに。

•  Web UI からデータベースおよびテーブル
の状況を把握できる。
•  各テーブル内のデータサンプルを素早く
参照できる。
•  クエリの記述・実行もここから可能。
•  さらに Treasure Viewer によってすぐにグ
ラフ化することが可能。

Management
Console
の登場によって，より多くのアナリスト・
意思決定者自身がCloud
Databaseに触れる機会が増える。

49

Watch
Databases

データベースの一覧。データベース名，作成日，更新日の一覧。各
データベース名をクリックすることでテーブル一覧へ。

50

Watch
Tables

特定のデータベースのテーブル一覧。レコード数，圧縮後のデータサイズ，更
新日，作成日。各テーブル名をクリックすることでレコードの取得が可能。

51

Tail
Records

特定のテーブルに格納されているレコードを参照できる。

52

Watch
Jobs

現在実行されている・終了したジョブの一覧。クエリ内容やStatusの確認が可
能。実行中・失敗・スロークエリの特定も可能。

53

Set

Schedule

定型のバッチクエリはCRONライクな設定方法で，容易にスケジューリング可能。

54

U-liza-on

現在のデータ使用状況・コア数等を表示するUtilization。

55

Sec.4
Data
Processing

•  Treasure
Batch
Query

•  Treasure
Query
Accelerator

56

Sec.4
Data
Processing
Data Collection

Data Storage

Data Analysis

Web logs
Treasure Agent
App logs

Streaming Log !
Collector (JSON)!

Cloud DB, Web App,
& Command Line

BI Connectivity
REST API, SQL, Pig,
JDBC / ODBC!

Flexible, Scalable,
Columnar Storage!

Sensor
&
New!!

New!!
Treasure Viewer

Focus!

RDBMS
Bulk Import
CRM

Tableau, Tools etc.
BI Dr.Sum,

CSV, MySQL, etc.!

ERP

Time to Value

New!!
Management Console
No Command Line,!


Result Push
REST API, SQL,
Pig!

Dashboards

Simple & Supported

57

Big Data Infrastructure
…and building a Big Data infrastructure is complicated,
expensive, and requires skills that are very hard to hire.
Streaming
Collec:on

Batch
Collec:on

Business
Rules

Data
Integra:on

Consump:on
/

Analy:cs

Applica:on
Interfaces

Processing
Engines

Frameworks

Storage
Layer

Networking

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

O/S

Hardware

58

Cube

BI
Tools

Pig
Open
Source

MapReduce

Date,
Product
Category,
Area

Dashboard
Human
Decision

Database

Granularity

Interac-ve

Business

Goal

What
Helps?

Hive

Batch
Process

Intermediate

Data

Data
Insight

Aggregator

Batch

Data
Analysis

Machine
Learning

File
/
HDFS

User
Id

Ad-‐hoc

Impala

Small

Auto

ML
/

Graph
Mining

Deep

Enterprise

Their
Own
Products

59

Treasure
Query
Accelerator
•  Treasure
Query
Accelerator
(TQA)

–  アドホックデータ解析向けのクエリエンジン

–  既存のバッチ型クエリエンジンと比較し、10
〜
50倍高速

–  目的に応じて、既存のバッチ型クエリエンジンと使い分け
Queries

MPP
(Massively
Parallel
Processing)
Query
Executor

Plazma
Cloud
Storage

(2.5兆件のデータを保持)

60

Data Analysis
REST
API

Heavy
Liing
SQL
(Hive):

-‐  Hive’s
Built-‐in
UDFs

-‐  TD
Added
Func:ons:

-‐  Time
Func:ons

-‐  First,
Last,
Rank

-‐  Sessionize

Scheduled
Jobs

-‐  SQL,
Pig
Scripts

-‐  Data
Pushes

JDBC
Connec-vity:

-‐  Custom
Java
Apps

-‐  Standards-‐based

-‐  BI
Tool
Integra:on

Tableau
ODBC
connector

-‐  Leverages
Impala

Interac-ve
SQL

Treasure
Query
Accelerator

(Impala)

Scripted
Processing
(Pig):

-‐  DataFu
(LinkedIn)

-‐  Piggybank
(Apache)

Push
Query
Results:

-‐  MySQL,
PostgreSQL

-‐  Google
Spreadsheet

-‐  Web,
FTP,
S3

-‐  Le{ronic,
Indicee

-‐  Treasure
Data
Table

61

Granularity

Interac-ve

What
Helps?

Batch
Process

Business

Goal

Data
Insight

Aggregator

Intermediate

Data

Dashboard

Cube
User
Id

BI
Tools

Batch
Ad-‐hoc
New!!

File
/
HDFS

Small

Auto

Data
Analysis

Deep

Treasure　Query

Accelerator　

(Impala)

Machine
Learning

SQL-‐like Query
Language

Treasure
Batch

Query
(Hive)

Database

Human
Decision

Treasure

Scripted

Query
(Pig)

Date,
Product
Category,
Area

Script

多段MapReduce

62

Comparison
Between
Batch
and
Ad-‐hoc
バッチ型クエリ

SQL-‐style
Query
Language

Monitoring

アドホック型クエリ
〃

-‐
ラーニングコストが低い

-‐
参考になる情報が溢れている

-‐
Join,
Group
by,
Where
の概念は馴染み
やすい

JDBC/ODBC
Driver

BI
Tools

-‐
多数のBIがJDBC/ODBCに対応

-‐
それ以外のBIでもコネクタを作る事が
可能

For
R/Excel/SPSS

Data
Analysis

-‐
解析に必要なデータセットの抽出

-‐
Hiveの出力データ構造と解析ツールの
入力形式の親和性が良い

-‐
入力データ抽出→解析→入力データ修
正→…
のイテレーション

Yes!
Interac-ve!!

-‐
インタラクティブな操作が実現

-‐  クリック・ドラッグ操操作で直接
Treasure
Cloud
Storage
へアクセスが
可能に

For
Automa-c
System

-‐
リコメンドエンジンや広告配信システム
など，常に結果を参照し続けるシステム
に対応

63

バッチ型クエリ

定時レポーティング

配信最適化

• 

オンライン広告

アドホック型クエリ

• 

• 

顧客向けの定時パフォーマンスレ
ポーティング

1時間に1回の更新、確実に終わら
せる事が重要


• 

Web
/
Social

• 

社内
/
子会社
/
経営層向けの定期
パフォーマンスレポーティング

大量のKPIを定義し、毎日
/
毎時確
実に終わらせる事が重要


• 

リテール

• 

• 

接続しているアドネットワークのパ
フォーマンスをリアルタイム集計

集計結果から広告配信のロジックをリ
アルタイムに最適化

サポート業務効率化

• 
• 

ユーザーからのサポートリクエストに
応じてその場でデータを集計

サポートのレスポンス・対応業務を効
率化し、ユーザーの満足度向上に繋
げる

即時バスケット分析

PoS・Webサイト解析システム・タッチ • 
パネルシステムから上がってくる
データの定期レポーティング

• 
毎時確実に終わらせる事が重要

過去数年分、数百億件のデータから、
その場でバスケット分析を実行可能

商品開発のミーティングの中で、過去
データを参照。データを元にした商品
開発活動を開始

64

New
Query
(Batch)
From
Console
Query Type
を”Hive”に設定

Treasure
Management
Console
よりクエリの実行が可能。その際に

Hive(Batch
Query)，Impala(Ad-‐hoc
Query)
の選択が可能。

65

New
Query
(Ad-‐Hoc)
From
Console
Query Type
を”Impala”に設定

66

Result

Batch ならば数分，
Ad-Hoc なら数秒で結
果が得られる。
Resultを表示，csv等
にエクスポートも可能。

67

Sec.5
Data
Processing
Design

•  Cubic
Data
Processing
Design

•  Graph
Data
Processing
Design

68

Data
Scien-st
に求められる3つの”プロフェッショナル”
役割

必要なスキル

1.  適切な「前処理」を行うこと

• 
• 
• 

あらゆるデータソースからデータを収集できるインフラスキル

手元で手早く処理を行うためのシェルスクリプティング能力

泥臭い作業を続ける忍耐力

• 

専門家では無い人にも「集計」が行えるようにするための

Processing
Design
スキル

あらゆる「集計」をもれなく押さえ，パターン化する数学的ス
キル

自分は「集計」をするために存在するのではなく，「分析」
するために存在するのだという信念

2.  「集計」をパターン化して半機械
的なプロセスに落とし込むこと

• 

Focus!

• 

3.  意思決定者に対してアクショナブ
ルな考察をもたらす「分析」を行
うこと

• 
• 

深い分析をしても，専門家ではない意思決定者に理解しても
らえるための説明力
できるだけシンプルに，かつアクショナブルな考察をもたらす
ためのデータ表現（可視化）スキル

69

1.
Cubic
Data
Processing
Design:
Goal
Source

Tables

Big

Cube

Mini

Cubes

Cross

Tables

Visualize

Dashboard
非専門家による
Mini

Cube
の作成，クロス集計，
Dashboard
埋め込み

専門アナリストに
よる前処理，
Big

Cube
の作成

パターンプロセス

専門アナリストによる

KPI

Big

Cube

BI
Tools


応用分析

70

1.
Cubic
Data
Processing
Design:
For
Treasure
Data
Source

Tables

Big

Cube

専門アナリストに
よる前処理，
Big

Cube
の作成

Mini

Cubes

Cross

Tables

Visualize

Mini

Cube
の作成，クロス集計，
Dashboard
埋め込み


Dashboard

KPI

BI
Tools


応用分析

71

1.
Cubic
Data
Processing
Design:
For
Treasure
Data

Source

Big

Tables
Batch
Process
Cube

Batch
Process

Mini

Cubes

Interac-ve

Cross

Tables

Interac-ve

Visualize

Excel

Import

Treasure

Batch
Query

BI
Tools

Dashboard
Import

Treasure

Batch
Query

Treasure

Ad-‐hoc
Query

Connector

Treasure

Batch
Query

BI
Tools

On
Memory

Treasure

Ad-‐hoc
Query

72

Source

Big

Tables
Batch
Process
Cube

1-‐1.
Making
Big
Cube
専門アナリスト

• 

JOIN
可能な複数のデータソースを１
つのテーブルにまとめる。

• 

全てのディメンジョンをGROUPキーに
した集計を実行する。

• 

大規模なデータ処理になる場合は，
時間分割などをする。

Dashboard
や
BI
から直接
Big
Cube

を参照することはない。（Ad-‐hoc
クエ
リは例外。）

• 

Treasure

Batch
Query

• 
• 

Focus!

i.e.
一度Big
Cubeを作ったら，ソース
テーブルは二度と参照しない。

全ての項目を「メジャー」と「ディメン
ジョン」に分類する。

73

1.
Table
Join
hTp://doryokujin.hatenablog.jp/entry/2014/01/22/184300
Schema:
Car
Sensor：

brand_master
table

name

country_name

…

pref_master
table

code

large_area_name

…

carsensor
table

id

name

grade

model

code

body_name

price

year

shop_pref_code

shop_pref_name

Car

...
Hierarchy

catalog
table

Name

code

grade

model

series

body_code

body_name

period

…

74

1.
Cubic
Data
Processing
Design
Data
Cube

ディメンジョン（階層がある場合は最上位階層を選択する）を固定することで，各ディ
メンジョンを次元軸に，1つのメジャーを各セルに取ったData
Cubeを作成できる

Ex.
Cube
for
(
Country,
Car
Name,
Year
)
Date

Products

Car
Name

Level

Cell:

(
Prius,
Korea,
2005)

-‐-‐>
10,000

PRIUS

MARK
X

2007

FAIRLADY
Z

2006

ROAD
STAR

2005

USA

Canada
Japan

Korea

Country

Level

Year

Level

Loca-on

75

1.
Cubic
Data
Processing
Design
Star
Schema

Dimension
tables

Loca-on

Country

State

City

Products

Company

Car
Type

Car
Name

Hierarchy

(level-‐of-‐detail)

Fact
table

State

Month

Car
Name

Proﬁt

Sales

Payroll

Marke-ng

Inventory

Margin

...
Hierarchy
Car

Date

Year

Month

Day

76

3.
Business
Intelligence
Dimension,
Measure

*
Date
Dimension
はツール側で自動的にlevelを考慮してくれる

Most
Detailed
Dimensions

<city,
car
name>

–  Original
Table

Most
Detailed
Dimensions

Measure

County
State

City

Company
Car
Type

Car
Name

Date

USA

California

San
Jones

TOYOTA

Sedan

Corolla

2012-‐08-‐15

36

$3,000

USA

California

Palo
Alto

TOYOTA

Sedan

Alion

2012-‐08-‐15

24

$2,000

USA

California

Los
Altos

NISSAN

SUV

X-‐TRAIL

2012-‐08-‐16

100

$1,000

USA

New
York

ManhaTan
NISSAN

Sport

FAIRLADY
Z

2012-‐08-‐16

64

$500

Canada

Alberta

Airdrie

Sport

Road
Star

2012-‐08-‐15

4

$3,000

MAZDA

Loca:on
Hierarchy

Products
Hierarchy

–  Big
Cube

<city
County
,
car

nam
e>
<sta
USA
te,
c
ar
n
ame
<cou
>
USA
nty,

car

nam
<*,
c
eUSA
>
ar
n
ame
<cou
>
ALL
ntry
,
car

typ
<cou
eUSA
>
ntry
,
car

nam
<cou
e>
USA
ntry
,
*>
USA

…
<*,
*
>
ALL

Date
Hierarchy

Units
Sales

Holis-c

Measure

State

City

Company
Car
Type

Car
Name

Date

Avg
of
Top
20

California

San
Jones

TOYOTA

Sedan

Corolla

2012-‐08-‐15

$3,600

California

ALL

TOYOTA

Sedan

Alion

2012-‐08-‐15

$2,400

ALL

ALL

NISSAN

SUV

X-‐TRAIL

2012-‐08-‐16

$1,000

ALL

ALL

NISSAN

Sport

FAIRLADY
Z

2012-‐08-‐16

$640

California

San
Jones

TOYOTA

Sedan

ALL

2012-‐08-‐15

$3,600

California

San
Jones

TOYOTA

ALL

ALL

2012-‐08-‐15

$1,100

California

San
Jones

ALL

ALL

ALL

2012-‐08-‐15

$2,300

…

…

…

…

…

…

ALL

ALL

ALL

ALL

ALL

ALL

…
$720

77

1-‐2.
Making
Mini
Cubes
from
Big
Cube
Big

Cube

Batch
Process

Mini

Cubes



• 
• 

Focus!

例1.Time：
year
>
month
>
day
>
hour

• 

例2.Item：category

>
sub_category
>

item_name

• 
On
Memory

階層を持ったディメンジョンは1つの
ディメンジョンとして扱う。

• 

Treasure

Batch
Query

必要名ディメンジョンの組み合わせ
だけ，Mini
Cubeが作られる。

• 

Treasure

Batch
Query

軸にするディメンジョンを最大2つ選
択し，Mini
Cubeを作成する。

Dashboard
や
BIから直接参照するこ
とを前提としているので，Mini
Cubes
の保存場所はデータベース（イン
デックスをきちんと作成しておく），メ
モリ上になる。

78

1-‐3.
Making
Cross
Table
from
Mini
Cubes
Mini

Cubes

Interac-ve

Cross

Tables

Excel



Mini
Cube
を2つのディメンジョンに限
定したのはクロス集計における2軸
の設定を自動で行うため。

• 

クロステーブルの各セルの値には合
計，数，平均などが入る。

• 
Treasure

Batch
Query

さらに
Mini
Cube
の中でクロス集計
が必要なものは
Excel
などの統計
ツールや
BI
の機能を使って作成す
る。

• 

Treasure

Batch
Query

• 

クロス集計をインプットとした可視化
はよりわかりやすいものになりやす
い。

BI
Tools

On
Memory

Focus!

79

1-‐4.
Repor-ng
from
Mini
Cube
or
Cross
Table
Mini

Cubes

Interac-ve

Cross

Tables

Interac-ve

Visualize



Excel

• 

Treasure

Batch
Query

作成したMini
Cubeお
よびCross
Tableを
Dashboard
および
BI
のインプットデータと
する。

• 

Import

レポーティング中に新
しい項目の集計が必
要な場合はBig
Cube
からMini
Cubeに切り
出してそれを新たな
インプットとする。

BI
Tools

Dashboard
Import

Treasure

Ad-‐hoc
Query

Connector

Treasure

Batch
Query

BI
Tools

On
Memory

Treasure

Ad-‐hoc
Query

専門アナリスト

Focus!

80

2.
Graph
Data
Processing
Design

81

2.
Graph
Data
Processing
Design

• 

データのテーブルまたは項目を，「ディメンジョン」「メジャー」で分けるのではなく，ノー
ド・エッジ・ステータスのグラフ（Property
Graph）で表現する。

• 

上記の例では，ブックレビューデータの例。ユーザーが本をレビューした場合，ユー
ザー（ノード）が本（ノード）に対して“review”（エッジ）をした場合の
Property
Graph。

82

2-‐1.
Property
Graph
(Access
Log)

• 

アクセスログもまた
Property
Graph
による表現が可能。ユーザーが特定できていなく
ても，ページ間（ノード）の遷移:
“access”
というアクションをエッジにしてグラフに落とし
込む。

83

2-‐2.
Property
Graph
(Book
Review
Dataset)

• 

引き続きブックレビューデータの例。ユーザー（ノード）は本（ノード）に対して”add
to

list”,
“review”,
“buy”
という3種類のアクションを起こしている。

• 

さらに別ユーザー（ノード）がレビューしたユーザーに対して
“comment”
というアクショ
ンを起こしている。

84

2-‐3.
Property
Graph
(Social
Game
Dataset)

• 

• 

ソーシャルゲームデータの例。ユーザー（ノード）はアイテム（ノード）に対して
“pay”
（エッジ）アクションを，仮想通貨（ノード）に対して
“use”,
“get”
（エッジ）アクションを起
こしている。また，アイテムは上位階層としてカテゴリ（ノード集合）を持つ。

また，ユーザー間に対して
“invite”（エッジ）アクションを，自分自身に対して
“login”,

“register”
を行っている。

85

2-‐4.
Property
Graph
Visualiza-on

• 

ブックレビューの分析事例。それぞれのアクション
“review”,
“comment”,
“add
to

list”（エッジ）を分析軸としてデータ集計を行う。

• 

ブックレビューデータセットによるデータ解析入門（準備編）

• 

ブックレビューデータセットによるデータ解析入門（実践編1）

• 

ブックレビューデータセットによるデータ解析入門（実践編2）

86

Sec.6
Data
Visualiza-on

•  1.
Treasure
Viewer

•  2.
Dashboard:
Metric
Insights

•  3.
Business
Intelligence:
Tableau

87

1.
Treasure
Viewer
目的

–  TD
Management
Console
からグラフを素早く参照するため

–  サンプルデータを素早く可視化し，全体像を把握するため

このために作られたのが

要求

–  集計結果を表・グラフですぐ表示できること

–  TD
Management
Console
内で機能すること

–  JS
ライブラリによるインタラクティブかつ綺麗なチャートである事

Treasure Viewer

88

1.
Treasure
Viewer
•  データ可視化ツールをデフォルトで提供

–  TQA
(Treasure
Query
Accelerator)
を利用し、大量のデータからドラッグ
&

ドロップでデータの可視化が行える

–  簡易な可視化ツールの扱い。高度な機能・要件が求められる場合、パー
トナーのBIツールを使用してお客様の要件を満たす事も多い。

Treasure
Viewer

3rd
Party
BI
Tool
(Tableau)

89

1.
Treasure
Viewer
1. Database,
Table名を選択

90

1.
Treasure
Viewer
2. グラフを選択

3. X-軸，Y-軸とな
るカラムを選択，
ドラッグ＆ドロップ

レコードサンプル
を表示

91

1.
Treasure
Viewer
グラフを表示

自動的にクエリが
生成される

92

Dashboard(MI)
と
BI
(Tableau)
の違い
Dashboard ( Metric Insights )

BI
(
Tableau
)

• 

毎日更新されるデータ (KPI) を素早く参照する
ため
解析者に関わらず全てのユーザーが参照する
ため
異常値やイベントなどの効果を素早く把握する
ため
Smart Phone や Tablet からも参照するため

• 

異常検出機能，およびアラート機能を備えてい
ること
チャートへのアノテーション機能を備えているこ
と
チャートの一覧性・わかりやすさを重視してい
ること
（任意の時間インターバルでの）データ自動更
新機能を持っていること
素早く編集可能な互いに独立したパネル（ウィ
ジェット）を持っていること
様々なデータベース・ファイル形式と接続でき
るコネクタを備えていること

• 
• 

• 

目的

• 
• 

• 
• 
• 

要請

• 
• 
• 

• 
• 
• 

• 
• 
• 

様々の切り口・セグメントの組合せでデータを閲覧す
るため
インタラクティブな操作でドリルダウンや軸の切り替
えを行うため
様々なチャートとテーブルを組合せた情報表現を行
うため
プレゼンに耐えうるクオリティの高いレポートを作成
するため
インタラクティブな操作が可能なこと
豊富なチャートライブラリ，ダッシュボードエディタの
実装していること
最適化された中間データ構造（Data Cubeなど）を備
えていること
マウス操作によってデータの深堀りや切り口の切り
替えが可能なこと
JDBC / ODBC コネクタを初めとした様々なデータソー
スとの接続口を持つこと

94

2.
Dashboard
目的

–  毎日更新されるデータ
(KPI)
を素早く参照するため

–  解析者に関わらず全てのユーザーが参照するため

–  異常値やイベントなどの効果を素早く把握するため

–  Smart
Phone
や
Tablet
からも参照するため

Metric Insights はこれらの

要求

役割を高次元で担っている

–  異常検出機能，およびアラート機能を備えていること

–  チャートへのアノテーション機能を備えていること

–  チャートの一覧性・わかりやすさを重視していること

–  （任意の時間インターバルでの）データ自動更新機能を持っていること

–  素早く編集可能な互いに独立したパネル（ウィジェット）を持っていること

–  様々なデータベース・ファイル形式と接続できるコネクタを備えていること

95

特徴:

–  メールアラート・アノテーション機能

–  1つ1つのウィジェットにクエリを埋め込む独立
型

–  あらゆるデータソース：{
テキスト，データベ
ース，TD
Cloud
Storage
}
からのウィジェット
を並べる事ができる

–  {
クエリ，集計インターバル，チャートタイプ
，データソース
}
指定のみで自動更新

–  ピボットテーブル，バブル /
ボックス /
ファ
ンネルチャートにも対応

–  セットアップが容易

96

Data
Personaliza-on

97

2.
Dashboard:
Widget
Seungs
1. 集計インターバ
ルを設定
2. メジャーの種類
を設定

3. カテゴリを設定

98

2.
Dashboard:
Widget
Seungs
4. Plug-inを選択

5. 接続するデー
タソースを指定
6. クエリを記述

7. Sample Result
を確認

99

2.
Dashboard:
Widget
Seungs

100

Personalized
Email
Digest
Delivered
to
Users

トレンドライン

View 詳細

重要な変化に関する
アラート
コメント

101

Unique
Product
Beneﬁts
日次
Sales
Chart

期待(予想)変動帯

アラートなし

統計的に有意な変化につい
てはアラートで通知

102

3.
Business
Intelligence:
Tableau

103

3.
Business
Intelligence
Goal

–  Overview
ﬁrst,
zoom
and
ﬁlter,
then
details-‐ondemand

–  様々の切り口・セグメントの組合せでデータを閲覧するため

–  インタラクティブな操作でドリルダウンや軸の切り替えを行うため

–  様々なチャートとテーブルを組合せた情報表現を行うため

–  プレゼンに耐えうるクオリティの高いレポートを作成するため

Demand

–  インタラクティブな操作が可能なこと

Tableau はこれらの
役割を高次元で担っている

–  豊富なチャートライブラリ，ダッシュボードエディタの実装していること

–  最適化された中間データ構造（Data
Cubeなど）を備えていること

–  マウス操作によってデータの深堀りや切り口の切り替えが可能なこと

–  JDBC
/
ODBC
コネクタを初めとした様々なデータソースとの接続口を持つこと

104

3.
Business
Intelligence
Tableau

–  大多数の企業の導入実績（Zynga,
Nokia,
eBay,
etc…）

–  TD
用コネクタなど，連携が容易

–  豊富なチャートライブラリとデータソースコネクタを持つ

114

4.
MI
as
KPI
Dashboard
&
Tableau
as
Repor-ng
Tool
C-level Execs

Treasure
Cloud Storage

KPIs

Data-‐Driven
Aler:ng

Collabora:on

Email
Burs:ng

Managers

Tableau
Dashboards

Employees
Increased
and
more
:mely
usage

115

Metric
Manager
for
Tableau
・上司

・意思決定者

・ディレクター

・エンジニア

・マネージャー

・アナリスト

参照，モニター，
アラート

KPI考察，

レポートサマリ

Treasure
Cloud Storage

定時
KPI
取得クエリ

複数の
KPI
を組合せた

• 

主要 KPI
を一覧，モニタリングするツールとしての Metric
Insights

• 

MI
の
KPI
群を組み合わせ，数値テーブルや考察を並べたレポー

応用的な分析
クエリ

ティングツールとしての Tableau

• 

MI
へのダッシュボード埋込フローはプロセス化して学生アルバイト
でも行えるように。

• 

Tableau
へのレポーティングフローは専門アナリストが行う。

Treasure
Cloud Storage

116

Sec.7
Learning
Visualiza-on
Paverns

•  Learning
Visualiza:on
PaTerns
Part.1

　　hTp://doryokujin.hatenablog.jp/entry/2012/07/17/012854

•  Learning
Visualiza:on
PaTerns
Part.2


•  Learning
Visualiza:on
PaTerns
Part.3


117

Discussion & Q and A

Treasure Data Intro for Data Enthusiast!!

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Treasure Data Intro for Data Enthusiast!!

Similar to Treasure Data Intro for Data Enthusiast!! (20)

More from Takahiro Inoue

More from Takahiro Inoue (20)

Recently uploaded

Recently uploaded (8)

Treasure Data Intro for Data Enthusiast!!