SlideShare a Scribd company logo
1 of 117
Download to read offline
1	
  

February 14th, 2014

Presented	
  by	
  
	
  
	
  

Takahiro	
  Inoue	
  –	
  Chief	
  Data	
  Scien:st	
  
2	
  

Agenda	
Sec.0	
  Company	
  &	
  Product	
  Overview	
  
Sec.1	
  Data	
  Collec:on	
  
Sec.2	
  Data	
  Storage	
  
Sec.3	
  Data	
  Management	
  
Management	
  Console	
  

Sec.4	
  Data	
  Processing	
  
Treasure	
  Query	
  Accelerator	
  

Presented	
  by	
  
	
  
	
  

Takahiro	
  Inoue	
  –	
  Chief	
  Data	
  Scien:st	
  

Sec.5	
  Data	
  Processing	
  Design	
  
Cubic	
  Data	
  Processing	
  Design	
  
Graph	
  Data	
  Processing	
  Design	
  

Sec.6	
  Data	
  Visualiza:on	
  

Treasure	
  Viewer	
  	
  
Dashboard:	
  Metric	
  Insights	
  
Business	
  Intelligence:	
  Tableau	
  

Sec.7	
  Learning	
  Visualiza:on	
  PaTerns	
  (blog	
  link)	
  
3	
  

Introduc-on	
•  Takahiro	
  Inoue	
  (TwiTer:	
  @doryokujin	
  )	
  
•  Majored	
  in	
  Mathema:cs	
  in	
  Keio	
  University	
  
•  Chief	
  Data	
  Scien:st	
  and	
  Solu:on	
  Architect	
  @	
  Treasure-­‐Data	
  
Presented	
  by	
  
	
  
	
  

•  Leader	
  of	
  Japanese	
  MongoDB	
  Community,	
  MData	
  Scien:st	
  
Takahiro	
  Inoue	
  –	
  Chief	
   ongo	
  Masters	
  
4	
  

Sec.0	
  Company	
  &	
  Product	
  Over	
  View	
  
5	
  

会社概要	
チーム概要

2011年12月創業、米国カリフォルニア州。
創業者は日本人3人組。2013年12月現在、
社員約30名。

Hiro Yoshikawa – CEO
Open source business veteran
Kaz Ohta – CTO
Founder of world’s largest Hadoop Group

Company & Product Over View
ビッグデータの収集・保存・解析を一手に行

Jeff Yuan – Director, Engineering
LinkedIn, MIT / Michale Stonebraker Lab

えるクラウドサービスを提供。他のサービス
と異なり、数日で始められるのが特徴。

Keith Goldstein – VP Sales & BD
VP, Business Devt, Tibco and Talend

Presented	
  by	
  
	
  
	
  

サービスコンセプト
•  すぐに使い始められる
•  クラウドサービスとしての提供を行う
•  シンプルな機能セット、手厚いサポート

•  “Trend Setting Products” in Data for
2014

(Database Trends and Applications)

•  “5 Hot Big Data Startups”

(Enterprise Apps Today)

Rich Ghiossi – VP Marketing
VP Marketing, ParAccel and HP

Takahiro	
  Inoue	
  –	
  Chief	
  Data	
  Scien:st	
  
投資家概要

Sierra Ventures – (Tim Guleri)
Leading venture capital firm in Big Data
Bill Tai
Renown investor, GP Charles River Ventures
Jerry Yang
Founder, Yahoo!
Yukihiro “Matz” Matusmoto
Creator, “Ruby” programming language
James Lindenbaum
Founder, Heroku
6	
  

事業概要	
  (2013年12月8日現在)	
>50%

>100

顧客数
Company & Product Over View
四半期のアカウント数の伸び
Presented	
  by	
  

>4,000

	
  
	
  

>150,000

Takahiro	
  Inoue	
  –	
  Chief	
  Data	
  Scien:st	
  

顧客がデータ収集を行っている
アプリケーションサーバー数

1秒間に保存されている
レコード数

>7,000,000

>2,500,000,000,000

実行した解析ジョブの数

お客様から預かっている
レコード数
7	
  

Product	
  Overview	

収集・保存・解析まで単一のサービスでの提供を行うサービスはTreasure Dataのみ。
Data Collection

Data Storage

Data Analysis

Company & Product Over View

Web logs

Treasure Agent

App logs

Streaming Log !
Collector (JSON)!

Sensor

Cloud DB, Web App,
& Command Line

BI Connectivity

Flexible, Scalable,
Columnar Storage!
Presented	
  by	
  

REST API, SQL, Pig,
JDBC / ODBC!

Tableau, Metric Insights,
BI Tools
Dr.Sum, Excel, etc.

New!!	
Treasure Viewer

	
  
	
  

Treasure Batch Query
Takahiro	
  Inoue	
  –	
  Chief	
  Data	
  Scien:st	
  
&
New!!	
Treasure Query Accelerator

RDBMS
Bulk Import
CRM

Parallel Upload from
CSV, MySQL, etc.!

ERP

Time to Value
Value	
  Proposi-on	
  1	

New!!	
Management Console
No Command Line,!
Every Operation is Here! !

Economy & Flexibility
Value	
  Proposi-on	
  2	

Result Push
REST API, SQL,
Pig!

Dashboards
Custom App, Local DB,
FTP Server, etc.

Simple & Supported
Value	
  Proposi-on	
  3
8	
  

ビッグデータ活用:7つのステージ	
最適化	
  
データ解析	
  

What s	
  the	
  best?	
  

予測分析	
  

What s	
  a	
  trend?	
  

統計分析	
  

Presented	
  by	
  

Why?	
  

	
  
	
  

アラート	
  

Takahiro	
  Inoue	
  –	
  Chief	
  Data	
  Scien:st	
  

Error?	
  

ドリルダウン	
  
アドホックレポート	
  

Where?	
  

定型レポート	
  

レポーティング	
  

Where	
  exactly?	
  

What	
  happened?	
  

お客様の進化に合わせて、我々のサービスも進化を続ける。	
  
9	
  

価格プラン:	
  Premium	
  Plan	
Free	
  

Standard	
  

Premium	
  	
  

Custom	
  

価格	
  

$0	
  

$3000/月	
  

$7500/月	
  

-­‐	
  	
  

レコード数	
  

年間20億件	
  

バッチクエリ	
  

0コア	
  

8コア	
  

16コア	
  

Unlimited	
  

アドホック	
  
クエリ	
  

N/A	
  

N/A	
  

○	
  

Unlimited	
  

ユーザー数	
  

1	
  

5ユーザー	
  

20ユーザー	
  

Unlimited	
  

サポート	
  

オンライン	
  

通常	
  

専任	
  

Nego:able	
  

年間150億件	
   年間500億件	
  

Unlimited	
  

大企業様からの要望に答える形で、サポート体制の強化を行ったプランを新設	
  
10	
  

サービスポジショニング	
マーケティングクラウド
(DMP)

クラウド

アプリケーションログの
レポーティング、分析

セキュリティ/法律上	
  
クラウドにデータが	
  
上げられない事が多い	
  

センサーデータ/M2M
Internet of Things

補完関係	
  
自社
データ

センター

自社データセンターで	
  
保存・解析するには	
  
コスト・人材面でマッチしない	
  

構造化データソース
非構造化、新しいデータ・ソース
(取引履歴、会計、個人情報、etc)
 (Web、センサー、デバイス、etc)
11	
  

なぜ Treasure	
  Data?	
  –	
  実装の早さ、本質的な作業に集中	
•  既存のデータウェアハウスの実装プロセス
Data Collection

ETL

Data Warehouse

BI/Reporting

6ヶ月 ~ 1年, 5-10億円+maintenance, ベンダーロックイン

•  Treasure Dataのクラウドサービス
Data Collection

ETL

Data Warehouse

2 – 3週間
月額課金制での支払い
既存のBI/Reportingが利用可能

BI/Reporting
12	
  

Value	
  Proposi-on	
  	

•  Faster	
  -me	
  to	
  value	
  
	
  

•  Cloud	
  flexibility	
  and	
  economics	
  
	
  

•  Simple	
  and	
  well	
  supported	
  
	
  
13	
  

Advantage	
  of	
  Treasure	
  Data	
Value

Advantage

Faster	
  -me	
  to	
  Value

Data Collection
• 
• 

Bulk Import 機能が大規模データの高速インポートを
サポート。
Streaming 機能によってほぼリアルタイムにデータ収
集を開始できる。

Data Processing
• 
• 

計算ノードのオンタイムによる追加で高速に並列処理
が実行可能。
Streaming 機能によって,デイリーのバッチ処理を待
たずして分析が可能。
14	
  

Advantage	
  of	
  Treasure	
  Data	
Value

Advantage

Cloud flexibility and economics

Data Collection
• 
• 

テキスト,DB,FTP など多様なデータソースへのプラグ
インを用意。
Streaming 機能によってほぼリアルタイムにデータ収
集を開始できる。

Data Storage
• 
• 

最低限のコストで∞ストレージを提供。
JSON ライクの,スキーマレスを実現。

Data Processing
• 
• 

必要に応じてノード数をオンタイムで変更可能。
ストレージ・ノード数に応じた従量制の価格体系。

Data Result Export
• 

JDBC, ODBC プラグインを用意。

• 

集計済のデータのエクスポート先 CSV,ダッシュボード,
BI,DB など多様なプラグインを用意。
15	
  

Advantage	
  of	
  Treasure	
  Data	
Value

Advantage

Simple	
  and	
  well	
  supported

Data Collection
• 

Fluentd の豊富なドキュメントと様々なプラグインに
よってラーニングコストを最小化。

Data Storage
• 

Management Console からデータの参照が可能。

Data Processing
• 

SQL ライクの簡潔なクエリ言語によって実行可能。

Data Result Export
• 

Treasure Viewer, Metric Insights, Tableau をサポート。
16	
  

Sec.1	
  Data	
  Collec-on	
  
•  Treasure	
  Agent	
  (Fluentd)	
  
17	
  

Sec.1	
  Data	
  Collec-on	
Data Storage

Data Collection

Data Analysis

Web logs
Treasure Agent
App logs

Streaming Log !
Collector (JSON)!

Cloud DB, Web App,
& Command Line

BI Connectivity
REST API, SQL, Pig,
JDBC / ODBC!

Flexible, Scalable,
Columnar Storage!

Sensor
Treasure Batch Query
&
New!!	
Treasure Query Accelerator

Tableau, Tools etc.
BI Dr.Sum,

New!!	
Treasure Viewer

RDBMS
Bulk Import
CRM

Parallel Upload from
CSV, MySQL, etc.!

ERP

New!!	
Management Console
No Command Line,!
Every Operation is Here! !

Result Push
REST API, SQL,
Pig!

Dashboards
Metric Insights, etc.

Focus!	
Time to Value

Economy & Flexibility

Simple & Supported
18	
  

”データ解析の世界をシンプルにする”	
  

”データ収集をシンプルにする”	
  
19	
  

データソースに応じた2種類のインポートメソッド	
RDBMS

Web logs
Treasure Agent
App logs

Bulk Import

Streaming Log !
Collector (JSON)!

Parallel Upload from
CSV, MySQL, etc.!

Sensor

Treasure Data
Cloud

CRM
ERP

新しいデータソース

従来のデータソース

•  「新しいデータソース」 = 各自のアプリケーション
から Treasure Data Library を利用して取得する
データ
•  例:Heroku アプリケーションログ(Heroku
Plugin)・ソーシャルゲームログ・モバイルデバイ
スログ・センサーデータ・etc…
•  これらのデータはデータ量が変化しやすく,また
既に取得項目が構造化されている。

•  「従来のデータソース」 = 既に過去に蓄積され,
データベースなどに保存されているもの。
•  例:POSデータ,Site CatalystやMedia Mindなど
の分析ツールが裏で保持しているローデータ。
•  試験プロセスとして過去の特定の期間のデータ
をアップロードする場合。
•  これらのデータは Bulk Import ツールを用いた
並列インポートで効率良く一気にクラウドスト
レージに送る。
20	
  

Data	
  Acquisi-on	
  –	
  Bulk	
  Loader	
RDBMS	
  

App	
  

SaaS	
  

CSV,	
  TSV,	
  JSON,	
  
MessagePack,	
  Apache,	
  
regex,	
  MySQL,	
  FTP	
  

FTP	
  

	
  

Bulk	
  Loader	
  
	
  

Prepare	
  >	
  Upload	
  >	
  Perform	
  >	
  Commit	
  

Treasure Data
Cloud
21	
  

Data	
  Acquisi-on	
  –	
  Streaming	
  Capture	
Applica:on	
  Server	
  
# Application Code
...
...

•  Automa:c	
  Micro-­‐batching	
  
•  Local	
  buffering	
  Fall-­‐back	
  
•  Network	
  Tolerance	
  

# Post event to Treasure Data
TD.event.post('access',
{:uid=>123})
...
...

Treasure	
  Data	
  Library	
  
Java,	
  Ruby,	
  PHP,	
  Perl,	
  Python,	
  Scala,	
  Node.js	
  	
  	
  

Treasure Data
Cloud
Treasure	
  Agent	
  (local)	
  
22	
  

Treasure	
  Data	
  が提案する新しいデータ:	
  Event	
  Base	
  Logs	
For	
  Social	
  Game	
  Analy:cs	
  
# Application Ruby Code
...
# Post event to Treasure Data
TD.event.post(’login',
{:uid => 123,
:device => ’smart phone’
:time => 138959673
})
...
TD.event.post(’pay',
{:uid => 123,
:name => ’ItemA’,
:sub_category => ’a’,
:category => A,
:count => 2,
:price => 300
:time => 138959673
})
...
TD.event.post(’invite',
{:uid => 123,
:invited_uid => 456,
:campaign_name => ’invite_event_2’,
:time => 138959673
})

For	
  Web	
  Analy:cs	
  
# HTML Source
...
# Post event to Treasure Data
TD.event.post(‘login',
{‘uid’ : get_session(),
‘time’ : 138959673
})
...
TD.event.post(’conversion',
{‘uid’ : 123,
‘conversion_id’ : ’conv_1’,
‘referer’ : ’www.top.html’,
‘time’ : 138959673
})
...
TD.event.post(’add_cart',
{‘uid’ : 123,
‘product_name’ : ‘book1’,
‘cart_id’ : 1,
‘time’ : 138959673
})
...
TD.event.post(’subscribe',
{‘uid’ : 123,
‘mail’ : ‘doryokujin@treasure.com’,
‘plan’ : ‘$300’,
‘time’ : 138959673
})

Treasure	
  Data	
  Library	
  
Java,	
  Ruby,	
  PHP,	
  Perl,	
  Python,	
  Scala,	
  Node.js	
  	
  ,	
  JS	
  Tag	
  Library	
  
23	
  

Treasure	
  Data	
  が提案する新しいデータ:	
  Event	
  Base	
  Logs	
For	
  Telema:cs	
  Analy:cs	
  
# Java Code
...
# Post event to Treasure Data
TD.event.post(’ignition_on',
{‘uid’ : 123,
‘longitude’ : 135,
‘latitude’ : 36,
‘odometer’ : ‘100km’,
‘room_temperature’: 24
‘last_iginition_off_time’ : 138959000,
‘time’ : 138959673
})
...
TD.event.post(’airbag_on',
{‘uid’ : 123,
‘longitude’ : 135,
‘latitude’ : 36,
‘time’ : 138959673
})
...
TD.event.post(’pedal_accelerator',
{‘uid’ : 123,
‘longitude’ : 135,
‘latitude’ : 36,
‘speed’ : ‘70km/h’,
‘acceleration’ : ’1m/s^2’,
:time : 138959673
})

For	
  EC	
  Analy:cs	
  
# HTML Source
...
# Post event to Treasure Data
TD.event.post(‘pay',
{‘uid’ : get_session(),
‘price’ : 1000,
‘genka’ : 800,
‘area’ : ‘Tokyo’,
‘time’ : 138959673
})
...
TD.event.post(’post_comment',
{‘uid’ : 123,
‘item_name’ : ’itemA’,
‘rating’ : 4,
‘comment’ : ‘使いやすくてTD最高です!’,
‘time’ : 138959673
})
...
TD.event.post(’visit_from_affiliate',
{‘url’ : ‘www.hoge.com’,
‘affliate_url’ : ‘www.sale.com’,
‘session_id’ : get_session(),
‘time’ : 138959673
})
…

Treasure	
  Data	
  Library	
  
Java,	
  Ruby,	
  PHP,	
  Perl,	
  Python,	
  Scala,	
  Node.js	
  	
  ,	
  JS	
  Tag	
  Library	
  
Heroku	
  Add-­‐on:	
  Treasure	
  Data	
  Hadoop	
hTps://addons.heroku.com/treasure-­‐data	
Before

After

Heroku Add-on: Treasure Data Hadoop によって Herokuアプリケーションからの
ログのストリーミング収集が容易かつ低コストで実現。
*	
  参考記事: hTp://doryokujin.hatenablog.jp/entry/2012/07/05/025737
25	
  

Project	
•  	
  Treasure	
  Data	
  のデータコレクタ部分は、オープンソース化	
  
–  2013年、国内外で広く浸透	
  
–  世界中でデータを解析可能な形で収集するのに一役買っている	
  
"We use Fluentd to collect massive data logs for our platforms. Having
developed a system based on Fluentd, we are now effectively monitoring
and analyzing our services in real-time. We are very much satisfied with
its flexibility, especially how easy it is to use in tandem with other
systems."

"We utilize Fluentd to collect a very large amount of logs. The
logs are written into Hadoop HDFS clusters, and are also used
to analyze various service statuses in realtime. We also use
many plugins from rubygems.org to further enhance this
mechanism." 

Fluentd is very similar to Apache Flume or Facebook’s
Scribe [but] it’s easier to install and maintain and has
better documentation and support than either Flume or
Scribe”

Fluentd	
  オープンソースプロジェクトのユーザー例	
  
26	
  

Before	
  Fluentd:	
  M	
  x	
  N	
  通りのデータ収集・活用方法

27	
  

Aer	
  Fluentd:	
  M	
  +	
  N	
  通りに経路を集約して簡素化	
Access logs
Apache

Alerting
Nagios

App logs
Frontend
Backend

Analysis
MongoDB
MySQL
Hadoop

System logs
syslogd
Databases

filter / buffer / routing

Archiving
Amazon S3
28	
  

Treasure	
  Agent	
  Monitoring	
  Service	
•  td-­‐agentのモニタリングサービス	
  
–  Treasure	
  Dataのクラウドサービスの一機能	
  
–  fluent-­‐plugin-­‐td-­‐monitoringをインストール	
  
•  td-­‐agent	
  v1.1.18	
  にはこっそり既に入っております	
  
Treasure	
  Agent	
  

td-­‐monitoring	
  

Treasure	
  Data	
  Service	
  

統計情報の定期送付	
  (毎分)	
  
•  システム統計情報	
  
•  Fluentd内部メトリクス情報	
  
•  SSLによる送信	
  
29	
  

Summary	
  -­‐	
  Our	
  2	
  Import	
  Methods	
  -­‐	
Streaming

Bulk	
  Loader

•  ほぼリアルタイムにログの収集が可能。
•  あらゆるデータソースを接続口として持
つ(Fluentd In-Plugin)。
•  あらゆるアウトプット形式に対応
(Fluentd Out-Plugin)。
•  定常的にネットワーク帯域を使える。
•  ネットワークの遅延などにより,多少の
データロストがある場合がある。

•  数十GB〜数TBの大規模データに対応。
•  並列処理で高速にアップロード。
•  データのロストが無く安心。

これから取得するデータはStreamingで,既に蓄積している
数年分のデータはBulk Loaderを用いることでデータの一元
管理が可能。
30	
  

Sec.2	
  Data	
  Storage	
  
•  Treasure	
  Cloud	
  Storage	
  
31	
  

Sec.2	
  Data	
  Storage	
Data Collection

Data Storage

Data Analysis

Web logs
Treasure Agent
App logs

Streaming Log !
Collector (JSON)!

Cloud DB, Web App,
& Command Line

BI Connectivity
REST API, SQL, Pig,
JDBC / ODBC!

Flexible, Scalable,
Columnar Storage!

Sensor
Treasure Batch Query
&
New!!	
Treasure Query Accelerator

New!!	
Treasure Viewer

Focus!	

RDBMS
Bulk Import
CRM

Tableau, Tools etc.
BI Dr.Sum,

Parallel Upload from
CSV, MySQL, etc.!

ERP

Time to Value

New!!	
Management Console
No Command Line,!
Every Operation is Here! !

Economy & Flexibility

Result Push
REST API, SQL,
Pig!

Dashboards
Metric Insights, etc.

Simple & Supported
32	
  

Data	
  Storage	
Treasure	
  Data	
  
Cloud	
  

Default	
  (schema-­‐less)	
  
-me	
  

v	
  

1384160400	
  

{“ip”:”135.52.211.23”,	
  “code”:”0”}	
  

1384162200	
  

{“ip”:”45.25.38.156”,	
  “code”:”-­‐1”}	
  

1384164000	
  

{“ip”:”97.12.76.55”,	
  “code”:”99”}	
  

• 

• 
• 

Schema	
  applied	
  

~30%	
  Faster	
  

-me	
  

ip	
  :	
  string	
  

code	
  :	
  int	
  

1384160400	
  

135.52.211.23	
  

0	
  

1384162200	
  

45.25.38.156	
  

-­‐1	
  

1384164000	
  

97.12.76.55	
  

99	
  

• 

*スキーマを定義することでパフォーマンスが
大幅にアップ。

• 

“スキーマレス”	
  な	
  JSON形式で保存	
  
–  変更されたスキーマも既存の
テーブルへの保存が可能。	
  
列指向データベースを採用。	
  
スキーマを定義する事でパフォーマ
ンスが大幅に上昇。	
  
特に時間をキーにしたフィルタリン
グに強み。	
  
「容量を気にすることなく,あらゆる
データをとにかく蓄積していく,必要
なことものはそれから考えましょう」	
  
33	
  

従来のストレージ,SQL,No	
  SQL	
210.233.9.2	
  -­‐	
  -­‐	
  [07/Aug/2006:10:45:40	
  +0900]	
  "GET	
  /img/
mtdc.gif	
  HTTP/1.1"	
  200	
  1242	
  "hTp://mermaid-­‐tavern.com/"	
  
"Mozilla/4.0	
  (compa:ble;	
  MSIE	
  6.0;	
  Windows	
  NT	
  5.1;	
  SV1)	
  

従来の(クラウド)ストレージ

-me	
  

Ip	
  

1384160400	
   135.52.211.23	
  
1384162200	
   45.25.38.156	
  

Code	
  	
  
0	
  
-­‐1	
  

• 

非構造化によるデータの保持

• 

データ抽出,集計時にファイルの読込が毎回必要

• 

210.233.9.2	
  -­‐	
  -­‐	
  [07/Aug/2006:10:45:40	
  +0900]	
  "GET	
  /img/
mtdc.gif	
  HTTP/1.1"	
  200	
  1242	
  "hTp://mermaid-­‐tavern.com/"	
  
"Mozilla/4.0	
  (compa:ble;	
  MSIE	
  6.0;	
  Windows	
  NT	
  5.1;	
  SV1)	
  

圧縮,解凍は入出力の際にマニュアル処理

SQL
• 

構造化とインデックスで高速処理が可能

• 

スキーマの追加が困難

• 

スケールしにくく,その場合の管理コストが大

No SQL
• 

柔軟なデータ保持方法

• 

スケーリングに強いものも

• 

歴史が浅く,情報源が少ない

• 

各No SQLに特化した人材コスト
34	
  

Treasure	
  Data	
  Cloud	
  のメリット	

Treasure Data Cloud のメリット
Treasure	
  Data	
  Cloud	
  

“巨大な列指向データベース“	
  
-me	
  

v	
  

1384160400	
   {“ip”:”135.52.211.23”,	
  “code”:”0”}	
  
1384162200	
  

{“ip”:”45.25.38.156”,	
  “code”:”-­‐1”}	
  

1384164000	
  

{“ip”:”97.12.76.55”,	
  “code”:”99”}	
  

•  変更されたスキーマも既存のテーブル
への保存が可能	
•  (S3に準ずる)高いデータの機密性・
堅牢性を保持
•  レコード数に応じた課金体系,多くの
場合は非常に低コストで利用可能
•  データは自動で圧縮して保存
•  Hive(SQL Like)クエリによるデータの
抽出および集計がダイレクトに可能
•  データの管理・運用にかかる人材コス
トが不要
35	
  

Treasure	
  Management	
  Console	
  によるデータ管理 	

Database	
  

Table	
  

指定したDB名,Table名に対してHive (SQL-Like)
Query を実行することによりデータの抽出および集計
がストレージに対してダイレクトに行える。

New	
  Query	
  
36	
  

サービスポジショニング	
マーケティングクラウド
(DMP)

クラウド

アプリケーションログの
レポーティング、分析

セキュリティ/法律上	
  
クラウドにデータが	
  
上げられない事が多い	
  

センサーデータ/M2M
Internet of Things

補完関係	
  
自社
データ

センター

自社データセンターで	
  
保存・解析するには	
  
コスト・人材面でマッチしない	
  

構造化データソース
非構造化、新しいデータ・ソース
(取引履歴、会計、個人情報、etc)
 (Web、センサー、デバイス、etc)
37	
  

Try	
  &	
  Error	
  Itera-on:中間データをどこに保持するか	
- フィルタ済データ

ローデータ

クラウド

- テンポラリデータ

中間データ群を自社データセンター
に保存するだけで大幅なコスト。	
  
様々な	
  Try	
  And	
  Error	
  の末に保存対
象となったナレッジデータのみローカ
ルに保存することでコスト減。	
  
	
  

自社
データ

センター

ローデータ,クラウドに上げ
られないデータ

ローデータ,フィルタ済データ,
分析用中間データ,tempデータ

Try	
  &	
  Error	
  Itera-on	

- 分析用中間データ
- データキューブ
38	
  

データ横串分析1:中古車相場データからの応用	
業者間オークション :
B to B の中古車相場

個人間オークション :
C to C の中古車相場

業者が卸してから販売
する際のマージンに注目

業者の販売値と個人間の
販売値との乖離 = (整
備・保証料) に注目

Car Sensor :
B to C の中古車相場

新車からの値落ち率と
年式等との関係に注目
新車カタログ :
新車価格,車両情報

レビューの高さと中古車
相場の関係に注目

レビューサイト :
車両レビュー
39	
  

データ横串分析2:オンラインゲーム横断分析
40	
  

新しいデータ:The	
  Internet	
  of	
  Things(IoT)	
When everything has an ID, and can send data about itself…
41	
  

テレマティクスとは	
•  	
  Telecommunica:on(通信)	
  +	
  Informa:cs(情報科学)	
  
–  自動車などの移動体に通信システムを組み合わせて、リアルタイム
に情報サービスを提供すること	
  

•  モダン・テレマティクスデータの特徴	
  
–  車両のID(車載機)と、運転者のID(スマートフォン)を別々に管理す
ることができるため、どの車に誰が乗ったかを自動的に判別可能。	
–  拡張性:車載器だけでなく,スマートフォンからも詳細なデータ取得
が可能に。モニターやカメラ、加速度センサーなど、スマートフォン
に搭載されているデバイスであれば、ハードの追加無く拡張可能。	
  
42	
  

Telema-cs	
  Data	
  Analysis	
  
自動車保険:	
  
-­‐  走行距離連動型保険	
  
-­‐  運転の雑さを指標化	
  

Bulk Import
並列アップロード	
  

電気スタンド需要	
  
-­‐  駐車が多い施設の特定	
  
Treasure Agent
ストリーミングアップロード!

-­‐ 
-­‐ 
-­‐ 
-­‐ 

緯度・経度	
  
アクセルON/OFF	
  
イグニッションON/OFF	
  
車速・燃費	
  

電気自動車需要	
  
渋滞予測システム	
  

-­‐  一回の走行距離・距離が	
  
  少ないエリアの特定	
  

-­‐  車速や単位当たりの移動距離	
  
	
  	
  	
  	
  から渋滞エリアを特定	
  
43	
  

Leading/Well-Known Auto Manufacturer
•  Telematics!
–  200 sensors in new cars!
–  Each collect data every 10 seconds!

•  Business Benefits!
–  Dramatically lowers friction for!
new projects!
•  And prototypes!

–  Focus resources on the cars !
and the data!
•  Not the data collection or storage!

–  Big Data pipeline up in days!
•  Minimal upfront investment!
•  Initial results in few days!
44	
  

World’s largest OBD provider

•  Telematics!
–  On-board Diagnostics (OBD) vendor!
–  Building a embeddable solution for auto
manufacturers!

•  Business Benefits!
–  Looking to build a turn-key !
solution for auto manufacturers
•  But they don’t have Big Data expertise!
•  They want to focus on their OBD solution
and leadership position!

–  ROI expected at 25-50x!
•  Over using a traditional data warehouse
approach!
45	
  

Innovative Semiconductor Company

•  Wearable Sensors!
–  Wrist-band activity sensor!
–  Tracks movement & exercise!

•  Business Benefits!
–  Looking to build a turn-key solution !
for fitness brands
•  As a semiconductor company, !
they don’t have in-house expertise !
on Big Data infrastructure!

–  They need to develop quickly !
to secure a leadership position !
with major brands before their competitors
do!

Androi
d	
  
46	
  

Sec.3	
  Data	
  Management	
  
•  Treasure	
  Management	
  Console	
  
47	
  

Sec.3	
  Data	
  Management	
Data Collection

Data Storage

Data Analysis

Web logs
Treasure Agent
App logs

Streaming Log !
Collector (JSON)!

Cloud DB, Web App,
& Command Line

BI Connectivity
REST API, SQL, Pig,
JDBC / ODBC!

Flexible, Scalable,
Columnar Storage!

Sensor
Treasure Batch Query
&
New!!	
Treasure Query Accelerator

Tableau, Tools etc.
BI Dr.Sum,

New!!	
Treasure Viewer

RDBMS
Bulk Import
CRM

Parallel Upload from
CSV, MySQL, etc.!

ERP

Result Push

New!!	
Management Console
No Command Line,!
Every Operation is Here! !

REST API, SQL,
Pig!

Dashboards
Metric Insights, etc.

Focus!	
Time to Value

Economy & Flexibility

Simple & Supported
48	
  

Our	
  2	
  Management	
  Tools	
Treasure Command Line Tools
( for Engineer )

Treasure	
  Management	
  Console	
  
(	
  for	
  Analyst,	
  Decision	
  Maker	
  )

•  豊富なコマンド群を通じて詳細な情報を得
ることが可能。
•  シェルスクリプトなどと合わせて自動化が
できる。
•  UIでなくコマンドラインでないと落ち着かな
いエンジニア向けに。

•  Web UI からデータベースおよびテーブル
の状況を把握できる。
•  各テーブル内のデータサンプルを素早く
参照できる。
•  クエリの記述・実行もここから可能。
•  さらに Treasure Viewer によってすぐにグ
ラフ化することが可能。

Management	
  Console	
  の登場によって,より多くのアナリスト・
意思決定者自身がCloud	
  Databaseに触れる機会が増える。	
  
49	
  

Watch	
  Databases	

データベースの一覧。データベース名,作成日,更新日の一覧。各
データベース名をクリックすることでテーブル一覧へ。
50	
  

Watch	
  Tables	

特定のデータベースのテーブル一覧。レコード数,圧縮後のデータサイズ,更
新日,作成日。各テーブル名をクリックすることでレコードの取得が可能。
51	
  

Tail	
  Records	

特定のテーブルに格納されているレコードを参照できる。
52	
  

Watch	
  Jobs	

現在実行されている・終了したジョブの一覧。クエリ内容やStatusの確認が可
能。実行中・失敗・スロークエリの特定も可能。
53	
  

Set	
  	
  Schedule	

定型のバッチクエリはCRONライクな設定方法で,容易にスケジューリング可能。
54	
  

U-liza-on	

現在のデータ使用状況・コア数等を表示するUtilization。
55	
  

Sec.4	
  Data	
  Processing	
  
•  Treasure	
  Batch	
  Query	
  
•  Treasure	
  Query	
  Accelerator	
  
56	
  

Sec.4	
  Data	
  Processing	
Data Collection

Data Storage

Data Analysis

Web logs
Treasure Agent
App logs

Streaming Log !
Collector (JSON)!

Cloud DB, Web App,
& Command Line

BI Connectivity
REST API, SQL, Pig,
JDBC / ODBC!

Flexible, Scalable,
Columnar Storage!

Sensor
Treasure Batch Query
&
New!!	
Treasure Query Accelerator

New!!	
Treasure Viewer

Focus!	

RDBMS
Bulk Import
CRM

Tableau, Tools etc.
BI Dr.Sum,

Parallel Upload from
CSV, MySQL, etc.!

ERP

Time to Value

New!!	
Management Console
No Command Line,!
Every Operation is Here! !

Economy & Flexibility

Result Push
REST API, SQL,
Pig!

Dashboards
Metric Insights, etc.

Simple & Supported
57	
  

Big Data Infrastructure
…and building a Big Data infrastructure is complicated,
expensive, and requires skills that are very hard to hire.
Streaming	
  Collec:on	
  

Batch	
  Collec:on	
  

Business	
  Rules	
  

Data	
  Integra:on	
  

Consump:on	
  /	
  
Analy:cs	
  

Applica:on	
  Interfaces	
  
Processing	
  Engines	
  
Frameworks	
  
Storage	
  Layer	
  
Networking	
  
O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  

O/S	
  
Hardware	
  
58	
  

Cube	

BI	
  Tools	

Pig	
Open	
  Source	
  

MapReduce	

Date,	
  Product	
  Category,	
  Area	
  	
  	

Dashboard	
Human	
  Decision	

Database	

Granularity	

Interac-ve	

Business	
  
Goal	

What	
  Helps?	

Hive	

Batch	
  Process	

Intermediate	
  
Data	

Data	
  Insight	

Aggregator	

Batch	

Data	
  Analysis	

Machine	
  Learning	

File	
  /	
  HDFS	

User	
  Id	

Ad-­‐hoc	

Impala	

Small	

Auto	

ML	
  /	
  	
  
Graph	
  Mining	

Deep	

Enterprise	
  
	

Their	
  Own	
  Products
59	
  

Treasure	
  Query	
  Accelerator	
•  Treasure	
  Query	
  Accelerator	
  (TQA)	
  
–  アドホックデータ解析向けのクエリエンジン	
  
–  既存のバッチ型クエリエンジンと比較し、10	
  〜	
  50倍高速	
  
–  目的に応じて、既存のバッチ型クエリエンジンと使い分け	
Queries	
  

MPP	
  (Massively	
  Parallel	
  Processing)	
  Query	
  Executor	
  
	
  
	
  
	
  
	
  
Plazma	
  Cloud	
  Storage	
  
(2.5兆件のデータを保持)	
  
60	
  

Data Analysis
REST	
  API	
  

Heavy	
  Liing	
  SQL	
  (Hive):	
  
-­‐  Hive’s	
  Built-­‐in	
  UDFs	
  
-­‐  TD	
  Added	
  Func:ons:	
  
-­‐  Time	
  Func:ons	
  
-­‐  First,	
  Last,	
  Rank	
  
-­‐  Sessionize	
  

Scheduled	
  Jobs	
  
-­‐  SQL,	
  Pig	
  Scripts	
  
-­‐  Data	
  Pushes	
  
JDBC	
  Connec-vity:	
  
-­‐  Custom	
  Java	
  Apps	
  
-­‐  Standards-­‐based	
  
-­‐  BI	
  Tool	
  Integra:on	
  
Tableau	
  ODBC	
  connector	
  
-­‐  Leverages	
  Impala	
  

Interac-ve	
  SQL	
  
Treasure	
  Query	
  Accelerator	
  	
  
(Impala)	
  
Scripted	
  Processing	
  (Pig):	
  
-­‐  DataFu	
  (LinkedIn)	
  
-­‐  Piggybank	
  (Apache)	
  

Push	
  Query	
  Results:	
  
-­‐  MySQL,	
  PostgreSQL	
  
-­‐  Google	
  Spreadsheet	
  
-­‐  Web,	
  FTP,	
  S3	
  
-­‐  Le{ronic,	
  Indicee	
  
-­‐  Treasure	
  Data	
  Table	
  
61	
  
Granularity	

Interac-ve	

What	
  Helps?	

Batch	
  Process	

Business	
  
Goal	

Data	
  Insight	

Aggregator	

Intermediate	
  
Data	

Dashboard	

Cube	
User	
  Id	

BI	
  Tools	

Batch	
Ad-­‐hoc	
New!!	

File	
  /	
  HDFS	

Small	

Auto	

Data	
  Analysis	

Deep	

Treasure Query	
  
Accelerator 	
  
(Impala)	

Machine	
  Learning	

SQL-­‐like Query	
  Language	

Treasure	
  Batch	
  
Query	
  (Hive)	
  

Database	

Human	
  Decision	

Treasure	
  
Scripted	
  
Query	
  (Pig)	
  

Date,	
  Product	
  Category,	
  Area	
  	
  	

Script	
  

多段MapReduce	

 
62	
  

Comparison	
  Between	
  Batch	
  and	
  Ad-­‐hoc	
バッチ型クエリ	

SQL-­‐style	
  Query	
  Language	
  
Monitoring	

アドホック型クエリ	
〃	

-­‐	
  ラーニングコストが低い	
  
-­‐	
  参考になる情報が溢れている	
  
-­‐	
  Join,	
  Group	
  by,	
  Where	
  の概念は馴染み
やすい	
  

JDBC/ODBC	
  Driver	
  
BI	
  Tools	

-­‐	
  多数のBIがJDBC/ODBCに対応	
  
-­‐	
  それ以外のBIでもコネクタを作る事が
可能	
  

	
  

For	
  R/Excel/SPSS	
  

Data	
  Analysis	

-­‐	
  解析に必要なデータセットの抽出	
  
-­‐	
  Hiveの出力データ構造と解析ツールの
入力形式の親和性が良い	
  
-­‐	
  入力データ抽出→解析→入力データ修
正→…	
  のイテレーション	
  

Yes!	
  Interac-ve!!	
  
-­‐	
  インタラクティブな操作が実現	
  
-­‐  クリック・ドラッグ操操作で直接
Treasure	
  Cloud	
  Storage	
  へアクセスが
可能に	

For	
  Automa-c	
  System	
  
-­‐	
  リコメンドエンジンや広告配信システム
など,常に結果を参照し続けるシステム
に対応
63	
  

バッチ型クエリ	

定時レポーティング	
  

配信最適化	
  

• 

オンライン広告	
  

アドホック型クエリ	

• 

• 

顧客向けの定時パフォーマンスレ
ポーティング	
  
1時間に1回の更新、確実に終わら
せる事が重要	
  

定時レポーティング	
  
• 

Web	
  /	
  Social	
  

• 

社内	
  /	
  子会社	
  /	
  経営層向けの定期
パフォーマンスレポーティング	
  
大量のKPIを定義し、毎日	
  /	
  毎時確
実に終わらせる事が重要	
  

定時レポーティング	
  
• 

リテール	
  
• 

• 

接続しているアドネットワークのパ
フォーマンスをリアルタイム集計	
  
集計結果から広告配信のロジックをリ
アルタイムに最適化	

サポート業務効率化	
  
• 
• 

ユーザーからのサポートリクエストに
応じてその場でデータを集計	
  
サポートのレスポンス・対応業務を効
率化し、ユーザーの満足度向上に繋
げる	
  

即時バスケット分析	
  

PoS・Webサイト解析システム・タッチ • 
パネルシステムから上がってくる
データの定期レポーティング	
  
• 
毎時確実に終わらせる事が重要	
  

過去数年分、数百億件のデータから、
その場でバスケット分析を実行可能	
  
商品開発のミーティングの中で、過去
データを参照。データを元にした商品
開発活動を開始	
  
64	
  

New	
  Query	
  (Batch)	
  From	
  Console	
Query Type
を”Hive”に設定

Treasure	
  Management	
  Console	
  よりクエリの実行が可能。その際に	
  
Hive(Batch	
  Query),Impala(Ad-­‐hoc	
  Query)	
  の選択が可能。
65	
  

New	
  Query	
  (Ad-­‐Hoc)	
  From	
  Console	
Query Type
を”Impala”に設定
66	
  

Result	

Batch ならば数分,
Ad-Hoc なら数秒で結
果が得られる。
Resultを表示,csv等
にエクスポートも可能。
67	
  

Sec.5	
  Data	
  Processing	
  Design	
  
•  Cubic	
  Data	
  Processing	
  Design	
  
•  Graph	
  Data	
  Processing	
  Design	
  
68	
  

Data	
  Scien-st	
  に求められる3つの”プロフェッショナル”	
役割

必要なスキル

1.  適切な 「前処理」 を行うこと

• 
• 
• 

あらゆるデータソースからデータを収集できるインフラスキル	
  
手元で手早く処理を行うためのシェルスクリプティング能力	
  
泥臭い作業を続ける忍耐力	
  

• 

専門家では無い人にも 「集計」 が行えるようにするための	
  
Processing	
  Design	
  スキル	
  
あらゆる 「集計」 をもれなく押さえ,パターン化する数学的ス
キル	
  
自分は 「集計」 をするために存在するのではなく,「分析」
するために存在するのだという信念	
  

2.  「集計」 をパターン化して半機械
的なプロセスに落とし込むこと

• 

Focus!	

• 

3.  意思決定者に対してアクショナブ
ルな考察をもたらす 「分析」 を行
うこと

• 
• 

深い分析をしても,専門家ではない意思決定者に理解しても
らえるための説明力
できるだけシンプルに,かつアクショナブルな考察をもたらす
ためのデータ表現(可視化)スキル
69	
  

1.	
  Cubic	
  Data	
  Processing	
  Design:	
  Goal	
Source	
  
Tables	
  

Big	
  
Cube	
  

Mini	
  
Cubes	
  

Cross	
  
Tables	
  

Visualize	
  

Dashboard	
非専門家による	
  Mini	
  
Cube	
  の作成,クロス集計,
Dashboard	
  埋め込み	
  

専門アナリストに
よる前処理,	
  Big	
  
Cube	
  の作成	
  

パターンプロセス	

専門アナリストによる	
  
KPI	
  レポーティング	
  

Big	
  
Cube	
  

BI	
  Tools	

専門アナリストによる	
  
応用分析	
  
70	
  

1.	
  Cubic	
  Data	
  Processing	
  Design:	
  For	
  Treasure	
  Data	
Source	
  
Tables	
  

Big	
  
Cube	
  
専門アナリストに
よる前処理,	
  Big	
  
Cube	
  の作成	
  

Mini	
  
Cubes	
  

Cross	
  
Tables	
  

Visualize	
  

非専門家による	
  Mini	
  
Cube	
  の作成,クロス集計,
Dashboard	
  埋め込み	
  

パターンプロセス	

Dashboard	
専門アナリストによる	
  
KPI	
  レポーティング	
  

BI	
  Tools	

専門アナリストによる	
  
応用分析	
  
71	
  

1.	
  Cubic	
  Data	
  Processing	
  Design:	
  For	
  Treasure	
  Data	

Source	
  
Big	
  
Tables	
   Batch	
  Process	
 Cube	
  

Batch	
  Process	
  

Mini	
  
Cubes	
  

Interac-ve	

Cross	
  
Tables	
  

Interac-ve	

Visualize	
  

Excel	
  
Import	
  
Treasure	
  
Batch	
  Query	
  

BI	
  Tools	

Dashboard	
Import	
  

Treasure	
  
Batch	
  Query	
  

Treasure	
  
Ad-­‐hoc	
  Query	
  

Connector	
  
Treasure	
  
Batch	
  Query	
  

BI	
  Tools	

On	
  Memory	
  

Treasure	
  
Ad-­‐hoc	
  Query	
  
72	
  

Source	
  
Big	
  
Tables	
   Batch	
  Process	
 Cube	
  

1-­‐1.	
  Making	
  Big	
  Cube	
専門アナリスト	
  
• 

JOIN	
  可能な複数のデータソースを1
つのテーブルにまとめる。	
  

• 

全てのディメンジョンをGROUPキーに
した集計を実行する。	
  

• 

大規模なデータ処理になる場合は,
時間分割などをする。	
  
Dashboard	
  や	
  BI	
  から直接	
  Big	
  Cube	
  
を参照することはない。(Ad-­‐hoc	
  クエ
リは例外。)	
  

• 

Treasure	
  
Batch	
  Query	
  

• 
• 

Focus!	

i.e.	
  一度Big	
  Cubeを作ったら,ソース
テーブルは二度と参照しない。	
  
全ての項目を「メジャー」と「ディメン
ジョン」に分類する。	
  
73	
  

1.	
  Table	
  Join	
hTp://doryokujin.hatenablog.jp/entry/2014/01/22/184300	
Schema:	
  Car	
  Sensor:	
  

brand_master	
  table	
  

name	
  
country_name	
  
…	
  

pref_master	
  table	
  

code	
  
large_area_name	
  
…	
  

carsensor	
  table	
  

id	
  
name	
  
grade	
  
model	
  
code	
  
body_name	
  
price	
  
year	
  
shop_pref_code	
  
shop_pref_name	
  
Car	
  
...	
   Hierarchy	

catalog	
  table	
  

Name	
  
code	
  
grade	
  
model	
  
series	
  
body_code	
  
body_name	
  
period	
  
…	
  
74	
  

1.	
  Cubic	
  Data	
  Processing	
  Design	
Data	
  Cube	
  
	

ディメンジョン(階層がある場合は最上位階層を選択する)を固定することで,各ディ
メンジョンを次元軸に,1つのメジャーを各セルに取ったData	
  Cubeを作成できる	

Ex.	
  Cube	
  for	
  (	
  Country,	
  Car	
  Name,	
  Year	
  )	
Date	
  

Products	
  	
  
Car	
  Name	
  
Level	

Cell:	
  
(	
  Prius,	
  Korea,	
  2005)	
  	
  
-­‐-­‐>	
  10,000	

PRIUS	
  
MARK	
  X	
  

2007	
  

FAIRLADY	
  Z	
  
2006	
  
ROAD	
  STAR	
  

2005	
  
USA	
  

Canada	
   Japan	
  

Korea	
  

Country	
  
Level	
  

Year	
  	
  
Level	

Loca-on	
  
75	
  

1.	
  Cubic	
  Data	
  Processing	
  Design	
Star	
  Schema	
  
Dimension	
  tables	
  

Loca-on	
  
Country	
  
State	
  
City	
  
Products	
  
Company	
  
Car	
  Type	
  
Car	
  Name	
  

Hierarchy	
  
(level-­‐of-­‐detail)	
  

Fact	
  table	
  

State	
  
Month	
  
Car	
  Name	
  
	
  

Profit	
  
Sales	
  
Payroll	
  
Marke-ng	
  
Inventory	
  
Margin	
  
...	
   Hierarchy	
Car	
  

Date	
  
Year	
  
Month	
  
Day	
  
76	
  

3.	
  Business	
  Intelligence	
Dimension,	
  Measure	
  

*	
  Date	
  Dimension	
  はツール側で自動的にlevelを考慮してくれる	

Most	
  Detailed	
  Dimensions	
  
<city,	
  car	
  name>	

–  Original	
  Table	
  

Most	
  Detailed	
  Dimensions	

Measure	

County	
 State	

City	

Company	
 Car	
  Type	

Car	
  Name	

Date	

USA	

California	

San	
  Jones	

TOYOTA	

Sedan	
  

Corolla	
  

2012-­‐08-­‐15	

36	

$3,000	

USA	

California	

Palo	
  Alto	

TOYOTA	

Sedan	

Alion	

2012-­‐08-­‐15	

24	

$2,000	

USA	

California	

Los	
  Altos	

NISSAN	

SUV	

X-­‐TRAIL	

2012-­‐08-­‐16	

100	

$1,000	

USA	

New	
  York	

ManhaTan	
 NISSAN	

Sport	

FAIRLADY	
  Z	

2012-­‐08-­‐16	

64	

$500	

Canada	

Alberta	

Airdrie	

Sport	

Road	
  Star	

2012-­‐08-­‐15	

4	

$3,000	

MAZDA	

Loca:on	
  Hierarchy	

Products	
  Hierarchy	

–  Big	
  Cube	
  
<city
County	
,	
  car
	
  nam
e>	
<sta
USA	
te,	
  c
ar	
  n
ame
<cou
>	
USA	
nty,
	
  car	
  
nam
<*,	
  c
eUSA	
>	
ar	
  n
ame
<cou
>	
 ALL	
ntry
,	
  car
	
  typ
<cou
eUSA	
>	
ntry
,	
  car
	
  nam
<cou
e>	
USA	
ntry
,	
  *>	
USA	

…	
<*,	
  *
>	
 ALL	

Date	
  Hierarchy	

Units	
 Sales	

Holis-c	
  
Measure	

State	

City	

Company	
 Car	
  Type	

Car	
  Name	

Date	

Avg	
  of	
  Top	
  20	

California	

San	
  Jones	

TOYOTA	

Sedan	
  

Corolla	
  

2012-­‐08-­‐15	

$3,600	

California	

ALL	

TOYOTA	

Sedan	

Alion	

2012-­‐08-­‐15	

$2,400	

ALL	

ALL	

NISSAN	

SUV	

X-­‐TRAIL	

2012-­‐08-­‐16	

$1,000	

ALL	

ALL	

NISSAN	

Sport	

FAIRLADY	
  Z	

2012-­‐08-­‐16	

$640	

California	

San	
  Jones	

TOYOTA	

Sedan	
  

ALL	
  

2012-­‐08-­‐15	

$3,600	

California	

San	
  Jones	

TOYOTA	

ALL	

ALL	

2012-­‐08-­‐15	

$1,100	

California	

San	
  Jones	

ALL	

ALL	

ALL	

2012-­‐08-­‐15	

$2,300	

…	

…	

…	

…	

…	

…	

ALL	

ALL	

ALL	

ALL	

ALL	

ALL	

…	
$720
77	
  

1-­‐2.	
  Making	
  Mini	
  Cubes	
  from	
  Big	
  Cube	
Big	
  
Cube	
  

Batch	
  Process	
  

Mini	
  
Cubes	
  

非専門家による	
  
パターンプロセス	
  
• 
• 

Focus!	

例1.Time:	
  year	
  >	
  month	
  >	
  day	
  >	
  hour	
  

• 

例2.Item:category	
  	
  >	
  sub_category	
  >	
  
item_name	
  

• 
On	
  Memory	
  

階層を持ったディメンジョンは1つの
ディメンジョンとして扱う。	
  

• 

Treasure	
  
Batch	
  Query	
  

必要名ディメンジョンの組み合わせ
だけ,Mini	
  Cubeが作られる。	
  

• 

Treasure	
  
Batch	
  Query	
  

軸にするディメンジョンを最大2つ選
択し,Mini	
  Cubeを作成する。	
  

Dashboard	
  や	
  BIから直接参照するこ
とを前提としているので,Mini	
  Cubes
の保存場所はデータベース(イン
デックスをきちんと作成しておく),メ
モリ上になる。	
  
78	
  

1-­‐3.	
  Making	
  Cross	
  Table	
  from	
  Mini	
  Cubes	
Mini	
  
Cubes	
  

Interac-ve	

Cross	
  
Tables	
  

Excel	
  

非専門家による	
  
パターンプロセス	
  

Mini	
  Cube	
  を2つのディメンジョンに限
定したのはクロス集計における2軸
の設定を自動で行うため。	
  

• 

クロステーブルの各セルの値には合
計,数,平均などが入る。	
  

• 
Treasure	
  
Batch	
  Query	
  

さらに	
  Mini	
  Cube	
  の中でクロス集計
が必要なものは	
  Excel	
  などの統計
ツールや	
  BI	
  の機能を使って作成す
る。	
  

• 

Treasure	
  
Batch	
  Query	
  

• 

クロス集計をインプットとした可視化
はよりわかりやすいものになりやす
い。	
  

BI	
  Tools	

On	
  Memory	
  

Focus!
79	
  

1-­‐4.	
  Repor-ng	
  from	
  Mini	
  Cube	
  or	
  Cross	
  Table	
Mini	
  
Cubes	
  

Interac-ve	

Cross	
  
Tables	
  

Interac-ve	

Visualize	
  
非専門家による	
  
パターンプロセス	
  

Excel	
  

• 

Treasure	
  
Batch	
  Query	
  

作成したMini	
  Cubeお
よびCross	
  Tableを
Dashboard	
  および	
  BI
のインプットデータと
する。	
  

• 

Import	
  

レポーティング中に新
しい項目の集計が必
要な場合はBig	
  Cube
からMini	
  Cubeに切り
出してそれを新たな
インプットとする。	
  

BI	
  Tools	

Dashboard	
Import	
  
Treasure	
  
Ad-­‐hoc	
  Query	
  

Connector	
  
Treasure	
  
Batch	
  Query	
  

BI	
  Tools	

On	
  Memory	
  

Treasure	
  
Ad-­‐hoc	
  Query	
  

専門アナリスト	
  

Focus!
80	
  

2.	
  Graph	
  Data	
  Processing	
  Design
81	
  

2.	
  Graph	
  Data	
  Processing	
  Design	

• 

データのテーブルまたは項目を,「ディメンジョン」「メジャー」で分けるのではなく,ノー
ド・エッジ・ステータスのグラフ(Property	
  Graph)で表現する。	
  

• 

上記の例では,ブックレビューデータの例。ユーザーが本をレビューした場合,ユー
ザー(ノード)が本(ノード)に対して“review”(エッジ)をした場合の	
  Property	
  Graph。	
  
82	
  

2-­‐1.	
  Property	
  Graph	
  (Access	
  Log)	

• 

アクセスログもまた	
  Property	
  Graph	
  による表現が可能。ユーザーが特定できていなく
ても,ページ間(ノード)の遷移:	
  “access”	
  というアクションをエッジにしてグラフに落とし
込む。	
  
83	
  

2-­‐2.	
  Property	
  Graph	
  (Book	
  Review	
  Dataset)	

• 

引き続きブックレビューデータの例。ユーザー(ノード)は本(ノード)に対して”add	
  to	
  
list”,	
  “review”,	
  “buy”	
  という3種類のアクションを起こしている。	
  

• 

さらに別ユーザー(ノード)がレビューしたユーザーに対して	
  “comment”	
  というアクショ
ンを起こしている。	
  
84	
  

2-­‐3.	
  Property	
  Graph	
  (Social	
  Game	
  Dataset)	

• 

• 

ソーシャルゲームデータの例。ユーザー(ノード)はアイテム(ノード)に対して	
  “pay”
(エッジ) アクションを,仮想通貨(ノード)に対して	
  “use”,	
  “get”	
  (エッジ)アクションを起
こしている。また,アイテムは上位階層としてカテゴリ(ノード集合)を持つ。	
  
また,ユーザー間に対して	
  “invite”(エッジ)アクションを,自分自身に対して	
  “login”,	
  
“register”	
  を行っている。	
  
85	
  

2-­‐4.	
  Property	
  Graph	
  Visualiza-on	

• 

ブックレビューの分析事例。それぞれのアクション	
  “review”,	
  “comment”,	
  “add	
  to	
  
list”(エッジ)を分析軸としてデータ集計を行う。	
  

• 

ブックレビューデータセットによるデータ解析入門(準備編) 	
  hTp://doryokujin.hatenablog.jp/entry/2012/06/28/011526	
  

• 

ブックレビューデータセットによるデータ解析入門(実践編1)	
  hTp://doryokujin.hatenablog.jp/entry/2012/06/29/174702	
  

• 

ブックレビューデータセットによるデータ解析入門(実践編2)	
  hTp://doryokujin.hatenablog.jp/entry/2012/07/03/024022	
  
86	
  

Sec.6	
  Data	
  Visualiza-on	
  
•  1.	
  Treasure	
  Viewer	
  
•  2.	
  Dashboard:	
  Metric	
  Insights	
  
•  3.	
  Business	
  Intelligence:	
  Tableau	
  
87	
  

1.	
  Treasure	
  Viewer	
目的	
  
–  TD	
  Management	
  Console	
  からグラフを素早く参照するため	
  
–  サンプルデータを素早く可視化し,全体像を把握するため	
  

このために作られたのが

要求	
  
–  集計結果を表・グラフですぐ表示できること	
  
–  TD	
  Management	
  Console	
  内で機能すること	
  
–  JS	
  ライブラリによるインタラクティブかつ綺麗なチャートである事	
  

Treasure Viewer
88	
  

1.	
  Treasure	
  Viewer	
•  データ可視化ツールをデフォルトで提供	
  
–  TQA	
  (Treasure	
  Query	
  Accelerator)	
  を利用し、大量のデータからドラッグ	
  &	
  
ドロップでデータの可視化が行える	
  
–  簡易な可視化ツールの扱い。高度な機能・要件が求められる場合、パー
トナーのBIツールを使用してお客様の要件を満たす事も多い。	
  

Treasure	
  Viewer	
  

3rd	
  Party	
  BI	
  Tool	
  (Tableau)	
  
89	
  

1.	
  Treasure	
  Viewer	
1. Database,
Table名を選択
90	
  

1.	
  Treasure	
  Viewer	
2. グラフを選択

3. X-軸,Y-軸とな
るカラムを選択,
ドラッグ&ドロップ

レコードサンプル
を表示
91	
  

1.	
  Treasure	
  Viewer	
グラフを表示

自動的にクエリが
生成される
92	
  

Dashboard(MI)	
  と	
  BI	
  (Tableau)	
  の違い	
Dashboard ( Metric Insights )

BI	
  (	
  Tableau	
  )

• 

毎日更新されるデータ (KPI) を素早く参照する
ため	
解析者に関わらず全てのユーザーが参照する
ため	
異常値やイベントなどの効果を素早く把握する
ため	
Smart Phone や Tablet からも参照するため	

• 

異常検出機能,およびアラート機能を備えてい
ること	
チャートへのアノテーション機能を備えているこ
と	
チャートの一覧性・わかりやすさを重視してい
ること	
(任意の時間インターバルでの)データ自動更
新機能を持っていること	
素早く編集可能な互いに独立したパネル(ウィ
ジェット)を持っていること	
様々なデータベース・ファイル形式と接続でき
るコネクタを備えていること	

• 
• 

• 

目的

• 
• 

• 
• 
• 

要請

• 
• 
• 

• 
• 
• 

• 
• 
• 

様々の切り口・セグメントの組合せでデータを閲覧す
るため	
インタラクティブな操作でドリルダウンや軸の切り替
えを行うため	
様々なチャートとテーブルを組合せた情報表現を行
うため	
プレゼンに耐えうるクオリティの高いレポートを作成
するため	
インタラクティブな操作が可能なこと	
豊富なチャートライブラリ,ダッシュボードエディタの
実装していること	
最適化された中間データ構造(Data Cubeなど)を備
えていること	
マウス操作によってデータの深堀りや切り口の切り
替えが可能なこと	
JDBC / ODBC コネクタを初めとした様々なデータソー
スとの接続口を持つこと
93	
  

2.	
  Dashboard
94	
  

2.	
  Dashboard	
目的	
  
–  毎日更新されるデータ	
  (KPI)	
  を素早く参照するため	
  
–  解析者に関わらず全てのユーザーが参照するため	
  
–  異常値やイベントなどの効果を素早く把握するため	
  
–  Smart	
  Phone	
  や	
  Tablet	
  からも参照するため	
  
Metric Insights はこれらの

要求	
  

役割を高次元で担っている

–  異常検出機能,およびアラート機能を備えていること	
  
–  チャートへのアノテーション機能を備えていること	
  
–  チャートの一覧性・わかりやすさを重視していること	
  
–  (任意の時間インターバルでの)データ自動更新機能を持っていること	
  
–  素早く編集可能な互いに独立したパネル(ウィジェット)を持っていること	
  
–  様々なデータベース・ファイル形式と接続できるコネクタを備えていること	
  
95	
  

特徴:	
  
–  メールアラート・アノテーション機能	
  
–  1つ1つのウィジェットにクエリを埋め込む独立
型	
  
–  あらゆるデータソース:{	
  テキスト,データベ
ース,TD	
  Cloud	
  Storage	
  }	
  からのウィジェット
を並べる事ができる	
  
–  {	
  クエリ,集計インターバル,チャートタイプ
,データソース	
  }	
  指定のみで自動更新	
  
–  ピボットテーブル,バブル /	
  ボックス /	
  ファ
ンネル チャートにも対応	
  
–  セットアップが容易	
  
	
  
96	
  

Data	
  Personaliza-on
97	
  

2.	
  Dashboard:	
  Widget	
  Seungs	
1. 集計インターバ
ルを設定
2. メジャーの種類
を設定

3. カテゴリを設定
98	
  

2.	
  Dashboard:	
  Widget	
  Seungs	
4. Plug-inを選択

5. 接続するデー
タソースを指定
6. クエリを記述

7. Sample Result
を確認
99	
  

2.	
  Dashboard:	
  Widget	
  Seungs
100	
  

Personalized	
  Email	
  Digest	
  Delivered	
  to	
  Users	

トレンドライン

View 詳細

重要な変化に関する
アラート
コメント
101	
  

Unique	
  Product	
  Benefits	
日次	
  Sales	
  Chart	
  

期待(予想)変動帯	
  

アラートなし	
  

統計的に有意な変化につい
てはアラートで通知	
  
102	
  

3.	
  Business	
  Intelligence:	
  Tableau
103	
  

3.	
  Business	
  Intelligence	
Goal	
  
–  Overview	
  first,	
  zoom	
  and	
  filter,	
  then	
  details-­‐ondemand	
  
–  様々の切り口・セグメントの組合せでデータを閲覧するため	
  
–  インタラクティブな操作でドリルダウンや軸の切り替えを行うため	
  
–  様々なチャートとテーブルを組合せた情報表現を行うため	
  
–  プレゼンに耐えうるクオリティの高いレポートを作成するため	
  
	
  

Demand	
  
	
  
–  インタラクティブな操作が可能なこと	
  

Tableau はこれらの
役割を高次元で担っている

–  豊富なチャートライブラリ,ダッシュボードエディタの実装していること	
  
–  最適化された中間データ構造(Data	
  Cubeなど)を備えていること	
  
–  マウス操作によってデータの深堀りや切り口の切り替えが可能なこと	
  
–  JDBC	
  /	
  ODBC	
  コネクタを初めとした様々なデータソースとの接続口を持つこと	
  
104	
  

3.	
  Business	
  Intelligence	
Tableau	
  
–  大多数の企業の導入実績(Zynga,	
  Nokia,	
  eBay,	
  etc…)	
  
–  TD	
  用コネクタなど,連携が容易	
  
–  豊富なチャートライブラリとデータソースコネクタを持つ	
  
105	
  

Tableau:	
  Seungs
106	
  

Tableau:	
  Seungs	
  
107	
  

Tableau:	
  Seungs	
  
108	
  

Tableau:	
  Seungs	
  
109	
  

Tableau:	
  Seungs	
  
110	
  

Tableau:	
  Seungs	
  
111	
  

Tableau:	
  Seungs	
  
112	
  

Tableau:	
  Seungs	
  
113	
  

Tableau:	
  Seungs	
  
114	
  

4.	
  MI	
  as	
  KPI	
  Dashboard	
  &	
  Tableau	
  as	
  Repor-ng	
  Tool	
C-level Execs

Treasure
Cloud Storage

KPIs	
  

Data-­‐Driven	
  Aler:ng	
  
Collabora:on	
  
Email	
  Burs:ng	
  

Managers

Tableau
Dashboards

Employees
Increased	
  and	
  more	
  :mely	
  usage	
  
115	
  

Metric	
  Manager	
  for	
  Tableau	
・ 上司	
  
・ 意思決定者	
  
・ ディレクター	
  

・ エンジニア	
  
・ マネージャー	
  
・ アナリスト	
  

参照,モニター,
アラート	
  

KPI考察,	
  
レポートサマリ	
  

Treasure
Cloud Storage

定時	
  KPI	
  取得クエリ	
  

複数の	
  KPI	
  を組合せた
レポーティング	
  

• 

主要 KPI	
  を一覧,モニタリングするツールとしての Metric	
  Insights	
  

• 

MI	
  の	
  KPI	
  群を組み合わせ,数値テーブルや考察を並べた レポー

応用的な分析
クエリ	
  

ティングツールとしての Tableau	
  
• 

MI	
  へのダッシュボード埋込フローはプロセス化して学生アルバイト
でも行えるように。	
  

• 

Tableau	
  へのレポーティングフローは専門アナリストが行う。	
  

Treasure
Cloud Storage
116	
  

Sec.7	
  Learning	
  Visualiza-on	
  Paverns	
  
•  Learning	
  Visualiza:on	
  PaTerns	
  Part.1	
  
  hTp://doryokujin.hatenablog.jp/entry/2012/07/17/012854	
  
•  Learning	
  Visualiza:on	
  PaTerns	
  Part.2	
  	
  
  hTp://doryokujin.hatenablog.jp/entry/2012/07/18/005737	
  
•  Learning	
  Visualiza:on	
  PaTerns	
  Part.3	
  	
  
  hTp://doryokujin.hatenablog.jp/entry/2012/07/18/084702	
  
117	
  

Discussion & Q and A

More Related Content

What's hot

オンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータオンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータTakahiro Inoue
 
Treasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC DemoTreasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC DemoTakahiro Inoue
 
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜Takahiro Inoue
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングTakahiro Inoue
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoTreasure Data, Inc.
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]Hideo Takagi
 
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理並列データベースシステムの概念と原理
並列データベースシステムの概念と原理Makoto Yui
 
DeltaCubeにおけるユニークユーザー集計高速化(理論編)
DeltaCubeにおけるユニークユーザー集計高速化(理論編)DeltaCubeにおけるユニークユーザー集計高速化(理論編)
DeltaCubeにおけるユニークユーザー集計高速化(理論編)BrainPad Inc.
 
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようHideo Takagi
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]Hideo Takagi
 
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]Hideo Takagi
 
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京Koichiro Sasaki
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeHideo Takagi
 
分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise GraphYuki Morishita
 
Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編Taro L. Saito
 
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lakede:code 2017
 
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いHadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いRyuji Tamagawa
 
データ可視化勉強会
データ可視化勉強会データ可視化勉強会
データ可視化勉強会Daichi Morifuji
 
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
1000人規模で使う分析基盤構築  〜redshiftを活用したeuc1000人規模で使う分析基盤構築  〜redshiftを活用したeuc
1000人規模で使う分析基盤構築 〜redshiftを活用したeucKazuhiro Miyajima
 
SmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォームSmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォームSmartNews, Inc.
 

What's hot (20)

オンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータオンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータ
 
Treasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC DemoTreasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC Demo
 
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
 
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理並列データベースシステムの概念と原理
並列データベースシステムの概念と原理
 
DeltaCubeにおけるユニークユーザー集計高速化(理論編)
DeltaCubeにおけるユニークユーザー集計高速化(理論編)DeltaCubeにおけるユニークユーザー集計高速化(理論編)
DeltaCubeにおけるユニークユーザー集計高速化(理論編)
 
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
 
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
 
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
 
分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph
 
Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編
 
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
[DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake
 
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いHadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食い
 
データ可視化勉強会
データ可視化勉強会データ可視化勉強会
データ可視化勉強会
 
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
1000人規模で使う分析基盤構築  〜redshiftを活用したeuc1000人規模で使う分析基盤構築  〜redshiftを活用したeuc
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
 
SmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォームSmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォーム
 

Similar to Treasure Data Intro for Data Enthusiast!!

[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎Insight Technology, Inc.
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例Tetsutaro Watanabe
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...Google Cloud Platform - Japan
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)日本マイクロソフト株式会社
 
Data platformdesign
Data platformdesignData platformdesign
Data platformdesignRyoma Nagata
 
アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門Yoichi Kawasaki
 
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020Daisuke Masubuchi
 
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現Ryoma Nagata
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data PlatformNaoki (Neo) SATO
 
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門Satoru Ishikawa
 
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現インフラジスティックス・ジャパン株式会社
 
クラウドではじめるリアルタイムデータ分析 #seccamp
クラウドではじめるリアルタイムデータ分析 #seccampクラウドではじめるリアルタイムデータ分析 #seccamp
クラウドではじめるリアルタイムデータ分析 #seccampMasahiro NAKAYAMA
 
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!QlikPresalesJapan
 
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみようPPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみようDaisuke Masubuchi
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureSatoru Ishikawa
 
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓Insight Technology, Inc.
 
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのかTechon Organization
 
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 株式会社MonotaRO Tech Team
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けRecruit Technologies
 
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 

Similar to Treasure Data Intro for Data Enthusiast!! (20)

[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
 
Data platformdesign
Data platformdesignData platformdesign
Data platformdesign
 
アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門
 
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
 
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
 
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
 
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
 
クラウドではじめるリアルタイムデータ分析 #seccamp
クラウドではじめるリアルタイムデータ分析 #seccampクラウドではじめるリアルタイムデータ分析 #seccamp
クラウドではじめるリアルタイムデータ分析 #seccamp
 
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
 
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみようPPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
 
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
 
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
 
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
 
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 

More from Takahiro Inoue

Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Takahiro Inoue
 
Hadoop and the Data Scientist
Hadoop and the Data ScientistHadoop and the Data Scientist
Hadoop and the Data ScientistTakahiro Inoue
 
MongoDB: Intro & Application for Big Data
MongoDB: Intro & Application  for Big DataMongoDB: Intro & Application  for Big Data
MongoDB: Intro & Application for Big DataTakahiro Inoue
 
An Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB PluginsAn Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB PluginsTakahiro Inoue
 
An Introduction to Tinkerpop
An Introduction to TinkerpopAn Introduction to Tinkerpop
An Introduction to TinkerpopTakahiro Inoue
 
An Introduction to Neo4j
An Introduction to Neo4jAn Introduction to Neo4j
An Introduction to Neo4jTakahiro Inoue
 
The Definition of GraphDB
The Definition of GraphDBThe Definition of GraphDB
The Definition of GraphDBTakahiro Inoue
 
Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(完全版)Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(完全版)Takahiro Inoue
 
Large-Scale Graph Processing〜Introduction〜(LT版)
Large-Scale Graph Processing〜Introduction〜(LT版)Large-Scale Graph Processing〜Introduction〜(LT版)
Large-Scale Graph Processing〜Introduction〜(LT版)Takahiro Inoue
 
はじめてのGlusterFS
はじめてのGlusterFSはじめてのGlusterFS
はじめてのGlusterFSTakahiro Inoue
 
はじめてのMongoDB
はじめてのMongoDBはじめてのMongoDB
はじめてのMongoDBTakahiro Inoue
 
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing ModelMongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing ModelTakahiro Inoue
 
MongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduceMongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduceTakahiro Inoue
 
Map Reduce ~Continuous Map Reduce Design~
Map Reduce ~Continuous Map Reduce Design~Map Reduce ~Continuous Map Reduce Design~
Map Reduce ~Continuous Map Reduce Design~Takahiro Inoue
 
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜Takahiro Inoue
 
MongoDB全機能解説2
MongoDB全機能解説2MongoDB全機能解説2
MongoDB全機能解説2Takahiro Inoue
 
MongoDBで作るソーシャルデータ新解析基盤
MongoDBで作るソーシャルデータ新解析基盤MongoDBで作るソーシャルデータ新解析基盤
MongoDBで作るソーシャルデータ新解析基盤Takahiro Inoue
 
MongoDB全機能解説1
MongoDB全機能解説1MongoDB全機能解説1
MongoDB全機能解説1Takahiro Inoue
 

More from Takahiro Inoue (20)

Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
 
Hadoop and the Data Scientist
Hadoop and the Data ScientistHadoop and the Data Scientist
Hadoop and the Data Scientist
 
MongoDB: Intro & Application for Big Data
MongoDB: Intro & Application  for Big DataMongoDB: Intro & Application  for Big Data
MongoDB: Intro & Application for Big Data
 
An Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB PluginsAn Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB Plugins
 
An Introduction to Tinkerpop
An Introduction to TinkerpopAn Introduction to Tinkerpop
An Introduction to Tinkerpop
 
An Introduction to Neo4j
An Introduction to Neo4jAn Introduction to Neo4j
An Introduction to Neo4j
 
The Definition of GraphDB
The Definition of GraphDBThe Definition of GraphDB
The Definition of GraphDB
 
Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(完全版)Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(完全版)
 
Large-Scale Graph Processing〜Introduction〜(LT版)
Large-Scale Graph Processing〜Introduction〜(LT版)Large-Scale Graph Processing〜Introduction〜(LT版)
Large-Scale Graph Processing〜Introduction〜(LT版)
 
Advanced MongoDB #1
Advanced MongoDB #1Advanced MongoDB #1
Advanced MongoDB #1
 
はじめてのGlusterFS
はじめてのGlusterFSはじめてのGlusterFS
はじめてのGlusterFS
 
はじめてのMongoDB
はじめてのMongoDBはじめてのMongoDB
はじめてのMongoDB
 
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing ModelMongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
 
MongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduceMongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduce
 
MongoDB Oplog入門
MongoDB Oplog入門MongoDB Oplog入門
MongoDB Oplog入門
 
Map Reduce ~Continuous Map Reduce Design~
Map Reduce ~Continuous Map Reduce Design~Map Reduce ~Continuous Map Reduce Design~
Map Reduce ~Continuous Map Reduce Design~
 
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
 
MongoDB全機能解説2
MongoDB全機能解説2MongoDB全機能解説2
MongoDB全機能解説2
 
MongoDBで作るソーシャルデータ新解析基盤
MongoDBで作るソーシャルデータ新解析基盤MongoDBで作るソーシャルデータ新解析基盤
MongoDBで作るソーシャルデータ新解析基盤
 
MongoDB全機能解説1
MongoDB全機能解説1MongoDB全機能解説1
MongoDB全機能解説1
 

Recently uploaded

プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 

Recently uploaded (8)

プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 

Treasure Data Intro for Data Enthusiast!!

  • 1. 1   February 14th, 2014 Presented  by       Takahiro  Inoue  –  Chief  Data  Scien:st  
  • 2. 2   Agenda Sec.0  Company  &  Product  Overview   Sec.1  Data  Collec:on   Sec.2  Data  Storage   Sec.3  Data  Management   Management  Console   Sec.4  Data  Processing   Treasure  Query  Accelerator   Presented  by       Takahiro  Inoue  –  Chief  Data  Scien:st   Sec.5  Data  Processing  Design   Cubic  Data  Processing  Design   Graph  Data  Processing  Design   Sec.6  Data  Visualiza:on   Treasure  Viewer     Dashboard:  Metric  Insights   Business  Intelligence:  Tableau   Sec.7  Learning  Visualiza:on  PaTerns  (blog  link)  
  • 3. 3   Introduc-on •  Takahiro  Inoue  (TwiTer:  @doryokujin  )   •  Majored  in  Mathema:cs  in  Keio  University   •  Chief  Data  Scien:st  and  Solu:on  Architect  @  Treasure-­‐Data   Presented  by       •  Leader  of  Japanese  MongoDB  Community,  MData  Scien:st   Takahiro  Inoue  –  Chief   ongo  Masters  
  • 4. 4   Sec.0  Company  &  Product  Over  View  
  • 5. 5   会社概要 チーム概要 2011年12月創業、米国カリフォルニア州。 創業者は日本人3人組。2013年12月現在、 社員約30名。 Hiro Yoshikawa – CEO Open source business veteran Kaz Ohta – CTO Founder of world’s largest Hadoop Group Company & Product Over View ビッグデータの収集・保存・解析を一手に行 Jeff Yuan – Director, Engineering LinkedIn, MIT / Michale Stonebraker Lab えるクラウドサービスを提供。他のサービス と異なり、数日で始められるのが特徴。 Keith Goldstein – VP Sales & BD VP, Business Devt, Tibco and Talend Presented  by       サービスコンセプト •  すぐに使い始められる •  クラウドサービスとしての提供を行う •  シンプルな機能セット、手厚いサポート •  “Trend Setting Products” in Data for 2014
 (Database Trends and Applications) •  “5 Hot Big Data Startups”
 (Enterprise Apps Today) Rich Ghiossi – VP Marketing VP Marketing, ParAccel and HP Takahiro  Inoue  –  Chief  Data  Scien:st   投資家概要 Sierra Ventures – (Tim Guleri) Leading venture capital firm in Big Data Bill Tai Renown investor, GP Charles River Ventures Jerry Yang Founder, Yahoo! Yukihiro “Matz” Matusmoto Creator, “Ruby” programming language James Lindenbaum Founder, Heroku
  • 6. 6   事業概要  (2013年12月8日現在) >50% >100 顧客数 Company & Product Over View 四半期のアカウント数の伸び Presented  by   >4,000     >150,000 Takahiro  Inoue  –  Chief  Data  Scien:st   顧客がデータ収集を行っている アプリケーションサーバー数 1秒間に保存されている レコード数 >7,000,000 >2,500,000,000,000 実行した解析ジョブの数 お客様から預かっている レコード数
  • 7. 7   Product  Overview 収集・保存・解析まで単一のサービスでの提供を行うサービスはTreasure Dataのみ。 Data Collection Data Storage Data Analysis Company & Product Over View Web logs Treasure Agent App logs Streaming Log ! Collector (JSON)! Sensor Cloud DB, Web App, & Command Line BI Connectivity Flexible, Scalable, Columnar Storage! Presented  by   REST API, SQL, Pig, JDBC / ODBC! Tableau, Metric Insights, BI Tools Dr.Sum, Excel, etc. New!! Treasure Viewer     Treasure Batch Query Takahiro  Inoue  –  Chief  Data  Scien:st   & New!! Treasure Query Accelerator RDBMS Bulk Import CRM Parallel Upload from CSV, MySQL, etc.! ERP Time to Value Value  Proposi-on  1 New!! Management Console No Command Line,! Every Operation is Here! ! Economy & Flexibility Value  Proposi-on  2 Result Push REST API, SQL, Pig! Dashboards Custom App, Local DB, FTP Server, etc. Simple & Supported Value  Proposi-on  3
  • 8. 8   ビッグデータ活用:7つのステージ 最適化   データ解析   What s  the  best?   予測分析   What s  a  trend?   統計分析   Presented  by   Why?       アラート   Takahiro  Inoue  –  Chief  Data  Scien:st   Error?   ドリルダウン   アドホックレポート   Where?   定型レポート   レポーティング   Where  exactly?   What  happened?   お客様の進化に合わせて、我々のサービスも進化を続ける。  
  • 9. 9   価格プラン:  Premium  Plan Free   Standard   Premium     Custom   価格   $0   $3000/月   $7500/月   -­‐     レコード数   年間20億件   バッチクエリ   0コア   8コア   16コア   Unlimited   アドホック   クエリ   N/A   N/A   ○   Unlimited   ユーザー数   1   5ユーザー   20ユーザー   Unlimited   サポート   オンライン   通常   専任   Nego:able   年間150億件   年間500億件   Unlimited   大企業様からの要望に答える形で、サポート体制の強化を行ったプランを新設  
  • 10. 10   サービスポジショニング マーケティングクラウド (DMP) クラウド アプリケーションログの レポーティング、分析 セキュリティ/法律上   クラウドにデータが   上げられない事が多い   センサーデータ/M2M Internet of Things 補完関係   自社 データ
 センター 自社データセンターで   保存・解析するには   コスト・人材面でマッチしない   構造化データソース 非構造化、新しいデータ・ソース (取引履歴、会計、個人情報、etc) (Web、センサー、デバイス、etc)
  • 11. 11   なぜ Treasure  Data?  –  実装の早さ、本質的な作業に集中 •  既存のデータウェアハウスの実装プロセス Data Collection ETL Data Warehouse BI/Reporting 6ヶ月 ~ 1年, 5-10億円+maintenance, ベンダーロックイン •  Treasure Dataのクラウドサービス Data Collection ETL Data Warehouse 2 – 3週間 月額課金制での支払い 既存のBI/Reportingが利用可能 BI/Reporting
  • 12. 12   Value  Proposi-on   •  Faster  -me  to  value     •  Cloud  flexibility  and  economics     •  Simple  and  well  supported    
  • 13. 13   Advantage  of  Treasure  Data Value Advantage Faster  -me  to  Value Data Collection •  •  Bulk Import 機能が大規模データの高速インポートを サポート。 Streaming 機能によってほぼリアルタイムにデータ収 集を開始できる。 Data Processing •  •  計算ノードのオンタイムによる追加で高速に並列処理 が実行可能。 Streaming 機能によって,デイリーのバッチ処理を待 たずして分析が可能。
  • 14. 14   Advantage  of  Treasure  Data Value Advantage Cloud flexibility and economics Data Collection •  •  テキスト,DB,FTP など多様なデータソースへのプラグ インを用意。 Streaming 機能によってほぼリアルタイムにデータ収 集を開始できる。 Data Storage •  •  最低限のコストで∞ストレージを提供。 JSON ライクの,スキーマレスを実現。 Data Processing •  •  必要に応じてノード数をオンタイムで変更可能。 ストレージ・ノード数に応じた従量制の価格体系。 Data Result Export •  JDBC, ODBC プラグインを用意。 •  集計済のデータのエクスポート先 CSV,ダッシュボード, BI,DB など多様なプラグインを用意。
  • 15. 15   Advantage  of  Treasure  Data Value Advantage Simple  and  well  supported Data Collection •  Fluentd の豊富なドキュメントと様々なプラグインに よってラーニングコストを最小化。 Data Storage •  Management Console からデータの参照が可能。 Data Processing •  SQL ライクの簡潔なクエリ言語によって実行可能。 Data Result Export •  Treasure Viewer, Metric Insights, Tableau をサポート。
  • 16. 16   Sec.1  Data  Collec-on   •  Treasure  Agent  (Fluentd)  
  • 17. 17   Sec.1  Data  Collec-on Data Storage Data Collection Data Analysis Web logs Treasure Agent App logs Streaming Log ! Collector (JSON)! Cloud DB, Web App, & Command Line BI Connectivity REST API, SQL, Pig, JDBC / ODBC! Flexible, Scalable, Columnar Storage! Sensor Treasure Batch Query & New!! Treasure Query Accelerator Tableau, Tools etc. BI Dr.Sum, New!! Treasure Viewer RDBMS Bulk Import CRM Parallel Upload from CSV, MySQL, etc.! ERP New!! Management Console No Command Line,! Every Operation is Here! ! Result Push REST API, SQL, Pig! Dashboards Metric Insights, etc. Focus! Time to Value Economy & Flexibility Simple & Supported
  • 19. 19   データソースに応じた2種類のインポートメソッド RDBMS Web logs Treasure Agent App logs Bulk Import Streaming Log ! Collector (JSON)! Parallel Upload from CSV, MySQL, etc.! Sensor Treasure Data Cloud CRM ERP 新しいデータソース 従来のデータソース •  「新しいデータソース」 = 各自のアプリケーション から Treasure Data Library を利用して取得する データ •  例:Heroku アプリケーションログ(Heroku Plugin)・ソーシャルゲームログ・モバイルデバイ スログ・センサーデータ・etc… •  これらのデータはデータ量が変化しやすく,また 既に取得項目が構造化されている。 •  「従来のデータソース」 = 既に過去に蓄積され, データベースなどに保存されているもの。 •  例:POSデータ,Site CatalystやMedia Mindなど の分析ツールが裏で保持しているローデータ。 •  試験プロセスとして過去の特定の期間のデータ をアップロードする場合。 •  これらのデータは Bulk Import ツールを用いた 並列インポートで効率良く一気にクラウドスト レージに送る。
  • 20. 20   Data  Acquisi-on  –  Bulk  Loader RDBMS   App   SaaS   CSV,  TSV,  JSON,   MessagePack,  Apache,   regex,  MySQL,  FTP   FTP     Bulk  Loader     Prepare  >  Upload  >  Perform  >  Commit   Treasure Data Cloud
  • 21. 21   Data  Acquisi-on  –  Streaming  Capture Applica:on  Server   # Application Code ... ... •  Automa:c  Micro-­‐batching   •  Local  buffering  Fall-­‐back   •  Network  Tolerance   # Post event to Treasure Data TD.event.post('access', {:uid=>123}) ... ... Treasure  Data  Library   Java,  Ruby,  PHP,  Perl,  Python,  Scala,  Node.js       Treasure Data Cloud Treasure  Agent  (local)  
  • 22. 22   Treasure  Data  が提案する新しいデータ:  Event  Base  Logs For  Social  Game  Analy:cs   # Application Ruby Code ... # Post event to Treasure Data TD.event.post(’login', {:uid => 123, :device => ’smart phone’ :time => 138959673 }) ... TD.event.post(’pay', {:uid => 123, :name => ’ItemA’, :sub_category => ’a’, :category => A, :count => 2, :price => 300 :time => 138959673 }) ... TD.event.post(’invite', {:uid => 123, :invited_uid => 456, :campaign_name => ’invite_event_2’, :time => 138959673 }) For  Web  Analy:cs   # HTML Source ... # Post event to Treasure Data TD.event.post(‘login', {‘uid’ : get_session(), ‘time’ : 138959673 }) ... TD.event.post(’conversion', {‘uid’ : 123, ‘conversion_id’ : ’conv_1’, ‘referer’ : ’www.top.html’, ‘time’ : 138959673 }) ... TD.event.post(’add_cart', {‘uid’ : 123, ‘product_name’ : ‘book1’, ‘cart_id’ : 1, ‘time’ : 138959673 }) ... TD.event.post(’subscribe', {‘uid’ : 123, ‘mail’ : ‘doryokujin@treasure.com’, ‘plan’ : ‘$300’, ‘time’ : 138959673 }) Treasure  Data  Library   Java,  Ruby,  PHP,  Perl,  Python,  Scala,  Node.js    ,  JS  Tag  Library  
  • 23. 23   Treasure  Data  が提案する新しいデータ:  Event  Base  Logs For  Telema:cs  Analy:cs   # Java Code ... # Post event to Treasure Data TD.event.post(’ignition_on', {‘uid’ : 123, ‘longitude’ : 135, ‘latitude’ : 36, ‘odometer’ : ‘100km’, ‘room_temperature’: 24 ‘last_iginition_off_time’ : 138959000, ‘time’ : 138959673 }) ... TD.event.post(’airbag_on', {‘uid’ : 123, ‘longitude’ : 135, ‘latitude’ : 36, ‘time’ : 138959673 }) ... TD.event.post(’pedal_accelerator', {‘uid’ : 123, ‘longitude’ : 135, ‘latitude’ : 36, ‘speed’ : ‘70km/h’, ‘acceleration’ : ’1m/s^2’, :time : 138959673 }) For  EC  Analy:cs   # HTML Source ... # Post event to Treasure Data TD.event.post(‘pay', {‘uid’ : get_session(), ‘price’ : 1000, ‘genka’ : 800, ‘area’ : ‘Tokyo’, ‘time’ : 138959673 }) ... TD.event.post(’post_comment', {‘uid’ : 123, ‘item_name’ : ’itemA’, ‘rating’ : 4, ‘comment’ : ‘使いやすくてTD最高です!’, ‘time’ : 138959673 }) ... TD.event.post(’visit_from_affiliate', {‘url’ : ‘www.hoge.com’, ‘affliate_url’ : ‘www.sale.com’, ‘session_id’ : get_session(), ‘time’ : 138959673 }) … Treasure  Data  Library   Java,  Ruby,  PHP,  Perl,  Python,  Scala,  Node.js    ,  JS  Tag  Library  
  • 24. Heroku  Add-­‐on:  Treasure  Data  Hadoop hTps://addons.heroku.com/treasure-­‐data Before After Heroku Add-on: Treasure Data Hadoop によって Herokuアプリケーションからの ログのストリーミング収集が容易かつ低コストで実現。 *  参考記事: hTp://doryokujin.hatenablog.jp/entry/2012/07/05/025737
  • 25. 25   Project •   Treasure  Data  のデータコレクタ部分は、オープンソース化   –  2013年、国内外で広く浸透   –  世界中でデータを解析可能な形で収集するのに一役買っている   "We use Fluentd to collect massive data logs for our platforms. Having developed a system based on Fluentd, we are now effectively monitoring and analyzing our services in real-time. We are very much satisfied with its flexibility, especially how easy it is to use in tandem with other systems." "We utilize Fluentd to collect a very large amount of logs. The logs are written into Hadoop HDFS clusters, and are also used to analyze various service statuses in realtime. We also use many plugins from rubygems.org to further enhance this mechanism." Fluentd is very similar to Apache Flume or Facebook’s Scribe [but] it’s easier to install and maintain and has better documentation and support than either Flume or Scribe” Fluentd  オープンソースプロジェクトのユーザー例  
  • 26. 26   Before  Fluentd:  M  x  N  通りのデータ収集・活用方法

  • 27. 27   Aer  Fluentd:  M  +  N  通りに経路を集約して簡素化 Access logs Apache Alerting Nagios App logs Frontend Backend Analysis MongoDB MySQL Hadoop System logs syslogd Databases filter / buffer / routing Archiving Amazon S3
  • 28. 28   Treasure  Agent  Monitoring  Service •  td-­‐agentのモニタリングサービス   –  Treasure  Dataのクラウドサービスの一機能   –  fluent-­‐plugin-­‐td-­‐monitoringをインストール   •  td-­‐agent  v1.1.18  にはこっそり既に入っております   Treasure  Agent   td-­‐monitoring   Treasure  Data  Service   統計情報の定期送付  (毎分)   •  システム統計情報   •  Fluentd内部メトリクス情報   •  SSLによる送信  
  • 29. 29   Summary  -­‐  Our  2  Import  Methods  -­‐ Streaming Bulk  Loader •  ほぼリアルタイムにログの収集が可能。 •  あらゆるデータソースを接続口として持 つ(Fluentd In-Plugin)。 •  あらゆるアウトプット形式に対応 (Fluentd Out-Plugin)。 •  定常的にネットワーク帯域を使える。 •  ネットワークの遅延などにより,多少の データロストがある場合がある。 •  数十GB〜数TBの大規模データに対応。 •  並列処理で高速にアップロード。 •  データのロストが無く安心。 これから取得するデータはStreamingで,既に蓄積している 数年分のデータはBulk Loaderを用いることでデータの一元 管理が可能。
  • 30. 30   Sec.2  Data  Storage   •  Treasure  Cloud  Storage  
  • 31. 31   Sec.2  Data  Storage Data Collection Data Storage Data Analysis Web logs Treasure Agent App logs Streaming Log ! Collector (JSON)! Cloud DB, Web App, & Command Line BI Connectivity REST API, SQL, Pig, JDBC / ODBC! Flexible, Scalable, Columnar Storage! Sensor Treasure Batch Query & New!! Treasure Query Accelerator New!! Treasure Viewer Focus! RDBMS Bulk Import CRM Tableau, Tools etc. BI Dr.Sum, Parallel Upload from CSV, MySQL, etc.! ERP Time to Value New!! Management Console No Command Line,! Every Operation is Here! ! Economy & Flexibility Result Push REST API, SQL, Pig! Dashboards Metric Insights, etc. Simple & Supported
  • 32. 32   Data  Storage Treasure  Data   Cloud   Default  (schema-­‐less)   -me   v   1384160400   {“ip”:”135.52.211.23”,  “code”:”0”}   1384162200   {“ip”:”45.25.38.156”,  “code”:”-­‐1”}   1384164000   {“ip”:”97.12.76.55”,  “code”:”99”}   •  •  •  Schema  applied   ~30%  Faster   -me   ip  :  string   code  :  int   1384160400   135.52.211.23   0   1384162200   45.25.38.156   -­‐1   1384164000   97.12.76.55   99   •  *スキーマを定義することでパフォーマンスが 大幅にアップ。 •  “スキーマレス”  な  JSON形式で保存   –  変更されたスキーマも既存の テーブルへの保存が可能。   列指向データベースを採用。   スキーマを定義する事でパフォーマ ンスが大幅に上昇。   特に時間をキーにしたフィルタリン グに強み。   「容量を気にすることなく,あらゆる データをとにかく蓄積していく,必要 なことものはそれから考えましょう」  
  • 33. 33   従来のストレージ,SQL,No  SQL 210.233.9.2  -­‐  -­‐  [07/Aug/2006:10:45:40  +0900]  "GET  /img/ mtdc.gif  HTTP/1.1"  200  1242  "hTp://mermaid-­‐tavern.com/"   "Mozilla/4.0  (compa:ble;  MSIE  6.0;  Windows  NT  5.1;  SV1)   従来の(クラウド)ストレージ -me   Ip   1384160400   135.52.211.23   1384162200   45.25.38.156   Code     0   -­‐1   •  非構造化によるデータの保持 •  データ抽出,集計時にファイルの読込が毎回必要 •  210.233.9.2  -­‐  -­‐  [07/Aug/2006:10:45:40  +0900]  "GET  /img/ mtdc.gif  HTTP/1.1"  200  1242  "hTp://mermaid-­‐tavern.com/"   "Mozilla/4.0  (compa:ble;  MSIE  6.0;  Windows  NT  5.1;  SV1)   圧縮,解凍は入出力の際にマニュアル処理 SQL •  構造化とインデックスで高速処理が可能 •  スキーマの追加が困難 •  スケールしにくく,その場合の管理コストが大 No SQL •  柔軟なデータ保持方法 •  スケーリングに強いものも •  歴史が浅く,情報源が少ない •  各No SQLに特化した人材コスト
  • 34. 34   Treasure  Data  Cloud  のメリット Treasure Data Cloud のメリット Treasure  Data  Cloud   “巨大な列指向データベース“   -me   v   1384160400   {“ip”:”135.52.211.23”,  “code”:”0”}   1384162200   {“ip”:”45.25.38.156”,  “code”:”-­‐1”}   1384164000   {“ip”:”97.12.76.55”,  “code”:”99”}   •  変更されたスキーマも既存のテーブル への保存が可能 •  (S3に準ずる)高いデータの機密性・ 堅牢性を保持 •  レコード数に応じた課金体系,多くの 場合は非常に低コストで利用可能 •  データは自動で圧縮して保存 •  Hive(SQL Like)クエリによるデータの 抽出および集計がダイレクトに可能 •  データの管理・運用にかかる人材コス トが不要
  • 35. 35   Treasure  Management  Console  によるデータ管理 Database   Table   指定したDB名,Table名に対してHive (SQL-Like) Query を実行することによりデータの抽出および集計 がストレージに対してダイレクトに行える。 New  Query  
  • 36. 36   サービスポジショニング マーケティングクラウド (DMP) クラウド アプリケーションログの レポーティング、分析 セキュリティ/法律上   クラウドにデータが   上げられない事が多い   センサーデータ/M2M Internet of Things 補完関係   自社 データ
 センター 自社データセンターで   保存・解析するには   コスト・人材面でマッチしない   構造化データソース 非構造化、新しいデータ・ソース (取引履歴、会計、個人情報、etc) (Web、センサー、デバイス、etc)
  • 37. 37   Try  &  Error  Itera-on:中間データをどこに保持するか - フィルタ済データ ローデータ クラウド - テンポラリデータ 中間データ群を自社データセンター に保存するだけで大幅なコスト。   様々な  Try  And  Error  の末に保存対 象となったナレッジデータのみローカ ルに保存することでコスト減。     自社 データ
 センター ローデータ,クラウドに上げ られないデータ ローデータ,フィルタ済データ, 分析用中間データ,tempデータ Try  &  Error  Itera-on - 分析用中間データ - データキューブ
  • 38. 38   データ横串分析1:中古車相場データからの応用 業者間オークション : B to B の中古車相場 個人間オークション : C to C の中古車相場 業者が卸してから販売 する際のマージンに注目 業者の販売値と個人間の 販売値との乖離 = (整 備・保証料) に注目 Car Sensor : B to C の中古車相場 新車からの値落ち率と 年式等との関係に注目 新車カタログ : 新車価格,車両情報 レビューの高さと中古車 相場の関係に注目 レビューサイト : 車両レビュー
  • 40. 40   新しいデータ:The  Internet  of  Things(IoT) When everything has an ID, and can send data about itself…
  • 41. 41   テレマティクスとは •   Telecommunica:on(通信)  +  Informa:cs(情報科学)   –  自動車などの移動体に通信システムを組み合わせて、リアルタイム に情報サービスを提供すること   •  モダン・テレマティクスデータの特徴   –  車両のID(車載機)と、運転者のID(スマートフォン)を別々に管理す ることができるため、どの車に誰が乗ったかを自動的に判別可能。 –  拡張性:車載器だけでなく,スマートフォンからも詳細なデータ取得 が可能に。モニターやカメラ、加速度センサーなど、スマートフォン に搭載されているデバイスであれば、ハードの追加無く拡張可能。  
  • 42. 42   Telema-cs  Data  Analysis   自動車保険:   -­‐  走行距離連動型保険   -­‐  運転の雑さを指標化   Bulk Import 並列アップロード   電気スタンド需要   -­‐  駐車が多い施設の特定   Treasure Agent ストリーミングアップロード! -­‐  -­‐  -­‐  -­‐  緯度・経度   アクセルON/OFF   イグニッションON/OFF   車速・燃費   電気自動車需要   渋滞予測システム   -­‐  一回の走行距離・距離が     少ないエリアの特定   -­‐  車速や単位当たりの移動距離          から渋滞エリアを特定  
  • 43. 43   Leading/Well-Known Auto Manufacturer •  Telematics! –  200 sensors in new cars! –  Each collect data every 10 seconds! •  Business Benefits! –  Dramatically lowers friction for! new projects! •  And prototypes! –  Focus resources on the cars ! and the data! •  Not the data collection or storage! –  Big Data pipeline up in days! •  Minimal upfront investment! •  Initial results in few days!
  • 44. 44   World’s largest OBD provider •  Telematics! –  On-board Diagnostics (OBD) vendor! –  Building a embeddable solution for auto manufacturers! •  Business Benefits! –  Looking to build a turn-key ! solution for auto manufacturers •  But they don’t have Big Data expertise! •  They want to focus on their OBD solution and leadership position! –  ROI expected at 25-50x! •  Over using a traditional data warehouse approach!
  • 45. 45   Innovative Semiconductor Company •  Wearable Sensors! –  Wrist-band activity sensor! –  Tracks movement & exercise! •  Business Benefits! –  Looking to build a turn-key solution ! for fitness brands •  As a semiconductor company, ! they don’t have in-house expertise ! on Big Data infrastructure! –  They need to develop quickly ! to secure a leadership position ! with major brands before their competitors do! Androi d  
  • 46. 46   Sec.3  Data  Management   •  Treasure  Management  Console  
  • 47. 47   Sec.3  Data  Management Data Collection Data Storage Data Analysis Web logs Treasure Agent App logs Streaming Log ! Collector (JSON)! Cloud DB, Web App, & Command Line BI Connectivity REST API, SQL, Pig, JDBC / ODBC! Flexible, Scalable, Columnar Storage! Sensor Treasure Batch Query & New!! Treasure Query Accelerator Tableau, Tools etc. BI Dr.Sum, New!! Treasure Viewer RDBMS Bulk Import CRM Parallel Upload from CSV, MySQL, etc.! ERP Result Push New!! Management Console No Command Line,! Every Operation is Here! ! REST API, SQL, Pig! Dashboards Metric Insights, etc. Focus! Time to Value Economy & Flexibility Simple & Supported
  • 48. 48   Our  2  Management  Tools Treasure Command Line Tools ( for Engineer ) Treasure  Management  Console   (  for  Analyst,  Decision  Maker  ) •  豊富なコマンド群を通じて詳細な情報を得 ることが可能。 •  シェルスクリプトなどと合わせて自動化が できる。 •  UIでなくコマンドラインでないと落ち着かな いエンジニア向けに。 •  Web UI からデータベースおよびテーブル の状況を把握できる。 •  各テーブル内のデータサンプルを素早く 参照できる。 •  クエリの記述・実行もここから可能。 •  さらに Treasure Viewer によってすぐにグ ラフ化することが可能。 Management  Console  の登場によって,より多くのアナリスト・ 意思決定者自身がCloud  Databaseに触れる機会が増える。  
  • 53. 53   Set    Schedule 定型のバッチクエリはCRONライクな設定方法で,容易にスケジューリング可能。
  • 55. 55   Sec.4  Data  Processing   •  Treasure  Batch  Query   •  Treasure  Query  Accelerator  
  • 56. 56   Sec.4  Data  Processing Data Collection Data Storage Data Analysis Web logs Treasure Agent App logs Streaming Log ! Collector (JSON)! Cloud DB, Web App, & Command Line BI Connectivity REST API, SQL, Pig, JDBC / ODBC! Flexible, Scalable, Columnar Storage! Sensor Treasure Batch Query & New!! Treasure Query Accelerator New!! Treasure Viewer Focus! RDBMS Bulk Import CRM Tableau, Tools etc. BI Dr.Sum, Parallel Upload from CSV, MySQL, etc.! ERP Time to Value New!! Management Console No Command Line,! Every Operation is Here! ! Economy & Flexibility Result Push REST API, SQL, Pig! Dashboards Metric Insights, etc. Simple & Supported
  • 57. 57   Big Data Infrastructure …and building a Big Data infrastructure is complicated, expensive, and requires skills that are very hard to hire. Streaming  Collec:on   Batch  Collec:on   Business  Rules   Data  Integra:on   Consump:on  /   Analy:cs   Applica:on  Interfaces   Processing  Engines   Frameworks   Storage  Layer   Networking   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware   O/S   Hardware  
  • 58. 58   Cube BI  Tools Pig Open  Source   MapReduce Date,  Product  Category,  Area     Dashboard Human  Decision Database Granularity Interac-ve Business   Goal What  Helps? Hive Batch  Process Intermediate   Data Data  Insight Aggregator Batch Data  Analysis Machine  Learning File  /  HDFS User  Id Ad-­‐hoc Impala Small Auto ML  /     Graph  Mining Deep Enterprise   Their  Own  Products
  • 59. 59   Treasure  Query  Accelerator •  Treasure  Query  Accelerator  (TQA)   –  アドホックデータ解析向けのクエリエンジン   –  既存のバッチ型クエリエンジンと比較し、10  〜  50倍高速   –  目的に応じて、既存のバッチ型クエリエンジンと使い分け Queries   MPP  (Massively  Parallel  Processing)  Query  Executor           Plazma  Cloud  Storage   (2.5兆件のデータを保持)  
  • 60. 60   Data Analysis REST  API   Heavy  Liing  SQL  (Hive):   -­‐  Hive’s  Built-­‐in  UDFs   -­‐  TD  Added  Func:ons:   -­‐  Time  Func:ons   -­‐  First,  Last,  Rank   -­‐  Sessionize   Scheduled  Jobs   -­‐  SQL,  Pig  Scripts   -­‐  Data  Pushes   JDBC  Connec-vity:   -­‐  Custom  Java  Apps   -­‐  Standards-­‐based   -­‐  BI  Tool  Integra:on   Tableau  ODBC  connector   -­‐  Leverages  Impala   Interac-ve  SQL   Treasure  Query  Accelerator     (Impala)   Scripted  Processing  (Pig):   -­‐  DataFu  (LinkedIn)   -­‐  Piggybank  (Apache)   Push  Query  Results:   -­‐  MySQL,  PostgreSQL   -­‐  Google  Spreadsheet   -­‐  Web,  FTP,  S3   -­‐  Le{ronic,  Indicee   -­‐  Treasure  Data  Table  
  • 61. 61   Granularity Interac-ve What  Helps? Batch  Process Business   Goal Data  Insight Aggregator Intermediate   Data Dashboard Cube User  Id BI  Tools Batch Ad-­‐hoc New!! File  /  HDFS Small Auto Data  Analysis Deep Treasure Query   Accelerator    (Impala) Machine  Learning SQL-­‐like Query  Language Treasure  Batch   Query  (Hive)   Database Human  Decision Treasure   Scripted   Query  (Pig)   Date,  Product  Category,  Area     Script   多段MapReduce  
  • 62. 62   Comparison  Between  Batch  and  Ad-­‐hoc バッチ型クエリ SQL-­‐style  Query  Language   Monitoring アドホック型クエリ 〃 -­‐  ラーニングコストが低い   -­‐  参考になる情報が溢れている   -­‐  Join,  Group  by,  Where  の概念は馴染み やすい   JDBC/ODBC  Driver   BI  Tools -­‐  多数のBIがJDBC/ODBCに対応   -­‐  それ以外のBIでもコネクタを作る事が 可能     For  R/Excel/SPSS   Data  Analysis -­‐  解析に必要なデータセットの抽出   -­‐  Hiveの出力データ構造と解析ツールの 入力形式の親和性が良い   -­‐  入力データ抽出→解析→入力データ修 正→…  のイテレーション   Yes!  Interac-ve!!   -­‐  インタラクティブな操作が実現   -­‐  クリック・ドラッグ操操作で直接 Treasure  Cloud  Storage  へアクセスが 可能に For  Automa-c  System   -­‐  リコメンドエンジンや広告配信システム など,常に結果を参照し続けるシステム に対応
  • 63. 63   バッチ型クエリ 定時レポーティング   配信最適化   •  オンライン広告   アドホック型クエリ •  •  顧客向けの定時パフォーマンスレ ポーティング   1時間に1回の更新、確実に終わら せる事が重要   定時レポーティング   •  Web  /  Social   •  社内  /  子会社  /  経営層向けの定期 パフォーマンスレポーティング   大量のKPIを定義し、毎日  /  毎時確 実に終わらせる事が重要   定時レポーティング   •  リテール   •  •  接続しているアドネットワークのパ フォーマンスをリアルタイム集計   集計結果から広告配信のロジックをリ アルタイムに最適化 サポート業務効率化   •  •  ユーザーからのサポートリクエストに 応じてその場でデータを集計   サポートのレスポンス・対応業務を効 率化し、ユーザーの満足度向上に繋 げる   即時バスケット分析   PoS・Webサイト解析システム・タッチ •  パネルシステムから上がってくる データの定期レポーティング   •  毎時確実に終わらせる事が重要   過去数年分、数百億件のデータから、 その場でバスケット分析を実行可能   商品開発のミーティングの中で、過去 データを参照。データを元にした商品 開発活動を開始  
  • 64. 64   New  Query  (Batch)  From  Console Query Type を”Hive”に設定 Treasure  Management  Console  よりクエリの実行が可能。その際に   Hive(Batch  Query),Impala(Ad-­‐hoc  Query)  の選択が可能。
  • 65. 65   New  Query  (Ad-­‐Hoc)  From  Console Query Type を”Impala”に設定
  • 66. 66   Result Batch ならば数分, Ad-Hoc なら数秒で結 果が得られる。 Resultを表示,csv等 にエクスポートも可能。
  • 67. 67   Sec.5  Data  Processing  Design   •  Cubic  Data  Processing  Design   •  Graph  Data  Processing  Design  
  • 68. 68   Data  Scien-st  に求められる3つの”プロフェッショナル” 役割 必要なスキル 1.  適切な 「前処理」 を行うこと •  •  •  あらゆるデータソースからデータを収集できるインフラスキル   手元で手早く処理を行うためのシェルスクリプティング能力   泥臭い作業を続ける忍耐力   •  専門家では無い人にも 「集計」 が行えるようにするための   Processing  Design  スキル   あらゆる 「集計」 をもれなく押さえ,パターン化する数学的ス キル   自分は 「集計」 をするために存在するのではなく,「分析」 するために存在するのだという信念   2.  「集計」 をパターン化して半機械 的なプロセスに落とし込むこと •  Focus! •  3.  意思決定者に対してアクショナブ ルな考察をもたらす 「分析」 を行 うこと •  •  深い分析をしても,専門家ではない意思決定者に理解しても らえるための説明力 できるだけシンプルに,かつアクショナブルな考察をもたらす ためのデータ表現(可視化)スキル
  • 69. 69   1.  Cubic  Data  Processing  Design:  Goal Source   Tables   Big   Cube   Mini   Cubes   Cross   Tables   Visualize   Dashboard 非専門家による  Mini   Cube  の作成,クロス集計, Dashboard  埋め込み   専門アナリストに よる前処理,  Big   Cube  の作成   パターンプロセス 専門アナリストによる   KPI  レポーティング   Big   Cube   BI  Tools 専門アナリストによる   応用分析  
  • 70. 70   1.  Cubic  Data  Processing  Design:  For  Treasure  Data Source   Tables   Big   Cube   専門アナリストに よる前処理,  Big   Cube  の作成   Mini   Cubes   Cross   Tables   Visualize   非専門家による  Mini   Cube  の作成,クロス集計, Dashboard  埋め込み   パターンプロセス Dashboard 専門アナリストによる   KPI  レポーティング   BI  Tools 専門アナリストによる   応用分析  
  • 71. 71   1.  Cubic  Data  Processing  Design:  For  Treasure  Data Source   Big   Tables   Batch  Process Cube   Batch  Process   Mini   Cubes   Interac-ve Cross   Tables   Interac-ve Visualize   Excel   Import   Treasure   Batch  Query   BI  Tools Dashboard Import   Treasure   Batch  Query   Treasure   Ad-­‐hoc  Query   Connector   Treasure   Batch  Query   BI  Tools On  Memory   Treasure   Ad-­‐hoc  Query  
  • 72. 72   Source   Big   Tables   Batch  Process Cube   1-­‐1.  Making  Big  Cube 専門アナリスト   •  JOIN  可能な複数のデータソースを1 つのテーブルにまとめる。   •  全てのディメンジョンをGROUPキーに した集計を実行する。   •  大規模なデータ処理になる場合は, 時間分割などをする。   Dashboard  や  BI  から直接  Big  Cube   を参照することはない。(Ad-­‐hoc  クエ リは例外。)   •  Treasure   Batch  Query   •  •  Focus! i.e.  一度Big  Cubeを作ったら,ソース テーブルは二度と参照しない。   全ての項目を「メジャー」と「ディメン ジョン」に分類する。  
  • 73. 73   1.  Table  Join hTp://doryokujin.hatenablog.jp/entry/2014/01/22/184300 Schema:  Car  Sensor:   brand_master  table   name   country_name   …   pref_master  table   code   large_area_name   …   carsensor  table   id   name   grade   model   code   body_name   price   year   shop_pref_code   shop_pref_name   Car   ...   Hierarchy catalog  table   Name   code   grade   model   series   body_code   body_name   period   …  
  • 74. 74   1.  Cubic  Data  Processing  Design Data  Cube   ディメンジョン(階層がある場合は最上位階層を選択する)を固定することで,各ディ メンジョンを次元軸に,1つのメジャーを各セルに取ったData  Cubeを作成できる Ex.  Cube  for  (  Country,  Car  Name,  Year  ) Date   Products     Car  Name   Level Cell:   (  Prius,  Korea,  2005)     -­‐-­‐>  10,000 PRIUS   MARK  X   2007   FAIRLADY  Z   2006   ROAD  STAR   2005   USA   Canada   Japan   Korea   Country   Level   Year     Level Loca-on  
  • 75. 75   1.  Cubic  Data  Processing  Design Star  Schema   Dimension  tables   Loca-on   Country   State   City   Products   Company   Car  Type   Car  Name   Hierarchy   (level-­‐of-­‐detail)   Fact  table   State   Month   Car  Name     Profit   Sales   Payroll   Marke-ng   Inventory   Margin   ...   Hierarchy Car   Date   Year   Month   Day  
  • 76. 76   3.  Business  Intelligence Dimension,  Measure   *  Date  Dimension  はツール側で自動的にlevelを考慮してくれる Most  Detailed  Dimensions   <city,  car  name> –  Original  Table   Most  Detailed  Dimensions Measure County State City Company Car  Type Car  Name Date USA California San  Jones TOYOTA Sedan   Corolla   2012-­‐08-­‐15 36 $3,000 USA California Palo  Alto TOYOTA Sedan Alion 2012-­‐08-­‐15 24 $2,000 USA California Los  Altos NISSAN SUV X-­‐TRAIL 2012-­‐08-­‐16 100 $1,000 USA New  York ManhaTan NISSAN Sport FAIRLADY  Z 2012-­‐08-­‐16 64 $500 Canada Alberta Airdrie Sport Road  Star 2012-­‐08-­‐15 4 $3,000 MAZDA Loca:on  Hierarchy Products  Hierarchy –  Big  Cube   <city County ,  car  nam e> <sta USA te,  c ar  n ame <cou > USA nty,  car   nam <*,  c eUSA > ar  n ame <cou > ALL ntry ,  car  typ <cou eUSA > ntry ,  car  nam <cou e> USA ntry ,  *> USA … <*,  * > ALL Date  Hierarchy Units Sales Holis-c   Measure State City Company Car  Type Car  Name Date Avg  of  Top  20 California San  Jones TOYOTA Sedan   Corolla   2012-­‐08-­‐15 $3,600 California ALL TOYOTA Sedan Alion 2012-­‐08-­‐15 $2,400 ALL ALL NISSAN SUV X-­‐TRAIL 2012-­‐08-­‐16 $1,000 ALL ALL NISSAN Sport FAIRLADY  Z 2012-­‐08-­‐16 $640 California San  Jones TOYOTA Sedan   ALL   2012-­‐08-­‐15 $3,600 California San  Jones TOYOTA ALL ALL 2012-­‐08-­‐15 $1,100 California San  Jones ALL ALL ALL 2012-­‐08-­‐15 $2,300 … … … … … … ALL ALL ALL ALL ALL ALL … $720
  • 77. 77   1-­‐2.  Making  Mini  Cubes  from  Big  Cube Big   Cube   Batch  Process   Mini   Cubes   非専門家による   パターンプロセス   •  •  Focus! 例1.Time:  year  >  month  >  day  >  hour   •  例2.Item:category    >  sub_category  >   item_name   •  On  Memory   階層を持ったディメンジョンは1つの ディメンジョンとして扱う。   •  Treasure   Batch  Query   必要名ディメンジョンの組み合わせ だけ,Mini  Cubeが作られる。   •  Treasure   Batch  Query   軸にするディメンジョンを最大2つ選 択し,Mini  Cubeを作成する。   Dashboard  や  BIから直接参照するこ とを前提としているので,Mini  Cubes の保存場所はデータベース(イン デックスをきちんと作成しておく),メ モリ上になる。  
  • 78. 78   1-­‐3.  Making  Cross  Table  from  Mini  Cubes Mini   Cubes   Interac-ve Cross   Tables   Excel   非専門家による   パターンプロセス   Mini  Cube  を2つのディメンジョンに限 定したのはクロス集計における2軸 の設定を自動で行うため。   •  クロステーブルの各セルの値には合 計,数,平均などが入る。   •  Treasure   Batch  Query   さらに  Mini  Cube  の中でクロス集計 が必要なものは  Excel  などの統計 ツールや  BI  の機能を使って作成す る。   •  Treasure   Batch  Query   •  クロス集計をインプットとした可視化 はよりわかりやすいものになりやす い。   BI  Tools On  Memory   Focus!
  • 79. 79   1-­‐4.  Repor-ng  from  Mini  Cube  or  Cross  Table Mini   Cubes   Interac-ve Cross   Tables   Interac-ve Visualize   非専門家による   パターンプロセス   Excel   •  Treasure   Batch  Query   作成したMini  Cubeお よびCross  Tableを Dashboard  および  BI のインプットデータと する。   •  Import   レポーティング中に新 しい項目の集計が必 要な場合はBig  Cube からMini  Cubeに切り 出してそれを新たな インプットとする。   BI  Tools Dashboard Import   Treasure   Ad-­‐hoc  Query   Connector   Treasure   Batch  Query   BI  Tools On  Memory   Treasure   Ad-­‐hoc  Query   専門アナリスト   Focus!
  • 80. 80   2.  Graph  Data  Processing  Design
  • 81. 81   2.  Graph  Data  Processing  Design •  データのテーブルまたは項目を,「ディメンジョン」「メジャー」で分けるのではなく,ノー ド・エッジ・ステータスのグラフ(Property  Graph)で表現する。   •  上記の例では,ブックレビューデータの例。ユーザーが本をレビューした場合,ユー ザー(ノード)が本(ノード)に対して“review”(エッジ)をした場合の  Property  Graph。  
  • 82. 82   2-­‐1.  Property  Graph  (Access  Log) •  アクセスログもまた  Property  Graph  による表現が可能。ユーザーが特定できていなく ても,ページ間(ノード)の遷移:  “access”  というアクションをエッジにしてグラフに落とし 込む。  
  • 83. 83   2-­‐2.  Property  Graph  (Book  Review  Dataset) •  引き続きブックレビューデータの例。ユーザー(ノード)は本(ノード)に対して”add  to   list”,  “review”,  “buy”  という3種類のアクションを起こしている。   •  さらに別ユーザー(ノード)がレビューしたユーザーに対して  “comment”  というアクショ ンを起こしている。  
  • 84. 84   2-­‐3.  Property  Graph  (Social  Game  Dataset) •  •  ソーシャルゲームデータの例。ユーザー(ノード)はアイテム(ノード)に対して  “pay” (エッジ) アクションを,仮想通貨(ノード)に対して  “use”,  “get”  (エッジ)アクションを起 こしている。また,アイテムは上位階層としてカテゴリ(ノード集合)を持つ。   また,ユーザー間に対して  “invite”(エッジ)アクションを,自分自身に対して  “login”,   “register”  を行っている。  
  • 85. 85   2-­‐4.  Property  Graph  Visualiza-on •  ブックレビューの分析事例。それぞれのアクション  “review”,  “comment”,  “add  to   list”(エッジ)を分析軸としてデータ集計を行う。   •  ブックレビューデータセットによるデータ解析入門(準備編)  hTp://doryokujin.hatenablog.jp/entry/2012/06/28/011526   •  ブックレビューデータセットによるデータ解析入門(実践編1)  hTp://doryokujin.hatenablog.jp/entry/2012/06/29/174702   •  ブックレビューデータセットによるデータ解析入門(実践編2)  hTp://doryokujin.hatenablog.jp/entry/2012/07/03/024022  
  • 86. 86   Sec.6  Data  Visualiza-on   •  1.  Treasure  Viewer   •  2.  Dashboard:  Metric  Insights   •  3.  Business  Intelligence:  Tableau  
  • 87. 87   1.  Treasure  Viewer 目的   –  TD  Management  Console  からグラフを素早く参照するため   –  サンプルデータを素早く可視化し,全体像を把握するため   このために作られたのが 要求   –  集計結果を表・グラフですぐ表示できること   –  TD  Management  Console  内で機能すること   –  JS  ライブラリによるインタラクティブかつ綺麗なチャートである事   Treasure Viewer
  • 88. 88   1.  Treasure  Viewer •  データ可視化ツールをデフォルトで提供   –  TQA  (Treasure  Query  Accelerator)  を利用し、大量のデータからドラッグ  &   ドロップでデータの可視化が行える   –  簡易な可視化ツールの扱い。高度な機能・要件が求められる場合、パー トナーのBIツールを使用してお客様の要件を満たす事も多い。   Treasure  Viewer   3rd  Party  BI  Tool  (Tableau)  
  • 89. 89   1.  Treasure  Viewer 1. Database, Table名を選択
  • 90. 90   1.  Treasure  Viewer 2. グラフを選択 3. X-軸,Y-軸とな るカラムを選択, ドラッグ&ドロップ レコードサンプル を表示
  • 91. 91   1.  Treasure  Viewer グラフを表示 自動的にクエリが 生成される
  • 92. 92   Dashboard(MI)  と  BI  (Tableau)  の違い Dashboard ( Metric Insights ) BI  (  Tableau  ) •  毎日更新されるデータ (KPI) を素早く参照する ため 解析者に関わらず全てのユーザーが参照する ため 異常値やイベントなどの効果を素早く把握する ため Smart Phone や Tablet からも参照するため •  異常検出機能,およびアラート機能を備えてい ること チャートへのアノテーション機能を備えているこ と チャートの一覧性・わかりやすさを重視してい ること (任意の時間インターバルでの)データ自動更 新機能を持っていること 素早く編集可能な互いに独立したパネル(ウィ ジェット)を持っていること 様々なデータベース・ファイル形式と接続でき るコネクタを備えていること •  •  •  目的 •  •  •  •  •  要請 •  •  •  •  •  •  •  •  •  様々の切り口・セグメントの組合せでデータを閲覧す るため インタラクティブな操作でドリルダウンや軸の切り替 えを行うため 様々なチャートとテーブルを組合せた情報表現を行 うため プレゼンに耐えうるクオリティの高いレポートを作成 するため インタラクティブな操作が可能なこと 豊富なチャートライブラリ,ダッシュボードエディタの 実装していること 最適化された中間データ構造(Data Cubeなど)を備 えていること マウス操作によってデータの深堀りや切り口の切り 替えが可能なこと JDBC / ODBC コネクタを初めとした様々なデータソー スとの接続口を持つこと
  • 94. 94   2.  Dashboard 目的   –  毎日更新されるデータ  (KPI)  を素早く参照するため   –  解析者に関わらず全てのユーザーが参照するため   –  異常値やイベントなどの効果を素早く把握するため   –  Smart  Phone  や  Tablet  からも参照するため   Metric Insights はこれらの 要求   役割を高次元で担っている –  異常検出機能,およびアラート機能を備えていること   –  チャートへのアノテーション機能を備えていること   –  チャートの一覧性・わかりやすさを重視していること   –  (任意の時間インターバルでの)データ自動更新機能を持っていること   –  素早く編集可能な互いに独立したパネル(ウィジェット)を持っていること   –  様々なデータベース・ファイル形式と接続できるコネクタを備えていること  
  • 95. 95   特徴:   –  メールアラート・アノテーション機能   –  1つ1つのウィジェットにクエリを埋め込む独立 型   –  あらゆるデータソース:{  テキスト,データベ ース,TD  Cloud  Storage  }  からのウィジェット を並べる事ができる   –  {  クエリ,集計インターバル,チャートタイプ ,データソース  }  指定のみで自動更新   –  ピボットテーブル,バブル /  ボックス /  ファ ンネル チャートにも対応   –  セットアップが容易    
  • 97. 97   2.  Dashboard:  Widget  Seungs 1. 集計インターバ ルを設定 2. メジャーの種類 を設定 3. カテゴリを設定
  • 98. 98   2.  Dashboard:  Widget  Seungs 4. Plug-inを選択 5. 接続するデー タソースを指定 6. クエリを記述 7. Sample Result を確認
  • 99. 99   2.  Dashboard:  Widget  Seungs
  • 100. 100   Personalized  Email  Digest  Delivered  to  Users トレンドライン View 詳細 重要な変化に関する アラート コメント
  • 101. 101   Unique  Product  Benefits 日次  Sales  Chart   期待(予想)変動帯   アラートなし   統計的に有意な変化につい てはアラートで通知  
  • 102. 102   3.  Business  Intelligence:  Tableau
  • 103. 103   3.  Business  Intelligence Goal   –  Overview  first,  zoom  and  filter,  then  details-­‐ondemand   –  様々の切り口・セグメントの組合せでデータを閲覧するため   –  インタラクティブな操作でドリルダウンや軸の切り替えを行うため   –  様々なチャートとテーブルを組合せた情報表現を行うため   –  プレゼンに耐えうるクオリティの高いレポートを作成するため     Demand     –  インタラクティブな操作が可能なこと   Tableau はこれらの 役割を高次元で担っている –  豊富なチャートライブラリ,ダッシュボードエディタの実装していること   –  最適化された中間データ構造(Data  Cubeなど)を備えていること   –  マウス操作によってデータの深堀りや切り口の切り替えが可能なこと   –  JDBC  /  ODBC  コネクタを初めとした様々なデータソースとの接続口を持つこと  
  • 104. 104   3.  Business  Intelligence Tableau   –  大多数の企業の導入実績(Zynga,  Nokia,  eBay,  etc…)   –  TD  用コネクタなど,連携が容易   –  豊富なチャートライブラリとデータソースコネクタを持つ  
  • 114. 114   4.  MI  as  KPI  Dashboard  &  Tableau  as  Repor-ng  Tool C-level Execs Treasure Cloud Storage KPIs   Data-­‐Driven  Aler:ng   Collabora:on   Email  Burs:ng   Managers Tableau Dashboards Employees Increased  and  more  :mely  usage  
  • 115. 115   Metric  Manager  for  Tableau ・ 上司   ・ 意思決定者   ・ ディレクター   ・ エンジニア   ・ マネージャー   ・ アナリスト   参照,モニター, アラート   KPI考察,   レポートサマリ   Treasure Cloud Storage 定時  KPI  取得クエリ   複数の  KPI  を組合せた レポーティング   •  主要 KPI  を一覧,モニタリングするツールとしての Metric  Insights   •  MI  の  KPI  群を組み合わせ,数値テーブルや考察を並べた レポー 応用的な分析 クエリ   ティングツールとしての Tableau   •  MI  へのダッシュボード埋込フローはプロセス化して学生アルバイト でも行えるように。   •  Tableau  へのレポーティングフローは専門アナリストが行う。   Treasure Cloud Storage
  • 116. 116   Sec.7  Learning  Visualiza-on  Paverns   •  Learning  Visualiza:on  PaTerns  Part.1     hTp://doryokujin.hatenablog.jp/entry/2012/07/17/012854   •  Learning  Visualiza:on  PaTerns  Part.2       hTp://doryokujin.hatenablog.jp/entry/2012/07/18/005737   •  Learning  Visualiza:on  PaTerns  Part.3       hTp://doryokujin.hatenablog.jp/entry/2012/07/18/084702