SlideShare a Scribd company logo
1 of 34
Download to read offline
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
トレジャーデータ流
データ分析の始め方
∼データサイエンティストがもたらす新しい価値∼
2014/6/27
Takahiro Inoue (Chief Data Scientist)
taka@treasure-data.com
1	
  
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
アジェンダ
•  トレジャーデータサービス概要	
•  データサイエンティストのプロセス	
•  事例(オンラインゲーム)
2	
  
目的:数多くの事例を通してデータ分析のヒントを得てほしい
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
自己紹介
•  井上 敬浩 (Twitter: @doryokujin )
•  チーフデータ
サイエンティスト
•  慶應大学院数学科統計専攻
•  トレジャーデータ公式ブログ
オーサー
•  MongoDBマスター
3	
  
h=p://treasure-­‐data.hateblo.jp
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
データサイエンティストがCXOを補佐
この二つのアプローチを兼ね備えた人(チーム)が
新しい経営を支える
4	
  
目的	
データ収集	
分析	
考察	
施策PDCA	
ルール	
(モデル)	
可視化テ
ンプレート	
クエリテン
プレート	
データ	
仮説
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
トレジャーデータサービス概要	
  
5	
  
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
2011年12月、米Mountain Viewにて創業
•  従業員約50名(著名データベース技術者が多数所属)
うち15名が東京丸の内の日本支社勤務
•  米有力VCのSierra Ventures、Yahoo! Inc.創業者Jerry
Yang氏等多数の有力投資家より支援
•  2012年後半に商用サービス提供開始
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
“データ解析の世界をシンプルにしたい”
すぐに簡単にビッグデータの解析を始められる
クラウド型のデータマネージメントサービス
Acquire Store Analyze
大規模初期投資不要
インフラはTDが管理
面倒な拡張・保守・
運用から解放
日米トップクラスのデータベースエンジニア、サイエンティストが支える技術基盤
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
KPI	
  
データ可視化・共有	
  
分析ツール連携	
  
他製品連携	
  
RDBMS,	
  Google	
  Docs,	
  
AWS	
  S3,	
  FTP	
  Server,	
  etc.	
  
MoOon	
  Board,	
  	
  
Metric	
  Insights,	
  etc.	
  	
  
Tableau,	
  Dr.Sum,	
  
Power	
  BI,	
  Excel,	
  etc.	
  	
  
Treasure	
  Data	
  Service	
  
8	
  
Result	
  Output	
  
クエリ結果自動書込	
  
データ収集	
   データ分析	
  データ保管	
  
収集・保存・分析をワンストップに、柔軟なインターフェイスで提供。	
  
データ集計	
  
SQL,	
  Pig	
  
ストレージ	
  
Flexible,	
  Scalable,	
  Columnar	
  
Storage	
  
バッチ型	
  
分析	
  
アドホック型	
  
分析	
  
分析エンジン	
  
Hadoop,	
  Treasure	
  Query	
  Accelerator	
  
データ抽出	
  
REST	
  API	
  
ODBC/JDBC	
  
(SQL,	
  Pig)	
  
Webログ	
  
Appログ	
  
センサー	
  
CRM	
  
ERP	
  
RDBMS	
  
TD	
  Toolbelt	
  
並列バルク	
  
  インポーター	
  
Treasure	
  Agent	
  
ストリーミング	
  
  ログコレクター	
  
POS	
  
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
分析レイヤーの詳解
9	
  
4.	
  Data	
  	
  
Processing	
  
5.	
  Data	
  	
  
Visualiza5on	
  
3.	
  Data	
  	
  
Storage	
  
2.	
  Data	
  
Collec5on	
  
1.	
  Data	
  	
  
Source	
  
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
データサイエンティストのプロセス
10	
  
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
一般的なデータ分析プロセス
11	
  
1. 目的明確化 2. 目標設定 3. データ収集
4. データ分析 5. 考察・仮説 6. Plan
7. Do 8. Data Check 9. Action
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
一般的なデータ分析プロセス
12	
  
1. 目的明確化 2. 目標設定 3. データ収集
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
一般的なデータ分析プロセス
13	
  
1. 目的明確化 2. 目標設定 3. データ収集
1.  目的明確化	
  
•  そもそも何を目的とすえるのかもわからない(だから分析に助けを求めるので…)	
  
2.  目標設定	
  
•  「売上を上げる」といった緩い目標しか立たないのでデータ収集へ進めない…	
  
3.  データ収集	
  
•  どのようなデータが活用できそうかわからない	
  
•  (自分のサービスであっても)データの内容を知らない	
  
目的・目標が未設定,さらにデータの内容がわからない。故に次の	
  4〜9.	
  のデータ分析サ
イクルを回せない。
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
トレジャーデータが可能にする分析アプローチ
•  データ分析を始める前に,明確な「目標」など無くて当たり前
•  データ分析を始める前に,高尚な「仮説」など無くて当たり前
•  データ分析を始める前に,とにかくデータを集めよう(例え中身など知らなくても)
•  データ分析を始める前に,データを「見る」ことで大概のことが見えてくる
•  データを収集を頑張ったリターンとして,データを「見る」ところまでは誰でも必ず到達
できる(成果物の担保)。そして「見る」ことは多くの知見・考察を生み出してくれる。
14	
  
2. Data Watch
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
トレジャーデータ流,データ分析プロセス
15	
  
1. データ収集 2. Data Watch 3. 目標設定
4. データ分析 5. 考察・仮説 6. Plan
7. Do 8. Data Check 9. Action
トレジャーデータ流:まずはとにかくデータ収集,そしてデータを「見る」ことに専念しましょう
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
1.	
  データ収集
16	
  
1. データ収集
1.  「とにかく集められるログを探してくる」	
  
•  サーバーに垂れ流しにされているアクセスログ,システムログ	
  
•  MySQLに格納されている購買ログ	
  
•  アプリケーションに仕込まれたデバッグログ	
  
•  etc…	
  
2.  「ログがどこにも無ければ簡単なログ収集から始める」	
  
•  Webアプリケーションなら「Login(Access)」ログを収集する	
  
•  参考リンク:Login	
  ログからわかる12の指標 h=p://treasure-­‐data.hateblo.jp/entry/2014/05/09/112107	
  
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
2.	
  Data	
  Watch:	
  
 定型化された3つの「見る」プロセス
17	
  
a.  データの「項目」を見る	
  
•  データにどのような項目があるか?	
  
•  各項目にはどのような値が入っているか?	
  
•  各項目を「ディメンジョン」「メジャー」に分類	
  
b.  データの「内訳」を見る	
  
•  どの値がどれくらいの割合で登場しているか?	
  
•  テンプレートに従ったデータ集計	
  
c.  データの「分布」を見る	
  
•  どのような値にデータが密集しているか?	
  
•  テンプレートに従った分布計算	
2. Data Watch1. データ収集
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
a.  データの「項目」を見る	
  
•  データにどのような項目があるか?	
  
•  各項目にはどのような値が入っているか?	
  
•  各項目を「ディメンジョン」「メジャー」に分類	
  ↓	
  
2-­‐a.	
  「項目を見る」:	
  
 ディメンジョン・メジャー分類
18	
  
メジャー:値が数値(定量)で
COUNT,SUM,	
  AVGなどを求め
る対象となる項目	
ディメンジョン:この値各々に
対してメジャーが集計される。
非数値や年などの非順序数値	
データサイエンティストのためのHiveQL分析クエリテンプレート その1	
  
	
  h=p://treasure-­‐data.hateblo.jp/entry/2014/05/07/000000
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
2-­‐b.	
  「内訳を見る」:	
  
 集計テンプレートクエリの適用
b.  データの「内訳」を見る	
  
•  どの値がどれくらいの割合で登場しているか?	
  
•  提供するテンプレートクエリに従ったデータ集計	
  ↓	
  
-­‐-­‐	
  #mをメジャー,%dim1をディメンジョンとする	
  -­‐-­‐	
  
SELECT	
  SUM(#m)	
  [,	
  COUNT(1),	
  AVG(#m)	
  ,	
  etc...]	
  
FROM	
  table	
  
WHERE	
  condiOon	
  
GROUP	
  BY	
  %dim1	
  
-­‐-­‐	
  #mをメジャー,%dim1,	
  %dim2をディメンジョンとする	
  -­‐-­‐	
  
SELECT	
  SUM(#m)	
  [,COUNT(	
  1	
  )	
  AS	
  cnt,	
  etc...]	
  
FROM	
  table	
  
WHERE	
  condiOon	
  
GROUP	
  BY	
  %dim1,	
  %dim2	
  
SELECT	
  %year,	
  %month,	
  %day,	
  SUM(#m)	
  [,	
  COUNT(1),	
  etc...]	
  
FROM	
  table	
  
WHERE	
  condiOon	
  
GROUP	
  BY	
  %year,	
  %month,	
  %day	
  
ORDER	
  BY	
  	
  %year,	
  %month,	
  %day	
分類したメジャー,ディメンジョンの任意の	
  
組み合わせで集計するテンプレートクエリ	
データサイエンティストのためのHiveQL分析クエリテンプレート その1	
  
	
  h=p://treasure-­‐data.hateblo.jp/entry/2014/05/07/000000
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
2-­‐b.	
  「内訳を見る」:	
  
 内訳可視化テンプレートの適用
20	
  
b.  データの「内訳」を見る	
  
•  「内訳」可視化テンプレートを適用	
  
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
2-­‐c.	
  「分布を見る」:	
  
 分布テンプレートクエリの適用
21	
  
c.  データの「分布」を見る	
  
•  どのような値にデータが密集しているか?	
  
•  分布テンプレートクエリの適用	
  	
  
•  ↓	
  2次元分布	
  /	
  3次元分布	
  →	
SELECT	
  ceil(	
  #m/width	
  )*width	
  AS	
  x,	
  COUNT(1)	
  AS	
  cnt	
  
FROM	
  
(	
  
	
  	
  SELECT	
  #m,	
  1	
  AS	
  one	
  
	
  	
  FROM	
  table	
  
	
  	
  WHERE	
  condiOon	
  
)	
  t1	
  
JOIN	
  
(	
  
	
  	
  SELECT	
  POW(10,floor(LOG10(MAX(	
  #m	
  )))-­‐1)	
  /	
  n	
  AS	
  width,	
  1	
  AS	
  one	
  
	
  	
  FROM	
  table	
  
	
  	
  WHERE	
  condiOon	
  
)	
  t2	
  
ON	
  t1.one	
  =	
  t2.one	
  
GROUP	
  BY	
  ceil(	
  #m/width	
  )*width	
  
ORDER	
  BY	
  x	
SELECT	
  ceil(	
  #m1/t2.width)*t2.width	
  AS	
  x,	
  ceil(	
  #m2/t3.width)*t3.width	
  AS	
  y,	
  
COUNT(1)	
  AS	
  cnt	
  
FROM	
  
(	
  
	
  	
  SELECT	
  #m1,	
  #m2,	
  1	
  AS	
  one	
  
	
  	
  FROM	
  table	
  
	
  	
  WHERE	
  condiOon	
  
)	
  t1	
  
JOIN	
  
(	
  
	
  	
  SELECT	
  POW(10,floor(LOG10(MAX(	
  #1	
  )))-­‐1)	
  AS	
  width,	
  1	
  AS	
  one	
  
	
  	
  FROM	
  table	
  
	
  	
  WHERE	
  condiOon	
  
)	
  t2	
  
ON	
  t1.one	
  =	
  t2.one	
  
JOIN	
  
(	
  
	
  	
  SELECT	
  POW(10,floor(LOG10(MAX(	
  #m2	
  )))-­‐1)	
  AS	
  width,	
  1	
  AS	
  one	
  
	
  	
  FROM	
  table	
  
	
  	
  WHERE	
  condiOon	
  
)	
  t3	
  
ON	
  t1.one	
  =	
  t3.one	
  
GROUP	
  BY	
  ceil(	
  #m1/t2.width)*t2.width,	
  ceil(#m2/t3.width)*t3.width	
  
ORDER	
  BY	
  x,	
  y	
データサイエンティストのためのHiveQL分析クエリテンプレート その2	
  
h=p://treasure-­‐data.hateblo.jp/entry/2014/05/29/000000
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
2-­‐c.	
  「分布を見る」:	
  
 分布可視化テンプレートの適用
22	
  
c.  データの「分布」を見る	
  
•  どのような値にデータが密集しているか?	
  
•  分布可視化テンプレートの適用	
  	
  
•  ↓	
  2次元分布	
  /	
  3次元分布	
  →	
データサイエンティストのためのHiveQL分析クエリテンプレート その2	
  
h=p://treasure-­‐data.hateblo.jp/entry/2014/05/29/000000
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
まとめ:	
  
 データ収集から目標設定まではノンストップ行える
3. 目標設定
1. データ収集
2. Data Watch
多少のコストをかけてデータ収集することには意義がある:	
  
データを「見る」というステップに進めて示唆に富んだ情報が
得られる。	
  
「項目」を見る	
  
「内訳」を見る	
  
「分布」を見る	
  
•  データの「見る」に特化したダッシュボード	
  
•  SQL-­‐Lessで直感的に操作できるツール	
データを見る事で
興味,問題意識
が,目標が生ま
れる。	
  
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
Data	
  Watch	
  のための	
  VisualizaOon	
  Tools
24	
  
データを「見る」ことへの投資	
  →	
  可視化ツールの採用	
  
•  (誰でも):SQL	
  などの低レイヤーのラーニングコストを無くしたい	
  
•  (すぐに):より効率良く簡潔にデータを見たい	
  
•  (直感的に):データと直感を結びつけたい	
  
2. Data Watch
最短ルートでデータを
「見る」プロセスを回す
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
Data Watch のための Visualization Tools
25	
  
a.  データの「項目」を見る	
  
データソースを指定すれば自動的	
  
にディメンジョン	
  /	
  メジャーに分類	
  
b.  データの「内訳」を見る	
  
ディメンジョン	
  /	
  メジャーを	
  x-­‐軸,y-­‐軸	
  
へドラッグするだけで可視化が可能	
  
	
  
c.  データの「分布」を見る	
分布を見るための機能も用意
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
トレジャーデータ流:データ分析の始め方(POC)
26	
  
1. データ収集 2. Data Watch 3. 目標設定
POCの目線:データを「見る」こと,そこから何ができるか(目標)を描く	
  
(スモールスタート	
  →	
  期間:1	
  〜	
  3ヶ月,使用するコア数レコード数で決まる従量課金体系)
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
トレジャーデータにおけるデータ分析プロジェクト
27	
  
4. データ分析 5. 考察・仮説 6. Plan
7. Do 8. Data Check 9. Action
本プロジェクト
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
3.	
  事例紹介:オンラインゲーム	
  
28	
  
〜データを「見る」ことに徹底的にこだわったトレジャーデータのソリューション〜	
トレジャーデータ事例集 1(a).「オンラインゲームソリューション」	
  
h=p://treasure-­‐data.hateblo.jp/entry/2014/06/13/150608
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
オンラインゲームソリューションとは	
  
29	
  
ログインログ	
  
Treasure	
  Data	
  Service	
  
データ統合	
  
課金ログ	
  
招待ログ	
  
KPI:	
  PV	
  
KPI:	
  ARPU	
  
KPI:	
  リテンション	
  
提供するログテンプレートを活用する事で,容易に多種多様なKPI群のモニタリング
がすぐに実現可能に。
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
1.	
  テンプレートに従ったデータ収集
30	
  
1. データ収集 2. Data Watch 3. 目標設定
#	
  Applica5on	
  Ruby	
  Code	
  
TD.event.post(	
  ’login',	
  	
  
{	
  
	
  	
  	
  	
  :uid	
  =>	
  123,	
  
	
  	
  	
  :device	
  =>	
  ’smart	
  phone’,	
  
	
  	
  	
  :5me	
  =>	
  138959673	
  
})	
  
TD.event.post(	
  ’pay',	
  	
  
{	
  
	
  	
  	
  :uid	
  =>	
  123,	
  
	
  	
  	
  :name	
  =>	
  ’ItemA’,	
  
	
  	
  	
  :sub_category	
  =>	
  ’a’,	
  
	
  	
  	
  :category	
  =>	
  A,	
  
	
  	
  	
  :count	
  =>	
  2,	
  
	
  	
  	
  :price	
  =>	
  300,	
  
	
  	
  	
  :5me	
  =>	
  138959673	
  	
  	
  
})	
  
Login	
  テーブル	
 Pay	
  テーブル	
Inviteテーブル	
 ユーザー属性	
  
情報テーブル	
指定したログテンプレートに
沿って収集することでトレ
ジャークラウドに随時データ
がアップロードされていく
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
2.	
  データを徹底的に「見る」ための	
  
 ダッシュボード
31	
  
1. データ収集 2. Data Watch 3. 目標設定
KPI:	
  PV	
  
KPI:	
  ARPU	
  
KPI:	
  レベル分布	
  
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
3. 目標:コンバージョンのボトルネックを調べる
4. 分析:ファンネル分析
32	
  
4. データ分析
3. 目標設定
チュートリアル開始から登録(コンバー
ジョン)までに至るステップで,どのス
テップが離脱率が高いのかを調べる。
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
続きは公式ブログで
33	
  
•  http://treasure-data.hateblo.jp
Copyright	
  ©2014	
  Treasure	
  Data.	
  	
  All	
  Rights	
  Reserved.	
  
Q and A
34	
  

More Related Content

What's hot

イミュータブルデータモデルの極意
イミュータブルデータモデルの極意イミュータブルデータモデルの極意
イミュータブルデータモデルの極意Yoshitaka Kawashima
 
楽天における大規模データベースの運用
楽天における大規模データベースの運用楽天における大規模データベースの運用
楽天における大規模データベースの運用Rakuten Group, Inc.
 
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版) データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版) Satoshi Nagayasu
 
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」西岡 賢一郎
 
データモデリング・テクニック
データモデリング・テクニックデータモデリング・テクニック
データモデリング・テクニックHidekatsu Izuno
 
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
AIOpsで実現する効率化 OSC 2022 Online Spring TISAIOpsで実現する効率化 OSC 2022 Online Spring TIS
AIOpsで実現する効率化 OSC 2022 Online Spring TISDaisuke Ikeda
 
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)Takeshi Mikami
 
[R勉強会][データマイニング] R言語による時系列分析
[R勉強会][データマイニング] R言語による時系列分析[R勉強会][データマイニング] R言語による時系列分析
[R勉強会][データマイニング] R言語による時系列分析Koichi Hamada
 
解説!30分で分かるLEAN ANALYTICS
解説!30分で分かるLEAN ANALYTICS解説!30分で分かるLEAN ANALYTICS
解説!30分で分かるLEAN ANALYTICSしくみ製作所
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...Google Cloud Platform - Japan
 
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメントDMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメントKent Ishizawa
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するTakahiro Kubo
 
アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門Yoichi Kawasaki
 
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 株式会社MonotaRO Tech Team
 
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIShota Imai
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)株式会社MonotaRO Tech Team
 
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送Google Cloud Platform - Japan
 
Tableauによるデータ可視化と機械学習によるデータ分析
Tableauによるデータ可視化と機械学習によるデータ分析Tableauによるデータ可視化と機械学習によるデータ分析
Tableauによるデータ可視化と機械学習によるデータ分析Tomohiro Iwahashi
 

What's hot (20)

イミュータブルデータモデルの極意
イミュータブルデータモデルの極意イミュータブルデータモデルの極意
イミュータブルデータモデルの極意
 
楽天における大規模データベースの運用
楽天における大規模データベースの運用楽天における大規模データベースの運用
楽天における大規模データベースの運用
 
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版) データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
 
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
表形式データで高性能な予測モデルを構築する「DNNとXGBoostのアンサンブル学習」
 
データモデリング・テクニック
データモデリング・テクニックデータモデリング・テクニック
データモデリング・テクニック
 
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
AIOpsで実現する効率化 OSC 2022 Online Spring TISAIOpsで実現する効率化 OSC 2022 Online Spring TIS
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
 
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
 
MLOps入門
MLOps入門MLOps入門
MLOps入門
 
[R勉強会][データマイニング] R言語による時系列分析
[R勉強会][データマイニング] R言語による時系列分析[R勉強会][データマイニング] R言語による時系列分析
[R勉強会][データマイニング] R言語による時系列分析
 
解説!30分で分かるLEAN ANALYTICS
解説!30分で分かるLEAN ANALYTICS解説!30分で分かるLEAN ANALYTICS
解説!30分で分かるLEAN ANALYTICS
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
 
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメントDMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門アプリケーション開発者のためのAzure Databricks入門
アプリケーション開発者のためのAzure Databricks入門
 
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来 MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
 
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
 
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
 
Tableauによるデータ可視化と機械学習によるデータ分析
Tableauによるデータ可視化と機械学習によるデータ分析Tableauによるデータ可視化と機械学習によるデータ分析
Tableauによるデータ可視化と機械学習によるデータ分析
 

Similar to トレジャーデータ流,データ分析の始め方

20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューションTakahiro Inoue
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展Recruit Technologies
 
Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!Takahiro Inoue
 
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するトレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するTakahiro Inoue
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎Insight Technology, Inc.
 
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612Takahiro Inoue
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoTreasure Data, Inc.
 
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜Takahiro Inoue
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews, Inc.
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]Hideo Takagi
 
気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-
気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-
気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-Yasuyuki Sugai
 
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜Yasuyuki Sugai
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーション#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーションYasushi Hara
 
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...Insight Technology, Inc.
 
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)Takahiro Inoue
 

Similar to トレジャーデータ流,データ分析の始め方 (20)

20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション20140708 オンラインゲームソリューション
20140708 オンラインゲームソリューション
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!
 
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するトレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612事例で学ぶトレジャーデータ 20140612
事例で学ぶトレジャーデータ 20140612
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜この Visualization がすごい2014 〜データ世界を彩るツール6選〜
この Visualization がすごい2014 〜データ世界を彩るツール6選〜
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015
 
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
 
気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-
気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-
気象庁XMLのSPARQL APIを利用してデータを俯瞰しよう -SPARQLとRによる可視化-
 
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
第2回 R言語で始めよう、データサイエンス(ハンズオン勉強会) 〜相関分析による需要予測編〜
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーション#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーション
 
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
 
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
 

More from Takahiro Inoue

Treasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC DemoTreasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC DemoTakahiro Inoue
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングTakahiro Inoue
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Takahiro Inoue
 
オンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータオンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータTakahiro Inoue
 
Hadoop and the Data Scientist
Hadoop and the Data ScientistHadoop and the Data Scientist
Hadoop and the Data ScientistTakahiro Inoue
 
MongoDB: Intro & Application for Big Data
MongoDB: Intro & Application  for Big DataMongoDB: Intro & Application  for Big Data
MongoDB: Intro & Application for Big DataTakahiro Inoue
 
An Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB PluginsAn Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB PluginsTakahiro Inoue
 
An Introduction to Tinkerpop
An Introduction to TinkerpopAn Introduction to Tinkerpop
An Introduction to TinkerpopTakahiro Inoue
 
An Introduction to Neo4j
An Introduction to Neo4jAn Introduction to Neo4j
An Introduction to Neo4jTakahiro Inoue
 
The Definition of GraphDB
The Definition of GraphDBThe Definition of GraphDB
The Definition of GraphDBTakahiro Inoue
 
Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(完全版)Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(完全版)Takahiro Inoue
 
Large-Scale Graph Processing〜Introduction〜(LT版)
Large-Scale Graph Processing〜Introduction〜(LT版)Large-Scale Graph Processing〜Introduction〜(LT版)
Large-Scale Graph Processing〜Introduction〜(LT版)Takahiro Inoue
 
はじめてのGlusterFS
はじめてのGlusterFSはじめてのGlusterFS
はじめてのGlusterFSTakahiro Inoue
 
はじめてのMongoDB
はじめてのMongoDBはじめてのMongoDB
はじめてのMongoDBTakahiro Inoue
 
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing ModelMongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing ModelTakahiro Inoue
 
MongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduceMongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduceTakahiro Inoue
 
Map Reduce ~Continuous Map Reduce Design~
Map Reduce ~Continuous Map Reduce Design~Map Reduce ~Continuous Map Reduce Design~
Map Reduce ~Continuous Map Reduce Design~Takahiro Inoue
 
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜Takahiro Inoue
 

More from Takahiro Inoue (20)

Treasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC DemoTreasure Data × Wave Analytics EC Demo
Treasure Data × Wave Analytics EC Demo
 
トレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティングトレジャーデータとtableau実現する自動レポーティング
トレジャーデータとtableau実現する自動レポーティング
 
Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界Tableauが魅せる Data Visualization の世界
Tableauが魅せる Data Visualization の世界
 
オンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータオンラインゲームソリューション@トレジャーデータ
オンラインゲームソリューション@トレジャーデータ
 
Hadoop and the Data Scientist
Hadoop and the Data ScientistHadoop and the Data Scientist
Hadoop and the Data Scientist
 
MongoDB: Intro & Application for Big Data
MongoDB: Intro & Application  for Big DataMongoDB: Intro & Application  for Big Data
MongoDB: Intro & Application for Big Data
 
An Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB PluginsAn Introduction to Fluent & MongoDB Plugins
An Introduction to Fluent & MongoDB Plugins
 
An Introduction to Tinkerpop
An Introduction to TinkerpopAn Introduction to Tinkerpop
An Introduction to Tinkerpop
 
An Introduction to Neo4j
An Introduction to Neo4jAn Introduction to Neo4j
An Introduction to Neo4j
 
The Definition of GraphDB
The Definition of GraphDBThe Definition of GraphDB
The Definition of GraphDB
 
Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(完全版)Large-Scale Graph Processing〜Introduction〜(完全版)
Large-Scale Graph Processing〜Introduction〜(完全版)
 
Large-Scale Graph Processing〜Introduction〜(LT版)
Large-Scale Graph Processing〜Introduction〜(LT版)Large-Scale Graph Processing〜Introduction〜(LT版)
Large-Scale Graph Processing〜Introduction〜(LT版)
 
Advanced MongoDB #1
Advanced MongoDB #1Advanced MongoDB #1
Advanced MongoDB #1
 
はじめてのGlusterFS
はじめてのGlusterFSはじめてのGlusterFS
はじめてのGlusterFS
 
はじめてのMongoDB
はじめてのMongoDBはじめてのMongoDB
はじめてのMongoDB
 
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing ModelMongoDB & Hadoop: Flexible Hourly Batch Processing Model
MongoDB & Hadoop: Flexible Hourly Batch Processing Model
 
MongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduceMongoDB: Replication,Sharding,MapReduce
MongoDB: Replication,Sharding,MapReduce
 
MongoDB Oplog入門
MongoDB Oplog入門MongoDB Oplog入門
MongoDB Oplog入門
 
Map Reduce ~Continuous Map Reduce Design~
Map Reduce ~Continuous Map Reduce Design~Map Reduce ~Continuous Map Reduce Design~
Map Reduce ~Continuous Map Reduce Design~
 
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
Map Reduce 〜入門編:仕組みの理解とアルゴリズムデザイン〜
 

Recently uploaded

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 

Recently uploaded (7)

PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 

トレジャーデータ流,データ分析の始め方

  • 1. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   トレジャーデータ流 データ分析の始め方 ∼データサイエンティストがもたらす新しい価値∼ 2014/6/27 Takahiro Inoue (Chief Data Scientist) taka@treasure-data.com 1  
  • 2. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   アジェンダ •  トレジャーデータサービス概要 •  データサイエンティストのプロセス •  事例(オンラインゲーム) 2   目的:数多くの事例を通してデータ分析のヒントを得てほしい
  • 3. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   自己紹介 •  井上 敬浩 (Twitter: @doryokujin ) •  チーフデータ サイエンティスト •  慶應大学院数学科統計専攻 •  トレジャーデータ公式ブログ オーサー •  MongoDBマスター 3   h=p://treasure-­‐data.hateblo.jp
  • 4. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   データサイエンティストがCXOを補佐 この二つのアプローチを兼ね備えた人(チーム)が 新しい経営を支える 4   目的 データ収集 分析 考察 施策PDCA ルール (モデル) 可視化テ ンプレート クエリテン プレート データ 仮説
  • 5. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   トレジャーデータサービス概要   5  
  • 6. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   2011年12月、米Mountain Viewにて創業 •  従業員約50名(著名データベース技術者が多数所属) うち15名が東京丸の内の日本支社勤務 •  米有力VCのSierra Ventures、Yahoo! Inc.創業者Jerry Yang氏等多数の有力投資家より支援 •  2012年後半に商用サービス提供開始
  • 7. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   “データ解析の世界をシンプルにしたい” すぐに簡単にビッグデータの解析を始められる クラウド型のデータマネージメントサービス Acquire Store Analyze 大規模初期投資不要 インフラはTDが管理 面倒な拡張・保守・ 運用から解放 日米トップクラスのデータベースエンジニア、サイエンティストが支える技術基盤
  • 8. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   KPI   データ可視化・共有   分析ツール連携   他製品連携   RDBMS,  Google  Docs,   AWS  S3,  FTP  Server,  etc.   MoOon  Board,     Metric  Insights,  etc.     Tableau,  Dr.Sum,   Power  BI,  Excel,  etc.     Treasure  Data  Service   8   Result  Output   クエリ結果自動書込   データ収集   データ分析  データ保管   収集・保存・分析をワンストップに、柔軟なインターフェイスで提供。   データ集計   SQL,  Pig   ストレージ   Flexible,  Scalable,  Columnar   Storage   バッチ型   分析   アドホック型   分析   分析エンジン   Hadoop,  Treasure  Query  Accelerator   データ抽出   REST  API   ODBC/JDBC   (SQL,  Pig)   Webログ   Appログ   センサー   CRM   ERP   RDBMS   TD  Toolbelt   並列バルク     インポーター   Treasure  Agent   ストリーミング     ログコレクター   POS  
  • 9. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   分析レイヤーの詳解 9   4.  Data     Processing   5.  Data     Visualiza5on   3.  Data     Storage   2.  Data   Collec5on   1.  Data     Source  
  • 10. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   データサイエンティストのプロセス 10  
  • 11. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   一般的なデータ分析プロセス 11   1. 目的明確化 2. 目標設定 3. データ収集 4. データ分析 5. 考察・仮説 6. Plan 7. Do 8. Data Check 9. Action
  • 12. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   一般的なデータ分析プロセス 12   1. 目的明確化 2. 目標設定 3. データ収集
  • 13. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   一般的なデータ分析プロセス 13   1. 目的明確化 2. 目標設定 3. データ収集 1.  目的明確化   •  そもそも何を目的とすえるのかもわからない(だから分析に助けを求めるので…)   2.  目標設定   •  「売上を上げる」といった緩い目標しか立たないのでデータ収集へ進めない…   3.  データ収集   •  どのようなデータが活用できそうかわからない   •  (自分のサービスであっても)データの内容を知らない   目的・目標が未設定,さらにデータの内容がわからない。故に次の  4〜9.  のデータ分析サ イクルを回せない。
  • 14. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   トレジャーデータが可能にする分析アプローチ •  データ分析を始める前に,明確な「目標」など無くて当たり前 •  データ分析を始める前に,高尚な「仮説」など無くて当たり前 •  データ分析を始める前に,とにかくデータを集めよう(例え中身など知らなくても) •  データ分析を始める前に,データを「見る」ことで大概のことが見えてくる •  データを収集を頑張ったリターンとして,データを「見る」ところまでは誰でも必ず到達 できる(成果物の担保)。そして「見る」ことは多くの知見・考察を生み出してくれる。 14   2. Data Watch
  • 15. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   トレジャーデータ流,データ分析プロセス 15   1. データ収集 2. Data Watch 3. 目標設定 4. データ分析 5. 考察・仮説 6. Plan 7. Do 8. Data Check 9. Action トレジャーデータ流:まずはとにかくデータ収集,そしてデータを「見る」ことに専念しましょう
  • 16. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   1.  データ収集 16   1. データ収集 1.  「とにかく集められるログを探してくる」   •  サーバーに垂れ流しにされているアクセスログ,システムログ   •  MySQLに格納されている購買ログ   •  アプリケーションに仕込まれたデバッグログ   •  etc…   2.  「ログがどこにも無ければ簡単なログ収集から始める」   •  Webアプリケーションなら「Login(Access)」ログを収集する   •  参考リンク:Login  ログからわかる12の指標 h=p://treasure-­‐data.hateblo.jp/entry/2014/05/09/112107  
  • 17. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   2.  Data  Watch:    定型化された3つの「見る」プロセス 17   a.  データの「項目」を見る   •  データにどのような項目があるか?   •  各項目にはどのような値が入っているか?   •  各項目を「ディメンジョン」「メジャー」に分類   b.  データの「内訳」を見る   •  どの値がどれくらいの割合で登場しているか?   •  テンプレートに従ったデータ集計   c.  データの「分布」を見る   •  どのような値にデータが密集しているか?   •  テンプレートに従った分布計算 2. Data Watch1. データ収集
  • 18. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   a.  データの「項目」を見る   •  データにどのような項目があるか?   •  各項目にはどのような値が入っているか?   •  各項目を「ディメンジョン」「メジャー」に分類  ↓   2-­‐a.  「項目を見る」:    ディメンジョン・メジャー分類 18   メジャー:値が数値(定量)で COUNT,SUM,  AVGなどを求め る対象となる項目 ディメンジョン:この値各々に 対してメジャーが集計される。 非数値や年などの非順序数値 データサイエンティストのためのHiveQL分析クエリテンプレート その1    h=p://treasure-­‐data.hateblo.jp/entry/2014/05/07/000000
  • 19. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   2-­‐b.  「内訳を見る」:    集計テンプレートクエリの適用 b.  データの「内訳」を見る   •  どの値がどれくらいの割合で登場しているか?   •  提供するテンプレートクエリに従ったデータ集計  ↓   -­‐-­‐  #mをメジャー,%dim1をディメンジョンとする  -­‐-­‐   SELECT  SUM(#m)  [,  COUNT(1),  AVG(#m)  ,  etc...]   FROM  table   WHERE  condiOon   GROUP  BY  %dim1   -­‐-­‐  #mをメジャー,%dim1,  %dim2をディメンジョンとする  -­‐-­‐   SELECT  SUM(#m)  [,COUNT(  1  )  AS  cnt,  etc...]   FROM  table   WHERE  condiOon   GROUP  BY  %dim1,  %dim2   SELECT  %year,  %month,  %day,  SUM(#m)  [,  COUNT(1),  etc...]   FROM  table   WHERE  condiOon   GROUP  BY  %year,  %month,  %day   ORDER  BY    %year,  %month,  %day 分類したメジャー,ディメンジョンの任意の   組み合わせで集計するテンプレートクエリ データサイエンティストのためのHiveQL分析クエリテンプレート その1    h=p://treasure-­‐data.hateblo.jp/entry/2014/05/07/000000
  • 20. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   2-­‐b.  「内訳を見る」:    内訳可視化テンプレートの適用 20   b.  データの「内訳」を見る   •  「内訳」可視化テンプレートを適用  
  • 21. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   2-­‐c.  「分布を見る」:    分布テンプレートクエリの適用 21   c.  データの「分布」を見る   •  どのような値にデータが密集しているか?   •  分布テンプレートクエリの適用     •  ↓  2次元分布  /  3次元分布  → SELECT  ceil(  #m/width  )*width  AS  x,  COUNT(1)  AS  cnt   FROM   (      SELECT  #m,  1  AS  one      FROM  table      WHERE  condiOon   )  t1   JOIN   (      SELECT  POW(10,floor(LOG10(MAX(  #m  )))-­‐1)  /  n  AS  width,  1  AS  one      FROM  table      WHERE  condiOon   )  t2   ON  t1.one  =  t2.one   GROUP  BY  ceil(  #m/width  )*width   ORDER  BY  x SELECT  ceil(  #m1/t2.width)*t2.width  AS  x,  ceil(  #m2/t3.width)*t3.width  AS  y,   COUNT(1)  AS  cnt   FROM   (      SELECT  #m1,  #m2,  1  AS  one      FROM  table      WHERE  condiOon   )  t1   JOIN   (      SELECT  POW(10,floor(LOG10(MAX(  #1  )))-­‐1)  AS  width,  1  AS  one      FROM  table      WHERE  condiOon   )  t2   ON  t1.one  =  t2.one   JOIN   (      SELECT  POW(10,floor(LOG10(MAX(  #m2  )))-­‐1)  AS  width,  1  AS  one      FROM  table      WHERE  condiOon   )  t3   ON  t1.one  =  t3.one   GROUP  BY  ceil(  #m1/t2.width)*t2.width,  ceil(#m2/t3.width)*t3.width   ORDER  BY  x,  y データサイエンティストのためのHiveQL分析クエリテンプレート その2   h=p://treasure-­‐data.hateblo.jp/entry/2014/05/29/000000
  • 22. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   2-­‐c.  「分布を見る」:    分布可視化テンプレートの適用 22   c.  データの「分布」を見る   •  どのような値にデータが密集しているか?   •  分布可視化テンプレートの適用     •  ↓  2次元分布  /  3次元分布  → データサイエンティストのためのHiveQL分析クエリテンプレート その2   h=p://treasure-­‐data.hateblo.jp/entry/2014/05/29/000000
  • 23. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   まとめ:    データ収集から目標設定まではノンストップ行える 3. 目標設定 1. データ収集 2. Data Watch 多少のコストをかけてデータ収集することには意義がある:   データを「見る」というステップに進めて示唆に富んだ情報が 得られる。   「項目」を見る   「内訳」を見る   「分布」を見る   •  データの「見る」に特化したダッシュボード   •  SQL-­‐Lessで直感的に操作できるツール データを見る事で 興味,問題意識 が,目標が生ま れる。  
  • 24. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   Data  Watch  のための  VisualizaOon  Tools 24   データを「見る」ことへの投資  →  可視化ツールの採用   •  (誰でも):SQL  などの低レイヤーのラーニングコストを無くしたい   •  (すぐに):より効率良く簡潔にデータを見たい   •  (直感的に):データと直感を結びつけたい   2. Data Watch 最短ルートでデータを 「見る」プロセスを回す
  • 25. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   Data Watch のための Visualization Tools 25   a.  データの「項目」を見る   データソースを指定すれば自動的   にディメンジョン  /  メジャーに分類   b.  データの「内訳」を見る   ディメンジョン  /  メジャーを  x-­‐軸,y-­‐軸   へドラッグするだけで可視化が可能     c.  データの「分布」を見る 分布を見るための機能も用意
  • 26. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   トレジャーデータ流:データ分析の始め方(POC) 26   1. データ収集 2. Data Watch 3. 目標設定 POCの目線:データを「見る」こと,そこから何ができるか(目標)を描く   (スモールスタート  →  期間:1  〜  3ヶ月,使用するコア数レコード数で決まる従量課金体系)
  • 27. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   トレジャーデータにおけるデータ分析プロジェクト 27   4. データ分析 5. 考察・仮説 6. Plan 7. Do 8. Data Check 9. Action 本プロジェクト
  • 28. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   3.  事例紹介:オンラインゲーム   28   〜データを「見る」ことに徹底的にこだわったトレジャーデータのソリューション〜 トレジャーデータ事例集 1(a).「オンラインゲームソリューション」   h=p://treasure-­‐data.hateblo.jp/entry/2014/06/13/150608
  • 29. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   オンラインゲームソリューションとは   29   ログインログ   Treasure  Data  Service   データ統合   課金ログ   招待ログ   KPI:  PV   KPI:  ARPU   KPI:  リテンション   提供するログテンプレートを活用する事で,容易に多種多様なKPI群のモニタリング がすぐに実現可能に。
  • 30. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   1.  テンプレートに従ったデータ収集 30   1. データ収集 2. Data Watch 3. 目標設定 #  Applica5on  Ruby  Code   TD.event.post(  ’login',     {          :uid  =>  123,        :device  =>  ’smart  phone’,        :5me  =>  138959673   })   TD.event.post(  ’pay',     {        :uid  =>  123,        :name  =>  ’ItemA’,        :sub_category  =>  ’a’,        :category  =>  A,        :count  =>  2,        :price  =>  300,        :5me  =>  138959673       })   Login  テーブル Pay  テーブル Inviteテーブル ユーザー属性   情報テーブル 指定したログテンプレートに 沿って収集することでトレ ジャークラウドに随時データ がアップロードされていく
  • 31. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   2.  データを徹底的に「見る」ための    ダッシュボード 31   1. データ収集 2. Data Watch 3. 目標設定 KPI:  PV   KPI:  ARPU   KPI:  レベル分布  
  • 32. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   3. 目標:コンバージョンのボトルネックを調べる 4. 分析:ファンネル分析 32   4. データ分析 3. 目標設定 チュートリアル開始から登録(コンバー ジョン)までに至るステップで,どのス テップが離脱率が高いのかを調べる。
  • 33. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   続きは公式ブログで 33   •  http://treasure-data.hateblo.jp
  • 34. Copyright  ©2014  Treasure  Data.    All  Rights  Reserved.   Q and A 34