More Related Content
Similar to ビッグデータ・データマートとは (20)
More from 株式会社オプト 仙台ラボラトリ (6)
ビッグデータ・データマートとは
- 1. © Opt, Inc. All Rights Reserved.
ビッグデータ・データマートとは
株式会社オプト 仙台テクノロジー開発部
第2回タガヤス登壇資料
- 2. © Opt, Inc. All Rights Reserved.
自己紹介
名 前:萩野 輝(はぎの あきら)
所 属:株式会社オプト
仙台テクノロジー開発部
好 物:カツ丼
注目点:公の場での登壇は
- 3. © Opt, Inc. All Rights Reserved.
自己紹介
名 前:萩野 輝(はぎの あきら)
所 属:株式会社オプト
仙台テクノロジー開発部
好 物:カツ丼
注目点:公の場での登壇は初!!
- 4. © Opt, Inc. All Rights Reserved.
Copyright © 2017 OPT Inc. All Rights Reserved.
目次
● ビッグデータとは
● データウェアハウスとは
● データマートとは
- 7. © Opt, Inc. All Rights Reserved.
ビッグデータとは、通常のツールで
は扱えないような、非常に大きな
データ量のデータのこと。
wikiによると2012年時点の定義で
は、数十テラ~数ペタバイト。
- 8. © Opt, Inc. All Rights Reserved.
オプトではたくさんの顧客の広告を扱っ
ており
仙台で扱っているデータは
1日でおよそ11.5 GBです
(※データベース取込前の圧縮ファイル状態です)
- 9. © Opt, Inc. All Rights Reserved.
ちょっと小話
新聞は朝刊・夕刊合わせて 1MBらしい
休刊日を除き、353日発行した場合
1年で353MBとすると・・・
11.5GB => 11500MB => 32.5年分
- 10. © Opt, Inc. All Rights Reserved.
現在の蓄積されているデータ総量
はというと・・・
- 11. © Opt, Inc. All Rights Reserved.
4.02 TB
Redshiftの総利用量
(Redshiftのデータ圧縮は最大1/4)
- 12. © Opt, Inc. All Rights Reserved.
レコード件数でいうと、
だいたい・・・
- 13. © Opt, Inc. All Rights Reserved.
75億!あと、2000万
Redshiftの総データ件数
- 14. © Opt, Inc. All Rights Reserved.
ちなみに・・・
オプトで扱っている
広告データは
大きく分けて2種類あります
- 15. © Opt, Inc. All Rights Reserved.
Google、Yahoo!など
広告を掲載している
広告媒体から
取得しているデータ
※取り扱い媒体数100以上
Google
Yahoo!
Facebook
Twitter
LINE
criteo
- 16. © Opt, Inc. All Rights Reserved.
ADPLAN(弊社製品)などの
広告掲載効果を測定する
広告効果測定ツールから
取得しているデータ
- 17. © Opt, Inc. All Rights Reserved.
分析しやすい形に集計して格納
Redshift
広告媒体データ
広告効果測定ツール
データ
Google
Yahoo!
Facebook
Twitter
LINE
criteo
etc...
etc...
- 18. © Opt, Inc. All Rights Reserved.
そうすることで
どの広告を
いつ
どんな端末から
何回表示したか
何回クリックしたか
などなど
分析できています
- 21. © Opt, Inc. All Rights Reserved.
3V
※ ダグ・レイニー(Doug Laney)氏提言
- 22. © Opt, Inc. All Rights Reserved.
・Volume(量)
データ量のこと
通常のツールでは扱えないような、非
常に大きなデータ量
- 23. © Opt, Inc. All Rights Reserved.
・Velocity(頻度)
データ取得の頻度のこと
短い周期で大量のデータが発生
- 24. © Opt, Inc. All Rights Reserved.
・Variety(多様性)
データの種類のこと
様々種類のデータかつ、それぞれが
関連づいている
- 27. © Opt, Inc. All Rights Reserved.
データは多そうだが、
テキストデータのみで
発生頻度も高くはない
- 29. © Opt, Inc. All Rights Reserved.
日別天気情報
+
ネット広告媒体データ
+
広告効果計測ツールデータ
- 30. © Opt, Inc. All Rights Reserved.
データ量、発生頻度も高く
種類の異なるデータ
かつ、組み合わせて分析可能
- 32. © Opt, Inc. All Rights Reserved.
3Vの他にも
Veracity(正確性)
Value(価値)
なども定義として
提唱されている
- 33. © Opt, Inc. All Rights Reserved.
まとめ
ビッグデータとは、量・頻度・多様性
の3Vに沿ったデータを指す。
中でも、一般的に量が重視されてい
る。
- 35. © Opt, Inc. All Rights Reserved.
対で表現されることが多い
データウェアハウス
データマート
- 36. © Opt, Inc. All Rights Reserved.
直訳すると・・・
データウェアハウス:データの倉庫
データマート:データの市場
- 37. © Opt, Inc. All Rights Reserved.
倉庫と市場のイメージ
データウェアハウス データマート
目的別切り出しておく
欲しいものが探しやすい
- 38. © Opt, Inc. All Rights Reserved.
ショートケーキを探してみよう
データウェアハウス
ここに見取り図がでてきます
- 39. © Opt, Inc. All Rights Reserved.
ショートケーキを探してみよう
データウェアハウス 野菜
キャベツ
白菜
衣類
ジーンズ
スカート
肉
鶏肉
牛肉
玩具
ドローン
ゲーム機
ケーキ
ロールケーキ
ショートケーキ
フルーツ
いちご
ほおずき
- 40. © Opt, Inc. All Rights Reserved.
ショートケーキを探してみよう
データウェアハウス 野菜
キャベツ
白菜
衣類
ジーンズ
スカート
肉
鶏肉
牛肉
玩具
ドローン
ゲーム機
ケーキ
ロールケーキ
ショートケーキ
フルーツ
いちご
ほおずき
- 41. © Opt, Inc. All Rights Reserved.
ショートケーキを探してみよう
データマート
ここに見取り図がでてきます
- 42. © Opt, Inc. All Rights Reserved.
ショートケーキを探してみよう
ケーキ
ショートケーキ
データマート
- 43. © Opt, Inc. All Rights Reserved.
ショートケーキを探してみよう
ケーキ
ショートケーキ
データマート
- 44. © Opt, Inc. All Rights Reserved.
データマートの方が、
格段に探しやすく
短時間で見つけられましたよね
- 45. © Opt, Inc. All Rights Reserved.
イメージがわいたところで
データウェアハウスの説明を
再開します
- 46. © Opt, Inc. All Rights Reserved.
データウェアハウスとは、意思決定
のために目的別に編成、統合化さ
れた、時系列で更新をしないデータ
の集合体
※ ビル・インモン(William H. Inmon)氏提言
- 48. © Opt, Inc. All Rights Reserved.
・目的別(サブジェクト指向)
分析したいものを軸に、データが
まとめられている
- 49. © Opt, Inc. All Rights Reserved.
・統合化
全体のデータが、統一された
フォーマットになっている
- 50. © Opt, Inc. All Rights Reserved.
・時系列
経過の変化を分析できるよう、過
去のデータをもっている
- 51. © Opt, Inc. All Rights Reserved.
・更新しない(恒常的)
削除や更新をしない
(過去のものは実績のため)
- 53. © Opt, Inc. All Rights Reserved.
ある会社に、
天気情報・ネット広告・ユーザ情報
などを管理した、システムがある
- 54. © Opt, Inc. All Rights Reserved.
類似の商品Aの過去情報から、いつ、
誰に向けて広告をだせば購入数が増え
るか分析したいAさん
- 55. © Opt, Inc. All Rights Reserved.
天気情報
システム
ネット広告
システム
ユーザ情報
システム
各管理システムのデータ例
調査日時, 天気状態, 気温, …
広告番号, 掲載日時, 閲覧者, 成果, …
ユーザID, 性別, 年齢, …
- 56. © Opt, Inc. All Rights Reserved.
天気情報
システム
ネット広告
システム
ユーザ情報
システム
各管理システムのデータ例
調査日時, 天気状態, 気温
広告番号, 掲載日時, 閲覧者
ユーザID, 性別, 年齢
データの項目名がバラバラ
データの保存場所・期間も異っ
ており組み合わせが
困難!!
- 57. © Opt, Inc. All Rights Reserved.
ETL
(Extract Transform Load)
(抽出・加工・ロード)
データウェアハウス
各システムのデータを抽出
データウェアハウス構築
目的に合わせて、集計して格納する
(過去も含め、必要な期間分)
天気情報
システム
ネット広告
システム
ユーザ情報
システム
日別
期間別広告成果情報
月別
年別
分別
日別
週別
- 58. © Opt, Inc. All Rights Reserved.
データウェアハウスデータ例
期間別
広告成果情報
(日別)
閲覧日 天気 広告内容 閲覧数
(10~30代)
閲覧数
(40~60代)
購入数
(10~30代)
購入数
(40~60代)
2017/10/04
(水)
晴れ 商品A 50 10 1 5
2017/10/05
(木)
雨 商品A 70 30 2 20
2017/10/06
(金)
晴れ 商品A 48 3 1 1
- 59. © Opt, Inc. All Rights Reserved.
データウェアハウスデータ例
期間別
広告成果情報
(日別)
閲覧日 天気 広告内容 閲覧数
(10~30代)
閲覧数
(40~60代)
購入数
(10~30代)
購入数
(40~60代)
2017/10/04
(水)
晴れ 商品A 50 10 1 5
2017/10/05
(木)
雨 商品A 70 30 2 20
2017/10/06
(金)
晴れ 商品A 48 3 1 1
- 60. © Opt, Inc. All Rights Reserved.
データウェアハウスデータ例
期間別
広告成果情報
(日別)
閲覧日 天気 広告内容 閲覧数
(10~30代)
閲覧数
(40~60代)
購入数
(10~30代)
購入数
(40~60代)
2017/10/04
(水)
晴れ 商品A 50 10 1 5
2017/10/05
(木)
雨 商品A 70 30 2 20
2017/10/06
(金)
晴れ 商品A 48 3 1 1・40~60代の購入が多い
・雨の日はさらに多くなる
・ただし、金曜日は激減
(飲み会かな?)
- 62. © Opt, Inc. All Rights Reserved.
データマートとは、頻繁に利用する
データのみ切り出しておいたもの。
同時利用数・データ量削減などから
レスポンスの向上が期待できる。
- 64. © Opt, Inc. All Rights Reserved.
ある会社に、
天気情報・ネット広告情報・ユーザ
情報などを管理した、システムの
データを集計して格納したデータ
ウェアハウスがある
- 65. © Opt, Inc. All Rights Reserved.
毎日、直近3日の日別広告閲覧数
と購入数を前年と比較したい、コン
サルタントのAさんがいた場合
- 66. © Opt, Inc. All Rights Reserved.
データウェアハウスの場合
直近3日
探すのが手間で、
データ総量が多いため
時間もかかる・・・
データウェアハウス
日別のデータ
昨年同日
日別
期間別広告成果情報
月別
年別
分別
日別
週別
- 67. © Opt, Inc. All Rights Reserved.
データマートの場合
直近3日と
昨年同日を
切り出しておく
欲しいデータが
まとまっている
データウェアハウス
日別
期間別広告成果情報
月別
年別
分別
日別
週別
直近3日部分
昨年同日部分
直近3日
と
昨年同日
日別
データマート
- 69. © Opt, Inc. All Rights Reserved.
ビッグデータ:
3V( Volume(量)、Velocity(頻度)、Variety(多様性) )
を基本定義としたデータ
データウェアハウス:
4要件( 目的別、統合化、時系列、更新しない )
を満たすデータの集合体
データマート:
高頻度に利用するデータのみ切り出したもの
- 70. © Opt, Inc. All Rights Reserved.
参考サイト
・wikipedia(ビッグデータ、ETL、データマート)
https://ja.wikipedia.org/wiki/ビッグデータ
https://ja.wikipedia.org/wiki/Extract/Transform/Load
https://ja.wikipedia.org/wiki/データマート
・Amazon Redshift
https://aws.amazon.com/jp/redshift/
・ボクシルマガジン データウェアハウスを徹底解説!データベースとの
違い・DWH・RDB
https://boxil.jp/mag/a2426/