SlideShare a Scribd company logo
1 of 14
Download to read offline
MediaMind Data feed Analytics Infrastructure on
AWS
Yoshihiko Miyaichi
cyber communications inc.
はじめに
• Profile
– Yoshihiko Miyaichi
– General Manager, Platform Strategy
cyber communications inc.
– Facebook, Twitter, LinkedIn: miyaichi
• Session Agenda
想定オーディエンス: 代理店の方や、3PASを实施している方
内容:MediaMindをはじめとする3PAS(第三者配信)は、複数の媒体出
稿効果を理解するのに有効な手段である。しかしながら、深い分析を
するには、大量のフィードデータ処理が必要で、ハードルが高い。
しかし、AWSとTRESURE DATAのサービスを組み合わせて分析環境を
構築すれば、大量のデータを安価に高速に簡単に扱えるようになる。
MediaMind data feed
• 3PAS(第三者配信)サービスを提供するMediaMindは、配
信レポートUIを提供するだけではなく、ログデータ
(Cookie Level Log Data)のフィードサービスを提供し
ている。費用は配信費(CPM)の10%。
• データは4種類 1)スタンダードイベント・ローデー
タ、2)リッチイベント・ローデータ、3)コンバージョ
ン・ローデータ、4)マッチフアイル・階層データ
• これらのログデータがあれば、プレイスメント毎のフリ
ケンシー集計や、他の成果データと紐付けた深い分析な
どが可能となる。
分析の現場は
• ファインディングスには試行錯誤が必要。
• データを使った試行錯誤には、PowerPivotが欠かせない
が、扱えるデータサイズは4GB、5,000万レコード程
度。
• コンバージョンイベントなら良いが、インプレッション
も対象とすると、扱うデータは5,000倍(CTR 0.2%)。
• 目的に合わせたETL(Extract/Transform/Load)が不可欠。
• 外注可能だがコストがかかるので、案件サイズに制限。
やりたくてもなかなかできない。
Pentahoの活用
• Pentaho Community Editionは無料。
• PCに簡単にインストールできる。
• GUIでETL処理を定義・实行。
• 40万レコード/日(zipで40M弱)なら、1ヶ月のデータ
処理が2時間程度。
• 成果データなど、他の紐付けも容易。
とはいえ、データが増えたらどうする。
で、何が足りないのか
• 大量のデータを取り回すインフラ
– 取得・蓄積 Fetch, Archive
– 加工 ETL(Extract/Transform/Load)
– 処理 Query
Fetch, Archive
要件
• MediaMindのftp serverからログ
データを取得。
• 適宜、S3/Gracerにアーカイブ。
EC2 + EBS + S3 (Glacier)が最適
• EC2(とりあえずマイクロ)、
EBS(とりあえず1TB)、
S3(とりあえず1TB)、Glacier。
• 月間費用は230USD程度。
• ftp serverの監視、ダウンロード、
アーカイブは、shell scriptで。
月額230USD + スクリプト
Bucket
EC2
ftp
Glacier Archive
EBS
EMR
Bucket EMR
EC2
ftp
EBS
要件
• S3にアーカイブしたデータをEMRで
処理。
• S3上にHiveが認識できる形でファイ
ルを配置し、パーティションを構成
する。
EMRで、Hiveを起動
• EMR(とりあえずエクストララージ
15GBMem, 8ECU)を4台。
• 時間費用は0.48USD。
• クライアントPCからEMRにsshで接
続し、HQLを实行。
• EventDateなどの日付をJSTに変換し
ておくといいのだが、パーティショ
ン作成までを考えると、色々面倒。
月額230USD + スクリプト
+時間あたり 0.48USD
EMR(Hive)の起動とアクセス
$ elastic-mapreduce --create –alive --hive-interactive --name "Hive Session” ¥
--instance-type m1.xlarge --num-instances 4
Created job flow j-2TOYJYK51DYJY
$ elastic-mapreduce --ssh j-2TOYJYK51DYJY
ssh -o ServerAliveInterval=10 -o StrictHostKeyChecking=no hadoop@ec2-54-238-97-187.ap-northeast-1.compute.amazonaws.com
Warning: Permanently added 'ec2-54-238-97-187.ap-northeast-1.compute.amazonaws.com,10.121.9.96' (RSA) to the list of known
hosts.
Linux (none) 2.6.35.11-83.9.amzn1.x86_64 #1 SMP Sat Feb 19 23:42:04 UTC 2011 x86_64
--------------------------------------------------------------------------------
Welcome to Amazon Elastic MapReduce running Hadoop and Debian/Squeeze.
Hadoop is installed in /home/hadoop. Log files are in /mnt/var/log/hadoop. Check
/mnt/var/log/hadoop/steps for diagnosing step failures.
The Hadoop UI can be accessed via the following commands:
JobTracker lynx http://localhost:9100/
NameNode lynx http://localhost:9101/
--------------------------------------------------------------------------------
hadoop@ip-10-121-9-96:~$ hive
Logging initialized using configuration in file:/home/hadoop/.versions/hive-0.8.1/conf/hive-log4j.properties
Hive history file=/mnt/var/lib/hive_081/tmp/history/hive_job_log_hadoop_201309162032_1159926161.txt
hive>
TRESURE DATA
BucketEBS
EC2
Bulk Import
ftp
要件
• ダウンロードしたファイルをBulk
ImportでTRESURE DATAに転送。
• CUI(TDコマンド)でHQLでデータ
処理。
TRESURE DATA
• ビジネスアカウントは、容量が
2TB、処理コア数は、8コア保証、他
が空いていれば、32コアまでスケー
ル。
• Bulk Importの際に、EventDateなど
の日付をJSTに変換しておくとその
後の処理がすべてJSTでできる。
• TRESURE DATAのビジネスアカウ
ントは、月額3,000USD。
• クライアントPCにPentahoをインス
トールし、JDBCでTRESURE DATA
と接続。
月額3,230USD + スクリプト
Glacier Archive
TRESURE DATAへのアクセス
$ td database:list
+-----------+------------+
| Name | Count |
+-----------+------------+
| mmdb | 1287225160 |
+-----------+------------+
1 rows in set
$ td table:listmmdb
+-----------+---------------------------------------+------+---------------+-----------+-------------+--------------------+------------+
| Database | Table | Type | Count | Size | Last import |Last log timestamp| Schema |
+-----------+---------------------------------------+------+---------------+-----------+-------------+--------------------+------------+
| mmdb | mm_cld_conversion_advertiser | log | 405,767 | 0.01 GB | | | |
| mmdb | mm_cld_standard_advertiser | log | 417,714,825 | 31.5 GB | | | |
+-----------+-----------------------------------------+-----+--------------+-----------+-------------+--------------------+------------+
2 rows in set
$ td query -dsmoj_vaio 
"SELECT t1.v[ 'UserID' ] AS userid
,t1.v[ 'PlacementID' ] AS placementid
,t1.v[ 'EventTypeID' ] AS eventtypeid
FROM
mm_cld_standard_advertiser t1 LEFT SEMI JOIN mm_cld_conversion_advertiser t2
ON t1.v[ 'UserID' ] = t2.v[ 'UserID' ]"
Job 4777827 is queued.
Use 'td job:show 4777827' to show the status.
4億レコードx 40万レコードの join で 40分弱
Pentahoを使ったETL設計
まとめ
• 3PAS(第三者配信)サービスを提供するMediaMindは、配
信レポートUIを提供するだけではなく、ログデータ
(Cookie Level Log Data)のフィードサービスを提供し
ている。費用は配信費(CPM)の10%。
• ログデータは、ファインディングスにとっての宝の宝庫
だが、インプレッションデータは、コンバージョンデー
タの5,000倍(CTR 0.2%)のサイズがあり、扱いにく
い。
• AWSのインフラを使えば、ログデータを収集、分析する
インフラが簡単に、安価に、構築できる。
• 更に、TRESURE DATAを活用すれば、より簡単に大規
模なデータ分析が可能となる。
ご成長ありがとうございまし
た。

More Related Content

What's hot

最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたものcyberagent
 
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...Insight Technology, Inc.
 
ぼくの考えた最強のpipeline構成
ぼくの考えた最強のpipeline構成ぼくの考えた最強のpipeline構成
ぼくの考えた最強のpipeline構成Naoto Nishizono
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltToshihiro Suzuki
 
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジLINE Corporation
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門Satoshi Noto
 
MogileFSの利用と高速化
MogileFSの利用と高速化MogileFSの利用と高速化
MogileFSの利用と高速化kan
 

What's hot (10)

Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの
 
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
 
ぼくの考えた最強のpipeline構成
ぼくの考えた最強のpipeline構成ぼくの考えた最強のpipeline構成
ぼくの考えた最強のpipeline構成
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
 
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
 
Java11へのマイグレーションガイド ~Apache Hadoopの事例~
Java11へのマイグレーションガイド ~Apache Hadoopの事例~Java11へのマイグレーションガイド ~Apache Hadoopの事例~
Java11へのマイグレーションガイド ~Apache Hadoopの事例~
 
Hadoop-3.2.0の新機能の紹介とJava9+対応のコミュニティ動向
Hadoop-3.2.0の新機能の紹介とJava9+対応のコミュニティ動向Hadoop-3.2.0の新機能の紹介とJava9+対応のコミュニティ動向
Hadoop-3.2.0の新機能の紹介とJava9+対応のコミュニティ動向
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門
 
MogileFSの利用と高速化
MogileFSの利用と高速化MogileFSの利用と高速化
MogileFSの利用と高速化
 

Similar to Media mind data feed analytics infrastructure

Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!QlikPresalesJapan
 
Tech Ed 2010 Japan T1-310 Microsoft Online Services 展開時の実践テクニック
Tech Ed 2010 Japan T1-310 Microsoft Online Services 展開時の実践テクニックTech Ed 2010 Japan T1-310 Microsoft Online Services 展開時の実践テクニック
Tech Ed 2010 Japan T1-310 Microsoft Online Services 展開時の実践テクニックkumo2010
 
Hinemosによるハイブリッドクラウド運用管理の最新情報
Hinemosによるハイブリッドクラウド運用管理の最新情報Hinemosによるハイブリッドクラウド運用管理の最新情報
Hinemosによるハイブリッドクラウド運用管理の最新情報Hinemos
 
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)NTT DATA Technology & Innovation
 
Windows on aws最新情報
Windows on aws最新情報Windows on aws最新情報
Windows on aws最新情報Genta Watanabe
 
Sbc odps 200_data_works_handson_ver1.0
Sbc odps 200_data_works_handson_ver1.0Sbc odps 200_data_works_handson_ver1.0
Sbc odps 200_data_works_handson_ver1.0洋 謝
 
20190705 mas ken_azure_stack
20190705 mas ken_azure_stack20190705 mas ken_azure_stack
20190705 mas ken_azure_stackOsamu Takazoe
 
ConsulとNomadで簡単クッキング
ConsulとNomadで簡単クッキングConsulとNomadで簡単クッキング
ConsulとNomadで簡単クッキングMasatomo Ito
 
The road of Apache CloudStack Contributor (Translation and Patch)
The road of Apache CloudStack Contributor (Translation and Patch)The road of Apache CloudStack Contributor (Translation and Patch)
The road of Apache CloudStack Contributor (Translation and Patch)Kimihiko Kitase
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Cloudera Japan
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情Hideo Takagi
 
Azure Cosmos DB を使った高速分散アプリケーションの設計パターン
Azure Cosmos DB を使った高速分散アプリケーションの設計パターンAzure Cosmos DB を使った高速分散アプリケーションの設計パターン
Azure Cosmos DB を使った高速分散アプリケーションの設計パターンKazuyuki Miyake
 
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)NTT DATA Technology & Innovation
 
20170413_データレプリケーション技術を適用したデータベース移行と分析基盤の構築 by 株式会社インサイトテクノロジー 森田俊哉
20170413_データレプリケーション技術を適用したデータベース移行と分析基盤の構築 by 株式会社インサイトテクノロジー 森田俊哉20170413_データレプリケーション技術を適用したデータベース移行と分析基盤の構築 by 株式会社インサイトテクノロジー 森田俊哉
20170413_データレプリケーション技術を適用したデータベース移行と分析基盤の構築 by 株式会社インサイトテクノロジー 森田俊哉Insight Technology, Inc.
 
Cloudstack user group meeting in osaka
Cloudstack user group meeting in osakaCloudstack user group meeting in osaka
Cloudstack user group meeting in osakaNaotaka Jay HOTTA
 
BOSHでお手軽CFデプロイon AWS
BOSHでお手軽CFデプロイon AWSBOSHでお手軽CFデプロイon AWS
BOSHでお手軽CFデプロイon AWSi_yudai
 
Cloud Foundry V2を、もうちょっと深掘りしよう
Cloud Foundry V2を、もうちょっと深掘りしようCloud Foundry V2を、もうちょっと深掘りしよう
Cloud Foundry V2を、もうちょっと深掘りしようKazuto Kusama
 

Similar to Media mind data feed analytics infrastructure (20)

Data Lake ハンズオン
Data Lake ハンズオンData Lake ハンズオン
Data Lake ハンズオン
 
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
Hybrid Data Deliveryを活用してオンプレミスデータをQlik Cloudでリアルタイム活用!
 
Tech Ed 2010 Japan T1-310 Microsoft Online Services 展開時の実践テクニック
Tech Ed 2010 Japan T1-310 Microsoft Online Services 展開時の実践テクニックTech Ed 2010 Japan T1-310 Microsoft Online Services 展開時の実践テクニック
Tech Ed 2010 Japan T1-310 Microsoft Online Services 展開時の実践テクニック
 
Hinemosによるハイブリッドクラウド運用管理の最新情報
Hinemosによるハイブリッドクラウド運用管理の最新情報Hinemosによるハイブリッドクラウド運用管理の最新情報
Hinemosによるハイブリッドクラウド運用管理の最新情報
 
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
OpenLineage による Airflow のデータ来歴の収集と可視化(Airflow Meetup Tokyo #3 発表資料)
 
Windows on aws最新情報
Windows on aws最新情報Windows on aws最新情報
Windows on aws最新情報
 
Sbc odps 200_data_works_handson_ver1.0
Sbc odps 200_data_works_handson_ver1.0Sbc odps 200_data_works_handson_ver1.0
Sbc odps 200_data_works_handson_ver1.0
 
[Japan Tech summit 2017] DAL 005
[Japan Tech summit 2017] DAL 005[Japan Tech summit 2017] DAL 005
[Japan Tech summit 2017] DAL 005
 
20190705 mas ken_azure_stack
20190705 mas ken_azure_stack20190705 mas ken_azure_stack
20190705 mas ken_azure_stack
 
G0042 h
G0042 hG0042 h
G0042 h
 
ConsulとNomadで簡単クッキング
ConsulとNomadで簡単クッキングConsulとNomadで簡単クッキング
ConsulとNomadで簡単クッキング
 
The road of Apache CloudStack Contributor (Translation and Patch)
The road of Apache CloudStack Contributor (Translation and Patch)The road of Apache CloudStack Contributor (Translation and Patch)
The road of Apache CloudStack Contributor (Translation and Patch)
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
 
Azure Cosmos DB を使った高速分散アプリケーションの設計パターン
Azure Cosmos DB を使った高速分散アプリケーションの設計パターンAzure Cosmos DB を使った高速分散アプリケーションの設計パターン
Azure Cosmos DB を使った高速分散アプリケーションの設計パターン
 
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
 
20170413_データレプリケーション技術を適用したデータベース移行と分析基盤の構築 by 株式会社インサイトテクノロジー 森田俊哉
20170413_データレプリケーション技術を適用したデータベース移行と分析基盤の構築 by 株式会社インサイトテクノロジー 森田俊哉20170413_データレプリケーション技術を適用したデータベース移行と分析基盤の構築 by 株式会社インサイトテクノロジー 森田俊哉
20170413_データレプリケーション技術を適用したデータベース移行と分析基盤の構築 by 株式会社インサイトテクノロジー 森田俊哉
 
Cloudstack user group meeting in osaka
Cloudstack user group meeting in osakaCloudstack user group meeting in osaka
Cloudstack user group meeting in osaka
 
BOSHでお手軽CFデプロイon AWS
BOSHでお手軽CFデプロイon AWSBOSHでお手軽CFデプロイon AWS
BOSHでお手軽CFデプロイon AWS
 
Cloud Foundry V2を、もうちょっと深掘りしよう
Cloud Foundry V2を、もうちょっと深掘りしようCloud Foundry V2を、もうちょっと深掘りしよう
Cloud Foundry V2を、もうちょっと深掘りしよう
 

Media mind data feed analytics infrastructure

  • 1. MediaMind Data feed Analytics Infrastructure on AWS Yoshihiko Miyaichi cyber communications inc.
  • 2. はじめに • Profile – Yoshihiko Miyaichi – General Manager, Platform Strategy cyber communications inc. – Facebook, Twitter, LinkedIn: miyaichi • Session Agenda 想定オーディエンス: 代理店の方や、3PASを实施している方 内容:MediaMindをはじめとする3PAS(第三者配信)は、複数の媒体出 稿効果を理解するのに有効な手段である。しかしながら、深い分析を するには、大量のフィードデータ処理が必要で、ハードルが高い。 しかし、AWSとTRESURE DATAのサービスを組み合わせて分析環境を 構築すれば、大量のデータを安価に高速に簡単に扱えるようになる。
  • 3. MediaMind data feed • 3PAS(第三者配信)サービスを提供するMediaMindは、配 信レポートUIを提供するだけではなく、ログデータ (Cookie Level Log Data)のフィードサービスを提供し ている。費用は配信費(CPM)の10%。 • データは4種類 1)スタンダードイベント・ローデー タ、2)リッチイベント・ローデータ、3)コンバージョ ン・ローデータ、4)マッチフアイル・階層データ • これらのログデータがあれば、プレイスメント毎のフリ ケンシー集計や、他の成果データと紐付けた深い分析な どが可能となる。
  • 4. 分析の現場は • ファインディングスには試行錯誤が必要。 • データを使った試行錯誤には、PowerPivotが欠かせない が、扱えるデータサイズは4GB、5,000万レコード程 度。 • コンバージョンイベントなら良いが、インプレッション も対象とすると、扱うデータは5,000倍(CTR 0.2%)。 • 目的に合わせたETL(Extract/Transform/Load)が不可欠。 • 外注可能だがコストがかかるので、案件サイズに制限。 やりたくてもなかなかできない。
  • 5. Pentahoの活用 • Pentaho Community Editionは無料。 • PCに簡単にインストールできる。 • GUIでETL処理を定義・实行。 • 40万レコード/日(zipで40M弱)なら、1ヶ月のデータ 処理が2時間程度。 • 成果データなど、他の紐付けも容易。 とはいえ、データが増えたらどうする。
  • 6. で、何が足りないのか • 大量のデータを取り回すインフラ – 取得・蓄積 Fetch, Archive – 加工 ETL(Extract/Transform/Load) – 処理 Query
  • 7. Fetch, Archive 要件 • MediaMindのftp serverからログ データを取得。 • 適宜、S3/Gracerにアーカイブ。 EC2 + EBS + S3 (Glacier)が最適 • EC2(とりあえずマイクロ)、 EBS(とりあえず1TB)、 S3(とりあえず1TB)、Glacier。 • 月間費用は230USD程度。 • ftp serverの監視、ダウンロード、 アーカイブは、shell scriptで。 月額230USD + スクリプト Bucket EC2 ftp Glacier Archive EBS
  • 8. EMR Bucket EMR EC2 ftp EBS 要件 • S3にアーカイブしたデータをEMRで 処理。 • S3上にHiveが認識できる形でファイ ルを配置し、パーティションを構成 する。 EMRで、Hiveを起動 • EMR(とりあえずエクストララージ 15GBMem, 8ECU)を4台。 • 時間費用は0.48USD。 • クライアントPCからEMRにsshで接 続し、HQLを实行。 • EventDateなどの日付をJSTに変換し ておくといいのだが、パーティショ ン作成までを考えると、色々面倒。 月額230USD + スクリプト +時間あたり 0.48USD
  • 9. EMR(Hive)の起動とアクセス $ elastic-mapreduce --create –alive --hive-interactive --name "Hive Session” ¥ --instance-type m1.xlarge --num-instances 4 Created job flow j-2TOYJYK51DYJY $ elastic-mapreduce --ssh j-2TOYJYK51DYJY ssh -o ServerAliveInterval=10 -o StrictHostKeyChecking=no hadoop@ec2-54-238-97-187.ap-northeast-1.compute.amazonaws.com Warning: Permanently added 'ec2-54-238-97-187.ap-northeast-1.compute.amazonaws.com,10.121.9.96' (RSA) to the list of known hosts. Linux (none) 2.6.35.11-83.9.amzn1.x86_64 #1 SMP Sat Feb 19 23:42:04 UTC 2011 x86_64 -------------------------------------------------------------------------------- Welcome to Amazon Elastic MapReduce running Hadoop and Debian/Squeeze. Hadoop is installed in /home/hadoop. Log files are in /mnt/var/log/hadoop. Check /mnt/var/log/hadoop/steps for diagnosing step failures. The Hadoop UI can be accessed via the following commands: JobTracker lynx http://localhost:9100/ NameNode lynx http://localhost:9101/ -------------------------------------------------------------------------------- hadoop@ip-10-121-9-96:~$ hive Logging initialized using configuration in file:/home/hadoop/.versions/hive-0.8.1/conf/hive-log4j.properties Hive history file=/mnt/var/lib/hive_081/tmp/history/hive_job_log_hadoop_201309162032_1159926161.txt hive>
  • 10. TRESURE DATA BucketEBS EC2 Bulk Import ftp 要件 • ダウンロードしたファイルをBulk ImportでTRESURE DATAに転送。 • CUI(TDコマンド)でHQLでデータ 処理。 TRESURE DATA • ビジネスアカウントは、容量が 2TB、処理コア数は、8コア保証、他 が空いていれば、32コアまでスケー ル。 • Bulk Importの際に、EventDateなど の日付をJSTに変換しておくとその 後の処理がすべてJSTでできる。 • TRESURE DATAのビジネスアカウ ントは、月額3,000USD。 • クライアントPCにPentahoをインス トールし、JDBCでTRESURE DATA と接続。 月額3,230USD + スクリプト Glacier Archive
  • 11. TRESURE DATAへのアクセス $ td database:list +-----------+------------+ | Name | Count | +-----------+------------+ | mmdb | 1287225160 | +-----------+------------+ 1 rows in set $ td table:listmmdb +-----------+---------------------------------------+------+---------------+-----------+-------------+--------------------+------------+ | Database | Table | Type | Count | Size | Last import |Last log timestamp| Schema | +-----------+---------------------------------------+------+---------------+-----------+-------------+--------------------+------------+ | mmdb | mm_cld_conversion_advertiser | log | 405,767 | 0.01 GB | | | | | mmdb | mm_cld_standard_advertiser | log | 417,714,825 | 31.5 GB | | | | +-----------+-----------------------------------------+-----+--------------+-----------+-------------+--------------------+------------+ 2 rows in set $ td query -dsmoj_vaio "SELECT t1.v[ 'UserID' ] AS userid ,t1.v[ 'PlacementID' ] AS placementid ,t1.v[ 'EventTypeID' ] AS eventtypeid FROM mm_cld_standard_advertiser t1 LEFT SEMI JOIN mm_cld_conversion_advertiser t2 ON t1.v[ 'UserID' ] = t2.v[ 'UserID' ]" Job 4777827 is queued. Use 'td job:show 4777827' to show the status. 4億レコードx 40万レコードの join で 40分弱
  • 13. まとめ • 3PAS(第三者配信)サービスを提供するMediaMindは、配 信レポートUIを提供するだけではなく、ログデータ (Cookie Level Log Data)のフィードサービスを提供し ている。費用は配信費(CPM)の10%。 • ログデータは、ファインディングスにとっての宝の宝庫 だが、インプレッションデータは、コンバージョンデー タの5,000倍(CTR 0.2%)のサイズがあり、扱いにく い。 • AWSのインフラを使えば、ログデータを収集、分析する インフラが簡単に、安価に、構築できる。 • 更に、TRESURE DATAを活用すれば、より簡単に大規 模なデータ分析が可能となる。