More Related Content
Similar to Cloud DatalabとBigQueryを使ったアドホックデータ解析 (20)
More from hagino 3000 (19)
Cloud DatalabとBigQueryを使ったアドホックデータ解析
- 6. • 広告リクエストに対して最も適切な広告を返す
• CTR (Click through Rate) の予測
• p(Click | Request, 広告枠, 広告キャンペーン)
• CVR (Conversion Rate) の予測
• p(Conversion | 広告枠, 広告キャンペーン)
• 最適な入札価格の決定
• 広告枠ごとのインプレッション(リクエスト)予測
• 異常枠の検知
• 広告配信システムのログを活用できる状態にする
- 12. Job管理
• Luigiを使っている
• タスク間の依存性定義 (ロード → 前処理 → 集計 → xxx)
• 入出力対象の抽象化 (S3, GCS, BigQuery, Local File, etc.)
• リトライ/エラー通知
• モニタリング用UI
• 処理は全てPythonで記述
• http://qiita.com/hagino3000/items/b9a7761dad1f352ec723
- 16. チーム内での共有
• Googleスプレッドシート + GAS
• クエリをスケジュール実行してグラフを作ったり
• クエリをセルに入力して実行できるシートをチー
ムで共有
• GASいいよねー、みたいな話はいろんな人がしてる
• gcp ja night #28, #29 の資料を見ていただければ
- 21. About Cloud Datalab
• Jupyter Notebookベースの対話環境をGCP
上に立てられる
• AppEngine + Managed VM 上で動作
• Github上で開発が進んでいる
• https://github.com/
GoogleCloudPlatform/datalab
- 30. • Good
• 30秒で使いはじめられる
• GCPプロジェクトのアカウントが使える
• ノートの共有が前よりは楽にできる
• カスタマイズ欲が無くなる
• Bad
• 他人の変更を取りこむのが割と面倒
• 数式がまだ使えない (masterブランチでは修正済み)
• 既存ノートが動かなかったりする
- 31. Tips
• Charting APIsあたりを全て覚えなくても良い
• 今まで通りmatplotlib, Seaborn を使えばいい
• 地図へのプロットはCharting APIが楽
• 環境構築はノートにしておく
• インスタンスタイプの変更はLaunchページのクエリパラメー
タで
• http://datalab.cloud.google.com?
cpu=2&memorygb=7.5&diskgb=200