More Related Content
Similar to データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密 (20)
データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
- 2. 会社概要
会 社 名: 澪標アナリティクス株式会社
代表取締役: 井原 渉
顧 問: 川村 秀憲(北海道大学教授)
栗原 聡(電気通信大学教授)
所 在 地: 東京都中央区日本橋茅場町1丁目10-8
グリンヒルビル6階
事 業 内 容: データ分析に関する各種事業
アドバイザリーサービス
教育研修
分析組織・IT基盤構築
分析官派遣
受託分析
U R L : http://www.mioana.com/
©Miotsukushi Analytics Inc. 2016, All rights reserved. 2
- 4. Agenda
序.ゲーム分析とデータサイエンティスト
1. キミも使える! データサイエンティストの四つの武器 旅人編
⁻ 全ての道は集計に通ず
⁻ ExcelとSPSS ModelerとSQL
⁻ 集計は母集団とデータ仕様で決まる
2. キミも使える! データサイエンティストの四つの武器 戦士編
⁻ ビジネス理解が推進力に
⁻ データ分析は人の心を読み取ること
3. キミも使える! データサイエンティストの四つの武器 魔法使い編
⁻ 得意な分析手法を一つ身に付けよう
⁻ 魔法は正しく、的確に
4. キミも使える! データサイエンティストの四つの武器 僧侶編
⁻ 分析環境に合わせよう
©Miotsukushi Analytics Inc. 2016, All rights reserved. 4
- 10. 10©Miotsukushi Analytics Inc. 2016, All rights reserved.
ゲーム分析における業務フロー
•ターゲットKPI設定
•運営スケジュールとターゲット施策分析戦略策定
•データ理解
•基盤構築・クレンジングデータ導入
•運営上の課題感
•分析での検証ターゲットとなる仮説課題と仮説の設定
•分析ターゲットのセグメント決定
•具体的なデータ分析フローの策定分析プランと分析設計
•データマート構築
•状況俯瞰のための集計基礎集計
•狙いを定めたクリティカルなクロス集計
•アルゴリズムの適用とモデル作成分析作業
•分析を理解可能な形で表現解釈とレポート
•施策の検討
•施策導入か追加分析かの判断施策反映
- 11. 私は昔こうだった……
11©Miotsukushi Analytics Inc. 2016, All rights reserved.
ビジネス力 データサイエンス力 データエンジニアリング力
1.業界代表レベ
ル
• 対象とする事業全体、産業領域にお
ける課題の切り分け、テーマ、論点の
明確化ができる。
• 新しいアルゴリズムや分析手法の開発がで
きる。
• 複数のデータソースを統合したデータ
システム、もしくはデータプロダクトの構
築、全体最適化ができる。
2.棟梁レベル • 仮説や可視化された問題がない中
で、適切に問題を定義し、解き、価
値を見出すことができる。
• アルゴリズムを理解し、適切に活用、問題
解決することができる。
• 分析のためのデータシステム設計が
できる。
• 問題設定に応じた新規データマート
設計ができる。
3.独り立ちレベル • 扱っている課題領域で新規の課題を
切り分け、構造化できる。
• 当該プロジェクト・サービスを超えて、
必要なデータの当たりをつけることがで
きる。
• SPSS/R等が使える。指示されなくて
もサンプル抽出ができるとともに内容を確認
できる。
• データクレンジング、分析、単回帰やP値
の概念を理解し、活用することができる。
• 大規模のファイルや、データベースに
アクセスし、大量の構造化データを処
理することができる。
4.見習いレベル • 仮説や既知の問題が与えられた中で、
必要なデータに当たりをつけて、デー
タを用いて改善することができる。
• 扱っている課題領域における基本的
な課題の枠組みが理解できる。
• 基本統計量(平均、中央値など)の知
識を有し、指示されればデータの抽出、グラ
フ作成を正しく行うことができる。
• 抽出されたデータサブセットに対し、
Excel等を用い、目的に応じた処
理をすることができる。
それ以前の方 • ビジネスは勘と経験で回すものだと
思っている。
• 「平均」を鵜呑みにする • Excelは数字しか入れない。
一般社団法人データサイエンティスト協会
データサイエンティストのスキルレベル より抜粋
- 12. ビジネス力 データサイエンス力 データエンジニアリング力
1.業界代表レベ
ル
• 対象とする事業全体、産業領域にお
ける課題の切り分け、テーマ、論点の
明確化ができる。
• 新しいアルゴリズムや分析手法の開発がで
きる。
• 複数のデータソースを統合したデータ
システム、もしくはデータプロダクトの構
築、全体最適化ができる。
2.棟梁レベル • 仮説や可視化された問題がない中
で、適切に問題を定義し、解き、価
値を見出すことができる。
• アルゴリズムを理解し、適切に活用、問題
解決することができる。
• 分析のためのデータシステム設計が
できる。
• 問題設定に応じた新規データマート
設計ができる。
3.独り立ちレベル • 扱っている課題領域で新規の課題を
切り分け、構造化できる。
• 当該プロジェクト・サービスを超えて、
必要なデータの当たりをつけることがで
きる。
• SPSS/R等が使える。指示されなくて
もサンプル抽出ができるとともに内容を確認
できる。
• データクレンジング、分析、単回帰やP値
の概念を理解し、活用することができる。
• 大規模のファイルや、データベースに
アクセスし、大量の構造化データを処
理することができる。
4.見習いレベル • 仮説や既知の問題が与えられた中で、
必要なデータに当たりをつけて、デー
タを用いて改善することができる。
• 扱っている課題領域における基本的
な課題の枠組みが理解できる。
• 基本統計量(平均、中央値など)の知
識を有し、指示されればデータの抽出、グラ
フ作成を正しく行うことができる。
• 抽出されたデータサブセットに対し、
Excel等を用い、目的に応じた処
理をすることができる。
それ以前の方 • ビジネスは勘と経験で回すものだと
思っている。
• 「平均」を鵜呑みにする • Excelは数字しか入れない。
私は昔こうだった……
12©Miotsukushi Analytics Inc. 2016, All rights reserved.
一般社団法人データサイエンティスト協会
データサイエンティストのスキルレベル より抜粋
- 15. 15©Miotsukushi Analytics Inc. 2016, All rights reserved.
【再掲】ゲーム分析における業務フロー
•ターゲットKPI設定
•運営スケジュールとターゲット施策分析戦略策定
•データ理解
•基盤構築・クレンジングデータ導入
•運営上の課題感
•分析での検証ターゲットとなる仮説課題と仮説の設定
•分析ターゲットのセグメント決定
•具体的なデータ分析フローの策定分析プランと分析設計
•データマート構築
•状況俯瞰のための集計基礎集計
•狙いを定めたクリティカルなクロス集計
•アルゴリズムの適用とモデル作成分析作業
•分析を理解可能な形で表現解釈とレポート
•施策の検討
•施策導入か追加分析かの判断施策反映
赤字の部分で
集計を使っている
- 17. キミも使える武器! 旅人編 ~全ての道は集計に通ず~
データ分析に求められる集計の質
17©Miotsukushi Analytics Inc. 2016, All rights reserved.
インストールログからユーザーごとのインストール日時を取得し、インストール72時間後の
時刻を算出する
ユーザーキャラクター強化ログから素材キャラでないキャラを抽出し、各キャラクターのイン
ストール72時間以内の最後のレコードを取り出し、キャラクター種類とレベルを取得する
ユーザーキャラクター消費ログと結合し、そのキャラが72時間以内に消費・売却された場
合は除外する
キャラクターマスタと結合し、そのキャラの各パラメータを取得し、所定の式で変換し戦闘
力を算出する
各ユーザーの上記結果に順位づけをして上位2キャラを判定する
デッキ編集ログから各ユーザーインストール72時間以内の最後に編集されたデッキデー
タを取得し、その中上記の2キャラが含まれているかのパターンごとのフラグをたてる
インストール日ごとに、デッキ枚数と上位2キャラ含有パターンごとのUU数を集計する
例題:初心者ってちゃんと強いキャラ使ってんの?
- 18. キミも使える武器! 旅人編 ~全ての道は集計に通ず~
SQLが書けなかった私
18©Miotsukushi Analytics Inc. 2016, All rights reserved.
SELECTって何?
テーブルって?
なんか表出てくるの??
CREATE TABLE hogehoge AS
WITH install_201608 AS
(SELECT
user_id
,date(install_datetime) as install_date
,platform
FROM
log_user_install
WHERE
date(install_datetime) >= '2016-08-01'
and
date(install_datetime) < '2016-09-01'
)
SELECT
user_id
,quest_category
,datediff(date(quest_start_timestamp),install_date) as interval_day
,count(id)
FROM
log_quest_start
INNER JOIN
install_201608
ON
log_quest_start.user_id
=
install_201608.user_id
WHERE
quest_category != 0
and
datediff(date(quest_start_timestamp),install_date) <= 3
GROUP BY
quest_category
,datediff(date(quest_start_timestamp),install_date)
- 23. キミも使える武器! 旅人編 ~全ての道は集計に通ず~
母集団とデータ仕様
23©Miotsukushi Analytics Inc. 2016, All rights reserved.
いつのデータ?
– 何月のデータ?
– インストール何日目?
どんな人のデータ?
– 例:『7日目までに○○たくさんしてる人は7日目まで残りやすいんです
よ!』
– 例:『離脱した人の方が戦闘力低いんですよ!!』
何のデータがどのように入っている?
– どのボタンをタップした時にどのテーブルにデータが落ちるのか?
集計では細かいことばかり考えよう!
- 25. ビジネス力 データサイエンス力 データエンジニアリング力
1.業界代表レベ
ル
• 対象とする事業全体、産業領域にお
ける課題の切り分け、テーマ、論点の
明確化ができる。
• 新しいアルゴリズムや分析手法の開発がで
きる。
• 複数のデータソースを統合したデータ
システム、もしくはデータプロダクトの構
築、全体最適化ができる。
2.棟梁レベル • 仮説や可視化された問題がない中
で、適切に問題を定義し、解き、価
値を見出すことができる。
• アルゴリズムを理解し、適切に活用、問題
解決することができる。
• 分析のためのデータシステム設計が
できる。
• 問題設定に応じた新規データマート
設計ができる。
3.独り立ちレベル • 扱っている課題領域で新規の課題を
切り分け、構造化できる。
• 当該プロジェクト・サービスを超えて、
必要なデータの当たりをつけることがで
きる。
• SPSS/R等が使える。指示されなくて
もサンプル抽出ができるとともに内容を確認
できる。
• データクレンジング、分析、単回帰やP値
の概念を理解し、活用することができる。
• 大規模のファイルや、データベースに
アクセスし、大量の構造化データを処
理することができる。
4.見習いレベル • 仮説や既知の問題が与えられた中で、
必要なデータに当たりをつけて、デー
タを用いて改善することができる。
• 扱っている課題領域における基本的
な課題の枠組みが理解できる。
• 基本統計量(平均、中央値など)の知
識を有し、指示されればデータの抽出、グラ
フ作成を正しく行うことができる。
• 抽出されたデータサブセットに対し、
Excel等を用い、目的に応じた処
理をすることができる。
それ以前の方 • ビジネスは勘と経験で回すものだと
思っている。
• 「平均」を鵜呑みにする • Excelは数字しか入れない。
レベルアップ!
25©Miotsukushi Analytics Inc. 2016, All rights reserved.
一般社団法人データサイエンティスト協会
データサイエンティストのスキルレベル より抜粋
- 29. 29©Miotsukushi Analytics Inc. 2016, All rights reserved.
【再掲】ゲーム分析における業務フロー
•ターゲットKPI設定
•運営スケジュールとターゲット施策分析戦略策定
•データ理解
•基盤構築・クレンジングデータ導入
•運営上の課題感
•分析での検証ターゲットとなる仮説課題と仮説の設定
•分析ターゲットのセグメント決定
•具体的なデータ分析フローの策定分析プランと分析設計
•データマート構築
•状況俯瞰のための集計基礎集計
•狙いを定めたクリティカルなクロス集計
•アルゴリズムの適用とモデル作成分析作業
•分析を理解可能な形で表現解釈とレポート
•施策の検討
•施策導入か追加分析かの判断施策反映
赤字の部分で
ビジネス理解が必要
- 34. ビジネス力 データサイエンス力 データエンジニアリング力
1.業界代表レベ
ル
• 対象とする事業全体、産業領域にお
ける課題の切り分け、テーマ、論点の
明確化ができる。
• 新しいアルゴリズムや分析手法の開発がで
きる。
• 複数のデータソースを統合したデータ
システム、もしくはデータプロダクトの構
築、全体最適化ができる。
2.棟梁レベル • 仮説や可視化された問題がない中
で、適切に問題を定義し、解き、価
値を見出すことができる。
• アルゴリズムを理解し、適切に活用、問題
解決することができる。
• 分析のためのデータシステム設計が
できる。
• 問題設定に応じた新規データマート
設計ができる。
3.独り立ちレベル • 扱っている課題領域で新規の課題を
切り分け、構造化できる。
• 当該プロジェクト・サービスを超えて、
必要なデータの当たりをつけることがで
きる。
• SPSS/R等が使える。指示されなくて
もサンプル抽出ができるとともに内容を確認
できる。
• データクレンジング、分析、単回帰やP値
の概念を理解し、活用することができる。
• 大規模のファイルや、データベースに
アクセスし、大量の構造化データを処
理することができる。
4.見習いレベル • 仮説や既知の問題が与えられた中で、
必要なデータに当たりをつけて、デー
タを用いて改善することができる。
• 扱っている課題領域における基本的
な課題の枠組みが理解できる。
• 基本統計量(平均、中央値など)の知
識を有し、指示されればデータの抽出、グラ
フ作成を正しく行うことができる。
• 抽出されたデータサブセットに対し、
Excel等を用い、目的に応じた処
理をすることができる。
それ以前の方 • ビジネスは勘と経験で回すものだと
思っている。
• 「平均」を鵜呑みにする • Excelは数字しか入れない。
レベルアップ!
34©Miotsukushi Analytics Inc. 2016, All rights reserved.
一般社団法人データサイエンティスト協会
データサイエンティストのスキルレベル より抜粋
- 40. ビジネス力 データサイエンス力 データエンジニアリング力
1.業界代表レベ
ル
• 対象とする事業全体、産業領域にお
ける課題の切り分け、テーマ、論点の
明確化ができる。
• 新しいアルゴリズムや分析手法の開発がで
きる。
• 複数のデータソースを統合したデータ
システム、もしくはデータプロダクトの構
築、全体最適化ができる。
2.棟梁レベル • 仮説や可視化された問題がない中
で、適切に問題を定義し、解き、価
値を見出すことができる。
• アルゴリズムを理解し、適切に活用、問題
解決することができる。
• 分析のためのデータシステム設計が
できる。
• 問題設定に応じた新規データマート
設計ができる。
3.独り立ちレベル • 扱っている課題領域で新規の課題を
切り分け、構造化できる。
• 当該プロジェクト・サービスを超えて、
必要なデータの当たりをつけることがで
きる。
• SPSS/R等が使える。指示されなくて
もサンプル抽出ができるとともに内容を確認
できる。
• データクレンジング、分析、単回帰やP値
の概念を理解し、活用することができる。
• 大規模のファイルや、データベースに
アクセスし、大量の構造化データを処
理することができる。
4.見習いレベル • 仮説や既知の問題が与えられた中で、
必要なデータに当たりをつけて、デー
タを用いて改善することができる。
• 扱っている課題領域における基本的
な課題の枠組みが理解できる。
• 基本統計量(平均、中央値など)の知
識を有し、指示されればデータの抽出、グラ
フ作成を正しく行うことができる。
• 抽出されたデータサブセットに対し、
Excel等を用い、目的に応じた処
理をすることができる。
それ以前の方 • ビジネスは勘と経験で回すものだと
思っている。
• 「平均」を鵜呑みにする • Excelは数字しか入れない。
レベルアップ!
40©Miotsukushi Analytics Inc. 2016, All rights reserved.
一般社団法人データサイエンティスト協会
データサイエンティストのスキルレベル より抜粋
- 47. ビジネス力 データサイエンス力 データエンジニアリング力
1.業界代表レベ
ル
• 対象とする事業全体、産業領域にお
ける課題の切り分け、テーマ、論点の
明確化ができる。
• 新しいアルゴリズムや分析手法の開発がで
きる。
• 複数のデータソースを統合したデータ
システム、もしくはデータプロダクトの構
築、全体最適化ができる。
2.棟梁レベル • 仮説や可視化された問題がない中
で、適切に問題を定義し、解き、価
値を見出すことができる。
• アルゴリズムを理解し、適切に活用、問題
解決することができる。
• 分析のためのデータシステム設計が
できる。
• 問題設定に応じた新規データマート
設計ができる。
3.独り立ちレベル • 扱っている課題領域で新規の課題を
切り分け、構造化できる。
• 当該プロジェクト・サービスを超えて、
必要なデータの当たりをつけることがで
きる。
• SPSS/R等が使える。指示されなくて
もサンプル抽出ができるとともに内容を確認
できる。
• データクレンジング、分析、単回帰やP値
の概念を理解し、活用することができる。
• 大規模のファイルや、データベースに
アクセスし、大量の構造化データを処
理することができる。
4.見習いレベル • 仮説や既知の問題が与えられた中で、
必要なデータに当たりをつけて、デー
タを用いて改善することができる。
• 扱っている課題領域における基本的
な課題の枠組みが理解できる。
• 基本統計量(平均、中央値など)の知
識を有し、指示されればデータの抽出、グラ
フ作成を正しく行うことができる。
• 抽出されたデータサブセットに対し、
Excel等を用い、目的に応じた処
理をすることができる。
それ以前の方 • ビジネスは勘と経験で回すものだと
思っている。
• 「平均」を鵜呑みにする • Excelは数字しか入れない。
レベルアップ!
47©Miotsukushi Analytics Inc. 2016, All rights reserved.
一般社団法人データサイエンティスト協会
データサイエンティストのスキルレベル より抜粋
- 48. I'll do my BEST.
©Miotsukushi Analytics Inc. 2016, All rights reserved. 48