SlideShare a Scribd company logo
1 of 38
Download to read offline
Developers.IO  2016
C-‐‑‒1
クラスメソッド株式会社  能登  諭  
Ⓒ  Classmethod,  Inc.
2016年年02⽉月20⽇日
データ分析チームの振り返り
1
Ⓒ Classmethod, Inc.
⾃自⼰己紹介
• ⽒氏名:能登  諭(のと  さとし)  
• 所属:AWSコンサルティング部  
• 担当:データ分析チームのリーダー  
• 得意分野:Hadoop  
• 好きなAWSサービス:EMR  
• Twitter:@n3104
2
質問
3
Q1.  普通の開発案件を  
担当されている⽅方
4
Q2.  統計や機械学習を  
扱っている⽅方
5
本⽇日のお題
6
去年年の⾃自分たちに  
伝えたいこと
7
Ⓒ Classmethod, Inc.
データ分析チームの軌跡
• 2015年年4⽉月Amazon  Machine  Learning(Amazon  ML)のリリースに
伴い機械学習チームとして発⾜足  
• 良良品計画様とAmazon  MLのPoCを実施  
• http://dev.classmethod.jp/cloud/aws/amazon-‐‑‒machine-‐‑‒learning-‐‑‒poc-‐‑‒with-‐‑‒
ryohin-‐‑‒keikaku/  
• あきんどスシロー様とAmazon  MLを⽤用いた待ち時間予測の精度度向上を実施  
• http://dev.classmethod.jp/machine-‐‑‒learning/amazon-‐‑‒machine-‐‑‒learning-‐‑‒akindo-‐‑‒
sushiro/  
• 良良品計画様と製品の購⼊入ユーザ予測を実施  
• http://dev.classmethod.jp/cloud/aws/amazon-‐‑‒machine-‐‑‒learning-‐‑‒ryohin-‐‑‒user/  
• 2015年年11⽉月データ分析チームに改名  
• 現在に⾄至る
8
Ⓒ Classmethod, Inc.
実際の所は
• メンバーに統計や機械学習の経験者がいなかった  
• Amazon  MLがリリースされたので、AWSのサービ
スを使いこなす⼀一環で取り組み始めた  
• 当然、何から⼿手を付ければよいかも分からず、試⾏行行錯
誤が続いた  
• 1年年ほど取り組んで、多少分かるようになってきた気
はするが、まだまだ勉強中
9
去年年の⾃自分たちに  
伝えたいこと
10
本編スタート
11
Ⓒ Classmethod, Inc.
データ分析の⽬目的
• データを集めて、可視化したり、統計や機械学習を⽤用
いて、アウトプットを出す  
• アウトプットとは、データを何らかの施策につなげ
て、ビジネス上の効果を出す  
• 施策につなげることを意識識する  
• 効果の絶対額を確認する。例例えば売上向上であれば⺟母数とな
る⾦金金額が⼤大きくないと投資に⾒見見合った成果が得られない場合
がある
12
Ⓒ Classmethod, Inc.
意外にデータがない
• 統計や機械学習で欲しいデータは業務システムのDBに⼊入っ
ていない  
• アクセスログ(⾏行行動ログ)  
• システム外部の情報(天気、イベントの有無、他社の情報など)  
• 過去データがない  
• 新サービス、新商品、新店舗はそもそもデータがない  
• 季節性がある場合は少なくとも1年年以上過去のデータが必要  
• 件数が少ない  
• 飲⾷食店の来店者数は1店舗でみると1⽇日多くて数百件  
• 平⽇日と⼟土⽇日で傾向が異異なるので⼟土⽇日だけにするとデータが2/7に減る
13
Ⓒ Classmethod, Inc.
データがあっても前処理理が必要
• ⽋欠損値、異異常値は普通にある  
• 性別や誕⽣生⽇日を⼊入⼒力力しない、もしくは嘘の値を⼊入れるケースは多々ある  
• そもそもフォーマット通りのデータが⼊入っているとは限らない  
• 業者というカラムは存在しない  
• 購⼊入⾦金金額が異異常に⼤大きいユーザーがいたりする  
• 分析する⽬目的に合わせて集計が必要になる  
• ユーザー単位の特定の商品カテゴリーの購⼊入回数のデータのようなものはテー
ブルには⼊入っていない  
• SQLの可読性がひどいことに  
• 100⾏行行超えとか当たり前。。。  
• RDSだとレスポンスが帰ってこない  
• Redshiftを利利⽤用
14
Ⓒ Classmethod, Inc.
⽬目的変数と説明変数
• ⽬目的変数:分析したり予測したい対象  
• 売上、購⼊入の有無、待ち時間など  
• 説明変数:⽬目的変数を算出するために利利⽤用する情報  
• 売上:来客数、曜⽇日、天気、セールの有無、株価  
• 購⼊入の有無:商品の検索索履履歴、類似商品の購⼊入の有無  
• 待ち時間:待ち組数、曜⽇日、直近15分の発券数  
• ⽬目的変数に合わせて適切切な説明変数を⾒見見つける必要がある
15
Ⓒ Classmethod, Inc.
どうやって説明変数を⾒見見つけるのか
• 対象ドメインについて理理解する  
• お客様はドメイン知識識はあっても、統計や機械学習について
知識識がないと変数の候補を出せない  
• ⾃自分たちもドメインを理理解してお客様と⼀一緒に探す  
• 可視化してグラフを眺める  
• 仮説を⽴立立てて、お客様とレビューする  
• いろいろ組み合わせを試す  
• 同じ変数を⼆二乗、平⽅方根、対数に変換してみる
16
Ⓒ Classmethod, Inc.
モデリングとモデル
• モデリングとは普通の開発案件で対象領領域の事象をプ
ログラムに落落とし込むのと同じように、統計や機械学
習の問題に落落とし込むこと  
• 落落とし込む対象となる統計や機械学習の各種⼿手法のこ
とをモデルと⾔言う
17
Ⓒ Classmethod, Inc.
モデルの作成と利利⽤用
• 実際に分析したり予測するために⼊入⼒力力データを利利⽤用し
てモデルを作成(構築)する  
• 作成したモデルから予測関数を作ったり出来る。引数
に説明変数を与えると⽬目的変数が⼿手に⼊入る
18
Ⓒ Classmethod, Inc.
案件の流流れ
• 要件定義  
• モデルの評価基準と⽬目標値を定める  
• 検証フェーズ  
• ドメイン理理解  
• 可視化、ETL  
• モデルの作成と評価  
• ひたすら繰り返す  
• 適⽤用フェーズ  
• システム開発  
• ⾃自動化したりシステムに組み込む  
• リリース  
• 保守  
• 期待した精度度を維持しているか監視する。モデルが前提としている状況が変わったら精度度も
変わってしまう
19
Ⓒ Classmethod, Inc.
⼯工数⾒見見積もり
• 検証フェーズ  
• 最初はドメイン理理解(可視化やETL処理理)が⼤大きいが、モデ
ルの作成と評価を繰り返すうちに⽐比率率率が下がっていく  
• ⼀一度度可視化の仕組みやETL処理理(SQL)を⽤用意すれば、使
いまわせる  
• モデルの作成と評価はどの程度度になるか予測不不能  
• 期間とか予算枠で区切切るしかない  
• 適⽤用フェーズ  
• 普通のシステム開発として⾒見見積もれる
20
Ⓒ Classmethod, Inc.
お客様に伝えなければいけないこと
• データがあっても期待する結果が得られるとは限らない  
• データがない(あっても⾒見見つけられない)こともある  
• そもそも特徴がない可能性もある。例例えば偏りのないサイコロで
は次の⼿手の確率率率はどこまで⾏行行っても1/6  
• ⼀一度度良良い結果が出ても、継続するとは限らない  
• 既存のデータを利利⽤用するため、データの前提が変われば使いもの
にならない可能性がある  
• 100%予測できるものはできない  
• 間違えた場合にどうするか話し合う。システムの例例外処理理と異異な
り、その瞬間異異常があったと認識識できない
21
Ⓒ Classmethod, Inc.
まとめ
• 普通のシステム開発と似てる部分も多い  
• ビジネス上の成果を意識識する  
• 意外にデータはない  
• データがあっても前処理理が必要  
• 対象ドメインの理理解は必須  
• 成果が出ないこともある  
• リリース後は精度度を監視する  
• 間違えた場合の対処について検討する
22
付録
23
Ⓒ Classmethod, Inc.
統計と機械学習の違い
• 統計は説明を⽬目的としている  
• 機械学習は予測を⽬目的としている  
• やっている作業内容はとても似ている  
• 統計と機械学習の両⽅方を必要に応じて使えばいい  
• まとめとしては以下がおすすめ  
• http://tjo.hatenablog.com/entry/2015/09/17/190000
24
Ⓒ Classmethod, Inc.
Amazon  MLの概要
• http://dev.classmethod.jp/cloud/aws/
fit2015-‐‑‒amazon-‐‑‒machine-‐‑‒learning-‐‑‒overview/  
• http://dev.classmethod.jp/cloud/aws/cm-‐‑‒
advent-‐‑‒calendar-‐‑‒2015-‐‑‒getting-‐‑‒started-‐‑‒again-‐‑‒
amazon-‐‑‒ml/  
• http://dev.classmethod.jp/writing/amazon-‐‑‒
machine-‐‑‒learning-‐‑‒itpro2/
25
Ⓒ Classmethod, Inc.
カテゴリカルデータと数値データ
• カテゴリカルデータ(質的変数)  
• 性別(男性/⼥女女性)  
• ⾎血液型(A型/B型/AB型/O型)  
• 曜⽇日  
• 数値データ(量量的変数)  
• 年年齢  
• 売上  
• 購⼊入⾦金金額  
• モデルによって利利⽤用できるデータ型が異異なるので変換が必
要になる
26
Ⓒ Classmethod, Inc.
カテゴリカルデータから数値データへの変換
• カテゴリー毎に複数の変数に分割し、1つの変数だけ値
を1として残りは0にする  
• 性別(男性/⼥女女性)で男性の場合  
• 男性フラグ  -‐‑‒>  1  
• ⼥女女性フラグ  -‐‑‒>  0  
• ⾎血液型(A型/B型/AB型/O型)でAB型の場合  
• A型フラグ  -‐‑‒>  0  
• B型フラグ  -‐‑‒>  0  
• AB型フラグ  -‐‑‒>  1  
• O型フラグ  -‐‑‒>  0
27
Ⓒ Classmethod, Inc.
数値データからカテゴリカルデータへの変換
• 数値を複数の区間(ビン)に分割する。変数の数は1
つのまま変わらないが中⾝身がカテゴリカルデータにな
る  
• 年年齢(数値)  
• 年年齢(10代/20代/30代/40代/50代)  
• 購⼊入⾦金金額(数値)  
• 年年齢(5,000円未満/5,000円以上)
28
Ⓒ Classmethod, Inc.
数値データを複数の数値データに変換
• 数値データ→カテゴリカルデータ→数値データという
変換。数値の⼤大⼩小関係ではなくグループが重要な場合  
• 年年齢(数値データ)で33歳  
• 年年齢(10代/20代/30代/40代/50代)  
• 10代フラグ  -‐‑‒>  0  
• 20代フラグ  -‐‑‒>  0  
• 30代フラグ  -‐‑‒>  1  
• 40代フラグ  -‐‑‒>  0  
• 50代フラグ  -‐‑‒>  0
29
Ⓒ Classmethod, Inc.
どこから勉強すればいいか
• まずはRやPythonを使った⼊入⾨門書で実際にコードを⼊入⼒力力して操作イメージ
を掴む  
• 全部読まなくてもいいし、わからない所は読み⾶飛ばず  
• 次にデータ分析、統計、機械学習の⼊入⾨門書をそれぞれ読む  
• 微積分や線形代数が分かるなら、数式が登場する⼊入⾨門書からでもいいのでは  
• 分からない場合は、まずは数式が出ない⼊入⾨門書を読みつつ、平⾏行行して数学の勉強も⾏行行う  
• その上で、必要な⼿手法を深掘りする。全てを万遍なく勉強するのは現実的で
はない  
• システム開発と同じ  
• 気⻑⾧長に取り組む  
• システム開発の知識識の延⻑⾧長線上ではないし、そもそも難しい  
• あと、昔読んだ本を読みなおしてみると成⻑⾧長を実感できるw
30
Ⓒ Classmethod, Inc.
参考書籍:R
• Rではじめるビジネス統計分析  
• http://www.shoeisha.co.jp/book/detail/
9784798134901  
• 内容も分かりやすいし、RのコードをRStudioで⼊入⼒力力している
うちにRのコードも多少読めるようになった  
• 可視化のやり⽅方や統計の各種⼿手法が紹介されており、実際に
どんなことが出来るのか把握できる
31
Ⓒ Classmethod, Inc.
参考書籍:Python
• ご紹介したかったのですが、まだ⼊入⾨門書を読んでいな
いので紹介できる書籍がありませんm(_̲  _̲)m
32
Ⓒ Classmethod, Inc.
参考書籍:データ分析
• データ解析の実務プロセス⼊入⾨門  
• https://www.morikita.co.jp/books/book/2851  
• 全体像がつかめるし、初⼼心者向けの注意点もいろいろ書かれ
ていて、まず最初に読むといいのでは  
• ⾊色々な⼿手法が紹介されており、詳しく学ぶための書籍も紹介
されているので、この本を起点に⾊色々読んでいくのもいいの
では
33
Ⓒ Classmethod, Inc.
参考書籍:統計学
• 完全独習  統計学⼊入⾨門  
• http://www.diamond.co.jp/book/9784478820094.html  
• 中学レベルの数学で分布と検定の概要をつかめる  
• 1冊使ってひたすら標準偏差について説明している  
• よくわかる⼼心理理統計  
• http://www.minervashobo.co.jp/book/b48724.html  
• とても読みやすい。数式もほぼ出てこない  
• 多変量量解析がわかる  
• http://gihyo.jp/book/2011/978-‐‑‒4-‐‑‒7741-‐‑‒4639-‐‑‒3  
• 数式を読み⾶飛ばしても、説明の仕⽅方が分かりやすく、イメージがわく
34
Ⓒ Classmethod, Inc.
参考書籍:機械学習
• Sparkによる実践データ解析  
• https://www.oreilly.co.jp/books/9784873117508/  
• 様々な適⽤用領領域についての事例例集となっており、前処理理から精度度向
上まで書かれていて⾮非常に実践的  
• SparkのMLlibを利利⽤用する際は必読だと思われる  
• Mahoutイン・アクション  
• http://www.oreilly.co.jp/books/9784873115849/  
• 実践から学ぶスタイルで、Sparkによる実践データ解析よりも紹介
する⼿手法が少ない分、それぞれの⼿手法の理理論論⾯面は詳しく書いてある  
• ただ、いまMahoutを使うかというと。。
35
Ⓒ Classmethod, Inc.
参考書籍:数学
• 統計学のための数学⼊入⾨門30講  
• http://www.asakura.co.jp/books/isbn/
978-‐‑‒4-‐‑‒254-‐‑‒11633-‐‑‒5/  
• 統計学に必要な微積分と線形代数がコンパクトにまとまってい
る印象  
• 簡単ではないが、後の章で出てくる内容は基本的に前の章に書
かれていて、⼀一冊で全体がつながるように書かれている  
• なぜ統計や機械学習で微積分や線形代数が必要なのか分かるよ
うになる。ただし最後まで読まないと分かるようにならない
36
Developers.IO  2016
C-‐‑‒1
Ⓒ  Classmethod,  Inc.
#cmdevio2016
ご静聴ありがとうございました。  
スライドは後⽇日ブログで公開します。
38

More Related Content

What's hot

Oracle advanced analyticsによる機械学習full version
Oracle advanced analyticsによる機械学習full versionOracle advanced analyticsによる機械学習full version
Oracle advanced analyticsによる機械学習full version幹雄 小川
 
S3をDB利用 ショッピングセンター向けポイントシステム概要
S3をDB利用 ショッピングセンター向けポイントシステム概要S3をDB利用 ショッピングセンター向けポイントシステム概要
S3をDB利用 ショッピングセンター向けポイントシステム概要一成 田部井
 
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updatesre:Growth2019 Analytics Updates
re:Growth2019 Analytics UpdatesSatoru Ishikawa
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningTakuya UESHIN
 
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析Amazon Web Services Japan
 
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化Takahiro Moteki
 
クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンクラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンAmazon Web Services Japan
 
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイントApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイントTanaka Yuichi
 
世界一簡単なHadoopの話
世界一簡単なHadoopの話世界一簡単なHadoopの話
世界一簡単なHadoopの話Koichi Shimazaki
 
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみるTakahiro Moteki
 
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみるEiji Shinohara
 
Hadoopことはじめ
HadoopことはじめHadoopことはじめ
HadoopことはじめKatsunori Kanda
 
Amazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティスAmazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティスAmazon Web Services Japan
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方Cloudera Japan
 

What's hot (20)

Oracle advanced analyticsによる機械学習full version
Oracle advanced analyticsによる機械学習full versionOracle advanced analyticsによる機械学習full version
Oracle advanced analyticsによる機械学習full version
 
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
 
Serverless analytics on aws
Serverless analytics on awsServerless analytics on aws
Serverless analytics on aws
 
S3をDB利用 ショッピングセンター向けポイントシステム概要
S3をDB利用 ショッピングセンター向けポイントシステム概要S3をDB利用 ショッピングセンター向けポイントシステム概要
S3をDB利用 ショッピングセンター向けポイントシステム概要
 
「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4
 
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updatesre:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance Tuning
 
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
 
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
 
クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンクラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターン
 
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイントApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
 
世界一簡単なHadoopの話
世界一簡単なHadoopの話世界一簡単なHadoopの話
世界一簡単なHadoopの話
 
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
 
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
 
Hadoopことはじめ
HadoopことはじめHadoopことはじめ
Hadoopことはじめ
 
Jjug ccc
Jjug cccJjug ccc
Jjug ccc
 
大規模クラスタでのHadoop課題
大規模クラスタでのHadoop課題大規模クラスタでのHadoop課題
大規模クラスタでのHadoop課題
 
Yahoo! JAPAN の Ambari 活用事例 #ambarimeetup
Yahoo! JAPAN の Ambari 活用事例 #ambarimeetupYahoo! JAPAN の Ambari 活用事例 #ambarimeetup
Yahoo! JAPAN の Ambari 活用事例 #ambarimeetup
 
Amazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティスAmazon S3を中心とするデータ分析のベストプラクティス
Amazon S3を中心とするデータ分析のベストプラクティス
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
 

Viewers also liked

[SP04] これからのエンジニアに必要な「マネジメント」の考え方
[SP04] これからのエンジニアに必要な「マネジメント」の考え方[SP04] これからのエンジニアに必要な「マネジメント」の考え方
[SP04] これからのエンジニアに必要な「マネジメント」の考え方de:code 2017
 
僕らのふりかえり戦略 -チームのコンパスをつくる- #agilesamurai
僕らのふりかえり戦略 -チームのコンパスをつくる- #agilesamurai僕らのふりかえり戦略 -チームのコンパスをつくる- #agilesamurai
僕らのふりかえり戦略 -チームのコンパスをつくる- #agilesamuraiTakao Oyobe
 
アジャイル開発振り返り
アジャイル開発振り返りアジャイル開発振り返り
アジャイル開発振り返りAkira Suenami
 
はじめてのふりかえり
はじめてのふりかえりはじめてのふりかえり
はじめてのふりかえりTakao Oyobe
 
[MR09] デスクトップ アプリをストアから配布するための A to Z
[MR09] デスクトップ アプリをストアから配布するための A to Z[MR09] デスクトップ アプリをストアから配布するための A to Z
[MR09] デスクトップ アプリをストアから配布するための A to Zde:code 2017
 
[MR15] ハードコア デバッギング ~ Windows のアプリケーション運用トラブルシューティング実践
[MR15] ハードコア デバッギング ~ Windows のアプリケーション運用トラブルシューティング実践[MR15] ハードコア デバッギング ~ Windows のアプリケーション運用トラブルシューティング実践
[MR15] ハードコア デバッギング ~ Windows のアプリケーション運用トラブルシューティング実践de:code 2017
 
新卒エンジニアが1年目を振り返る
新卒エンジニアが1年目を振り返る新卒エンジニアが1年目を振り返る
新卒エンジニアが1年目を振り返るKiyotaka Kunihira
 
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~de:code 2017
 
[AC07] 米国マイクロソフト本社で体験したノウハウを伝授!マイクロサービス実行基盤Azure Service Fabricの勘所
[AC07] 米国マイクロソフト本社で体験したノウハウを伝授!マイクロサービス実行基盤Azure Service Fabricの勘所[AC07] 米国マイクロソフト本社で体験したノウハウを伝授!マイクロサービス実行基盤Azure Service Fabricの勘所
[AC07] 米国マイクロソフト本社で体験したノウハウを伝授!マイクロサービス実行基盤Azure Service Fabricの勘所de:code 2017
 
ふりかえりで学んだこと ベスト10
ふりかえりで学んだこと ベスト10ふりかえりで学んだこと ベスト10
ふりかえりで学んだこと ベスト10ESM SEC
 
1年の振り返りと、これからと。
1年の振り返りと、これからと。1年の振り返りと、これからと。
1年の振り返りと、これからと。Takaya Shinozuka
 
KPTのコツを掴め!! 公開用
KPTのコツを掴め!! 公開用KPTのコツを掴め!! 公開用
KPTのコツを掴め!! 公開用ESM SEC
 
Locoship 株式会社Loco Partnersで働く人のバリュー
Locoship 株式会社Loco Partnersで働く人のバリューLocoship 株式会社Loco Partnersで働く人のバリュー
Locoship 株式会社Loco Partnersで働く人のバリューTakaya Shinozuka
 
[MW01] ご注文は Linux + Docker ですか? Windows だけじゃない App Service を使い切る
[MW01] ご注文は Linux + Docker ですか? Windows だけじゃない App Service を使い切る[MW01] ご注文は Linux + Docker ですか? Windows だけじゃない App Service を使い切る
[MW01] ご注文は Linux + Docker ですか? Windows だけじゃない App Service を使い切るde:code 2017
 
XPな俺達に贈るPyCon JP 2016レポート #xpjug
XPな俺達に贈るPyCon JP 2016レポート #xpjugXPな俺達に贈るPyCon JP 2016レポート #xpjug
XPな俺達に贈るPyCon JP 2016レポート #xpjugShinichi Nakagawa
 
160924 リクルータでkptした話
160924 リクルータでkptした話160924 リクルータでkptした話
160924 リクルータでkptした話Tadashi Matsui
 
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用de:code 2017
 
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2Shoe-g Ueyama
 

Viewers also liked (18)

[SP04] これからのエンジニアに必要な「マネジメント」の考え方
[SP04] これからのエンジニアに必要な「マネジメント」の考え方[SP04] これからのエンジニアに必要な「マネジメント」の考え方
[SP04] これからのエンジニアに必要な「マネジメント」の考え方
 
僕らのふりかえり戦略 -チームのコンパスをつくる- #agilesamurai
僕らのふりかえり戦略 -チームのコンパスをつくる- #agilesamurai僕らのふりかえり戦略 -チームのコンパスをつくる- #agilesamurai
僕らのふりかえり戦略 -チームのコンパスをつくる- #agilesamurai
 
アジャイル開発振り返り
アジャイル開発振り返りアジャイル開発振り返り
アジャイル開発振り返り
 
はじめてのふりかえり
はじめてのふりかえりはじめてのふりかえり
はじめてのふりかえり
 
[MR09] デスクトップ アプリをストアから配布するための A to Z
[MR09] デスクトップ アプリをストアから配布するための A to Z[MR09] デスクトップ アプリをストアから配布するための A to Z
[MR09] デスクトップ アプリをストアから配布するための A to Z
 
[MR15] ハードコア デバッギング ~ Windows のアプリケーション運用トラブルシューティング実践
[MR15] ハードコア デバッギング ~ Windows のアプリケーション運用トラブルシューティング実践[MR15] ハードコア デバッギング ~ Windows のアプリケーション運用トラブルシューティング実践
[MR15] ハードコア デバッギング ~ Windows のアプリケーション運用トラブルシューティング実践
 
新卒エンジニアが1年目を振り返る
新卒エンジニアが1年目を振り返る新卒エンジニアが1年目を振り返る
新卒エンジニアが1年目を振り返る
 
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~
 
[AC07] 米国マイクロソフト本社で体験したノウハウを伝授!マイクロサービス実行基盤Azure Service Fabricの勘所
[AC07] 米国マイクロソフト本社で体験したノウハウを伝授!マイクロサービス実行基盤Azure Service Fabricの勘所[AC07] 米国マイクロソフト本社で体験したノウハウを伝授!マイクロサービス実行基盤Azure Service Fabricの勘所
[AC07] 米国マイクロソフト本社で体験したノウハウを伝授!マイクロサービス実行基盤Azure Service Fabricの勘所
 
ふりかえりで学んだこと ベスト10
ふりかえりで学んだこと ベスト10ふりかえりで学んだこと ベスト10
ふりかえりで学んだこと ベスト10
 
1年の振り返りと、これからと。
1年の振り返りと、これからと。1年の振り返りと、これからと。
1年の振り返りと、これからと。
 
KPTのコツを掴め!! 公開用
KPTのコツを掴め!! 公開用KPTのコツを掴め!! 公開用
KPTのコツを掴め!! 公開用
 
Locoship 株式会社Loco Partnersで働く人のバリュー
Locoship 株式会社Loco Partnersで働く人のバリューLocoship 株式会社Loco Partnersで働く人のバリュー
Locoship 株式会社Loco Partnersで働く人のバリュー
 
[MW01] ご注文は Linux + Docker ですか? Windows だけじゃない App Service を使い切る
[MW01] ご注文は Linux + Docker ですか? Windows だけじゃない App Service を使い切る[MW01] ご注文は Linux + Docker ですか? Windows だけじゃない App Service を使い切る
[MW01] ご注文は Linux + Docker ですか? Windows だけじゃない App Service を使い切る
 
XPな俺達に贈るPyCon JP 2016レポート #xpjug
XPな俺達に贈るPyCon JP 2016レポート #xpjugXPな俺達に贈るPyCon JP 2016レポート #xpjug
XPな俺達に贈るPyCon JP 2016レポート #xpjug
 
160924 リクルータでkptした話
160924 リクルータでkptした話160924 リクルータでkptした話
160924 リクルータでkptした話
 
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
 
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2
 

Similar to データ分析チームの振り返り

MLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdfMLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdfYuya Yamamoto
 
Datawatch Monarch for Ibm Analyticsのご紹介
Datawatch Monarch for Ibm Analyticsのご紹介Datawatch Monarch for Ibm Analyticsのご紹介
Datawatch Monarch for Ibm Analyticsのご紹介IBM Analytics Japan
 
[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送
[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介!  2018年11月15日 放送[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介!  2018年11月15日 放送
[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送Google Cloud Platform - Japan
 
情報システムの性能マネジメントについて
情報システムの性能マネジメントについて情報システムの性能マネジメントについて
情報システムの性能マネジメントについてTakashi Natsume
 
【Medix】解析サービスのご案内資料
【Medix】解析サービスのご案内資料【Medix】解析サービスのご案内資料
【Medix】解析サービスのご案内資料Shinichiro Oho
 
20180730 ds womens
20180730 ds womens20180730 ds womens
20180730 ds womensRio Kurihara
 
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略Takanori Kawahara
 
機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップDaiyu Hatakeyama
 
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門Satoru Ishikawa
 
LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話 LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話 GIG inc.
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)Yasuyuki Kataoka
 
Chainerで学ぶdeep learning
Chainerで学ぶdeep learningChainerで学ぶdeep learning
Chainerで学ぶdeep learningRetrieva inc.
 
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しましたShohei Hido
 
クラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングクラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングShin Matsumoto
 
SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews, Inc.
 
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16Ryusuke Ashiya
 
DOO-004_楽天での DevOps 実践事例と Azure ベスト プラクティス
DOO-004_楽天での DevOps 実践事例と Azure ベスト プラクティスDOO-004_楽天での DevOps 実践事例と Azure ベスト プラクティス
DOO-004_楽天での DevOps 実践事例と Azure ベスト プラクティスdecode2016
 
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...Amazon Web Services Japan
 
20180915 mynavi rpa_seminar
20180915 mynavi rpa_seminar20180915 mynavi rpa_seminar
20180915 mynavi rpa_seminarkounan13
 

Similar to データ分析チームの振り返り (20)

MLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdfMLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdf
 
Datawatch Monarch for Ibm Analyticsのご紹介
Datawatch Monarch for Ibm Analyticsのご紹介Datawatch Monarch for Ibm Analyticsのご紹介
Datawatch Monarch for Ibm Analyticsのご紹介
 
[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送
[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介!  2018年11月15日 放送[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介!  2018年11月15日 放送
[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送
 
情報システムの性能マネジメントについて
情報システムの性能マネジメントについて情報システムの性能マネジメントについて
情報システムの性能マネジメントについて
 
【Medix】解析サービスのご案内資料
【Medix】解析サービスのご案内資料【Medix】解析サービスのご案内資料
【Medix】解析サービスのご案内資料
 
20180730 ds womens
20180730 ds womens20180730 ds womens
20180730 ds womens
 
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
Developers Summit 2022 プロダクト開発速度とデータの組織的価値をセットで飛躍的に高める開発戦略
 
機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ機械学習 - MNIST の次のステップ
機械学習 - MNIST の次のステップ
 
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
 
LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話 LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
Chainerで学ぶdeep learning
Chainerで学ぶdeep learningChainerで学ぶdeep learning
Chainerで学ぶdeep learning
 
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました
 
クラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングクラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニング
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015SmartNews Ads System - AWS Summit Tokyo 2015
SmartNews Ads System - AWS Summit Tokyo 2015
 
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
Tableau Blueprintの概要 for JTUG/RETAIL 2019/10/16
 
DOO-004_楽天での DevOps 実践事例と Azure ベスト プラクティス
DOO-004_楽天での DevOps 実践事例と Azure ベスト プラクティスDOO-004_楽天での DevOps 実践事例と Azure ベスト プラクティス
DOO-004_楽天での DevOps 実践事例と Azure ベスト プラクティス
 
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
 
20180915 mynavi rpa_seminar
20180915 mynavi rpa_seminar20180915 mynavi rpa_seminar
20180915 mynavi rpa_seminar
 

More from Satoshi Noto

このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)Satoshi Noto
 
Tez on EMRを試してみた
Tez on EMRを試してみたTez on EMRを試してみた
Tez on EMRを試してみたSatoshi Noto
 
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側Satoshi Noto
 
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみたFullbokをがっつり使ってみた
Fullbokをがっつり使ってみたSatoshi Noto
 
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Satoshi Noto
 
Hiveハンズオン
HiveハンズオンHiveハンズオン
HiveハンズオンSatoshi Noto
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門Satoshi Noto
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明Satoshi Noto
 
ただいまHadoop勉強中
ただいまHadoop勉強中ただいまHadoop勉強中
ただいまHadoop勉強中Satoshi Noto
 

More from Satoshi Noto (10)

このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)このサービスは俺に聞け勉強会(機械学習)
このサービスは俺に聞け勉強会(機械学習)
 
Tez on EMRを試してみた
Tez on EMRを試してみたTez on EMRを試してみた
Tez on EMRを試してみた
 
大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側大晦日のメッセージ配信の裏側
大晦日のメッセージ配信の裏側
 
Fullbokをがっつり使ってみた
Fullbokをがっつり使ってみたFullbokをがっつり使ってみた
Fullbokをがっつり使ってみた
 
Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?Run Spark on EMRってどんな仕組みになってるの?
Run Spark on EMRってどんな仕組みになってるの?
 
Hiveハンズオン
HiveハンズオンHiveハンズオン
Hiveハンズオン
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 
MapReduce入門
MapReduce入門MapReduce入門
MapReduce入門
 
ただいまHadoop勉強中
ただいまHadoop勉強中ただいまHadoop勉強中
ただいまHadoop勉強中
 

データ分析チームの振り返り

  • 1. Developers.IO  2016 C-‐‑‒1 クラスメソッド株式会社  能登  諭   Ⓒ  Classmethod,  Inc. 2016年年02⽉月20⽇日 データ分析チームの振り返り 1
  • 2. Ⓒ Classmethod, Inc. ⾃自⼰己紹介 • ⽒氏名:能登  諭(のと  さとし)   • 所属:AWSコンサルティング部   • 担当:データ分析チームのリーダー   • 得意分野:Hadoop   • 好きなAWSサービス:EMR   • Twitter:@n3104 2
  • 8. Ⓒ Classmethod, Inc. データ分析チームの軌跡 • 2015年年4⽉月Amazon  Machine  Learning(Amazon  ML)のリリースに 伴い機械学習チームとして発⾜足   • 良良品計画様とAmazon  MLのPoCを実施   • http://dev.classmethod.jp/cloud/aws/amazon-‐‑‒machine-‐‑‒learning-‐‑‒poc-‐‑‒with-‐‑‒ ryohin-‐‑‒keikaku/   • あきんどスシロー様とAmazon  MLを⽤用いた待ち時間予測の精度度向上を実施   • http://dev.classmethod.jp/machine-‐‑‒learning/amazon-‐‑‒machine-‐‑‒learning-‐‑‒akindo-‐‑‒ sushiro/   • 良良品計画様と製品の購⼊入ユーザ予測を実施   • http://dev.classmethod.jp/cloud/aws/amazon-‐‑‒machine-‐‑‒learning-‐‑‒ryohin-‐‑‒user/   • 2015年年11⽉月データ分析チームに改名   • 現在に⾄至る 8
  • 9. Ⓒ Classmethod, Inc. 実際の所は • メンバーに統計や機械学習の経験者がいなかった   • Amazon  MLがリリースされたので、AWSのサービ スを使いこなす⼀一環で取り組み始めた   • 当然、何から⼿手を付ければよいかも分からず、試⾏行行錯 誤が続いた   • 1年年ほど取り組んで、多少分かるようになってきた気 はするが、まだまだ勉強中 9
  • 12. Ⓒ Classmethod, Inc. データ分析の⽬目的 • データを集めて、可視化したり、統計や機械学習を⽤用 いて、アウトプットを出す   • アウトプットとは、データを何らかの施策につなげ て、ビジネス上の効果を出す   • 施策につなげることを意識識する   • 効果の絶対額を確認する。例例えば売上向上であれば⺟母数とな る⾦金金額が⼤大きくないと投資に⾒見見合った成果が得られない場合 がある 12
  • 13. Ⓒ Classmethod, Inc. 意外にデータがない • 統計や機械学習で欲しいデータは業務システムのDBに⼊入っ ていない   • アクセスログ(⾏行行動ログ)   • システム外部の情報(天気、イベントの有無、他社の情報など)   • 過去データがない   • 新サービス、新商品、新店舗はそもそもデータがない   • 季節性がある場合は少なくとも1年年以上過去のデータが必要   • 件数が少ない   • 飲⾷食店の来店者数は1店舗でみると1⽇日多くて数百件   • 平⽇日と⼟土⽇日で傾向が異異なるので⼟土⽇日だけにするとデータが2/7に減る 13
  • 14. Ⓒ Classmethod, Inc. データがあっても前処理理が必要 • ⽋欠損値、異異常値は普通にある   • 性別や誕⽣生⽇日を⼊入⼒力力しない、もしくは嘘の値を⼊入れるケースは多々ある   • そもそもフォーマット通りのデータが⼊入っているとは限らない   • 業者というカラムは存在しない   • 購⼊入⾦金金額が異異常に⼤大きいユーザーがいたりする   • 分析する⽬目的に合わせて集計が必要になる   • ユーザー単位の特定の商品カテゴリーの購⼊入回数のデータのようなものはテー ブルには⼊入っていない   • SQLの可読性がひどいことに   • 100⾏行行超えとか当たり前。。。   • RDSだとレスポンスが帰ってこない   • Redshiftを利利⽤用 14
  • 15. Ⓒ Classmethod, Inc. ⽬目的変数と説明変数 • ⽬目的変数:分析したり予測したい対象   • 売上、購⼊入の有無、待ち時間など   • 説明変数:⽬目的変数を算出するために利利⽤用する情報   • 売上:来客数、曜⽇日、天気、セールの有無、株価   • 購⼊入の有無:商品の検索索履履歴、類似商品の購⼊入の有無   • 待ち時間:待ち組数、曜⽇日、直近15分の発券数   • ⽬目的変数に合わせて適切切な説明変数を⾒見見つける必要がある 15
  • 16. Ⓒ Classmethod, Inc. どうやって説明変数を⾒見見つけるのか • 対象ドメインについて理理解する   • お客様はドメイン知識識はあっても、統計や機械学習について 知識識がないと変数の候補を出せない   • ⾃自分たちもドメインを理理解してお客様と⼀一緒に探す   • 可視化してグラフを眺める   • 仮説を⽴立立てて、お客様とレビューする   • いろいろ組み合わせを試す   • 同じ変数を⼆二乗、平⽅方根、対数に変換してみる 16
  • 17. Ⓒ Classmethod, Inc. モデリングとモデル • モデリングとは普通の開発案件で対象領領域の事象をプ ログラムに落落とし込むのと同じように、統計や機械学 習の問題に落落とし込むこと   • 落落とし込む対象となる統計や機械学習の各種⼿手法のこ とをモデルと⾔言う 17
  • 18. Ⓒ Classmethod, Inc. モデルの作成と利利⽤用 • 実際に分析したり予測するために⼊入⼒力力データを利利⽤用し てモデルを作成(構築)する   • 作成したモデルから予測関数を作ったり出来る。引数 に説明変数を与えると⽬目的変数が⼿手に⼊入る 18
  • 19. Ⓒ Classmethod, Inc. 案件の流流れ • 要件定義   • モデルの評価基準と⽬目標値を定める   • 検証フェーズ   • ドメイン理理解   • 可視化、ETL   • モデルの作成と評価   • ひたすら繰り返す   • 適⽤用フェーズ   • システム開発   • ⾃自動化したりシステムに組み込む   • リリース   • 保守   • 期待した精度度を維持しているか監視する。モデルが前提としている状況が変わったら精度度も 変わってしまう 19
  • 20. Ⓒ Classmethod, Inc. ⼯工数⾒見見積もり • 検証フェーズ   • 最初はドメイン理理解(可視化やETL処理理)が⼤大きいが、モデ ルの作成と評価を繰り返すうちに⽐比率率率が下がっていく   • ⼀一度度可視化の仕組みやETL処理理(SQL)を⽤用意すれば、使 いまわせる   • モデルの作成と評価はどの程度度になるか予測不不能   • 期間とか予算枠で区切切るしかない   • 適⽤用フェーズ   • 普通のシステム開発として⾒見見積もれる 20
  • 21. Ⓒ Classmethod, Inc. お客様に伝えなければいけないこと • データがあっても期待する結果が得られるとは限らない   • データがない(あっても⾒見見つけられない)こともある   • そもそも特徴がない可能性もある。例例えば偏りのないサイコロで は次の⼿手の確率率率はどこまで⾏行行っても1/6   • ⼀一度度良良い結果が出ても、継続するとは限らない   • 既存のデータを利利⽤用するため、データの前提が変われば使いもの にならない可能性がある   • 100%予測できるものはできない   • 間違えた場合にどうするか話し合う。システムの例例外処理理と異異な り、その瞬間異異常があったと認識識できない 21
  • 22. Ⓒ Classmethod, Inc. まとめ • 普通のシステム開発と似てる部分も多い   • ビジネス上の成果を意識識する   • 意外にデータはない   • データがあっても前処理理が必要   • 対象ドメインの理理解は必須   • 成果が出ないこともある   • リリース後は精度度を監視する   • 間違えた場合の対処について検討する 22
  • 24. Ⓒ Classmethod, Inc. 統計と機械学習の違い • 統計は説明を⽬目的としている   • 機械学習は予測を⽬目的としている   • やっている作業内容はとても似ている   • 統計と機械学習の両⽅方を必要に応じて使えばいい   • まとめとしては以下がおすすめ   • http://tjo.hatenablog.com/entry/2015/09/17/190000 24
  • 25. Ⓒ Classmethod, Inc. Amazon  MLの概要 • http://dev.classmethod.jp/cloud/aws/ fit2015-‐‑‒amazon-‐‑‒machine-‐‑‒learning-‐‑‒overview/   • http://dev.classmethod.jp/cloud/aws/cm-‐‑‒ advent-‐‑‒calendar-‐‑‒2015-‐‑‒getting-‐‑‒started-‐‑‒again-‐‑‒ amazon-‐‑‒ml/   • http://dev.classmethod.jp/writing/amazon-‐‑‒ machine-‐‑‒learning-‐‑‒itpro2/ 25
  • 26. Ⓒ Classmethod, Inc. カテゴリカルデータと数値データ • カテゴリカルデータ(質的変数)   • 性別(男性/⼥女女性)   • ⾎血液型(A型/B型/AB型/O型)   • 曜⽇日   • 数値データ(量量的変数)   • 年年齢   • 売上   • 購⼊入⾦金金額   • モデルによって利利⽤用できるデータ型が異異なるので変換が必 要になる 26
  • 27. Ⓒ Classmethod, Inc. カテゴリカルデータから数値データへの変換 • カテゴリー毎に複数の変数に分割し、1つの変数だけ値 を1として残りは0にする   • 性別(男性/⼥女女性)で男性の場合   • 男性フラグ  -‐‑‒>  1   • ⼥女女性フラグ  -‐‑‒>  0   • ⾎血液型(A型/B型/AB型/O型)でAB型の場合   • A型フラグ  -‐‑‒>  0   • B型フラグ  -‐‑‒>  0   • AB型フラグ  -‐‑‒>  1   • O型フラグ  -‐‑‒>  0 27
  • 28. Ⓒ Classmethod, Inc. 数値データからカテゴリカルデータへの変換 • 数値を複数の区間(ビン)に分割する。変数の数は1 つのまま変わらないが中⾝身がカテゴリカルデータにな る   • 年年齢(数値)   • 年年齢(10代/20代/30代/40代/50代)   • 購⼊入⾦金金額(数値)   • 年年齢(5,000円未満/5,000円以上) 28
  • 29. Ⓒ Classmethod, Inc. 数値データを複数の数値データに変換 • 数値データ→カテゴリカルデータ→数値データという 変換。数値の⼤大⼩小関係ではなくグループが重要な場合   • 年年齢(数値データ)で33歳   • 年年齢(10代/20代/30代/40代/50代)   • 10代フラグ  -‐‑‒>  0   • 20代フラグ  -‐‑‒>  0   • 30代フラグ  -‐‑‒>  1   • 40代フラグ  -‐‑‒>  0   • 50代フラグ  -‐‑‒>  0 29
  • 30. Ⓒ Classmethod, Inc. どこから勉強すればいいか • まずはRやPythonを使った⼊入⾨門書で実際にコードを⼊入⼒力力して操作イメージ を掴む   • 全部読まなくてもいいし、わからない所は読み⾶飛ばず   • 次にデータ分析、統計、機械学習の⼊入⾨門書をそれぞれ読む   • 微積分や線形代数が分かるなら、数式が登場する⼊入⾨門書からでもいいのでは   • 分からない場合は、まずは数式が出ない⼊入⾨門書を読みつつ、平⾏行行して数学の勉強も⾏行行う   • その上で、必要な⼿手法を深掘りする。全てを万遍なく勉強するのは現実的で はない   • システム開発と同じ   • 気⻑⾧長に取り組む   • システム開発の知識識の延⻑⾧長線上ではないし、そもそも難しい   • あと、昔読んだ本を読みなおしてみると成⻑⾧長を実感できるw 30
  • 31. Ⓒ Classmethod, Inc. 参考書籍:R • Rではじめるビジネス統計分析   • http://www.shoeisha.co.jp/book/detail/ 9784798134901   • 内容も分かりやすいし、RのコードをRStudioで⼊入⼒力力している うちにRのコードも多少読めるようになった   • 可視化のやり⽅方や統計の各種⼿手法が紹介されており、実際に どんなことが出来るのか把握できる 31
  • 32. Ⓒ Classmethod, Inc. 参考書籍:Python • ご紹介したかったのですが、まだ⼊入⾨門書を読んでいな いので紹介できる書籍がありませんm(_̲  _̲)m 32
  • 33. Ⓒ Classmethod, Inc. 参考書籍:データ分析 • データ解析の実務プロセス⼊入⾨門   • https://www.morikita.co.jp/books/book/2851   • 全体像がつかめるし、初⼼心者向けの注意点もいろいろ書かれ ていて、まず最初に読むといいのでは   • ⾊色々な⼿手法が紹介されており、詳しく学ぶための書籍も紹介 されているので、この本を起点に⾊色々読んでいくのもいいの では 33
  • 34. Ⓒ Classmethod, Inc. 参考書籍:統計学 • 完全独習  統計学⼊入⾨門   • http://www.diamond.co.jp/book/9784478820094.html   • 中学レベルの数学で分布と検定の概要をつかめる   • 1冊使ってひたすら標準偏差について説明している   • よくわかる⼼心理理統計   • http://www.minervashobo.co.jp/book/b48724.html   • とても読みやすい。数式もほぼ出てこない   • 多変量量解析がわかる   • http://gihyo.jp/book/2011/978-‐‑‒4-‐‑‒7741-‐‑‒4639-‐‑‒3   • 数式を読み⾶飛ばしても、説明の仕⽅方が分かりやすく、イメージがわく 34
  • 35. Ⓒ Classmethod, Inc. 参考書籍:機械学習 • Sparkによる実践データ解析   • https://www.oreilly.co.jp/books/9784873117508/   • 様々な適⽤用領領域についての事例例集となっており、前処理理から精度度向 上まで書かれていて⾮非常に実践的   • SparkのMLlibを利利⽤用する際は必読だと思われる   • Mahoutイン・アクション   • http://www.oreilly.co.jp/books/9784873115849/   • 実践から学ぶスタイルで、Sparkによる実践データ解析よりも紹介 する⼿手法が少ない分、それぞれの⼿手法の理理論論⾯面は詳しく書いてある   • ただ、いまMahoutを使うかというと。。 35
  • 36. Ⓒ Classmethod, Inc. 参考書籍:数学 • 統計学のための数学⼊入⾨門30講   • http://www.asakura.co.jp/books/isbn/ 978-‐‑‒4-‐‑‒254-‐‑‒11633-‐‑‒5/   • 統計学に必要な微積分と線形代数がコンパクトにまとまってい る印象   • 簡単ではないが、後の章で出てくる内容は基本的に前の章に書 かれていて、⼀一冊で全体がつながるように書かれている   • なぜ統計や機械学習で微積分や線形代数が必要なのか分かるよ うになる。ただし最後まで読まないと分かるようにならない 36
  • 37.
  • 38. Developers.IO  2016 C-‐‑‒1 Ⓒ  Classmethod,  Inc. #cmdevio2016 ご静聴ありがとうございました。   スライドは後⽇日ブログで公開します。 38