SlideShare a Scribd company logo
1 of 40
Download to read offline
Uplift Modelling入門(1)
           - 費用対効果の最大化を目的とした最新データマイニング手法 -




                     @yokkuns: 里 洋平
                   yohei0511@gmail.com
                 2012.03.10 第21回Tokyo.R


2012年3月10日土曜日
AGENDA



      ◆ 自己紹介

      ◆ Uplift Modellingとは




2012年3月10日土曜日
AGENDA



      ◆ 自己紹介

      ◆ Uplift Modellingとは




2012年3月10日土曜日
自己紹介

             時系列解析や異常検知などの方法論を
          実ビジネスに適用するデータマイニングエンジニア



     ◆ 名前: 里 洋平
     ◆ ID : yokkuns
     ◆ 職業:
     データマイニングエンジニア
     ◆     統計解析 パターン認識 機械学
     習 データマイニング NLP 金融工学
     などを勉強中

2012年3月10日土曜日
活動例: 勉強会の主催・執筆


                   Tokyo.R主催




                パッケージ本執筆しました!




2012年3月10日土曜日
活動例: 動画レコメンド
                閲覧されている動画の情報を用いて
                  おすすめ動画を表示する




2012年3月10日土曜日
活動例: 市場予測

                Web上の情報から市場予測




2012年3月10日土曜日
活動例: 異常検知
                              Anomaly detection

                    複数時系列から異常な振る舞いを検知する

                                                                            C
                                                                            A
        時系列のモデリング               複数時系列の異常検知                                  B

      時系列A                             時系列A

                                                                        異常な振る舞い
      時系列B


      時系列C                      時系列B          時系列C

                                 異常な振る舞いの時系列を検出




                例1:トラフィック異常検知                   例2:CM効果のノイズ除去

                    トラフィックA                          ケースA
                                                              CM効果
                    トラフィックB                          ケースB

                    トラフィックC      調査                  ケースC

                     異常な振る舞いをしている                    異常な振る舞いをしているケースを
                     トラフィックの原因を調査する                  除外して、CMの効果を算出する
                                                                                  85
2012年3月10日土曜日
活動例: 時系列解析と異常検知
                      Anomaly detection

                新しいデータと過去時系列モデルの乖離から異常検出


                          8000.0000
                                             異常スコア推移   3.0000
  モデル構築
                                       異常値
  ◇例 : ARIMAモデル                                        2.2500




                          5970.7500                    1.5000




                                                       0.7500




                          3941.5000                         0



  異常スコアの算出
                                                       -0.7500

   ◇例 : 対数損失

                          1912.2500                    -1.5000




                                                       -2.2500




                           -117.0000                   -3.0000


                                                t
                                   4/ 週
                                   4/ 1週
                                   4/ 8週
                                    5/ 週
                                    5/ 週
                                   5/ 週
                                   5/ 週
                                   5/ 週
                                    6/ 週
                                   6/ 週
                                   6/ 週
                                   6/ 週
                                    7/ 週
                                   7/ 週
                                   7/ 週
                                   7/ 8週
                                         週
                                       4



                                     25
                                       2
                                       9
                                     16
                                     23
                                     30
                                       6
                                     13
                                     20
                                     27
                                       4
                                     11


                                     25
                                     1
                                     1




                                     1
                                    4/




                                                                 86
2012年3月10日土曜日
活動例: 時系列解析と影響分析
                        TV Commercial Effects

                時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
                                                   イベン
                CM時系列                               ト

                                          新規
                                          登録


                              CM                   ARPP
                                                    U




                                          ARPU

            各KPIの時系列
                                                          その他
                                                           外部
                                   継続率
                                                           要因




                                                 ケース




                                                            87

2012年3月10日土曜日
活動例: データマイニングCROSS




2012年3月10日土曜日
AGENDA



      ◆ 自己紹介

      ◆ Uplift Modellingとは




2012年3月10日土曜日
Uplift Modellingとは
      費用対効果の最大化を目的とした最新のデータマイニング手法
        介入による行動変化をモデル化し効果を最大化する


                                     介入による4つの行動パターン
                介入を受けた場合の反応




                              No    あまのじゃく         無関心




                              YES    テッパン         説得可能!


                                      YES           No
                                       介入を受けなかった場合の反応




2012年3月10日土曜日
これまでのマーケティングモデル
         顧客を有望な顧客とそうでない顧客に分類し
    有望な顧客だけをターゲットにする事で費用対効果を向上させる


    ◆ 浸透モデル
          ・既に製品を購入した顧客を特徴づけるモデル

    ◆ 購入モデル
          ・最近購入した顧客を特徴づけるモデル
          ・浸透モデルに似てるが、最近の履歴に注目し、顧客の特性の変化を捉える

    ◆ レスポンスモデル
          ・マーケティング活動に反応して購入した顧客を特徴づけるモデル




2012年3月10日土曜日
これまでのマーケティングモデル
         顧客を有望な顧客とそうでない顧客に分類し
    有望な顧客だけをターゲットにする事で費用対効果を向上させる


    ◆ 浸透モデル
          ・既に製品を購入した顧客を特徴づけるモデル

    ◆ 購入モデル
          ・最近購入した顧客を特徴づけるモデル
          ・浸透モデルに似てるが、最近の履歴に注目し、顧客の特性の変化を捉える

    ◆ レスポンスモデル
          ・マーケティング活動に反応して購入した顧客を特徴づけるモデル




2012年3月10日土曜日
レスポンスモデリング
                    処置群の反応データを用いて
                レスポンスをモデル化し、ターゲットを決める

          Training Data            従来のレスポンスモデリング
                                      反応なし   反応あり
 処置群




                             処置群                    分類結果
                                                    反応あり の場合
                                                    良いターゲット




                                       予測対象

2012年3月10日土曜日
レスポンスモデリングの課題
                    処置群だけで学習しているため
                  介入による行動変化を考慮出来ていない

          Training Data         従来のレスポンスモデリング
                                   反応なし   反応あり

                                 あまのじゃく    説得可能!
 処置群




                          処置群
                                  無関心          テッパン


                                                      分類結果
                                                      反応あり の場合
                                                      良いターゲット




                                        予測対象

2012年3月10日土曜日
レスポンスモデリングの課題
                    処置群だけで学習しているため
                  介入による行動変化を考慮出来ていない

          Training Data            従来のレスポンスモデリング
                          介入しなければ
                            反応した
                                      反応なし   反応あり

                                    あまのじゃく    説得可能!
 処置群




                             処置群
                                     無関心          テッパン

                                                  介入しなくても
                                                    反応した    分類結果
                                                            反応あり の場合
                                                            良いターゲット




                                           予測対象

2012年3月10日土曜日
処置群と対照群を用いた学習
                処置群と対照群の両方を学習データとする事で
                    介入による行動変化を捉える

          Training Data
                                  反応なし   反応あり

                                あまのじゃく    説得可能!
 処置群




                          処置群
                                 無関心          テッパン
 対照群




                                説得可能!     あまのじゃく
                          対照群




                                 無関心          テッパン




                                       予測対象

2012年3月10日土曜日
処置群と対照群を用いた学習
                処置群と対照群の両方を学習データとする事で
                    介入による行動変化を捉える

          Training Data
                                  反応なし   反応あり

                                あまのじゃく    説得可能!
 処置群




                          処置群
                                 無関心          テッパン
 対照群




                                説得可能!     あまのじゃく
                          対照群




                                 無関心          テッパン




                                       予測対象

2012年3月10日土曜日
処置群と対照群を用いた学習
                処置群と対照群の両方を学習データとする事で
                    介入による行動変化を捉える

          Training Data
                                  反応なし   反応あり

                                あまのじゃく    説得可能!
 処置群




                          処置群
                                 無関心          テッパン
 対照群




                                説得可能!     あまのじゃく
                          対照群




                                 無関心          テッパン




                                       予測対象

2012年3月10日土曜日
Uplift Modelling
                   単純な 反応あり ・ 反応なし ではなく
                介入による行動変化をモデル化しターゲットを決める

          Training Data        Response Uplift Modelling
                                        L         R
                                    あまのじゃく
                                              説得可能!
 処置群




                              処置群
                                     無関心

                                    テッパン

                                                           分類結果
                                                             R の場合
                                    あまのじゃく
 対照群




                                               説得可能!       良いターゲット
                              対照群



                                     無関心

                                     テッパン




                                           予測対象

2012年3月10日土曜日
分割基準
                               行動変化によるレスポンス率増と
                              その重要性を最大化する分割を行う

                          L    R
                あまのじゃく
      処置群(T)




                               説得可能!
                    無関心

                テッパン

               UL                  UR

                あまのじゃく
      対照群(C)




                               説得可能!
                    無関心
                 テッパン




2012年3月10日土曜日
分割基準
                               行動変化によるレスポンス率増と
                              その重要性を最大化する分割を行う

                          L    R
                あまのじゃく
      処置群(T)




                               説得可能!
                    無関心

                テッパン

               UL                  UR

                あまのじゃく
      対照群(C)




                               説得可能!
                    無関心
                 テッパン


      ◆ 行動変化によるレスポンス率の増分



      ◆ 重要性 (t統計量の2乗)




2012年3月10日土曜日
分割基準
                               行動変化によるレスポンス率増と
                              その重要性を最大化する分割を行う

                          L    R
                あまのじゃく
      処置群(T)




                               説得可能!
                    無関心

                テッパン

               UL                  UR

                あまのじゃく
      対照群(C)




                               説得可能!
                    無関心
                 テッパン


      ◆ 行動変化によるレスポンス率の増分



      ◆ 重要性 (t統計量の2乗)




2012年3月10日土曜日
分割基準
                               行動変化によるレスポンス率増と
                              その重要性を最大化する分割を行う

                          L    R
                あまのじゃく
      処置群(T)




                               説得可能!
                    無関心

                テッパン

               UL                  UR

                あまのじゃく                         L
      対照群(C)




                               説得可能!
                    無関心
                 テッパン


      ◆ 行動変化によるレスポンス率の増分



      ◆ 重要性 (t統計量の2乗)                              L   R

2012年3月10日土曜日
介入による行動変化の定式化
                     介入による行動変化を
                介入効果とグループ効果の相互作用として表現



                                    L   R

          介入による効果                                  介入による効果
                      処置群(T)



          グループ効果                                   グループ効果
          相互作用                                     相互作用

                               UL           UR

          介入による効果                                  介入による効果
                      対照群(C)




          グループ効果                                   グループ効果
          相互作用                                     相互作用




           ※Cの介入効果 = Lのグループ効果 = CR相互作用 = TL相互作用 = CL相互作用 = 0 とおく
2012年3月10日土曜日
介入による行動変化の推定
         相互作用はRグループとLグループの増分の差で推定される




                                    L   R

          介入による効果                                  介入による効果
                      処置群(T)



          グループ効果                                   グループ効果
          相互作用                                     相互作用

                               UL           UR

          介入による効果                                  介入による効果
                      対照群(C)




          グループ効果                                   グループ効果
          相互作用                                     相互作用




           ※Cの介入効果 = Lのグループ効果 = CR相互作用 = TL相互作用 = CL相互作用 = 0 とおく
2012年3月10日土曜日
介入による行動変化の推定値の誤差と重要性
                介入による行動変化は回帰係数として算出され
                   その重要性はt統計量で与えられる
                          T:1, C:0   R:1, L:0   Xi1Xi2

                                                         基準値

                                                         介入効果

                                                         グループ効果

                                                         相互作用


         ◆ 標準誤差の算出           ◆ t統計量の2乗




2012年3月10日土曜日
分割基準
                               行動変化によるレスポンス率増と
                              その重要性を最大化する分割を行う

                          L    R
                あまのじゃく
      処置群(T)




                               説得可能!
                    無関心

                テッパン

               UL                  UR

                あまのじゃく                         L
      対照群(C)




                               説得可能!
                    無関心
                 テッパン


      ◆ 行動変化によるレスポンス率の増分



      ◆ 重要性 (t統計量の2乗)                              L   R

2012年3月10日土曜日
AGENDA



      ◆ 自己紹介

      ◆ Uplift Modellingとは




2012年3月10日土曜日
Rでの実行は?




2012年3月10日土曜日
Rでの実行は?



                まだパッケージが存在しない




2012年3月10日土曜日
Rでの実行は?



                まだパッケージが存在しない




2012年3月10日土曜日
Rでの実行は?



                まだパッケージが存在しない




                iAnalysisと共同開発予定!



2012年3月10日土曜日
謝辞
     Uplift Modellingの存在はisseing333さんが教えてくださいました!
                       ありがとうございます!




2012年3月10日土曜日
次回以降の

     発表者・LTを募集しています!



2012年3月10日土曜日
ご清聴ありがとうございました!




2012年3月10日土曜日
以下参考資料




2012年3月10日土曜日
参考資料


    ◆ t統計量

        http://en.wikipedia.org/wiki/T-statistic

    ◆ 線形回帰

        http://ja.wikipedia.org/wiki/%E7%B7%9A
        %E5%BD%A2%E5%9B%9E%E5%B8%B0

    ◆ Real-World Uplift Modelling with Significance-Based Uplift Trees

        http://stochasticsolutions.com/sbut.html


2012年3月10日土曜日

More Related Content

What's hot

構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展Shiga University, RIKEN
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習Deep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践智之 村上
 
MCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法についてMCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法について考司 小杉
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知Yuya Takashina
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」Ken'ichi Matsui
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門Yohei Sato
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38horihorio
 
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由takehikoihayashi
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性西岡 賢一郎
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性Ichigaku Takigawa
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択kazutantan
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 

What's hot (20)

2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 
MCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法についてMCMCによるベイズ因子分析法について
MCMCによるベイズ因子分析法について
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
 
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 

Similar to Uplift Modelling 入門(1)

異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)Yohei Sato
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusionYohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolationYohei Sato
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection biasYohei Sato
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkunsYohei Sato
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyorYohei Sato
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
RでピボットテーブルYohei Sato
 
Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 
データマイニング+WEB 勉強会@東京-蓄積データの有効活用-
データマイニング+WEB 勉強会@東京-蓄積データの有効活用-データマイニング+WEB 勉強会@東京-蓄積データの有効活用-
データマイニング+WEB 勉強会@東京-蓄積データの有効活用-Koichi Hamada
 

Similar to Uplift Modelling 入門(1) (10)

異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection bias
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkuns
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyor
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
Rでピボットテーブル
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 
データマイニング+WEB 勉強会@東京-蓄積データの有効活用-
データマイニング+WEB 勉強会@東京-蓄積データの有効活用-データマイニング+WEB 勉強会@東京-蓄積データの有効活用-
データマイニング+WEB 勉強会@東京-蓄積データの有効活用-
 

More from Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生Yohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部Yohei Sato
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 openingYohei Sato
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Yohei Sato
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –Yohei Sato
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Yohei Sato
 

More from Yohei Sato (18)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 opening
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
 

Uplift Modelling 入門(1)

  • 1. Uplift Modelling入門(1) - 費用対効果の最大化を目的とした最新データマイニング手法 - @yokkuns: 里 洋平 yohei0511@gmail.com 2012.03.10 第21回Tokyo.R 2012年3月10日土曜日
  • 2. AGENDA ◆ 自己紹介 ◆ Uplift Modellingとは 2012年3月10日土曜日
  • 3. AGENDA ◆ 自己紹介 ◆ Uplift Modellingとは 2012年3月10日土曜日
  • 4. 自己紹介 時系列解析や異常検知などの方法論を 実ビジネスに適用するデータマイニングエンジニア ◆ 名前: 里 洋平 ◆ ID : yokkuns ◆ 職業: データマイニングエンジニア ◆ 統計解析 パターン認識 機械学 習 データマイニング NLP 金融工学 などを勉強中 2012年3月10日土曜日
  • 5. 活動例: 勉強会の主催・執筆 Tokyo.R主催 パッケージ本執筆しました! 2012年3月10日土曜日
  • 6. 活動例: 動画レコメンド 閲覧されている動画の情報を用いて おすすめ動画を表示する 2012年3月10日土曜日
  • 7. 活動例: 市場予測 Web上の情報から市場予測 2012年3月10日土曜日
  • 8. 活動例: 異常検知 Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 85 2012年3月10日土曜日
  • 9. 活動例: 時系列解析と異常検知 Anomaly detection 新しいデータと過去時系列モデルの乖離から異常検出 8000.0000 異常スコア推移 3.0000 モデル構築 異常値 ◇例 : ARIMAモデル 2.2500 5970.7500 1.5000 0.7500 3941.5000 0 異常スコアの算出 -0.7500 ◇例 : 対数損失 1912.2500 -1.5000 -2.2500 -117.0000 -3.0000 t 4/ 週 4/ 1週 4/ 8週 5/ 週 5/ 週 5/ 週 5/ 週 5/ 週 6/ 週 6/ 週 6/ 週 6/ 週 7/ 週 7/ 週 7/ 週 7/ 8週 週 4 25 2 9 16 23 30 6 13 20 27 4 11 25 1 1 1 4/ 86 2012年3月10日土曜日
  • 10. 活動例: 時系列解析と影響分析 TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 87 2012年3月10日土曜日
  • 12. AGENDA ◆ 自己紹介 ◆ Uplift Modellingとは 2012年3月10日土曜日
  • 13. Uplift Modellingとは 費用対効果の最大化を目的とした最新のデータマイニング手法 介入による行動変化をモデル化し効果を最大化する 介入による4つの行動パターン 介入を受けた場合の反応 No あまのじゃく 無関心 YES テッパン 説得可能! YES No 介入を受けなかった場合の反応 2012年3月10日土曜日
  • 14. これまでのマーケティングモデル 顧客を有望な顧客とそうでない顧客に分類し 有望な顧客だけをターゲットにする事で費用対効果を向上させる ◆ 浸透モデル ・既に製品を購入した顧客を特徴づけるモデル ◆ 購入モデル ・最近購入した顧客を特徴づけるモデル ・浸透モデルに似てるが、最近の履歴に注目し、顧客の特性の変化を捉える ◆ レスポンスモデル ・マーケティング活動に反応して購入した顧客を特徴づけるモデル 2012年3月10日土曜日
  • 15. これまでのマーケティングモデル 顧客を有望な顧客とそうでない顧客に分類し 有望な顧客だけをターゲットにする事で費用対効果を向上させる ◆ 浸透モデル ・既に製品を購入した顧客を特徴づけるモデル ◆ 購入モデル ・最近購入した顧客を特徴づけるモデル ・浸透モデルに似てるが、最近の履歴に注目し、顧客の特性の変化を捉える ◆ レスポンスモデル ・マーケティング活動に反応して購入した顧客を特徴づけるモデル 2012年3月10日土曜日
  • 16. レスポンスモデリング 処置群の反応データを用いて レスポンスをモデル化し、ターゲットを決める Training Data 従来のレスポンスモデリング 反応なし 反応あり 処置群 処置群 分類結果 反応あり の場合 良いターゲット 予測対象 2012年3月10日土曜日
  • 17. レスポンスモデリングの課題 処置群だけで学習しているため 介入による行動変化を考慮出来ていない Training Data 従来のレスポンスモデリング 反応なし 反応あり あまのじゃく 説得可能! 処置群 処置群 無関心 テッパン 分類結果 反応あり の場合 良いターゲット 予測対象 2012年3月10日土曜日
  • 18. レスポンスモデリングの課題 処置群だけで学習しているため 介入による行動変化を考慮出来ていない Training Data 従来のレスポンスモデリング 介入しなければ 反応した 反応なし 反応あり あまのじゃく 説得可能! 処置群 処置群 無関心 テッパン 介入しなくても 反応した 分類結果 反応あり の場合 良いターゲット 予測対象 2012年3月10日土曜日
  • 19. 処置群と対照群を用いた学習 処置群と対照群の両方を学習データとする事で 介入による行動変化を捉える Training Data 反応なし 反応あり あまのじゃく 説得可能! 処置群 処置群 無関心 テッパン 対照群 説得可能! あまのじゃく 対照群 無関心 テッパン 予測対象 2012年3月10日土曜日
  • 20. 処置群と対照群を用いた学習 処置群と対照群の両方を学習データとする事で 介入による行動変化を捉える Training Data 反応なし 反応あり あまのじゃく 説得可能! 処置群 処置群 無関心 テッパン 対照群 説得可能! あまのじゃく 対照群 無関心 テッパン 予測対象 2012年3月10日土曜日
  • 21. 処置群と対照群を用いた学習 処置群と対照群の両方を学習データとする事で 介入による行動変化を捉える Training Data 反応なし 反応あり あまのじゃく 説得可能! 処置群 処置群 無関心 テッパン 対照群 説得可能! あまのじゃく 対照群 無関心 テッパン 予測対象 2012年3月10日土曜日
  • 22. Uplift Modelling 単純な 反応あり ・ 反応なし ではなく 介入による行動変化をモデル化しターゲットを決める Training Data Response Uplift Modelling L R あまのじゃく 説得可能! 処置群 処置群 無関心 テッパン 分類結果 R の場合 あまのじゃく 対照群 説得可能! 良いターゲット 対照群 無関心 テッパン 予測対象 2012年3月10日土曜日
  • 23. 分割基準 行動変化によるレスポンス率増と その重要性を最大化する分割を行う L R あまのじゃく 処置群(T) 説得可能! 無関心 テッパン UL UR あまのじゃく 対照群(C) 説得可能! 無関心 テッパン 2012年3月10日土曜日
  • 24. 分割基準 行動変化によるレスポンス率増と その重要性を最大化する分割を行う L R あまのじゃく 処置群(T) 説得可能! 無関心 テッパン UL UR あまのじゃく 対照群(C) 説得可能! 無関心 テッパン ◆ 行動変化によるレスポンス率の増分 ◆ 重要性 (t統計量の2乗) 2012年3月10日土曜日
  • 25. 分割基準 行動変化によるレスポンス率増と その重要性を最大化する分割を行う L R あまのじゃく 処置群(T) 説得可能! 無関心 テッパン UL UR あまのじゃく 対照群(C) 説得可能! 無関心 テッパン ◆ 行動変化によるレスポンス率の増分 ◆ 重要性 (t統計量の2乗) 2012年3月10日土曜日
  • 26. 分割基準 行動変化によるレスポンス率増と その重要性を最大化する分割を行う L R あまのじゃく 処置群(T) 説得可能! 無関心 テッパン UL UR あまのじゃく L 対照群(C) 説得可能! 無関心 テッパン ◆ 行動変化によるレスポンス率の増分 ◆ 重要性 (t統計量の2乗) L R 2012年3月10日土曜日
  • 27. 介入による行動変化の定式化 介入による行動変化を 介入効果とグループ効果の相互作用として表現 L R 介入による効果 介入による効果 処置群(T) グループ効果 グループ効果 相互作用 相互作用 UL UR 介入による効果 介入による効果 対照群(C) グループ効果 グループ効果 相互作用 相互作用 ※Cの介入効果 = Lのグループ効果 = CR相互作用 = TL相互作用 = CL相互作用 = 0 とおく 2012年3月10日土曜日
  • 28. 介入による行動変化の推定 相互作用はRグループとLグループの増分の差で推定される L R 介入による効果 介入による効果 処置群(T) グループ効果 グループ効果 相互作用 相互作用 UL UR 介入による効果 介入による効果 対照群(C) グループ効果 グループ効果 相互作用 相互作用 ※Cの介入効果 = Lのグループ効果 = CR相互作用 = TL相互作用 = CL相互作用 = 0 とおく 2012年3月10日土曜日
  • 29. 介入による行動変化の推定値の誤差と重要性 介入による行動変化は回帰係数として算出され その重要性はt統計量で与えられる T:1, C:0 R:1, L:0 Xi1Xi2 基準値 介入効果 グループ効果 相互作用 ◆ 標準誤差の算出 ◆ t統計量の2乗 2012年3月10日土曜日
  • 30. 分割基準 行動変化によるレスポンス率増と その重要性を最大化する分割を行う L R あまのじゃく 処置群(T) 説得可能! 無関心 テッパン UL UR あまのじゃく L 対照群(C) 説得可能! 無関心 テッパン ◆ 行動変化によるレスポンス率の増分 ◆ 重要性 (t統計量の2乗) L R 2012年3月10日土曜日
  • 31. AGENDA ◆ 自己紹介 ◆ Uplift Modellingとは 2012年3月10日土曜日
  • 33. Rでの実行は? まだパッケージが存在しない 2012年3月10日土曜日
  • 34. Rでの実行は? まだパッケージが存在しない 2012年3月10日土曜日
  • 35. Rでの実行は? まだパッケージが存在しない iAnalysisと共同開発予定! 2012年3月10日土曜日
  • 36. 謝辞 Uplift Modellingの存在はisseing333さんが教えてくださいました! ありがとうございます! 2012年3月10日土曜日
  • 37. 次回以降の 発表者・LTを募集しています! 2012年3月10日土曜日
  • 40. 参考資料 ◆ t統計量 http://en.wikipedia.org/wiki/T-statistic ◆ 線形回帰 http://ja.wikipedia.org/wiki/%E7%B7%9A %E5%BD%A2%E5%9B%9E%E5%B8%B0 ◆ Real-World Uplift Modelling with Significance-Based Uplift Trees http://stochasticsolutions.com/sbut.html 2012年3月10日土曜日