SlideShare a Scribd company logo
1 of 73
Download to read offline
傾向スコア解析と
                Uplift Modelling

                     @yokkuns: 里 洋平
                   yohei0511@gmail.com
                 2012.05.26 第23回Tokyo.R


2012年5月26日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 本発表の目的

      ◆ 傾向スコア解析

      ◆ Uplift Modelling

      ◆ まとめ

2012年5月26日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 本発表の目的

      ◆ 傾向スコア解析

      ◆ Uplift Modelling

      ◆ まとめ

2012年5月26日土曜日
自己紹介

             時系列解析や異常検知などの方法論を
          実ビジネスに適用するデータマイニングエンジニア



     ◆ 名前: 里 洋平
     ◆ ID : yokkuns
     ◆ 職業:
     データマイニングエンジニア
     ◆     統計解析 パターン認識 機械学
     習 データマイニング NLP 金融工学
     などを勉強中

2012年5月26日土曜日
活動例: 勉強会の主催・執筆


                   Tokyo.R主催




                パッケージ本執筆しました!




2012年5月26日土曜日
活動例: 動画レコメンド

                閲覧されている動画の情報を用いておすすめ動画を表示する




2012年5月26日土曜日
活動例: 市場予測

                Web上の情報から市場予測




2012年5月26日土曜日
活動例: 異常検知
                              Anomaly detection

                    複数時系列から異常な振る舞いを検知する

                                                                            C
                                                                            A
        時系列のモデリング               複数時系列の異常検知                                  B

      時系列A                             時系列A

                                                                        異常な振る舞い
      時系列B


      時系列C                      時系列B          時系列C

                                 異常な振る舞いの時系列を検出




                例1:トラフィック異常検知                   例2:CM効果のノイズ除去

                    トラフィックA                          ケースA
                                                              CM効果
                    トラフィックB                          ケースB

                    トラフィックC      調査                  ケースC

                     異常な振る舞いをしている                    異常な振る舞いをしているケースを
                     トラフィックの原因を調査する                  除外して、CMの効果を算出する
                                                                                  85
2012年5月26日土曜日
活動例: 時系列解析と異常検知
                      Anomaly detection

                新しいデータと過去時系列モデルの乖離から異常検出


                          8000.0000
                                             異常スコア推移   3.0000
  モデル構築
                                       異常値
  ◇例 : ARIMAモデル                                        2.2500




                          5970.7500                    1.5000




                                                       0.7500




                          3941.5000                         0



  異常スコアの算出
                                                       -0.7500

   ◇例 : 対数損失

                          1912.2500                    -1.5000




                                                       -2.2500




                           -117.0000                   -3.0000


                                                t
                                   4/ 週
                                   4/ 1週
                                   4/ 8週
                                    5/ 週
                                    5/ 週
                                   5/ 週
                                   5/ 週
                                   5/ 週
                                    6/ 週
                                   6/ 週
                                   6/ 週
                                   6/ 週
                                    7/ 週
                                   7/ 週
                                   7/ 週
                                   7/ 8週
                                         週
                                       4



                                     25
                                       2
                                       9
                                     16
                                     23
                                     30
                                       6
                                     13
                                     20
                                     27
                                       4
                                     11


                                     25
                                     1
                                     1




                                     1
                                    4/




                                                                 86
2012年5月26日土曜日
活動例: 時系列解析と影響分析
                        TV Commercial Effects

                時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
                                                   イベン
                CM時系列                               ト

                                          新規
                                          登録


                              CM                   ARPP
                                                    U




                                          ARPU

            各KPIの時系列
                                                          その他
                                                           外部
                                   継続率
                                                           要因




                                                 ケース




                                                            87

2012年5月26日土曜日
活動例: データマイニングCROSS




2012年5月26日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 本発表の目的

      ◆ 傾向スコア解析

      ◆ Uplift Modelling

      ◆ まとめ

2012年5月26日土曜日
本発表の目的
                傾向スコア解析とUplift Modellingが
           扱う効果やデータを切る軸が似ていて混乱するので整理する


                                                               介入がなかった場合
                      介入効果   =     処置群の値                   -     の処置群の値


                傾向スコア解析のデータを切る軸                                Uplift Modellingのデータを切る軸
                                                               介入を受けなかった場合の反応
                処置群          対照群                                Yes        No
 介入を受けた
  場合の結果




                                       介入を受けた場合の反応
                                                     No
 介入を受けない
  場合の結果




                                                     Yes




2012年5月26日土曜日
傾向スコア解析とUplift Modelling
                 傾向スコア解析とUplift Modellingは
                やりたい事や扱うデータの対象が大きく違う



                     傾向スコア解析             Uplift Modelling


      やりたい事          因果効果の推定             費用対効果の最大化



      扱うデータ           観察データ                 実験データ

                                      処置群と対照群の両方を使って介入による
                 共変量を使って処置群と対照群の傾向を
      アプローチ                               行動変化をモデル化して
                    調整して因果効果を算出する
                                       それを最大化するような分類を行う




2012年5月26日土曜日
介入による効果の扱い
                  どちらも介入による効果を扱うが
                その目的はと扱うデータは大きく異なる


                                        介入がなかった場合
                介入効果    =   処置群の値   -     の処置群の値




  ◆ 傾向スコア解析:
     ・実験出来ないデータにおいて、割当による影響を除外して介入効果を推定する



  ◆ Uplift Modelling:

     ・実験可能なデータを用いて、介入効果を最大にするようなグループ分けを行う



2012年5月26日土曜日
実験出来るデータの因果効果
                     実験出来るデータでは
                因果効果は単純な処置群と対照群の差になる




                  処置群        対照群

                処置群のデータ 

                           対照群のデータ 




            因果効果 = 処置群の平均 - 対照群の平均

2012年5月26日土曜日
実験出来るデータの因果効果
                     実験出来るデータでは
                因果効果は単純な処置群と対照群の差になる



                    処置群と対照群を
                     ランダムに割当



                  処置群          対照群

                処置群のデータ 

                           対照群のデータ 




            因果効果 = 処置群の平均 - 対照群の平均

2012年5月26日土曜日
実験出来るデータの因果効果
                     実験出来るデータでは
                因果効果は単純な処置群と対照群の差になる



                    処置群と対照群を
                     ランダムに割当



                  処置群          対照群

     介入を受けた
                処置群のデータ        欠測 
     場合の結果

    介入を受けない
     場合の結果
                  欠測       対照群のデータ 




            因果効果 = 処置群の平均 - 対照群の平均

2012年5月26日土曜日
実験出来るデータの因果効果
                     実験出来るデータでは
                因果効果は単純な処置群と対照群の差になる



                    処置群と対照群を
                     ランダムに割当



                  処置群          対照群
                                      期待値が等しい!
     介入を受けた                           •対照群が介入を受けていた場合の期待値と
                処置群のデータ        欠測 
     場合の結果                            介入を受けた処置群の期待値は同じ

    介入を受けない
                  欠測       対照群のデータ    •処置群が介入を受けない場合の期待値と
     場合の結果
                                      介入を受けなかった対照群の期待値は同じ




            因果効果 = 処置群の平均 - 対照群の平均

2012年5月26日土曜日
実験出来ないデータの因果効果
                割当によって処置群と対照群に差が生じるため
                  両者を単純に比較することが出来ない




                   処置群         対照群

                 処置群のデータ 

                             対照群のデータ 




            因果効果            処置群の平均 - 対照群の平均

2012年5月26日土曜日
実験出来ないデータの因果効果
                割当によって処置群と対照群に差が生じるため
                  両者を単純に比較することが出来ない



                     処置群と対照群の割当
                    (コントロール出来ない)



                   処置群         対照群

                 処置群のデータ 

                             対照群のデータ 




            因果効果            処置群の平均 - 対照群の平均

2012年5月26日土曜日
実験出来ないデータの因果効果
                割当によって処置群と対照群に差が生じるため
                  両者を単純に比較することが出来ない



                     処置群と対照群の割当
                    (コントロール出来ない)



                   処置群         対照群

     介入を受けた
                 処置群のデータ       欠測 
     場合の結果

    介入を受けない
     場合の結果
                   欠測        対照群のデータ 




            因果効果            処置群の平均 - 対照群の平均

2012年5月26日土曜日
実験出来ないデータの因果効果
                割当によって処置群と対照群に差が生じるため
                  両者を単純に比較することが出来ない



                     処置群と対照群の割当
                    (コントロール出来ない)



                   処置群         対照群
                                        期待値が違う!
     介入を受けた                             •対照群が介入を受けていた場合の期待値と
                 処置群のデータ       欠測 
     場合の結果                              介入を受けた処置群の期待値が異なる

    介入を受けない
                   欠測        対照群のデータ    •処置群が介入を受けない場合の期待値と
     場合の結果
                                        介入を受けなかった対照群の期待値が異なる




            因果効果            処置群の平均 - 対照群の平均

2012年5月26日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 本発表の目的

      ◆ 傾向スコア解析

      ◆ Uplift Modelling

      ◆ まとめ

2012年5月26日土曜日
傾向スコア解析

                実験出来ないデータの因果関係を解析する



                    処置群と対照群の割当
                   (コントロール出来ない)



                  処置群        対照群
                                      共変量で割当をモデリング
     介入を受けた
                処置群のデータ      欠測 
     場合の結果                              傾向スコアの算出
    介入を受けない
     場合の結果
                  欠測       対照群のデータ 


     共変量項目         共通で得られている変数 
                                       傾向スコアを用いた調整
                                      ◇マッチング
                                      ◇層別解析
                                      ◇共分散分析


2012年5月26日土曜日
欠測データ

                割当によって観測出来ない潜在的変数を考える




                  処置群         対照群             z=1   z=0

 介入を受けた
                処置群のデータ       欠測                      
  場合の結果

介入を受けない
                  欠測        対照群のデータ                   
 場合の結果




                             y1とy0は両方存在するが
                           割当によって観測出来ないと考える
2012年5月26日土曜日
欠測データ

                          割当変数zと求めたい因果効果



                      処置群と対照群の割当                          z


                   処置群              対照群             z=1       z=0

 介入を受けた
                処置群のデータ             欠測                          
  場合の結果

介入を受けない
                   欠測             対照群のデータ                       
 場合の結果




           処置群での平均介入効果
            average treatment             z=1の時のy1とy0の差を知りたいが
           effect on the treated              どちらか一方は観測出来ない
2012年5月26日土曜日
欠測データ

                        共変量の影響を除去した因果効果



                      処置群と対照群の割当                      z


                  処置群          対照群              z=1       z=0

 介入を受けた
                処置群のデータ        欠測                           
  場合の結果

介入を受けない
                  欠測        対照群のデータ                         
 場合の結果




  共変量項目               共通で得られている変数 



                                       共変量の値が等しい時は
     強く無視出来る
       割当条件       :                    割当はランダムという仮定
     共変量の影響を
    除去した因果効果      :
2012年5月26日土曜日
欠測データ

                        共変量の影響を除去した因果効果



                      処置群と対照群の割当                   z


                  処置群          対照群           z=1       z=0

 介入を受けた
                処置群のデータ        欠測                        
  場合の結果

介入を受けない
                  欠測        対照群のデータ                      
 場合の結果




  共変量項目               共通で得られている変数 


                                       共変量が同じならz=1のy0の期待値を
     強く無視出来る
       割当条件       :                     z=0の時のy0の期待値で代用出来る

     共変量の影響を
    除去した因果効果      :
2012年5月26日土曜日
傾向スコア

                対象者の群1へ割り当てられる確率




                第i対象者の割当変数の値

                第i対象者の共変量の値

2012年5月26日土曜日
傾向スコアの推定

           プロビット回帰やロジスティック回帰で推定する




2012年5月26日土曜日
傾向スコアを用いた調整



    • マッチング
        •   2つの群で傾向スコアが等しい(近い)対象者をペアにしてその差の
            平均を因果効果とする

    • 層別解析
        •   傾向スコアの大小によっていくつかのサブクラスに分け、その各クラ
            スで処置群と対照群の平均の計算と、全体としての効果の推定量を計
            算する

    • 共分散分析
        •   割当変数と傾向スコアを説明変数とした線形の回帰分析を行う




2012年5月26日土曜日
傾向スコアを用いた調整

                傾向スコアの逆数による重み付け平均




2012年5月26日土曜日
傾向スコアを用いた調整
                傾向スコアの逆数を重みづけたyの期待値は
                    y1の周辺平均の不偏推定量




2012年5月26日土曜日
傾向スコアを用いた調整

                因果効果の推定値とその分散が計算出来る


                       因果効果



                     因果効果の分散




2012年5月26日土曜日
Rによる実行


                      Matching パッケージ

                     lalondeデータセット

                        NSW職業訓練データ
            age       年齢        re74      74年実質賃金
           educ      教育年数       re75      75年実質賃金
           black     黒人かどうか     re78      78年実質賃金
            hisp   ヒスパニックかどうか   u74     74年の賃金が0かどうか
         married   結婚してるかどうか    u75     75年の賃金が0かどうか
          nodegr    高校卒業有無      treat    NSW対象者有無




2012年5月26日土曜日
Rによる実行



                      Matching パッケージ

           Match(Y=NULL, Tr, X, caliper=F,...)

                Y : 結果ベクトル
                Tr : 割当ベクトル
                X : 共変量または傾向スコア
                caliper : キャリパーマッチングをやる場合にTRUE
                ...




2012年5月26日土曜日
Rによる実行


     Matchingパッケージとデータセットの読み込み




2012年5月26日土曜日
Rによる実行


        ロジスティック回帰分析で傾向スコアを算出




2012年5月26日土曜日
Rによる実行


                マッチングで因果効果を推定




                 NSWプログラムの効果




2012年5月26日土曜日
Rによる実行


                マッチングのペアの確認




2012年5月26日土曜日
Rによる実行


                マッチングのペアの確認

                     処置群のindex




                   対照群のindex




2012年5月26日土曜日
Rによる実行


                キャリパーマッチングで因果効果を推定



                      NSWプログラムの効果




                   キャリパーマッチング : ペアが特定の距離以上になる時はマッチングしないマッチング



2012年5月26日土曜日
RでIPW推定量


         傾向スコアの逆数による重みベクトルを作成




2012年5月26日土曜日
RでIPW推定量


      lmで重みベクトルを指定してIPW推定量を算出




2012年5月26日土曜日
RでIPW推定量


      lmで重みベクトルを指定してIPW推定量を算出




                    処置群の
                IPW推定量と標準誤差




                    対照群の
                IPW推定量と標準誤差




2012年5月26日土曜日
RでIPW推定量


      lmで重みベクトルを指定してIPW推定量を算出




                    処置群の
                IPW推定量と標準誤差
                              因果効果 = 6213.0 - 4589.4
                                   = 1623.6

                              標準誤差 = (462.2^2+436.4^2)
                                   = 635.668

                    対照群の
                IPW推定量と標準誤差




2012年5月26日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 本発表の目的

      ◆ 傾向スコア解析

      ◆ Uplift Modelling

      ◆ まとめ

2012年5月26日土曜日
Uplift Modellingとは
      費用対効果の最大化を目的とした最新のデータマイニング手法
        介入による行動変化をモデル化し効果を最大化する


                                     介入による4つの行動パターン
                介入を受けた場合の反応




                              No    あまのじゃく         無関心




                              YES    テッパン         説得可能!


                                      YES           No
                                       介入を受けなかった場合の反応




2012年5月26日土曜日
これまでのマーケティングモデル
         顧客を有望な顧客とそうでない顧客に分類し
    有望な顧客だけをターゲットにする事で費用対効果を向上させる


    ◆ 浸透モデル
          ・既に製品を購入した顧客を特徴づけるモデル

    ◆ 購入モデル
          ・最近購入した顧客を特徴づけるモデル
          ・浸透モデルに似てるが、最近の履歴に注目し、顧客の特性の変化を捉える

    ◆ レスポンスモデル
          ・マーケティング活動に反応して購入した顧客を特徴づけるモデル




2012年5月26日土曜日
これまでのマーケティングモデル
         顧客を有望な顧客とそうでない顧客に分類し
    有望な顧客だけをターゲットにする事で費用対効果を向上させる


    ◆ 浸透モデル
          ・既に製品を購入した顧客を特徴づけるモデル

    ◆ 購入モデル
          ・最近購入した顧客を特徴づけるモデル
          ・浸透モデルに似てるが、最近の履歴に注目し、顧客の特性の変化を捉える

    ◆ レスポンスモデル
          ・マーケティング活動に反応して購入した顧客を特徴づけるモデル




2012年5月26日土曜日
レスポンスモデリング
                    処置群の反応データを用いて
                レスポンスをモデル化し、ターゲットを決める

          Training Data         従来のレスポンスモデリング
                                   反応なし   反応あり
 処置群




                          処置群                    分類結果
                                                 反応あり の場合
                                                 良いターゲット




                                    予測対象

2012年5月26日土曜日
レスポンスモデリングの課題
                    処置群だけで学習しているため
                  介入による行動変化を考慮出来ていない

          Training Data         従来のレスポンスモデリング
                                   反応なし   反応あり

                                 あまのじゃく    説得可能!
 処置群




                          処置群
                                  無関心          テッパン


                                                      分類結果
                                                      反応あり の場合
                                                      良いターゲット




                                        予測対象

2012年5月26日土曜日
レスポンスモデリングの課題
                    処置群だけで学習しているため
                  介入による行動変化を考慮出来ていない

          Training Data            従来のレスポンスモデリング
                          介入しなければ
                            反応した
                                      反応なし   反応あり

                                    あまのじゃく    説得可能!
 処置群




                             処置群
                                     無関心          テッパン

                                                  介入しなくても
                                                    反応した    分類結果
                                                            反応あり の場合
                                                            良いターゲット




                                           予測対象

2012年5月26日土曜日
処置群と対照群を用いた学習
                処置群と対照群の両方を学習データとする事で
                    介入による行動変化を捉える

          Training Data
                                  反応なし   反応あり

                                あまのじゃく    説得可能!
 処置群




                          処置群
                                 無関心          テッパン
 対照群




                                説得可能!     あまのじゃく
                          対照群




                                 無関心          テッパン




                                       予測対象

2012年5月26日土曜日
処置群と対照群を用いた学習
                処置群と対照群の両方を学習データとする事で
                    介入による行動変化を捉える

          Training Data
                                  反応なし   反応あり

                                あまのじゃく    説得可能!
 処置群




                          処置群
                                 無関心          テッパン
 対照群




                                説得可能!     あまのじゃく
                          対照群




                                 無関心          テッパン




                                       予測対象

2012年5月26日土曜日
処置群と対照群を用いた学習
                処置群と対照群の両方を学習データとする事で
                    介入による行動変化を捉える

          Training Data
                                  反応なし   反応あり

                                あまのじゃく    説得可能!
 処置群




                          処置群
                                 無関心          テッパン
 対照群




                                説得可能!     あまのじゃく
                          対照群




                                 無関心          テッパン




                                       予測対象

2012年5月26日土曜日
Uplift Modelling
                   単純な 反応あり ・ 反応なし ではなく
                介入による行動変化をモデル化しターゲットを決める

          Training Data    Response Uplift Modelling
                                    L         R
                                あまのじゃく
                                          説得可能!
 処置群




                          処置群
                                 無関心

                                テッパン

                                                       分類結果
                                                         R の場合
                                あまのじゃく
 対照群




                                           説得可能!       良いターゲット
                          対照群



                                 無関心

                                 テッパン




                                       予測対象

2012年5月26日土曜日
分割基準
                               行動変化によるレスポンス率増と
                              その重要性を最大化する分割を行う

                          L    R
                あまのじゃく
      処置群(T)




                               説得可能!
                    無関心

                テッパン

               UL                  UR

                あまのじゃく
      対照群(C)




                               説得可能!
                    無関心
                 テッパン




2012年5月26日土曜日
分割基準
                               行動変化によるレスポンス率増と
                              その重要性を最大化する分割を行う

                          L    R
                あまのじゃく
      処置群(T)




                               説得可能!
                    無関心

                テッパン

               UL                  UR

                あまのじゃく
      対照群(C)




                               説得可能!
                    無関心
                 テッパン


      ◆ 行動変化によるレスポンス率の増分



      ◆ 重要性 (t統計量の2乗)




2012年5月26日土曜日
分割基準
                               行動変化によるレスポンス率増と
                              その重要性を最大化する分割を行う

                          L    R
                あまのじゃく
      処置群(T)




                               説得可能!
                    無関心

                テッパン

               UL                  UR

                あまのじゃく
      対照群(C)




                               説得可能!
                    無関心
                 テッパン


      ◆ 行動変化によるレスポンス率の増分



      ◆ 重要性 (t統計量の2乗)




2012年5月26日土曜日
分割基準
                               行動変化によるレスポンス率増と
                              その重要性を最大化する分割を行う

                          L    R
                あまのじゃく
      処置群(T)




                               説得可能!
                    無関心

                テッパン

               UL                  UR

                あまのじゃく                  L
      対照群(C)




                               説得可能!
                    無関心
                 テッパン


      ◆ 行動変化によるレスポンス率の増分



      ◆ 重要性 (t統計量の2乗)                       L    R

2012年5月26日土曜日
介入による行動変化の定式化
                     介入による行動変化を
                介入効果とグループ効果の相互作用として表現



                                    L   R

          介入による効果                                  介入による効果
                      処置群(T)



          グループ効果                                   グループ効果
          相互作用                                     相互作用

                               UL           UR

          介入による効果                                  介入による効果
                      対照群(C)




          グループ効果                                   グループ効果
          相互作用                                     相互作用




           ※Cの介入効果 = Lのグループ効果 = CR相互作用 = TL相互作用 = CL相互作用 = 0 とおく
2012年5月26日土曜日
介入による行動変化の推定
         相互作用はRグループとLグループの増分の差で推定される




                                    L   R

          介入による効果                                  介入による効果
                      処置群(T)



          グループ効果                                   グループ効果
          相互作用                                     相互作用

                               UL           UR

          介入による効果                                  介入による効果
                      対照群(C)




          グループ効果                                   グループ効果
          相互作用                                     相互作用




           ※Cの介入効果 = Lのグループ効果 = CR相互作用 = TL相互作用 = CL相互作用 = 0 とおく
2012年5月26日土曜日
介入による行動変化の推定値の誤差と重要性
                介入による行動変化は回帰係数として算出され
                   その重要性はt統計量で与えられる
                          T:1, C:0   R:1, L:0   Xi1Xi2

                                                         基準値

                                                         介入効果

                                                         グループ効果

                                                         相互作用


         ◆ 標準誤差の算出           ◆ t統計量の2乗




2012年5月26日土曜日
分割基準
                               行動変化によるレスポンス率増と
                              その重要性を最大化する分割を行う

                          L    R
                あまのじゃく
      処置群(T)




                               説得可能!
                    無関心

                テッパン

               UL                  UR

                あまのじゃく                  L
      対照群(C)




                               説得可能!
                    無関心
                 テッパン


      ◆ 行動変化によるレスポンス率の増分



      ◆ 重要性 (t統計量の2乗)                       L    R

2012年5月26日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 本発表の目的

      ◆ 傾向スコア解析

      ◆ Uplift Modelling

      ◆ まとめ

2012年5月26日土曜日
傾向スコア解析とUplift Modelling
                 傾向スコア解析とUplift Modellingは
                やりたい事や扱うデータの対象が大きく違う



                     傾向スコア解析             Uplift Modelling


      やりたい事          因果効果の推定             費用対効果の最大化



      扱うデータ           観察データ                 実験データ

                                      処置群と対照群の両方を使って介入による
                 共変量を使って処置群と対照群の傾向を
      アプローチ                               行動変化をモデル化して
                    調整して因果効果を算出する
                                       それを最大化するような分類を行う




2012年5月26日土曜日
AGENDA

      ◆ 自己紹介

      ◆ 本発表の目的

      ◆ 傾向スコア解析

      ◆ Uplift Modelling

      ◆ まとめ

2012年5月26日土曜日
次回以降の

     発表者・LTを募集しています!



2012年5月26日土曜日
ご清聴ありがとうございました!




2012年5月26日土曜日
参考資料


  ◆ Rで学ぶ傾向スコア解析入門
        http://www.slideshare.net/yokkuns/r-9387843




  ◆ Uplift Modelling 入門(1)
        http://www.slideshare.net/yokkuns/uplift-modelling-1




2012年5月26日土曜日
欠測データ
        観測出来ない方のデータを欠測してると考える
   因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造

                        因果推論
                  処置群          対照群

 介入を受けた
                処置群のデータ        欠測 
  場合の結果                                              データ融合
介入を受けない
 場合の結果
                  欠測       対照群のデータ              購買履歴データ   市場調査データ


                                               購買履歴調査の
                                       購買履歴                  欠測 
 共変量項目            共通で得られている変数                    データ 

                                                          市場調査の
                                       質問紙項目     欠測 
                                                          回答データ 
                        選択バイアス
                  選択者          非選択者

                                       共変量項目      共通で得られている変数 
  従属変数          選択者のデータ    非選択者のデータ 



 共変量項目             共通で得られている変数 



2012年5月26日土曜日

More Related Content

What's hot

DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactDID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactYusuke Kaneko
 
競技プログラミングにおけるコードの書き方とその利便性
競技プログラミングにおけるコードの書き方とその利便性競技プログラミングにおけるコードの書き方とその利便性
競技プログラミングにおけるコードの書き方とその利便性Hibiki Yamashiro
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布についてHiroshi Shimizu
 
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Kohta Ishikawa
 
1 4.回帰分析と分散分析
1 4.回帰分析と分散分析1 4.回帰分析と分散分析
1 4.回帰分析と分散分析logics-of-blue
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)Toru Imai
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門  6. 最適化と学習アルゴリズムクラシックな機械学習の入門  6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズムHiroshi Nakagawa
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-Shiga University, RIKEN
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルMasaru Tokuoka
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムTakuya Akiba
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 

What's hot (20)

DID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpactDID, Synthetic Control, CausalImpact
DID, Synthetic Control, CausalImpact
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
競技プログラミングにおけるコードの書き方とその利便性
競技プログラミングにおけるコードの書き方とその利便性競技プログラミングにおけるコードの書き方とその利便性
競技プログラミングにおけるコードの書き方とその利便性
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布について
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
 
1 4.回帰分析と分散分析
1 4.回帰分析と分散分析1 4.回帰分析と分散分析
1 4.回帰分析と分散分析
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)
 
正準相関分析
正準相関分析正準相関分析
正準相関分析
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
クラシックな機械学習の入門  6. 最適化と学習アルゴリズムクラシックな機械学習の入門  6. 最適化と学習アルゴリズム
クラシックな機械学習の入門 6. 最適化と学習アルゴリズム
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデル
 
プログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズムプログラミングコンテストでの乱択アルゴリズム
プログラミングコンテストでの乱択アルゴリズム
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 

Viewers also liked

Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Yohei Sato
 
効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析aa_aa_aa
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装takehikoihayashi
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolationYohei Sato
 
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Yohei Sato
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkunsYohei Sato
 
Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusionYohei Sato
 
Tokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレードTokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレードYohei Sato
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
RでピボットテーブルYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –Yohei Sato
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Yohei Sato
 

Viewers also liked (20)

Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
 
効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
Tokyor13 - YjdnJlpパッケージとTokyo.R翻訳プロジェクトの紹介
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkuns
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
 
Tokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレードTokyowebmining09 初めてでも分かるペアトレード
Tokyowebmining09 初めてでも分かるペアトレード
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
Rでピボットテーブル
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
異常行動検出入門(改)
異常行動検出入門(改)異常行動検出入門(改)
異常行動検出入門(改)
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –異常行動検出入門 – 行動データ時系列のデータマイニング –
異常行動検出入門 – 行動データ時系列のデータマイニング –
 
Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門Tokyo r12 - R言語による回帰分析入門
Tokyo r12 - R言語による回帰分析入門
 

More from Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生Yohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection biasYohei Sato
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部Yohei Sato
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkunsYohei Sato
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyorYohei Sato
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 openingYohei Sato
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Yohei Sato
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門Yohei Sato
 

More from Yohei Sato (15)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
Tokyor22 selection bias
Tokyor22 selection biasTokyor22 selection bias
Tokyor22 selection bias
 
エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部エンジニアサポート新年会2012 データマイニングcross 第1部
エンジニアサポート新年会2012 データマイニングcross 第1部
 
Japan r2 lt_yokkuns
Japan r2 lt_yokkunsJapan r2 lt_yokkuns
Japan r2 lt_yokkuns
 
Japan r2 tokyor
Japan r2 tokyorJapan r2 tokyor
Japan r2 tokyor
 
Japan r2 opening
Japan r2 openingJapan r2 opening
Japan r2 opening
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
 

傾向スコア解析とUplift Modelling

  • 1. 傾向スコア解析と Uplift Modelling @yokkuns: 里 洋平 yohei0511@gmail.com 2012.05.26 第23回Tokyo.R 2012年5月26日土曜日
  • 2. AGENDA ◆ 自己紹介 ◆ 本発表の目的 ◆ 傾向スコア解析 ◆ Uplift Modelling ◆ まとめ 2012年5月26日土曜日
  • 3. AGENDA ◆ 自己紹介 ◆ 本発表の目的 ◆ 傾向スコア解析 ◆ Uplift Modelling ◆ まとめ 2012年5月26日土曜日
  • 4. 自己紹介 時系列解析や異常検知などの方法論を 実ビジネスに適用するデータマイニングエンジニア ◆ 名前: 里 洋平 ◆ ID : yokkuns ◆ 職業: データマイニングエンジニア ◆ 統計解析 パターン認識 機械学 習 データマイニング NLP 金融工学 などを勉強中 2012年5月26日土曜日
  • 5. 活動例: 勉強会の主催・執筆 Tokyo.R主催 パッケージ本執筆しました! 2012年5月26日土曜日
  • 6. 活動例: 動画レコメンド 閲覧されている動画の情報を用いておすすめ動画を表示する 2012年5月26日土曜日
  • 7. 活動例: 市場予測 Web上の情報から市場予測 2012年5月26日土曜日
  • 8. 活動例: 異常検知 Anomaly detection 複数時系列から異常な振る舞いを検知する C A 時系列のモデリング 複数時系列の異常検知 B 時系列A 時系列A 異常な振る舞い 時系列B 時系列C 時系列B 時系列C 異常な振る舞いの時系列を検出 例1:トラフィック異常検知 例2:CM効果のノイズ除去 トラフィックA ケースA CM効果 トラフィックB ケースB トラフィックC 調査 ケースC 異常な振る舞いをしている 異常な振る舞いをしているケースを トラフィックの原因を調査する 除外して、CMの効果を算出する 85 2012年5月26日土曜日
  • 9. 活動例: 時系列解析と異常検知 Anomaly detection 新しいデータと過去時系列モデルの乖離から異常検出 8000.0000 異常スコア推移 3.0000 モデル構築 異常値 ◇例 : ARIMAモデル 2.2500 5970.7500 1.5000 0.7500 3941.5000 0 異常スコアの算出 -0.7500 ◇例 : 対数損失 1912.2500 -1.5000 -2.2500 -117.0000 -3.0000 t 4/ 週 4/ 1週 4/ 8週 5/ 週 5/ 週 5/ 週 5/ 週 5/ 週 6/ 週 6/ 週 6/ 週 6/ 週 7/ 週 7/ 週 7/ 週 7/ 8週 週 4 25 2 9 16 23 30 6 13 20 27 4 11 25 1 1 1 4/ 86 2012年5月26日土曜日
  • 10. 活動例: 時系列解析と影響分析 TV Commercial Effects 時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出 イベン CM時系列 ト 新規 登録 CM ARPP U ARPU 各KPIの時系列 その他 外部 継続率 要因 ケース 87 2012年5月26日土曜日
  • 12. AGENDA ◆ 自己紹介 ◆ 本発表の目的 ◆ 傾向スコア解析 ◆ Uplift Modelling ◆ まとめ 2012年5月26日土曜日
  • 13. 本発表の目的 傾向スコア解析とUplift Modellingが 扱う効果やデータを切る軸が似ていて混乱するので整理する 介入がなかった場合 介入効果 = 処置群の値 - の処置群の値 傾向スコア解析のデータを切る軸 Uplift Modellingのデータを切る軸 介入を受けなかった場合の反応 処置群 対照群 Yes No 介入を受けた 場合の結果 介入を受けた場合の反応 No 介入を受けない 場合の結果 Yes 2012年5月26日土曜日
  • 14. 傾向スコア解析とUplift Modelling 傾向スコア解析とUplift Modellingは やりたい事や扱うデータの対象が大きく違う 傾向スコア解析 Uplift Modelling やりたい事 因果効果の推定 費用対効果の最大化 扱うデータ 観察データ 実験データ 処置群と対照群の両方を使って介入による 共変量を使って処置群と対照群の傾向を アプローチ 行動変化をモデル化して 調整して因果効果を算出する それを最大化するような分類を行う 2012年5月26日土曜日
  • 15. 介入による効果の扱い どちらも介入による効果を扱うが その目的はと扱うデータは大きく異なる 介入がなかった場合 介入効果 = 処置群の値 - の処置群の値 ◆ 傾向スコア解析: ・実験出来ないデータにおいて、割当による影響を除外して介入効果を推定する ◆ Uplift Modelling: ・実験可能なデータを用いて、介入効果を最大にするようなグループ分けを行う 2012年5月26日土曜日
  • 16. 実験出来るデータの因果効果 実験出来るデータでは 因果効果は単純な処置群と対照群の差になる 処置群 対照群 処置群のデータ  対照群のデータ  因果効果 = 処置群の平均 - 対照群の平均 2012年5月26日土曜日
  • 17. 実験出来るデータの因果効果 実験出来るデータでは 因果効果は単純な処置群と対照群の差になる 処置群と対照群を ランダムに割当 処置群 対照群 処置群のデータ  対照群のデータ  因果効果 = 処置群の平均 - 対照群の平均 2012年5月26日土曜日
  • 18. 実験出来るデータの因果効果 実験出来るデータでは 因果効果は単純な処置群と対照群の差になる 処置群と対照群を ランダムに割当 処置群 対照群 介入を受けた 処置群のデータ  欠測  場合の結果 介入を受けない 場合の結果 欠測  対照群のデータ  因果効果 = 処置群の平均 - 対照群の平均 2012年5月26日土曜日
  • 19. 実験出来るデータの因果効果 実験出来るデータでは 因果効果は単純な処置群と対照群の差になる 処置群と対照群を ランダムに割当 処置群 対照群 期待値が等しい! 介入を受けた •対照群が介入を受けていた場合の期待値と 処置群のデータ  欠測  場合の結果 介入を受けた処置群の期待値は同じ 介入を受けない 欠測  対照群のデータ  •処置群が介入を受けない場合の期待値と 場合の結果 介入を受けなかった対照群の期待値は同じ 因果効果 = 処置群の平均 - 対照群の平均 2012年5月26日土曜日
  • 20. 実験出来ないデータの因果効果 割当によって処置群と対照群に差が生じるため 両者を単純に比較することが出来ない 処置群 対照群 処置群のデータ  対照群のデータ  因果効果 処置群の平均 - 対照群の平均 2012年5月26日土曜日
  • 21. 実験出来ないデータの因果効果 割当によって処置群と対照群に差が生じるため 両者を単純に比較することが出来ない 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 処置群のデータ  対照群のデータ  因果効果 処置群の平均 - 対照群の平均 2012年5月26日土曜日
  • 22. 実験出来ないデータの因果効果 割当によって処置群と対照群に差が生じるため 両者を単純に比較することが出来ない 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 介入を受けた 処置群のデータ  欠測  場合の結果 介入を受けない 場合の結果 欠測  対照群のデータ  因果効果 処置群の平均 - 対照群の平均 2012年5月26日土曜日
  • 23. 実験出来ないデータの因果効果 割当によって処置群と対照群に差が生じるため 両者を単純に比較することが出来ない 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 期待値が違う! 介入を受けた •対照群が介入を受けていた場合の期待値と 処置群のデータ  欠測  場合の結果 介入を受けた処置群の期待値が異なる 介入を受けない 欠測  対照群のデータ  •処置群が介入を受けない場合の期待値と 場合の結果 介入を受けなかった対照群の期待値が異なる 因果効果 処置群の平均 - 対照群の平均 2012年5月26日土曜日
  • 24. AGENDA ◆ 自己紹介 ◆ 本発表の目的 ◆ 傾向スコア解析 ◆ Uplift Modelling ◆ まとめ 2012年5月26日土曜日
  • 25. 傾向スコア解析 実験出来ないデータの因果関係を解析する 処置群と対照群の割当 (コントロール出来ない) 処置群 対照群 共変量で割当をモデリング 介入を受けた 処置群のデータ  欠測  場合の結果 傾向スコアの算出 介入を受けない 場合の結果 欠測  対照群のデータ  共変量項目 共通で得られている変数  傾向スコアを用いた調整 ◇マッチング ◇層別解析 ◇共分散分析 2012年5月26日土曜日
  • 26. 欠測データ 割当によって観測出来ない潜在的変数を考える 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ  欠測    場合の結果 介入を受けない 欠測  対照群のデータ      場合の結果 y1とy0は両方存在するが 割当によって観測出来ないと考える 2012年5月26日土曜日
  • 27. 欠測データ 割当変数zと求めたい因果効果 処置群と対照群の割当 z 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ  欠測    場合の結果 介入を受けない 欠測  対照群のデータ      場合の結果 処置群での平均介入効果 average treatment z=1の時のy1とy0の差を知りたいが effect on the treated どちらか一方は観測出来ない 2012年5月26日土曜日
  • 28. 欠測データ 共変量の影響を除去した因果効果 処置群と対照群の割当 z 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ  欠測    場合の結果 介入を受けない 欠測  対照群のデータ      場合の結果 共変量項目 共通で得られている変数  共変量の値が等しい時は 強く無視出来る 割当条件 : 割当はランダムという仮定 共変量の影響を 除去した因果効果 : 2012年5月26日土曜日
  • 29. 欠測データ 共変量の影響を除去した因果効果 処置群と対照群の割当 z 処置群 対照群 z=1 z=0 介入を受けた 処置群のデータ  欠測    場合の結果 介入を受けない 欠測  対照群のデータ      場合の結果 共変量項目 共通で得られている変数  共変量が同じならz=1のy0の期待値を 強く無視出来る 割当条件 : z=0の時のy0の期待値で代用出来る 共変量の影響を 除去した因果効果 : 2012年5月26日土曜日
  • 30. 傾向スコア 対象者の群1へ割り当てられる確率 第i対象者の割当変数の値 第i対象者の共変量の値 2012年5月26日土曜日
  • 31. 傾向スコアの推定 プロビット回帰やロジスティック回帰で推定する 2012年5月26日土曜日
  • 32. 傾向スコアを用いた調整 • マッチング • 2つの群で傾向スコアが等しい(近い)対象者をペアにしてその差の 平均を因果効果とする • 層別解析 • 傾向スコアの大小によっていくつかのサブクラスに分け、その各クラ スで処置群と対照群の平均の計算と、全体としての効果の推定量を計 算する • 共分散分析 • 割当変数と傾向スコアを説明変数とした線形の回帰分析を行う 2012年5月26日土曜日
  • 33. 傾向スコアを用いた調整 傾向スコアの逆数による重み付け平均 2012年5月26日土曜日
  • 34. 傾向スコアを用いた調整 傾向スコアの逆数を重みづけたyの期待値は y1の周辺平均の不偏推定量 2012年5月26日土曜日
  • 35. 傾向スコアを用いた調整 因果効果の推定値とその分散が計算出来る 因果効果 因果効果の分散 2012年5月26日土曜日
  • 36. Rによる実行 Matching パッケージ lalondeデータセット NSW職業訓練データ age 年齢 re74 74年実質賃金 educ 教育年数 re75 75年実質賃金 black 黒人かどうか re78 78年実質賃金 hisp ヒスパニックかどうか u74 74年の賃金が0かどうか married 結婚してるかどうか u75 75年の賃金が0かどうか nodegr 高校卒業有無 treat NSW対象者有無 2012年5月26日土曜日
  • 37. Rによる実行 Matching パッケージ Match(Y=NULL, Tr, X, caliper=F,...) Y : 結果ベクトル Tr : 割当ベクトル X : 共変量または傾向スコア caliper : キャリパーマッチングをやる場合にTRUE ... 2012年5月26日土曜日
  • 38. Rによる実行 Matchingパッケージとデータセットの読み込み 2012年5月26日土曜日
  • 39. Rによる実行 ロジスティック回帰分析で傾向スコアを算出 2012年5月26日土曜日
  • 40. Rによる実行 マッチングで因果効果を推定 NSWプログラムの効果 2012年5月26日土曜日
  • 41. Rによる実行 マッチングのペアの確認 2012年5月26日土曜日
  • 42. Rによる実行 マッチングのペアの確認 処置群のindex 対照群のindex 2012年5月26日土曜日
  • 43. Rによる実行 キャリパーマッチングで因果効果を推定 NSWプログラムの効果 キャリパーマッチング : ペアが特定の距離以上になる時はマッチングしないマッチング 2012年5月26日土曜日
  • 44. RでIPW推定量 傾向スコアの逆数による重みベクトルを作成 2012年5月26日土曜日
  • 45. RでIPW推定量 lmで重みベクトルを指定してIPW推定量を算出 2012年5月26日土曜日
  • 46. RでIPW推定量 lmで重みベクトルを指定してIPW推定量を算出 処置群の IPW推定量と標準誤差 対照群の IPW推定量と標準誤差 2012年5月26日土曜日
  • 47. RでIPW推定量 lmで重みベクトルを指定してIPW推定量を算出 処置群の IPW推定量と標準誤差 因果効果 = 6213.0 - 4589.4 = 1623.6 標準誤差 = (462.2^2+436.4^2) = 635.668 対照群の IPW推定量と標準誤差 2012年5月26日土曜日
  • 48. AGENDA ◆ 自己紹介 ◆ 本発表の目的 ◆ 傾向スコア解析 ◆ Uplift Modelling ◆ まとめ 2012年5月26日土曜日
  • 49. Uplift Modellingとは 費用対効果の最大化を目的とした最新のデータマイニング手法 介入による行動変化をモデル化し効果を最大化する 介入による4つの行動パターン 介入を受けた場合の反応 No あまのじゃく 無関心 YES テッパン 説得可能! YES No 介入を受けなかった場合の反応 2012年5月26日土曜日
  • 50. これまでのマーケティングモデル 顧客を有望な顧客とそうでない顧客に分類し 有望な顧客だけをターゲットにする事で費用対効果を向上させる ◆ 浸透モデル ・既に製品を購入した顧客を特徴づけるモデル ◆ 購入モデル ・最近購入した顧客を特徴づけるモデル ・浸透モデルに似てるが、最近の履歴に注目し、顧客の特性の変化を捉える ◆ レスポンスモデル ・マーケティング活動に反応して購入した顧客を特徴づけるモデル 2012年5月26日土曜日
  • 51. これまでのマーケティングモデル 顧客を有望な顧客とそうでない顧客に分類し 有望な顧客だけをターゲットにする事で費用対効果を向上させる ◆ 浸透モデル ・既に製品を購入した顧客を特徴づけるモデル ◆ 購入モデル ・最近購入した顧客を特徴づけるモデル ・浸透モデルに似てるが、最近の履歴に注目し、顧客の特性の変化を捉える ◆ レスポンスモデル ・マーケティング活動に反応して購入した顧客を特徴づけるモデル 2012年5月26日土曜日
  • 52. レスポンスモデリング 処置群の反応データを用いて レスポンスをモデル化し、ターゲットを決める Training Data 従来のレスポンスモデリング 反応なし 反応あり 処置群 処置群 分類結果 反応あり の場合 良いターゲット 予測対象 2012年5月26日土曜日
  • 53. レスポンスモデリングの課題 処置群だけで学習しているため 介入による行動変化を考慮出来ていない Training Data 従来のレスポンスモデリング 反応なし 反応あり あまのじゃく 説得可能! 処置群 処置群 無関心 テッパン 分類結果 反応あり の場合 良いターゲット 予測対象 2012年5月26日土曜日
  • 54. レスポンスモデリングの課題 処置群だけで学習しているため 介入による行動変化を考慮出来ていない Training Data 従来のレスポンスモデリング 介入しなければ 反応した 反応なし 反応あり あまのじゃく 説得可能! 処置群 処置群 無関心 テッパン 介入しなくても 反応した 分類結果 反応あり の場合 良いターゲット 予測対象 2012年5月26日土曜日
  • 55. 処置群と対照群を用いた学習 処置群と対照群の両方を学習データとする事で 介入による行動変化を捉える Training Data 反応なし 反応あり あまのじゃく 説得可能! 処置群 処置群 無関心 テッパン 対照群 説得可能! あまのじゃく 対照群 無関心 テッパン 予測対象 2012年5月26日土曜日
  • 56. 処置群と対照群を用いた学習 処置群と対照群の両方を学習データとする事で 介入による行動変化を捉える Training Data 反応なし 反応あり あまのじゃく 説得可能! 処置群 処置群 無関心 テッパン 対照群 説得可能! あまのじゃく 対照群 無関心 テッパン 予測対象 2012年5月26日土曜日
  • 57. 処置群と対照群を用いた学習 処置群と対照群の両方を学習データとする事で 介入による行動変化を捉える Training Data 反応なし 反応あり あまのじゃく 説得可能! 処置群 処置群 無関心 テッパン 対照群 説得可能! あまのじゃく 対照群 無関心 テッパン 予測対象 2012年5月26日土曜日
  • 58. Uplift Modelling 単純な 反応あり ・ 反応なし ではなく 介入による行動変化をモデル化しターゲットを決める Training Data Response Uplift Modelling L R あまのじゃく 説得可能! 処置群 処置群 無関心 テッパン 分類結果 R の場合 あまのじゃく 対照群 説得可能! 良いターゲット 対照群 無関心 テッパン 予測対象 2012年5月26日土曜日
  • 59. 分割基準 行動変化によるレスポンス率増と その重要性を最大化する分割を行う L R あまのじゃく 処置群(T) 説得可能! 無関心 テッパン UL UR あまのじゃく 対照群(C) 説得可能! 無関心 テッパン 2012年5月26日土曜日
  • 60. 分割基準 行動変化によるレスポンス率増と その重要性を最大化する分割を行う L R あまのじゃく 処置群(T) 説得可能! 無関心 テッパン UL UR あまのじゃく 対照群(C) 説得可能! 無関心 テッパン ◆ 行動変化によるレスポンス率の増分 ◆ 重要性 (t統計量の2乗) 2012年5月26日土曜日
  • 61. 分割基準 行動変化によるレスポンス率増と その重要性を最大化する分割を行う L R あまのじゃく 処置群(T) 説得可能! 無関心 テッパン UL UR あまのじゃく 対照群(C) 説得可能! 無関心 テッパン ◆ 行動変化によるレスポンス率の増分 ◆ 重要性 (t統計量の2乗) 2012年5月26日土曜日
  • 62. 分割基準 行動変化によるレスポンス率増と その重要性を最大化する分割を行う L R あまのじゃく 処置群(T) 説得可能! 無関心 テッパン UL UR あまのじゃく L 対照群(C) 説得可能! 無関心 テッパン ◆ 行動変化によるレスポンス率の増分 ◆ 重要性 (t統計量の2乗) L R 2012年5月26日土曜日
  • 63. 介入による行動変化の定式化 介入による行動変化を 介入効果とグループ効果の相互作用として表現 L R 介入による効果 介入による効果 処置群(T) グループ効果 グループ効果 相互作用 相互作用 UL UR 介入による効果 介入による効果 対照群(C) グループ効果 グループ効果 相互作用 相互作用 ※Cの介入効果 = Lのグループ効果 = CR相互作用 = TL相互作用 = CL相互作用 = 0 とおく 2012年5月26日土曜日
  • 64. 介入による行動変化の推定 相互作用はRグループとLグループの増分の差で推定される L R 介入による効果 介入による効果 処置群(T) グループ効果 グループ効果 相互作用 相互作用 UL UR 介入による効果 介入による効果 対照群(C) グループ効果 グループ効果 相互作用 相互作用 ※Cの介入効果 = Lのグループ効果 = CR相互作用 = TL相互作用 = CL相互作用 = 0 とおく 2012年5月26日土曜日
  • 65. 介入による行動変化の推定値の誤差と重要性 介入による行動変化は回帰係数として算出され その重要性はt統計量で与えられる T:1, C:0 R:1, L:0 Xi1Xi2 基準値 介入効果 グループ効果 相互作用 ◆ 標準誤差の算出 ◆ t統計量の2乗 2012年5月26日土曜日
  • 66. 分割基準 行動変化によるレスポンス率増と その重要性を最大化する分割を行う L R あまのじゃく 処置群(T) 説得可能! 無関心 テッパン UL UR あまのじゃく L 対照群(C) 説得可能! 無関心 テッパン ◆ 行動変化によるレスポンス率の増分 ◆ 重要性 (t統計量の2乗) L R 2012年5月26日土曜日
  • 67. AGENDA ◆ 自己紹介 ◆ 本発表の目的 ◆ 傾向スコア解析 ◆ Uplift Modelling ◆ まとめ 2012年5月26日土曜日
  • 68. 傾向スコア解析とUplift Modelling 傾向スコア解析とUplift Modellingは やりたい事や扱うデータの対象が大きく違う 傾向スコア解析 Uplift Modelling やりたい事 因果効果の推定 費用対効果の最大化 扱うデータ 観察データ 実験データ 処置群と対照群の両方を使って介入による 共変量を使って処置群と対照群の傾向を アプローチ 行動変化をモデル化して 調整して因果効果を算出する それを最大化するような分類を行う 2012年5月26日土曜日
  • 69. AGENDA ◆ 自己紹介 ◆ 本発表の目的 ◆ 傾向スコア解析 ◆ Uplift Modelling ◆ まとめ 2012年5月26日土曜日
  • 70. 次回以降の 発表者・LTを募集しています! 2012年5月26日土曜日
  • 72. 参考資料 ◆ Rで学ぶ傾向スコア解析入門 http://www.slideshare.net/yokkuns/r-9387843 ◆ Uplift Modelling 入門(1) http://www.slideshare.net/yokkuns/uplift-modelling-1 2012年5月26日土曜日
  • 73. 欠測データ 観測出来ない方のデータを欠測してると考える 因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造 因果推論 処置群 対照群 介入を受けた 処置群のデータ  欠測  場合の結果 データ融合 介入を受けない 場合の結果 欠測  対照群のデータ  購買履歴データ 市場調査データ 購買履歴調査の 購買履歴 欠測  共変量項目 共通で得られている変数  データ  市場調査の 質問紙項目 欠測  回答データ  選択バイアス 選択者 非選択者 共変量項目 共通で得られている変数  従属変数 選択者のデータ  非選択者のデータ  共変量項目 共通で得られている変数  2012年5月26日土曜日