傾向スコア解析とUplift Modelling

傾向スコア解析と
Uplift Modelling

@yokkuns: 里洋平
yohei0511@gmail.com
2012.05.26 第23回Tokyo.R

2012年5月26日土曜日

AGENDA

◆ 自己紹介

◆ 本発表の目的

◆ 傾向スコア解析

◆ Uplift Modelling

◆ まとめ


自己紹介

時系列解析や異常検知などの方法論を
実ビジネスに適用するデータマイニングエンジニア

◆ 名前: 里洋平
◆ ID : yokkuns
◆ 職業:
データマイニングエンジニア
◆ 統計解析パターン認識機械学
習データマイニング NLP 金融工学
などを勉強中


活動例: 勉強会の主催・執筆

Tokyo.R主催

パッケージ本執筆しました！


活動例: 動画レコメンド

閲覧されている動画の情報を用いておすすめ動画を表示する


活動例: 市場予測

Web上の情報から市場予測


活動例: 異常検知
Anomaly detection

複数時系列から異常な振る舞いを検知する

C
A
時系列のモデリング複数時系列の異常検知 B

時系列A 時系列A

異常な振る舞い
時系列B

時系列C 時系列B 時系列C

異常な振る舞いの時系列を検出

例1:トラフィック異常検知例2:CM効果のノイズ除去

トラフィックA ケースA
CM効果
トラフィックB ケースB

トラフィックC 調査ケースC

異常な振る舞いをしている異常な振る舞いをしているケースを
トラフィックの原因を調査する除外して、CMの効果を算出する
85

活動例: 時系列解析と異常検知
Anomaly detection

新しいデータと過去時系列モデルの乖離から異常検出

8000.0000
異常スコア推移 3.0000
モデル構築
異常値
◇例 : ARIMAモデル 2.2500

5970.7500 1.5000

0.7500

3941.5000 0

異常スコアの算出
-0.7500

◇例 : 対数損失

1912.2500 -1.5000

-2.2500

-117.0000 -3.0000

t
4/ 週
4/ 1週
4/ 8週
5/ 週
5/ 週
5/ 週
5/ 週
5/ 週
6/ 週
6/ 週
6/ 週
6/ 週
7/ 週
7/ 週
7/ 週
7/ 8週
週
4

25
2
9
16
23
30
6
13
20
27
4
11

25
1
1

1
4/

86

活動例: 時系列解析と影響分析
TV Commercial Eﬀects

時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
イベン
CM時系列ト

新規
登録

CM ARPP
U

ARPU

各KPIの時系列
その他
外部
継続率
要因

ケース

87


活動例: データマイニングCROSS


本発表の目的
傾向スコア解析とUplift Modellingが
扱う効果やデータを切る軸が似ていて混乱するので整理する

介入がなかった場合
介入効果 = 処置群の値 - の処置群の値

傾向スコア解析のデータを切る軸 Uplift Modellingのデータを切る軸
介入を受けなかった場合の反応
処置群対照群 Yes No
介入を受けた
場合の結果

介入を受けた場合の反応
No
介入を受けない
場合の結果

Yes


傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modellingは
やりたい事や扱うデータの対象が大きく違う

傾向スコア解析 Uplift Modelling

やりたい事因果効果の推定費用対効果の最大化

扱うデータ観察データ実験データ

処置群と対照群の両方を使って介入による
共変量を使って処置群と対照群の傾向を
アプローチ行動変化をモデル化して
調整して因果効果を算出する
それを最大化するような分類を行う


介入による効果の扱い
どちらも介入による効果を扱うが
その目的はと扱うデータは大きく異なる

介入がなかった場合
介入効果 = 処置群の値 - の処置群の値

◆ 傾向スコア解析:
・実験出来ないデータにおいて、割当による影響を除外して介入効果を推定する

◆ Uplift Modelling:

・実験可能なデータを用いて、介入効果を最大にするようなグループ分けを行う


実験出来るデータの因果効果
実験出来るデータでは
因果効果は単純な処置群と対照群の差になる

処置群対照群

処置群のデータ

対照群のデータ

因果効果 = 処置群の平均 - 対照群の平均



処置群と対照群を
ランダムに割当

処置群対照群







処置群対照群

介入を受けた
処置群のデータ欠測
場合の結果

場合の結果
欠測対照群のデータ





処置群対照群
期待値が等しい！
介入を受けた •対照群が介入を受けていた場合の期待値と
場合の結果介入を受けた処置群の期待値は同じ

欠測対照群のデータ •処置群が介入を受けない場合の期待値と
場合の結果
介入を受けなかった対照群の期待値は同じ



実験出来ないデータの因果効果
割当によって処置群と対照群に差が生じるため
両者を単純に比較することが出来ない

処置群対照群



因果効果処置群の平均 - 対照群の平均



処置群と対照群の割当
(コントロール出来ない)

処置群対照群







処置群対照群

介入を受けた
場合の結果

場合の結果





処置群対照群
期待値が違う！
介入を受けた •対照群が介入を受けていた場合の期待値と
場合の結果介入を受けた処置群の期待値が異なる

欠測対照群のデータ •処置群が介入を受けない場合の期待値と
場合の結果
介入を受けなかった対照群の期待値が異なる



傾向スコア解析

実験出来ないデータの因果関係を解析する


処置群対照群
共変量で割当をモデリング
介入を受けた
場合の結果傾向スコアの算出
場合の結果

共変量項目共通で得られている変数
傾向スコアを用いた調整
◇マッチング
◇層別解析
◇共分散分析


欠測データ

割当によって観測出来ない潜在的変数を考える

処置群対照群 z=1 z=0

介入を受けた
場合の結果

場合の結果

y1とy0は両方存在するが
割当によって観測出来ないと考える

欠測データ

割当変数zと求めたい因果効果

処置群と対照群の割当 z


介入を受けた
場合の結果

場合の結果

処置群での平均介入効果
average treatment z=1の時のy1とy0の差を知りたいが
eﬀect on the treated どちらか一方は観測出来ない

欠測データ

共変量の影響を除去した因果効果



介入を受けた
場合の結果

場合の結果


共変量の値が等しい時は
強く無視出来る
割当条件 : 割当はランダムという仮定
共変量の影響を
除去した因果効果 :

欠測データ

共変量の影響を除去した因果効果



介入を受けた
場合の結果

場合の結果


共変量が同じならz=1のy0の期待値を
強く無視出来る
割当条件 : z=0の時のy0の期待値で代用出来る

共変量の影響を
除去した因果効果 :

傾向スコア

対象者の群1へ割り当てられる確率

第i対象者の割当変数の値

第i対象者の共変量の値


傾向スコアの推定

プロビット回帰やロジスティック回帰で推定する



• マッチング
• 2つの群で傾向スコアが等しい（近い）対象者をペアにしてその差の
平均を因果効果とする

• 層別解析
• 傾向スコアの大小によっていくつかのサブクラスに分け、その各クラ
スで処置群と対照群の平均の計算と、全体としての効果の推定量を計
算する

• 共分散分析
• 割当変数と傾向スコアを説明変数とした線形の回帰分析を行う



傾向スコアの逆数による重み付け平均


傾向スコアの逆数を重みづけたyの期待値は
y1の周辺平均の不偏推定量



因果効果の推定値とその分散が計算出来る

因果効果

因果効果の分散


Rによる実行

Matching パッケージ

lalondeデータセット

NSW職業訓練データ
age 年齢 re74 74年実質賃金
educ 教育年数 re75 75年実質賃金
black 黒人かどうか re78 78年実質賃金
hisp ヒスパニックかどうか u74 74年の賃金が0かどうか
married 結婚してるかどうか u75 75年の賃金が0かどうか
nodegr 高校卒業有無 treat NSW対象者有無


Rによる実行

Matching パッケージ

Match(Y=NULL, Tr, X, caliper=F,...)

Y : 結果ベクトル
Tr : 割当ベクトル
X : 共変量または傾向スコア
caliper : キャリパーマッチングをやる場合にTRUE
...


Rによる実行

Matchingパッケージとデータセットの読み込み


Rによる実行

ロジスティック回帰分析で傾向スコアを算出


Rによる実行

マッチングで因果効果を推定

NSWプログラムの効果


Rによる実行

マッチングのペアの確認


Rによる実行

マッチングのペアの確認

処置群のindex

対照群のindex


Rによる実行

キャリパーマッチングで因果効果を推定

NSWプログラムの効果

キャリパーマッチング : ペアが特定の距離以上になる時はマッチングしないマッチング


RでIPW推定量

傾向スコアの逆数による重みベクトルを作成


RでIPW推定量

lmで重みベクトルを指定してIPW推定量を算出


RでIPW推定量


処置群の
IPW推定量と標準誤差

対照群の


RでIPW推定量


処置群の
因果効果 = 6213.0 - 4589.4
= 1623.6

標準誤差 = (462.2^2+436.4^2)
= 635.668

対照群の


Uplift Modellingとは
費用対効果の最大化を目的とした最新のデータマイニング手法
介入による行動変化をモデル化し効果を最大化する

介入による4つの行動パターン
介入を受けた場合の反応

No あまのじゃく無関心

YES テッパン説得可能！

YES No
介入を受けなかった場合の反応


これまでのマーケティングモデル
顧客を有望な顧客とそうでない顧客に分類し
有望な顧客だけをターゲットにする事で費用対効果を向上させる

◆ 浸透モデル
・既に製品を購入した顧客を特徴づけるモデル

◆ 購入モデル
・最近購入した顧客を特徴づけるモデル
・浸透モデルに似てるが、最近の履歴に注目し、顧客の特性の変化を捉える

◆ レスポンスモデル
・マーケティング活動に反応して購入した顧客を特徴づけるモデル


レスポンスモデリング
処置群の反応データを用いて
レスポンスをモデル化し、ターゲットを決める

Training Data 従来のレスポンスモデリング
反応なし反応あり
処置群

処置群分類結果
反応ありの場合
良いターゲット

予測対象


レスポンスモデリングの課題
処置群だけで学習しているため
介入による行動変化を考慮出来ていない


あまのじゃく説得可能！
処置群

処置群
無関心テッパン

分類結果

予測対象


レスポンスモデリングの課題
処置群だけで学習しているため
介入による行動変化を考慮出来ていない

介入しなければ
反応した

処置群

処置群

介入しなくても
反応した分類結果

予測対象


処置群と対照群を用いた学習
処置群と対照群の両方を学習データとする事で
介入による行動変化を捉える

Training Data

処置群

処置群
対照群

説得可能！あまのじゃく
対照群


予測対象


Uplift Modelling
単純な反応あり・反応なしではなく
介入による行動変化をモデル化しターゲットを決める

Training Data Response Uplift Modelling
L R
あまのじゃく
説得可能！
処置群

処置群
無関心

テッパン

分類結果
R の場合
あまのじゃく
対照群

説得可能！良いターゲット
対照群

無関心

テッパン

予測対象


分割基準
行動変化によるレスポンス率増と
その重要性を最大化する分割を行う

L R
あまのじゃく
処置群(T)

説得可能！
無関心

テッパン

UL UR

あまのじゃく
対照群(C)

説得可能！
無関心
テッパン


分割基準

L R
あまのじゃく
処置群(T)

説得可能！
無関心

テッパン

UL UR

あまのじゃく
対照群(C)

説得可能！
無関心
テッパン

◆ 行動変化によるレスポンス率の増分

◆ 重要性 (t統計量の2乗)


分割基準

L R
あまのじゃく
処置群(T)

説得可能！
無関心

テッパン

UL UR

あまのじゃく L
対照群(C)

説得可能！
無関心
テッパン

◆ 行動変化によるレスポンス率の増分

◆ 重要性 (t統計量の2乗) L R


介入による行動変化の定式化
介入による行動変化を
介入効果とグループ効果の相互作用として表現

L R

介入による効果介入による効果
処置群(T)

グループ効果グループ効果
相互作用相互作用

UL UR

対照群(C)


※Cの介入効果 = Lのグループ効果 = CR相互作用 = TL相互作用 = CL相互作用 = 0 とおく

介入による行動変化の推定
相互作用はRグループとLグループの増分の差で推定される

L R

処置群(T)


UL UR

対照群(C)


※Cの介入効果 = Lのグループ効果 = CR相互作用 = TL相互作用 = CL相互作用 = 0 とおく

介入による行動変化の推定値の誤差と重要性
介入による行動変化は回帰係数として算出され
その重要性はt統計量で与えられる
T:1, C:0 R:1, L:0 Xi1Xi2

基準値

介入効果

グループ効果

相互作用

◆ 標準誤差の算出 ◆ t統計量の2乗


次回以降の

発表者・LTを募集しています！


ご清聴ありがとうございました！


参考資料

◆ Rで学ぶ傾向スコア解析入門
http://www.slideshare.net/yokkuns/r-9387843

◆ Uplift Modelling 入門（1）
http://www.slideshare.net/yokkuns/uplift-modelling-1


欠測データ
観測出来ない方のデータを欠測してると考える
因果推論、選択バイアス、データ融合を統一的に扱えるデータ構造

因果推論
処置群対照群

介入を受けた
場合の結果データ融合
場合の結果
欠測対照群のデータ購買履歴データ市場調査データ

購買履歴調査の
購買履歴欠測
共変量項目共通で得られている変数データ

市場調査の
質問紙項目欠測
回答データ
選択バイアス
選択者非選択者

従属変数選択者のデータ非選択者のデータ



傾向スコア解析とUplift Modelling

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

More from Yohei Sato

More from Yohei Sato (15)

傾向スコア解析とUplift Modelling