181122_learning_optimal_policies_from_observational_data

© So-net Media Networks Corporation.
Learning Optimal Policies from
Observational Data
Top Conference 論⽂読み会 2018/11/22（⽊）
東京⼯業⼤学経営⼯学系学⼠課程3年
齋藤優太
*本スライドで⽤いられている表や図は全て[1]からの引⽤です.

2紹介論⽂
•  Learning Optimal Policies from Observational Data [1]
•  OxfordのMihaela van der Schaar Lab
•  ICML 2018
•  要約
•  ⽬的：Observationalデータを⽤いた介⼊⽅策最適化
•  背景：既存⼿法はPropensityが必要かつlinearクラスのみ対応
•  ⼿法：Unsupervised Domain Adaptation, DANN*
* Domain Adversarial Neural Network [6]

3研究マップ (BLBF)
BLBF*
PF
[ICML 17]
DACPOL
[ICML 18]
POEM**
[ICML 15]
*Batch Learning from Bandit Feedback
: BLBFの定式化. 精度⾃体はあまり良くないっぽい？
：Policy Outcomeを最⼤化するよう特徴空間を分割しながら
介⼊割当を個別化していくtree-basedなアルゴリズム.
：DANNから着想を得て, 真のPolicy Outcome の
下界をempiricalに算出して, それを最⼤化.
これ
** BanditNet[4]とかSNIPS[5]とかいくつか派⽣⼿法もある

4Abstract & Introduction
Aさん Bさん
Factual介⼊介⼊1 介⼊9
介⼊0 Counterfactual Counterfactual
介⼊1 3,000円 Counterfactual
... ... ... Counterfactual Counterfactual
介⼊8 Counterfactual Counterfactual
介⼊9 Counterfactual 0円
最適介⼊？？
•  以下の状況で, 各データに対する最適な介⼊を導き出したい.
•  しかし, データはObservational. つまり, 各介⼊割り当てが特徴量に依存.

5Notation
•  Action (介⼊) ：
•  特徴量空間：
•  ⽬的変数空間：
•  潜在⽬的変数：
•  学習⽤ログ： (Finite Sample)

6Notation
•  ⽅策(Policy) ：
•  潜在⽬的変数の期待値：
•  Policy Outcome ：

7Notation
•  ⽅策(Policy) ：
•  潜在⽬的変数の期待値：
•  Policy Outcome ：
やりたいことただし、Observational

8Proposed Framework
基本コンセプト：「Policy Outcomeの予測には役⽴つが,
Domainの予測には役⽴たない特徴表現を獲得」
•  representation function：
•  hypothesis class :

9Domain Adaptation的定式化
•  Source分布：
•  Target分布：
•  特徴量周辺分布：
representation function
により新たな分布を⽣成

10Domain Adaptation的定式化
により⽣成される分布を使ってPolicy Outcomeを書き直すと...
これがわかれば苦労しないが、実際はCounterfactualによる⽋損が⽣じるので、
Source分布を⽤いたナイーブな
Policy Outcome推定量
Target分布を⽤いたナイーブな
Policy Outcome推定量
究極の⽬標はこれを最⼤化する
仮説を導き出すこと.
どんな割当にもよしなに対応してくれる

11Target分布を⽤いた推定量は望ましい
Proposition 1.
proof:
⼀旦、は固定（law of iterated expectation）
の項が残るので
つまり？
Target分布(Randomized Data)を⽤いたナイーブな推定量は
真のPolicy Outcomeに⼀致.

12Unsupervised Domain Adaptation
Source Domain
(observational)
Target Domain
(randomized)
•  もちろん, Target分布からの実現値をデータとして得られていれば,
をデータから推定することが可能.
•  もしくは,
•  しかし, 私たちが⽤いることができるのは, 以下のデータのみ.
ラベルありラベルなし

13Sourceのデータを⽤いてboundしたい
やりたいこと
EmpiricalなSource Policy Outcomeを⽤いて真のPolicy Outcomeをbound
データから計算できる
?を解き明かすため⼀つ⼀つ地道に不等式評価していく
でも同じこと.

14分布間距離としてH-divergenceの導⼊
仮説集合に属する任意のPolicy について,
とすると、2つの分布の間のH-divergenceは以下のように定義される.
Definition 1. (H-divergence)
つまり、
という事象列が上で実現する確率と上で実現する確率の差の上限

15Source Policy OutcomeによるBound
Lemma 1.
proof:
真のPolicy Outcomeの下界をSource Policy OutcomeとH-divergenceで表している

16Source Policy OutcomeによるBound
Lemma 1.
proof:
これを有限サンプルから推定した値にすると？

17Policy OutcomeとDivergenceの経験値
The Monte-Carlo Estimator for the Source Policy Outcome
The Empirical H-divergence
経験分布をとする

18Policy OutcomeとDivergenceのbound
Lemma 2.
Lemma 3.
以上の確率で以下が成り⽴つ

Lemma 2.
Lemma 3.
以上の確率で以下が成り⽴つ Empiricalに計算できる

Lemma 2.
Lemma 3.
Hypothesis Complexity

21真のPolicy Outcomeのlower bound
Theorem 1. Lemma 1, 2, 3により, 以上の確率で以下が成り⽴つ
Empirical計算できる
において⼀様

22真のPolicy Outcomeのlower bound
Theorem 1.
ここを最⼤化したい
において⼀様
Lemma 1, 2, 3により, 以上の確率で以下が成り⽴つ

23Counterfactual Policy Optimization
Counterfactual Policy Optimization (CPO)
Theorem 1に基づき, 真のPolicy Outcomeの下界を最⼤化するような
仮説と特徴表現を得るような枠組み
Empirical Source Policy Outcome Empirical H-divergence
(NP-Hard)

24経験Target分布のサンプリング
•  もちろん, ⼿持ちのデータはObservationalなのでそこからunlabeledの
経験Target分布をサンプリングしてあげる必要がある.
•  ここで⼀様な多項分布を⽤いて
Target分布⽤のactionをサンプリング
•  Target分布はunlabeledなので、
事前にサンプリングした特徴量集合と
concatしてあげれば良い

25Optimization Criteria
•  Policy Blockに対する損失関数. に対応.
•  Domain Blockに対する損失関数*. に対応.
最適化において扱いやすくするため
定義に対して修正を加えたもの
: Source分布に従うデータなら0, Target分布に従うデータなら1を取るdomain label
* 論⽂におけるdomain lossはおそらくtypoです. こちらの表記を⽤いるとパラメータ更新式などの筋が通るかと…

26Optimization Criteria
•  Policy Blockに対する損失関数. に対応.
•  Domain Blockに対する損失関数. に対応.
•  Totalの損失関数.
domain lossの考慮具合を司るhyper-parameter
最適化において扱いやすくするため
定義に対して修正を加えたもの

27Architecture (DANN)
以下の3つのパートから成る
•  Representation Block
•  Policy Block
•  Domain Block
Representation Policy
Domain
•  Outcome依存, Domain⾮依存な
新たな特徴表現を得るための層
•  新たに得た特徴表現を⽤いて
最適な介⼊を予測するための層
•  新たに得た特徴表現を⽤いて
Domainを予測するための層

28Architecture (DANN)
以下の3つのパートから成る
•  Representation Block
•  Policy Block
•  Domain Block
をpolicy lossを減少させる⽅向にパラメータを更新.
gradient reversal layer[8] を通すことによって,
はdomain lossを減少させる⽅向に, は増加させる⽅向に
敵対的にパラメータを更新.

29Optimization Algorithm (DACPOL*)
* Domain Adverse Counterfactual POLicy training
Trainデータから経験Target分布を⽣成
(Algorithm 1)
Policy LossとDomain Lossを
それぞれデータから計算
Policy LossとDomain Lossの勾配により
Representation, Policy, Domainの
パラメータを更新
(propagationの様⼦はarchitecture参照)

30Optimization Algorithm (DACPOL*)
* Domain Adverse Counterfactual POLicy training
representation blockのパラメータを
•  Policy Lossを減少させる⽅向
•  Domain Lossを増加させる⽅向
に更新する. に対し敵対的.
Target分布におけるPolicy Lossを減少させるような
特徴表現を得ることを⽬指していると解釈できる

31実験setup
•  使⽤データセット (potential outcomeとactionを⽣成したsemi-synthetic)
•  Breast cancer dataset (5つの治療をaction)
•  Satellite image dataset (imageのlabelをaction)
•  Research Questions (RQs)
1.  Loss（最適介⼊不正解率）
2.  Hyper-parameter を変化させた時の精度の推移
3.  Selection biasの⼤きさに対する頑健性
4.  #Irrelevant featuresに対する頑健性

32RQ1: Loss
•  提案⼿法のDACPOLが他のBenchmarkを圧倒する性能
•  Domain Lossもちゃんと考慮することで性能が向上 (RQ2で検証)
•  POEMやIPSは本論⽂でTrueのPropensityが必要とされているが,
Propensityを必要としないDACPOLとfairに⽐較するため推定値を⽤いた

33RQ2: Lambda
•  Lambdaを徐々に⼤きくした時の
性能の推移グラフ
•  Lambdaが⼩さいとDomain Lossを
考慮せずselection biasの影響を受ける
•  Lambdaが⼤きいとPolicy Lossを
考慮せずoutcomeの予測を考慮しない
特徴表現が学習されてしまう

34RQ3: Selection Bias
•  Selection biasを徐々に⼤きくした時の
性能の推移グラフ
•  Selection biasが⼤きいとSourceとTarget
の分布乖離が⼤きくなるので
lossのboundが緩くなってしまう
•  それでも, domain lossを考慮することで
selection biasの⼤部分を取り除けている

35RQ4: #Irrelevant Features
•  #Irrelevant featuresを徐々に
⼤きくした時の性能の推移グラフ
•  学習データのaction割り当ては
irrelevant featuresにのみ依存
•  #Irrelevant featureが増えると
selection biasも増えるため
POEMはvarianceの増加により性能悪化
•  ⼀⽅で, DACPOLはrepresentation block
でrelevant featuresのみを抽出できるため
性能がさほど変わらない

36Conclusion
•  Observationalデータを⽤いた介⼊⽅策最適化問題に対して
Domain Adaptation的に真のPolicy Outcomeに対する下界を導出
•  Empirical source policy outcomeとempirical H-divergenceに依存する
下界を最⼤化する枠組みとしてCPOを提案
•  CPOにおける⼀つのアルゴリズムとしてDANNに着想を得たDACPOLを提案
•  Semi-syntheticデータを⽤いた実験で, DACPOLはdomain lossとpolicy loss
の良好なtrade-offを達成し, より良い介⼊⽅策を導き出した

37
ご静聴ありがとうございました。

38References
[1] O. Atan, W. R. Zame, and M. van der Schaar.
Learning optimal policies from observational data.
International Conference on Machine Learning (ICMLʼ18).
[2] Adith Swaminathan and Thorsten Joachims.
Batch learning from logged bandit feedback through counterfactual risk minimization.
Journal of Machine Learning Research 16 (2015), 1731–1755.
[3] Adith Swaminathan and Thorsten Joachims.
Counterfactual Risk Minimization: Learning from Logged Bandit Feedback.
International Conference on Machine Learning (ICMLʼ15).
[4] Thorsten Joachims, Artem Grotov, Adith Swaminathan,and Maarten de Rijke.
Deep Learning with Logged Bandit Feedback.
Proceedings of the International Conference on Learning Representations (ICLR) (2018).

39References
[5] A. Swaminathan and T. Joachims.
The self-normalized estimator for counterfactual learning.
In NIPS, 2015
[6] Ganin, Yaroslav, Ustinova, Evgeniya, Ajakan, Hana, Germain,
Pascal, Larochelle, Hugo, Laviolette, Francois, Marchand, Mario, and Lempitsky, Victor.
Domain adversarial training of neural networks.
The Journal of Machine Learning Research, 17(1), 2016.
[7] Ben-David, Shai, Blitzer, John, Crammer, Koby, and Pereira, Fernando.
Analysis of representations for domain adaptation.
In Advances in neural information processing systems, pp. 137–144, 2007.
[8] Yaroslav Ganin and Victor Lempitsky.
Unsupervised domain adaptation by backpropagation.
In ICML, pages 325–333, 2015. URL http://jmlr.org/proceedings/papers/ v37/ganin15.html.

181122_learning_optimal_policies_from_observational_data

Recommended

Recommended

More Related Content

Featured

Featured (20)

181122_learning_optimal_policies_from_observational_data