SlideShare a Scribd company logo
1 of 39
© So-net Media Networks Corporation.
Learning Optimal Policies from
Observational Data	
Top Conference 論⽂読み会 2018/11/22(⽊)
東京⼯業⼤学 経営⼯学系 学⼠課程3年
齋藤 優太
*本スライドで⽤いられている表や図は全て[1]からの引⽤です.
© So-net Media Networks Corporation.
2紹介論⽂
•  Learning Optimal Policies from Observational Data [1]
•  OxfordのMihaela van der Schaar Lab
•  ICML 2018
•  要約
•  ⽬的:Observationalデータを⽤いた介⼊⽅策最適化
•  背景:既存⼿法はPropensityが必要かつlinearクラスのみ対応
•  ⼿法:Unsupervised Domain Adaptation, DANN*
* Domain Adversarial Neural Network [6]
© So-net Media Networks Corporation.
3研究マップ (BLBF)
BLBF*
PF
[ICML 17]
DACPOL
[ICML 18]
POEM**
[ICML 15]
*Batch Learning from Bandit Feedback
: BLBFの定式化. 精度⾃体はあまり良くないっぽい?
:Policy Outcomeを最⼤化するよう特徴空間を分割しながら
 介⼊割当を個別化していくtree-basedなアルゴリズム.
:DANNから着想を得て, 真のPolicy Outcome の
 下界をempiricalに算出して, それを最⼤化.
これ
** BanditNet[4]とかSNIPS[5]とかいくつか派⽣⼿法もある
© So-net Media Networks Corporation.
4Abstract & Introduction
Aさん Bさん
Factual介⼊ 介⼊1 介⼊9
介⼊0 Counterfactual Counterfactual
介⼊1 3,000円 Counterfactual
... ... ... Counterfactual Counterfactual
介⼊8 Counterfactual Counterfactual
介⼊9 Counterfactual 0円
最適介⼊ ? ?
•  以下の状況で, 各データに対する最適な介⼊を導き出したい.
•  しかし, データはObservational. つまり, 各介⼊割り当てが特徴量に依存.
© So-net Media Networks Corporation.
5Notation
•  Action (介⼊) :
•  特徴量空間  :
•  ⽬的変数空間 :
•  潜在⽬的変数 :
•  学習⽤ログ : (Finite Sample)
© So-net Media Networks Corporation.
6Notation
•  ⽅策(Policy) :
•  潜在⽬的変数の期待値:
•  Policy Outcome :
© So-net Media Networks Corporation.
7Notation
•  ⽅策(Policy) :
•  潜在⽬的変数の期待値:
•  Policy Outcome :
やりたいこと ただし、Observational
© So-net Media Networks Corporation.
8Proposed Framework
基本コンセプト:「Policy Outcomeの予測には役⽴つが,
         Domainの予測には役⽴たない特徴表現を獲得」
•  representation function:
•  hypothesis class :
© So-net Media Networks Corporation.
9Domain Adaptation的定式化
•  Source分布 :
•  Target分布 :
•  特徴量周辺分布:
representation function
 により新たな分布を⽣成
© So-net Media Networks Corporation.
10Domain Adaptation的定式化
により⽣成される分布を使ってPolicy Outcomeを書き直すと...
これがわかれば苦労しないが、実際はCounterfactualによる⽋損が⽣じるので、
Source分布を⽤いたナイーブな
Policy Outcome推定量
Target分布を⽤いたナイーブな
Policy Outcome推定量
究極の⽬標はこれを最⼤化する
仮説  を導き出すこと.
どんな割当にもよしなに対応してくれる
© So-net Media Networks Corporation.
11Target分布を⽤いた推定量は望ましい
Proposition 1.
proof:
⼀旦、 は固定(law of iterated expectation)
の項が残るので
つまり?
Target分布(Randomized Data)を⽤いたナイーブな推定量は
真のPolicy Outcomeに⼀致.
© So-net Media Networks Corporation.
12Unsupervised Domain Adaptation
Source Domain
(observational)
Target Domain
(randomized)
•  もちろん, Target分布からの実現値をデータとして得られていれば,
    をデータから推定することが可能.
•  もしくは,
•  しかし, 私たちが⽤いることができるのは, 以下のデータのみ.
ラベルあり ラベルなし
© So-net Media Networks Corporation.
13Sourceのデータを⽤いてboundしたい
やりたいこと
EmpiricalなSource Policy Outcomeを⽤いて真のPolicy Outcomeをbound
データから計算できる
?を解き明かすため⼀つ⼀つ地道に不等式評価していく
でも同じこと.
© So-net Media Networks Corporation.
14分布間距離としてH-divergenceの導⼊
仮説集合  に属する任意のPolicy について,
とすると、2つの分布     の間のH-divergenceは以下のように定義される.
Definition 1. (H-divergence)
つまり、
という事象列が  上で実現する確率と  上で実現する確率の差の上限
© So-net Media Networks Corporation.
15Source Policy OutcomeによるBound
Lemma 1.
proof:
真のPolicy Outcomeの下界をSource Policy OutcomeとH-divergenceで表している
© So-net Media Networks Corporation.
16Source Policy OutcomeによるBound
Lemma 1.
proof:
これを有限サンプルから推定した値にすると?
© So-net Media Networks Corporation.
17Policy OutcomeとDivergenceの経験値
The Monte-Carlo Estimator for the Source Policy Outcome
The Empirical H-divergence
経験分布を とする
© So-net Media Networks Corporation.
18Policy OutcomeとDivergenceのbound
Lemma 2.
Lemma 3.
以上の確率で以下が成り⽴つ
以上の確率で以下が成り⽴つ
© So-net Media Networks Corporation.
19Policy OutcomeとDivergenceのbound
Lemma 2.
Lemma 3.
以上の確率で以下が成り⽴つ
以上の確率で以下が成り⽴つ Empiricalに計算できる
© So-net Media Networks Corporation.
20Policy OutcomeとDivergenceのbound
Lemma 2.
Lemma 3.
以上の確率で以下が成り⽴つ
以上の確率で以下が成り⽴つ
Hypothesis Complexity
© So-net Media Networks Corporation.
21真のPolicy Outcomeのlower bound
Theorem 1. Lemma 1, 2, 3により, 以上の確率で以下が成り⽴つ
Empirical計算できる
 において⼀様
© So-net Media Networks Corporation.
22真のPolicy Outcomeのlower bound
Theorem 1.
ここを最⼤化したい
 において⼀様
Lemma 1, 2, 3により, 以上の確率で以下が成り⽴つ
© So-net Media Networks Corporation.
23Counterfactual Policy Optimization
Counterfactual Policy Optimization (CPO)
Theorem 1に基づき, 真のPolicy Outcomeの下界を最⼤化するような
仮説と特徴表現を得るような枠組み
Empirical Source Policy Outcome Empirical H-divergence
(NP-Hard)
© So-net Media Networks Corporation.
24経験Target分布のサンプリング
•  もちろん, ⼿持ちのデータはObservationalなのでそこからunlabeledの
経験Target分布をサンプリングしてあげる必要がある.
•  ここで⼀様な多項分布を⽤いて
Target分布⽤のactionをサンプリング
•  Target分布はunlabeledなので、
事前にサンプリングした特徴量集合と
concatしてあげれば良い
© So-net Media Networks Corporation.
25Optimization Criteria
•  Policy Blockに対する損失関数. に対応.
•  Domain Blockに対する損失関数*. に対応.
最適化において扱いやすくするため
定義に対して修正を加えたもの
: Source分布に従うデータなら0, Target分布に従うデータなら1を取るdomain label
* 論⽂におけるdomain lossはおそらくtypoです. こちらの表記を⽤いるとパラメータ更新式などの筋が通るかと…
© So-net Media Networks Corporation.
26Optimization Criteria
•  Policy Blockに対する損失関数. に対応.
•  Domain Blockに対する損失関数. に対応.
•  Totalの損失関数.
domain lossの考慮具合を司るhyper-parameter
最適化において扱いやすくするため
定義に対して修正を加えたもの
© So-net Media Networks Corporation.
27Architecture (DANN)
以下の3つのパートから成る
•  Representation Block
•  Policy Block
•  Domain Block
Representation Policy
Domain
•  Outcome依存, Domain⾮依存な
新たな特徴表現を得るための層
•  新たに得た特徴表現を⽤いて
最適な介⼊を予測するための層
•  新たに得た特徴表現を⽤いて
Domainを予測するための層
© So-net Media Networks Corporation.
28Architecture (DANN)
以下の3つのパートから成る
•  Representation Block
•  Policy Block
•  Domain Block
をpolicy lossを減少させる⽅向にパラメータを更新.
gradient reversal layer[8] を通すことによって,  
  はdomain lossを減少させる⽅向に, は増加させる⽅向に
敵対的にパラメータを更新.
© So-net Media Networks Corporation.
29Optimization Algorithm (DACPOL*)
* Domain Adverse Counterfactual POLicy training
Trainデータから経験Target分布を⽣成
(Algorithm 1)
Policy LossとDomain Lossを
それぞれデータから計算
Policy LossとDomain Lossの勾配により
Representation, Policy, Domainの
パラメータを更新
(propagationの様⼦はarchitecture参照)
© So-net Media Networks Corporation.
30Optimization Algorithm (DACPOL*)
* Domain Adverse Counterfactual POLicy training
representation blockのパラメータを
•  Policy Lossを減少させる⽅向
•  Domain Lossを増加させる⽅向
に更新する. に対し敵対的.
Target分布におけるPolicy Lossを減少させるような
特徴表現を得ることを⽬指していると解釈できる
© So-net Media Networks Corporation.
31実験setup
•  使⽤データセット (potential outcomeとactionを⽣成したsemi-synthetic)
•  Breast cancer dataset (5つの治療をaction)
•  Satellite image dataset (imageのlabelをaction)
•  Research Questions (RQs)
1.  Loss(最適介⼊不正解率)
2.  Hyper-parameter を変化させた時の精度の推移
3.  Selection biasの⼤きさに対する頑健性
4.  #Irrelevant featuresに対する頑健性
© So-net Media Networks Corporation.
32RQ1: Loss
•  提案⼿法のDACPOLが他のBenchmarkを圧倒する性能
•  Domain Lossもちゃんと考慮することで性能が向上 (RQ2で検証)
•  POEMやIPSは本論⽂でTrueのPropensityが必要とされているが,
Propensityを必要としないDACPOLとfairに⽐較するため推定値を⽤いた
© So-net Media Networks Corporation.
33RQ2: Lambda
•  Lambdaを徐々に⼤きくした時の
性能の推移グラフ
•  Lambdaが⼩さいとDomain Lossを
考慮せずselection biasの影響を受ける
•  Lambdaが⼤きいとPolicy Lossを
考慮せずoutcomeの予測を考慮しない
特徴表現が学習されてしまう
© So-net Media Networks Corporation.
34RQ3: Selection Bias
•  Selection biasを徐々に⼤きくした時の
性能の推移グラフ
•  Selection biasが⼤きいとSourceとTarget
の分布乖離が⼤きくなるので
lossのboundが緩くなってしまう
•  それでも, domain lossを考慮することで
selection biasの⼤部分を取り除けている
© So-net Media Networks Corporation.
35RQ4: #Irrelevant Features
•  #Irrelevant featuresを徐々に
⼤きくした時の性能の推移グラフ
•  学習データのaction割り当ては
irrelevant featuresにのみ依存
•  #Irrelevant featureが増えると
selection biasも増えるため
POEMはvarianceの増加により性能悪化
•  ⼀⽅で, DACPOLはrepresentation block
でrelevant featuresのみを抽出できるため
性能がさほど変わらない
© So-net Media Networks Corporation.
36Conclusion
•  Observationalデータを⽤いた介⼊⽅策最適化問題に対して
Domain Adaptation的に真のPolicy Outcomeに対する下界を導出
•  Empirical source policy outcomeとempirical H-divergenceに依存する
下界を最⼤化する枠組みとしてCPOを提案
•  CPOにおける⼀つのアルゴリズムとしてDANNに着想を得たDACPOLを提案
•  Semi-syntheticデータを⽤いた実験で, DACPOLはdomain lossとpolicy loss
の良好なtrade-offを達成し, より良い介⼊⽅策を導き出した
© So-net Media Networks Corporation.
37
ご静聴ありがとうございました。
© So-net Media Networks Corporation.
38References
[1] O. Atan, W. R. Zame, and M. van der Schaar.
Learning optimal policies from observational data.
International Conference on Machine Learning (ICMLʼ18).
[2] Adith Swaminathan and Thorsten Joachims.
Batch learning from logged bandit feedback through counterfactual risk minimization.
Journal of Machine Learning Research 16 (2015), 1731–1755.
[3] Adith Swaminathan and Thorsten Joachims.
Counterfactual Risk Minimization: Learning from Logged Bandit Feedback.
International Conference on Machine Learning (ICMLʼ15).
[4] Thorsten Joachims, Artem Grotov, Adith Swaminathan,and Maarten de Rijke.
Deep Learning with Logged Bandit Feedback.
Proceedings of the International Conference on Learning Representations (ICLR) (2018).
© So-net Media Networks Corporation.
39References
[5] A. Swaminathan and T. Joachims.
The self-normalized estimator for counterfactual learning.
In NIPS, 2015
[6] Ganin, Yaroslav, Ustinova, Evgeniya, Ajakan, Hana, Germain,
Pascal, Larochelle, Hugo, Laviolette, Francois, Marchand, Mario, and Lempitsky, Victor.
Domain adversarial training of neural networks.
The Journal of Machine Learning Research, 17(1), 2016.
[7] Ben-David, Shai, Blitzer, John, Crammer, Koby, and Pereira, Fernando.
Analysis of representations for domain adaptation.
In Advances in neural information processing systems, pp. 137–144, 2007.
[8] Yaroslav Ganin and Victor Lempitsky.
Unsupervised domain adaptation by backpropagation.
In ICML, pages 325–333, 2015. URL http://jmlr.org/proceedings/papers/ v37/ganin15.html.

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

181122_learning_optimal_policies_from_observational_data

  • 1. © So-net Media Networks Corporation. Learning Optimal Policies from Observational Data Top Conference 論⽂読み会 2018/11/22(⽊) 東京⼯業⼤学 経営⼯学系 学⼠課程3年 齋藤 優太 *本スライドで⽤いられている表や図は全て[1]からの引⽤です.
  • 2. © So-net Media Networks Corporation. 2紹介論⽂ •  Learning Optimal Policies from Observational Data [1] •  OxfordのMihaela van der Schaar Lab •  ICML 2018 •  要約 •  ⽬的:Observationalデータを⽤いた介⼊⽅策最適化 •  背景:既存⼿法はPropensityが必要かつlinearクラスのみ対応 •  ⼿法:Unsupervised Domain Adaptation, DANN* * Domain Adversarial Neural Network [6]
  • 3. © So-net Media Networks Corporation. 3研究マップ (BLBF) BLBF* PF [ICML 17] DACPOL [ICML 18] POEM** [ICML 15] *Batch Learning from Bandit Feedback : BLBFの定式化. 精度⾃体はあまり良くないっぽい? :Policy Outcomeを最⼤化するよう特徴空間を分割しながら  介⼊割当を個別化していくtree-basedなアルゴリズム. :DANNから着想を得て, 真のPolicy Outcome の  下界をempiricalに算出して, それを最⼤化. これ ** BanditNet[4]とかSNIPS[5]とかいくつか派⽣⼿法もある
  • 4. © So-net Media Networks Corporation. 4Abstract & Introduction Aさん Bさん Factual介⼊ 介⼊1 介⼊9 介⼊0 Counterfactual Counterfactual 介⼊1 3,000円 Counterfactual ... ... ... Counterfactual Counterfactual 介⼊8 Counterfactual Counterfactual 介⼊9 Counterfactual 0円 最適介⼊ ? ? •  以下の状況で, 各データに対する最適な介⼊を導き出したい. •  しかし, データはObservational. つまり, 各介⼊割り当てが特徴量に依存.
  • 5. © So-net Media Networks Corporation. 5Notation •  Action (介⼊) : •  特徴量空間  : •  ⽬的変数空間 : •  潜在⽬的変数 : •  学習⽤ログ : (Finite Sample)
  • 6. © So-net Media Networks Corporation. 6Notation •  ⽅策(Policy) : •  潜在⽬的変数の期待値: •  Policy Outcome :
  • 7. © So-net Media Networks Corporation. 7Notation •  ⽅策(Policy) : •  潜在⽬的変数の期待値: •  Policy Outcome : やりたいこと ただし、Observational
  • 8. © So-net Media Networks Corporation. 8Proposed Framework 基本コンセプト:「Policy Outcomeの予測には役⽴つが,          Domainの予測には役⽴たない特徴表現を獲得」 •  representation function: •  hypothesis class :
  • 9. © So-net Media Networks Corporation. 9Domain Adaptation的定式化 •  Source分布 : •  Target分布 : •  特徴量周辺分布: representation function  により新たな分布を⽣成
  • 10. © So-net Media Networks Corporation. 10Domain Adaptation的定式化 により⽣成される分布を使ってPolicy Outcomeを書き直すと... これがわかれば苦労しないが、実際はCounterfactualによる⽋損が⽣じるので、 Source分布を⽤いたナイーブな Policy Outcome推定量 Target分布を⽤いたナイーブな Policy Outcome推定量 究極の⽬標はこれを最⼤化する 仮説  を導き出すこと. どんな割当にもよしなに対応してくれる
  • 11. © So-net Media Networks Corporation. 11Target分布を⽤いた推定量は望ましい Proposition 1. proof: ⼀旦、 は固定(law of iterated expectation) の項が残るので つまり? Target分布(Randomized Data)を⽤いたナイーブな推定量は 真のPolicy Outcomeに⼀致.
  • 12. © So-net Media Networks Corporation. 12Unsupervised Domain Adaptation Source Domain (observational) Target Domain (randomized) •  もちろん, Target分布からの実現値をデータとして得られていれば,     をデータから推定することが可能. •  もしくは, •  しかし, 私たちが⽤いることができるのは, 以下のデータのみ. ラベルあり ラベルなし
  • 13. © So-net Media Networks Corporation. 13Sourceのデータを⽤いてboundしたい やりたいこと EmpiricalなSource Policy Outcomeを⽤いて真のPolicy Outcomeをbound データから計算できる ?を解き明かすため⼀つ⼀つ地道に不等式評価していく でも同じこと.
  • 14. © So-net Media Networks Corporation. 14分布間距離としてH-divergenceの導⼊ 仮説集合  に属する任意のPolicy について, とすると、2つの分布     の間のH-divergenceは以下のように定義される. Definition 1. (H-divergence) つまり、 という事象列が  上で実現する確率と  上で実現する確率の差の上限
  • 15. © So-net Media Networks Corporation. 15Source Policy OutcomeによるBound Lemma 1. proof: 真のPolicy Outcomeの下界をSource Policy OutcomeとH-divergenceで表している
  • 16. © So-net Media Networks Corporation. 16Source Policy OutcomeによるBound Lemma 1. proof: これを有限サンプルから推定した値にすると?
  • 17. © So-net Media Networks Corporation. 17Policy OutcomeとDivergenceの経験値 The Monte-Carlo Estimator for the Source Policy Outcome The Empirical H-divergence 経験分布を とする
  • 18. © So-net Media Networks Corporation. 18Policy OutcomeとDivergenceのbound Lemma 2. Lemma 3. 以上の確率で以下が成り⽴つ 以上の確率で以下が成り⽴つ
  • 19. © So-net Media Networks Corporation. 19Policy OutcomeとDivergenceのbound Lemma 2. Lemma 3. 以上の確率で以下が成り⽴つ 以上の確率で以下が成り⽴つ Empiricalに計算できる
  • 20. © So-net Media Networks Corporation. 20Policy OutcomeとDivergenceのbound Lemma 2. Lemma 3. 以上の確率で以下が成り⽴つ 以上の確率で以下が成り⽴つ Hypothesis Complexity
  • 21. © So-net Media Networks Corporation. 21真のPolicy Outcomeのlower bound Theorem 1. Lemma 1, 2, 3により, 以上の確率で以下が成り⽴つ Empirical計算できる  において⼀様
  • 22. © So-net Media Networks Corporation. 22真のPolicy Outcomeのlower bound Theorem 1. ここを最⼤化したい  において⼀様 Lemma 1, 2, 3により, 以上の確率で以下が成り⽴つ
  • 23. © So-net Media Networks Corporation. 23Counterfactual Policy Optimization Counterfactual Policy Optimization (CPO) Theorem 1に基づき, 真のPolicy Outcomeの下界を最⼤化するような 仮説と特徴表現を得るような枠組み Empirical Source Policy Outcome Empirical H-divergence (NP-Hard)
  • 24. © So-net Media Networks Corporation. 24経験Target分布のサンプリング •  もちろん, ⼿持ちのデータはObservationalなのでそこからunlabeledの 経験Target分布をサンプリングしてあげる必要がある. •  ここで⼀様な多項分布を⽤いて Target分布⽤のactionをサンプリング •  Target分布はunlabeledなので、 事前にサンプリングした特徴量集合と concatしてあげれば良い
  • 25. © So-net Media Networks Corporation. 25Optimization Criteria •  Policy Blockに対する損失関数. に対応. •  Domain Blockに対する損失関数*. に対応. 最適化において扱いやすくするため 定義に対して修正を加えたもの : Source分布に従うデータなら0, Target分布に従うデータなら1を取るdomain label * 論⽂におけるdomain lossはおそらくtypoです. こちらの表記を⽤いるとパラメータ更新式などの筋が通るかと…
  • 26. © So-net Media Networks Corporation. 26Optimization Criteria •  Policy Blockに対する損失関数. に対応. •  Domain Blockに対する損失関数. に対応. •  Totalの損失関数. domain lossの考慮具合を司るhyper-parameter 最適化において扱いやすくするため 定義に対して修正を加えたもの
  • 27. © So-net Media Networks Corporation. 27Architecture (DANN) 以下の3つのパートから成る •  Representation Block •  Policy Block •  Domain Block Representation Policy Domain •  Outcome依存, Domain⾮依存な 新たな特徴表現を得るための層 •  新たに得た特徴表現を⽤いて 最適な介⼊を予測するための層 •  新たに得た特徴表現を⽤いて Domainを予測するための層
  • 28. © So-net Media Networks Corporation. 28Architecture (DANN) 以下の3つのパートから成る •  Representation Block •  Policy Block •  Domain Block をpolicy lossを減少させる⽅向にパラメータを更新. gradient reversal layer[8] を通すことによって,     はdomain lossを減少させる⽅向に, は増加させる⽅向に 敵対的にパラメータを更新.
  • 29. © So-net Media Networks Corporation. 29Optimization Algorithm (DACPOL*) * Domain Adverse Counterfactual POLicy training Trainデータから経験Target分布を⽣成 (Algorithm 1) Policy LossとDomain Lossを それぞれデータから計算 Policy LossとDomain Lossの勾配により Representation, Policy, Domainの パラメータを更新 (propagationの様⼦はarchitecture参照)
  • 30. © So-net Media Networks Corporation. 30Optimization Algorithm (DACPOL*) * Domain Adverse Counterfactual POLicy training representation blockのパラメータを •  Policy Lossを減少させる⽅向 •  Domain Lossを増加させる⽅向 に更新する. に対し敵対的. Target分布におけるPolicy Lossを減少させるような 特徴表現を得ることを⽬指していると解釈できる
  • 31. © So-net Media Networks Corporation. 31実験setup •  使⽤データセット (potential outcomeとactionを⽣成したsemi-synthetic) •  Breast cancer dataset (5つの治療をaction) •  Satellite image dataset (imageのlabelをaction) •  Research Questions (RQs) 1.  Loss(最適介⼊不正解率) 2.  Hyper-parameter を変化させた時の精度の推移 3.  Selection biasの⼤きさに対する頑健性 4.  #Irrelevant featuresに対する頑健性
  • 32. © So-net Media Networks Corporation. 32RQ1: Loss •  提案⼿法のDACPOLが他のBenchmarkを圧倒する性能 •  Domain Lossもちゃんと考慮することで性能が向上 (RQ2で検証) •  POEMやIPSは本論⽂でTrueのPropensityが必要とされているが, Propensityを必要としないDACPOLとfairに⽐較するため推定値を⽤いた
  • 33. © So-net Media Networks Corporation. 33RQ2: Lambda •  Lambdaを徐々に⼤きくした時の 性能の推移グラフ •  Lambdaが⼩さいとDomain Lossを 考慮せずselection biasの影響を受ける •  Lambdaが⼤きいとPolicy Lossを 考慮せずoutcomeの予測を考慮しない 特徴表現が学習されてしまう
  • 34. © So-net Media Networks Corporation. 34RQ3: Selection Bias •  Selection biasを徐々に⼤きくした時の 性能の推移グラフ •  Selection biasが⼤きいとSourceとTarget の分布乖離が⼤きくなるので lossのboundが緩くなってしまう •  それでも, domain lossを考慮することで selection biasの⼤部分を取り除けている
  • 35. © So-net Media Networks Corporation. 35RQ4: #Irrelevant Features •  #Irrelevant featuresを徐々に ⼤きくした時の性能の推移グラフ •  学習データのaction割り当ては irrelevant featuresにのみ依存 •  #Irrelevant featureが増えると selection biasも増えるため POEMはvarianceの増加により性能悪化 •  ⼀⽅で, DACPOLはrepresentation block でrelevant featuresのみを抽出できるため 性能がさほど変わらない
  • 36. © So-net Media Networks Corporation. 36Conclusion •  Observationalデータを⽤いた介⼊⽅策最適化問題に対して Domain Adaptation的に真のPolicy Outcomeに対する下界を導出 •  Empirical source policy outcomeとempirical H-divergenceに依存する 下界を最⼤化する枠組みとしてCPOを提案 •  CPOにおける⼀つのアルゴリズムとしてDANNに着想を得たDACPOLを提案 •  Semi-syntheticデータを⽤いた実験で, DACPOLはdomain lossとpolicy loss の良好なtrade-offを達成し, より良い介⼊⽅策を導き出した
  • 37. © So-net Media Networks Corporation. 37 ご静聴ありがとうございました。
  • 38. © So-net Media Networks Corporation. 38References [1] O. Atan, W. R. Zame, and M. van der Schaar. Learning optimal policies from observational data. International Conference on Machine Learning (ICMLʼ18). [2] Adith Swaminathan and Thorsten Joachims. Batch learning from logged bandit feedback through counterfactual risk minimization. Journal of Machine Learning Research 16 (2015), 1731–1755. [3] Adith Swaminathan and Thorsten Joachims. Counterfactual Risk Minimization: Learning from Logged Bandit Feedback. International Conference on Machine Learning (ICMLʼ15). [4] Thorsten Joachims, Artem Grotov, Adith Swaminathan,and Maarten de Rijke. Deep Learning with Logged Bandit Feedback. Proceedings of the International Conference on Learning Representations (ICLR) (2018).
  • 39. © So-net Media Networks Corporation. 39References [5] A. Swaminathan and T. Joachims. The self-normalized estimator for counterfactual learning. In NIPS, 2015 [6] Ganin, Yaroslav, Ustinova, Evgeniya, Ajakan, Hana, Germain, Pascal, Larochelle, Hugo, Laviolette, Francois, Marchand, Mario, and Lempitsky, Victor. Domain adversarial training of neural networks. The Journal of Machine Learning Research, 17(1), 2016. [7] Ben-David, Shai, Blitzer, John, Crammer, Koby, and Pereira, Fernando. Analysis of representations for domain adaptation. In Advances in neural information processing systems, pp. 137–144, 2007. [8] Yaroslav Ganin and Victor Lempitsky. Unsupervised domain adaptation by backpropagation. In ICML, pages 325–333, 2015. URL http://jmlr.org/proceedings/papers/ v37/ganin15.html.