Submit Search
Upload
181122_learning_optimal_policies_from_observational_data
•
1 like
•
455 views
Yuta Saito
Follow
Top Conference論文勉強会(18/11/22) 発表資料
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 39
Recommended
Batch Reinforcement Learning
Batch Reinforcement Learning
Takuma Oda
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
Preferred Networks
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Morpho, Inc.
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
ISOC-JP/JPNIC IETF95 報告会 ネットワーク計測関連WG報告
ISOC-JP/JPNIC IETF95 報告会 ネットワーク計測関連WG報告
Satoshi KAMEI
IIJmio meeting 7 MVNOとSIMフリー端末の問題について
IIJmio meeting 7 MVNOとSIMフリー端末の問題について
techlog (Internet Initiative Japan Inc.)
CMS Cafe NetCommons紹介
CMS Cafe NetCommons紹介
株式会社 オープンソース・ワークショップ
2018Rユーザ会用
2018Rユーザ会用
wada, kazumi
Recommended
Batch Reinforcement Learning
Batch Reinforcement Learning
Takuma Oda
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
不老におけるOptunaを利用した分散ハイパーパラメータ最適化 - 今村秀明(名古屋大学 Optuna講習会)
Preferred Networks
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
Morpho, Inc.
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks
ISOC-JP/JPNIC IETF95 報告会 ネットワーク計測関連WG報告
ISOC-JP/JPNIC IETF95 報告会 ネットワーク計測関連WG報告
Satoshi KAMEI
IIJmio meeting 7 MVNOとSIMフリー端末の問題について
IIJmio meeting 7 MVNOとSIMフリー端末の問題について
techlog (Internet Initiative Japan Inc.)
CMS Cafe NetCommons紹介
CMS Cafe NetCommons紹介
株式会社 オープンソース・ワークショップ
2018Rユーザ会用
2018Rユーザ会用
wada, kazumi
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
More Related Content
Featured
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
Featured
(20)
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
Skeleton Culture Code
Skeleton Culture Code
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
How to have difficult conversations
How to have difficult conversations
Introduction to Data Science
Introduction to Data Science
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
The six step guide to practical project management
The six step guide to practical project management
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
181122_learning_optimal_policies_from_observational_data
1.
© So-net Media
Networks Corporation. Learning Optimal Policies from Observational Data Top Conference 論⽂読み会 2018/11/22(⽊) 東京⼯業⼤学 経営⼯学系 学⼠課程3年 齋藤 優太 *本スライドで⽤いられている表や図は全て[1]からの引⽤です.
2.
© So-net Media
Networks Corporation. 2紹介論⽂ • Learning Optimal Policies from Observational Data [1] • OxfordのMihaela van der Schaar Lab • ICML 2018 • 要約 • ⽬的:Observationalデータを⽤いた介⼊⽅策最適化 • 背景:既存⼿法はPropensityが必要かつlinearクラスのみ対応 • ⼿法:Unsupervised Domain Adaptation, DANN* * Domain Adversarial Neural Network [6]
3.
© So-net Media
Networks Corporation. 3研究マップ (BLBF) BLBF* PF [ICML 17] DACPOL [ICML 18] POEM** [ICML 15] *Batch Learning from Bandit Feedback : BLBFの定式化. 精度⾃体はあまり良くないっぽい? :Policy Outcomeを最⼤化するよう特徴空間を分割しながら 介⼊割当を個別化していくtree-basedなアルゴリズム. :DANNから着想を得て, 真のPolicy Outcome の 下界をempiricalに算出して, それを最⼤化. これ ** BanditNet[4]とかSNIPS[5]とかいくつか派⽣⼿法もある
4.
© So-net Media
Networks Corporation. 4Abstract & Introduction Aさん Bさん Factual介⼊ 介⼊1 介⼊9 介⼊0 Counterfactual Counterfactual 介⼊1 3,000円 Counterfactual ... ... ... Counterfactual Counterfactual 介⼊8 Counterfactual Counterfactual 介⼊9 Counterfactual 0円 最適介⼊ ? ? • 以下の状況で, 各データに対する最適な介⼊を導き出したい. • しかし, データはObservational. つまり, 各介⼊割り当てが特徴量に依存.
5.
© So-net Media
Networks Corporation. 5Notation • Action (介⼊) : • 特徴量空間 : • ⽬的変数空間 : • 潜在⽬的変数 : • 学習⽤ログ : (Finite Sample)
6.
© So-net Media
Networks Corporation. 6Notation • ⽅策(Policy) : • 潜在⽬的変数の期待値: • Policy Outcome :
7.
© So-net Media
Networks Corporation. 7Notation • ⽅策(Policy) : • 潜在⽬的変数の期待値: • Policy Outcome : やりたいこと ただし、Observational
8.
© So-net Media
Networks Corporation. 8Proposed Framework 基本コンセプト:「Policy Outcomeの予測には役⽴つが, Domainの予測には役⽴たない特徴表現を獲得」 • representation function: • hypothesis class :
9.
© So-net Media
Networks Corporation. 9Domain Adaptation的定式化 • Source分布 : • Target分布 : • 特徴量周辺分布: representation function により新たな分布を⽣成
10.
© So-net Media
Networks Corporation. 10Domain Adaptation的定式化 により⽣成される分布を使ってPolicy Outcomeを書き直すと... これがわかれば苦労しないが、実際はCounterfactualによる⽋損が⽣じるので、 Source分布を⽤いたナイーブな Policy Outcome推定量 Target分布を⽤いたナイーブな Policy Outcome推定量 究極の⽬標はこれを最⼤化する 仮説 を導き出すこと. どんな割当にもよしなに対応してくれる
11.
© So-net Media
Networks Corporation. 11Target分布を⽤いた推定量は望ましい Proposition 1. proof: ⼀旦、 は固定(law of iterated expectation) の項が残るので つまり? Target分布(Randomized Data)を⽤いたナイーブな推定量は 真のPolicy Outcomeに⼀致.
12.
© So-net Media
Networks Corporation. 12Unsupervised Domain Adaptation Source Domain (observational) Target Domain (randomized) • もちろん, Target分布からの実現値をデータとして得られていれば, をデータから推定することが可能. • もしくは, • しかし, 私たちが⽤いることができるのは, 以下のデータのみ. ラベルあり ラベルなし
13.
© So-net Media
Networks Corporation. 13Sourceのデータを⽤いてboundしたい やりたいこと EmpiricalなSource Policy Outcomeを⽤いて真のPolicy Outcomeをbound データから計算できる ?を解き明かすため⼀つ⼀つ地道に不等式評価していく でも同じこと.
14.
© So-net Media
Networks Corporation. 14分布間距離としてH-divergenceの導⼊ 仮説集合 に属する任意のPolicy について, とすると、2つの分布 の間のH-divergenceは以下のように定義される. Definition 1. (H-divergence) つまり、 という事象列が 上で実現する確率と 上で実現する確率の差の上限
15.
© So-net Media
Networks Corporation. 15Source Policy OutcomeによるBound Lemma 1. proof: 真のPolicy Outcomeの下界をSource Policy OutcomeとH-divergenceで表している
16.
© So-net Media
Networks Corporation. 16Source Policy OutcomeによるBound Lemma 1. proof: これを有限サンプルから推定した値にすると?
17.
© So-net Media
Networks Corporation. 17Policy OutcomeとDivergenceの経験値 The Monte-Carlo Estimator for the Source Policy Outcome The Empirical H-divergence 経験分布を とする
18.
© So-net Media
Networks Corporation. 18Policy OutcomeとDivergenceのbound Lemma 2. Lemma 3. 以上の確率で以下が成り⽴つ 以上の確率で以下が成り⽴つ
19.
© So-net Media
Networks Corporation. 19Policy OutcomeとDivergenceのbound Lemma 2. Lemma 3. 以上の確率で以下が成り⽴つ 以上の確率で以下が成り⽴つ Empiricalに計算できる
20.
© So-net Media
Networks Corporation. 20Policy OutcomeとDivergenceのbound Lemma 2. Lemma 3. 以上の確率で以下が成り⽴つ 以上の確率で以下が成り⽴つ Hypothesis Complexity
21.
© So-net Media
Networks Corporation. 21真のPolicy Outcomeのlower bound Theorem 1. Lemma 1, 2, 3により, 以上の確率で以下が成り⽴つ Empirical計算できる において⼀様
22.
© So-net Media
Networks Corporation. 22真のPolicy Outcomeのlower bound Theorem 1. ここを最⼤化したい において⼀様 Lemma 1, 2, 3により, 以上の確率で以下が成り⽴つ
23.
© So-net Media
Networks Corporation. 23Counterfactual Policy Optimization Counterfactual Policy Optimization (CPO) Theorem 1に基づき, 真のPolicy Outcomeの下界を最⼤化するような 仮説と特徴表現を得るような枠組み Empirical Source Policy Outcome Empirical H-divergence (NP-Hard)
24.
© So-net Media
Networks Corporation. 24経験Target分布のサンプリング • もちろん, ⼿持ちのデータはObservationalなのでそこからunlabeledの 経験Target分布をサンプリングしてあげる必要がある. • ここで⼀様な多項分布を⽤いて Target分布⽤のactionをサンプリング • Target分布はunlabeledなので、 事前にサンプリングした特徴量集合と concatしてあげれば良い
25.
© So-net Media
Networks Corporation. 25Optimization Criteria • Policy Blockに対する損失関数. に対応. • Domain Blockに対する損失関数*. に対応. 最適化において扱いやすくするため 定義に対して修正を加えたもの : Source分布に従うデータなら0, Target分布に従うデータなら1を取るdomain label * 論⽂におけるdomain lossはおそらくtypoです. こちらの表記を⽤いるとパラメータ更新式などの筋が通るかと…
26.
© So-net Media
Networks Corporation. 26Optimization Criteria • Policy Blockに対する損失関数. に対応. • Domain Blockに対する損失関数. に対応. • Totalの損失関数. domain lossの考慮具合を司るhyper-parameter 最適化において扱いやすくするため 定義に対して修正を加えたもの
27.
© So-net Media
Networks Corporation. 27Architecture (DANN) 以下の3つのパートから成る • Representation Block • Policy Block • Domain Block Representation Policy Domain • Outcome依存, Domain⾮依存な 新たな特徴表現を得るための層 • 新たに得た特徴表現を⽤いて 最適な介⼊を予測するための層 • 新たに得た特徴表現を⽤いて Domainを予測するための層
28.
© So-net Media
Networks Corporation. 28Architecture (DANN) 以下の3つのパートから成る • Representation Block • Policy Block • Domain Block をpolicy lossを減少させる⽅向にパラメータを更新. gradient reversal layer[8] を通すことによって, はdomain lossを減少させる⽅向に, は増加させる⽅向に 敵対的にパラメータを更新.
29.
© So-net Media
Networks Corporation. 29Optimization Algorithm (DACPOL*) * Domain Adverse Counterfactual POLicy training Trainデータから経験Target分布を⽣成 (Algorithm 1) Policy LossとDomain Lossを それぞれデータから計算 Policy LossとDomain Lossの勾配により Representation, Policy, Domainの パラメータを更新 (propagationの様⼦はarchitecture参照)
30.
© So-net Media
Networks Corporation. 30Optimization Algorithm (DACPOL*) * Domain Adverse Counterfactual POLicy training representation blockのパラメータを • Policy Lossを減少させる⽅向 • Domain Lossを増加させる⽅向 に更新する. に対し敵対的. Target分布におけるPolicy Lossを減少させるような 特徴表現を得ることを⽬指していると解釈できる
31.
© So-net Media
Networks Corporation. 31実験setup • 使⽤データセット (potential outcomeとactionを⽣成したsemi-synthetic) • Breast cancer dataset (5つの治療をaction) • Satellite image dataset (imageのlabelをaction) • Research Questions (RQs) 1. Loss(最適介⼊不正解率) 2. Hyper-parameter を変化させた時の精度の推移 3. Selection biasの⼤きさに対する頑健性 4. #Irrelevant featuresに対する頑健性
32.
© So-net Media
Networks Corporation. 32RQ1: Loss • 提案⼿法のDACPOLが他のBenchmarkを圧倒する性能 • Domain Lossもちゃんと考慮することで性能が向上 (RQ2で検証) • POEMやIPSは本論⽂でTrueのPropensityが必要とされているが, Propensityを必要としないDACPOLとfairに⽐較するため推定値を⽤いた
33.
© So-net Media
Networks Corporation. 33RQ2: Lambda • Lambdaを徐々に⼤きくした時の 性能の推移グラフ • Lambdaが⼩さいとDomain Lossを 考慮せずselection biasの影響を受ける • Lambdaが⼤きいとPolicy Lossを 考慮せずoutcomeの予測を考慮しない 特徴表現が学習されてしまう
34.
© So-net Media
Networks Corporation. 34RQ3: Selection Bias • Selection biasを徐々に⼤きくした時の 性能の推移グラフ • Selection biasが⼤きいとSourceとTarget の分布乖離が⼤きくなるので lossのboundが緩くなってしまう • それでも, domain lossを考慮することで selection biasの⼤部分を取り除けている
35.
© So-net Media
Networks Corporation. 35RQ4: #Irrelevant Features • #Irrelevant featuresを徐々に ⼤きくした時の性能の推移グラフ • 学習データのaction割り当ては irrelevant featuresにのみ依存 • #Irrelevant featureが増えると selection biasも増えるため POEMはvarianceの増加により性能悪化 • ⼀⽅で, DACPOLはrepresentation block でrelevant featuresのみを抽出できるため 性能がさほど変わらない
36.
© So-net Media
Networks Corporation. 36Conclusion • Observationalデータを⽤いた介⼊⽅策最適化問題に対して Domain Adaptation的に真のPolicy Outcomeに対する下界を導出 • Empirical source policy outcomeとempirical H-divergenceに依存する 下界を最⼤化する枠組みとしてCPOを提案 • CPOにおける⼀つのアルゴリズムとしてDANNに着想を得たDACPOLを提案 • Semi-syntheticデータを⽤いた実験で, DACPOLはdomain lossとpolicy loss の良好なtrade-offを達成し, より良い介⼊⽅策を導き出した
37.
© So-net Media
Networks Corporation. 37 ご静聴ありがとうございました。
38.
© So-net Media
Networks Corporation. 38References [1] O. Atan, W. R. Zame, and M. van der Schaar. Learning optimal policies from observational data. International Conference on Machine Learning (ICMLʼ18). [2] Adith Swaminathan and Thorsten Joachims. Batch learning from logged bandit feedback through counterfactual risk minimization. Journal of Machine Learning Research 16 (2015), 1731–1755. [3] Adith Swaminathan and Thorsten Joachims. Counterfactual Risk Minimization: Learning from Logged Bandit Feedback. International Conference on Machine Learning (ICMLʼ15). [4] Thorsten Joachims, Artem Grotov, Adith Swaminathan,and Maarten de Rijke. Deep Learning with Logged Bandit Feedback. Proceedings of the International Conference on Learning Representations (ICLR) (2018).
39.
© So-net Media
Networks Corporation. 39References [5] A. Swaminathan and T. Joachims. The self-normalized estimator for counterfactual learning. In NIPS, 2015 [6] Ganin, Yaroslav, Ustinova, Evgeniya, Ajakan, Hana, Germain, Pascal, Larochelle, Hugo, Laviolette, Francois, Marchand, Mario, and Lempitsky, Victor. Domain adversarial training of neural networks. The Journal of Machine Learning Research, 17(1), 2016. [7] Ben-David, Shai, Blitzer, John, Crammer, Koby, and Pereira, Fernando. Analysis of representations for domain adaptation. In Advances in neural information processing systems, pp. 137–144, 2007. [8] Yaroslav Ganin and Victor Lempitsky. Unsupervised domain adaptation by backpropagation. In ICML, pages 325–333, 2015. URL http://jmlr.org/proceedings/papers/ v37/ganin15.html.