SlideShare a Scribd company logo
1 of 44
Download to read offline
Practical Guide to Controlled
Experiments on the Web:
Listen to Your Customers
not to the HiPPO
Ron Kohavi
Randal M. Henne
Dan Sommerfield
KDD 2007
Keisuke OSONE
Gunosy データマイニング研究会
2015. 12. 21
自己紹介
• 2015年11月にGunosy入社
• 前職ではソーシャルゲームのデータ分析してました
• 可視化とかでも活動してます
@dr_paradi
Practical Guide to Controlled
Experiments on the Web:
Listen to Your Customers
not to the HiPPO
Ron Kohavi
Randal M. Henne
Dan Sommerfield
KDD 2007
Keisuke OSONE
Gunosy データマイニング研究会 論文紹介
2015. 12. 21
選んだ理由
• MicroSoftはA/Bテストで有名 (Usability Testで
も有名, e.g. RITE)
• 現在は一部でアプリケーションの改善において当た
り前になっているAB testingに早くから取り組ん
でおり実践におけるノウハウもある
• 改めてAB Testingをする理由について考える
ABSTRACT
• Webではアイデアをすばやく検証できる
• ROIと学習効果を消費者の声を聞いて大きくできる

(not to Hippo)
• データマイニングの手法で深い理解と新しい仮説を
える
雑感
• 仮説の検証方法などをAbstractで挙げているが、
手法よりもむしろ、実践においての注意点を多く述
べている

(e.g. 数値が悪い時はレスポンスタイムを疑え)
• まさにPractical Guide
Practical Guide to Controlled
Experiments on the Web:
Listen to Your Customers not
to the HiPPO
Ron Kohavi
Randal M. Henne
Dan Sommerfield
HiPPo
Highest
Paid
Person s
Opinion
Intro
One accurate measure is worth more than thousand expert
opinions
— Admiral Grace Hopper
2. Motivating EXAMPLES
The fewer the facts,the stronger the opinion.
— Arnold Glasow
2.1 Checkout Page at
Doctor FootCare
2.1 Checkout Page at
Doctor FootCare
• 2つのUIに有意な差があるのか
• Conversion Rate は 購入者 / 訪問者
• デザイナーが訪ねてきたときにどちらがよいのか?
2.2 Rating of Microsoftt
Office Help Articles
• Microsoft OfficeのユーザはHelpのarticleを5段階
で評価できる
• 5-starはライターを評価するためのよりよいFeed
Backを得られる
• 5-starのウィジェトはユーザビリティをよくする
2.1 Checkout Page at
Doctor FootCare
2.3 Results and ROI
• AのほうがBより優れていた、AからBにすることで
90%の利益をロストした
• クーポンコードが致命的だった(Discountを表示す
ることでユーザがもっと安くできないか考えてしまっ
た)
2.3 Results and ROI
• 評価は急落した
• 多くのユーザは5か1をつけた (ユーザを助けるか助
けないかの2択だから)
• 両方ともUIの例だが、バックエンドのアルゴリズム
にも同じことが言える
3 CONTROLLED EXPERRIMENTS
Enlighten trial and error outperforms the planing of
flawless execution.
— David Kelly,founder of ideo
3 CONTROLLED EXPERRIMENTS
3 CONTROLLED EXPERRIMENTS
• 重要なのは ランダム であること
• OECが必要
• Checkout ExampleであればOECはコンバージョ
ン率、購入数、収入、利益、推定LTVなどなど、
OECに統計的な有意差がでれば解析は完了
3.1 Terminology
• Overall Evaluation Criterion

客観的に定量的な指標(従属変数とも呼ばれる)

重み付けされたりしても、ひとつの指標が望ましい

ひとつの指標はトレードオフがない (複数だとあれは高
くてこれは低いとなる)
• よいOECは短期的な指標でない(クリック)、長期
のゴールを入れる(LTVや再訪率(repaet visits))
3.1 Terminology
• Factor
• Controllable experimental value、A/Bで分けているValueの
こと
• Variant
• テストされているユーザ体験のこと、バグがある際はすぐやめ
る
• Experimentation Units
• 観察が生み出した実体、アイテムとも呼ばれる(独立している)
3.1 Terminology
• Null Hypothesis
• 帰無仮説
• Confidence Level
• 信頼水準
• Power
• 検出力
3.1 Terminology
• A/A Test
• 同じことを二つのグループにさせ、variavilityを見る
• Standard Deviation
• 標準偏差: σ
• Standard Error
• 標準誤差
3.2 Hypothesis testing and Sample Size
• 比較対象との差は明確なのか
• 統計的なテストをする
• OECに統計的な差がなければ重要なのは以下のとおり
• 信頼水準
• 検出力
• 標準誤差
• 効果
3.3 Extensions for online Setting
• online Settingでいろいろ変えられる
• Treatment Ramp-up

数%のユーザで行われるの実験を徐々に拡大する
• Automation
• 明確なOECがあるなら自動(最適)化できる(Amazonはそうしている)
• Software Migration
• 徐々にA/Bテストを広げれば(new DBなどの)マイグレーションも助
けることになる
3.4 Limitations
• Quantitative Metrics, but No Explanations
• どっちのvariantがいいかはわかるがなぜかわからない
• Short Term vs Long Term Effects
• よいOECは容易に行かないである(ClickをあげるにはAdsを全
面に出せばいいがそれでいいのか?)
• Primacy and Newness Effects
• ナビゲーションを変えたときなどはユーザが不必要に触る(ホー
ソン効果)、数週間はみるべき
Limitations
• Consistency
• 友人や家族との比較で違いに気づく人がいるかもしれない
が気にしない(すごく稀)
• Media
• メディアに気づかれるとユーザはそれを見たくなってしまう
• Features must be Implemented
• その機能を使う人はサンプル数より少ないかもしれない
4. IMPLEMENTATRION ARCHITECTURE
• 実装には2つ必要
• ランダム化アルゴリズム (variantsにユーザを割り
振る)
• 割当法 (Assignment method)
4.1 Randomization Algorithm
• baisがない必要がある
• 同じユーザは同じvariantにいないといけない(訪問
ごとにvariantが変化してはいけない)
• 複数の実験を行うときには相関があってはいけない
• 少しづつ広げる
4.2 Assignment Method
• softwareでは異なったcodeを実行させる必要がある
• Traffic Splitting
• ロードバランサたプロキシサーバで分ける
• server-side selection
• サーバサイドで返すAPIで出し分けする
• client-side selection
• JavaScriptに埋め込む
5. LESSONS LEARNED
The Difference between theory and practice is larger in
practice than the difference between theory and practice
in theory.
— Jan L.A.va de Snepscheut
5.1.1 Mine the Data
• OECにおいてはひとつの統計的な有意差しかでな
いが、幅広いバージョンのユーザが利用しているの
機械学習で何か発見できるかもしれない
5.1.2 Speed Matter
• 読み込みの速度が落ちることで結果を悪くしている
可能性もある (時間がOECでないとしても)
• Amazonでは、処理が100msec長引くと売上が
1%下がる
• Googleでは500msecで利益が20%下がる
5.1.3 Test One Factor at a Time (or Not)
• テストはひとつの指標でしたほうがよい
• 複数の指標でやるのは大変
5.2 Trust and Execution
Run Continuous A/A Tests
• まずA/Aテストを行い、データがマッチしているかなど確認す
る
• A/Aテストの結果に有意差がないか確認 (A/Aテストはパラレ
ルでよい)
Automate Ramp-up and Abort
• 有意に下がった場合には、すぐやめる (オンラインですぐにや
められるようにする)
5.2 Trust and Execution
Determine the Minimum Sample Size
• ミニマムサイズを決める
Assign 50% of users to Treatment
• 半分のユーザをtreatmentに入れる (そうすれば99%/1%の25倍
のテストができる)
Beware of Day of Week Effects
• 曜日の影響を考慮する (1週間は少なくともやったほうがよい、国
によっても異なる)
5.3 Culture and Business
Agree on the OEC Upfront
• Controlled Experimentsは定量的に新機能の効果
を測定できる
• 一番いいのはlife time valueを推測すること
• 実験にひとつの指標は必ずしも必要ではないが、ゴー
ルを明確にすることができる
Beware of Launching Features that Do not Hurt Users
• 統計的に差が出なくても、ネガティブではなく検出されなかっただけ
Weigh the Feature Maintenance Costs
• 差があったとしてもメンテナスコストも考えよう
Change to Data Driven Culture
• オンラインの実験はユーザが新機能をどのように使っているかわかる
• Webの世界では消費者のFeedbackで動的に変化できる
• OECと吟味された実験でゴールを目指せ
5.3 Culture and Business
SUMMARY
Almost any question can be answered cheaply,quickly and finally,
by a test campaign.
And that's the way to answer them – not by arguments around a
table.
Go to the court of last resort – buyers of your products.
— Claude Hopkins,Scientific Advertising,1922
• 多くの組織はHiPPOがいるが、ユーザの声を聞くの
が一番イノベーションに繋がる
• Webでは複雑な実験を簡単に安価にできる
• 企業は実験(消費者の経験)を通してイノベーション
を加速することができる
SUMMARY
論文紹介@ Gunosyデータマイニング研究会 #97

More Related Content

Viewers also liked

いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
圭輔 大曽根
 

Viewers also liked (15)

Gdmc v11 presentation
Gdmc v11 presentationGdmc v11 presentation
Gdmc v11 presentation
 
Gunosy DM #120 論文紹介 Attention and Engagement-Awareness in the Wild: A Large-...
Gunosy DM #120 論文紹介  Attention and Engagement-Awareness in the Wild: A Large-...Gunosy DM #120 論文紹介  Attention and Engagement-Awareness in the Wild: A Large-...
Gunosy DM #120 論文紹介 Attention and Engagement-Awareness in the Wild: A Large-...
 
Gunosyデータマイニング研究会 #118 これからの強化学習
Gunosyデータマイニング研究会 #118 これからの強化学習Gunosyデータマイニング研究会 #118 これからの強化学習
Gunosyデータマイニング研究会 #118 これからの強化学習
 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
機械学習で大事なことをミニGunosyをつくって学んだ╭( ・ㅂ・)و ̑̑ 
 
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LTあなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
あなただけにそっと教える弊社の分析事情 #data analyst meetup tokyo vol.1 LT
 
A/B Testing at Pinterest: Building a Culture of Experimentation
A/B Testing at Pinterest: Building a Culture of Experimentation A/B Testing at Pinterest: Building a Culture of Experimentation
A/B Testing at Pinterest: Building a Culture of Experimentation
 
マイクロサービスバックエンドAPIのためのRESTとgRPC
マイクロサービスバックエンドAPIのためのRESTとgRPCマイクロサービスバックエンドAPIのためのRESTとgRPC
マイクロサービスバックエンドAPIのためのRESTとgRPC
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
“確率的最適化”を読む前に知っておくといいかもしれない関数解析のこと
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
 
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyWebDB Forum 2016 gunosy
WebDB Forum 2016 gunosy
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 

Similar to 論文紹介@ Gunosyデータマイニング研究会 #97

ユーザーテスト体験イベント@株式会社メンバーズ 20150703
ユーザーテスト体験イベント@株式会社メンバーズ 20150703ユーザーテスト体験イベント@株式会社メンバーズ 20150703
ユーザーテスト体験イベント@株式会社メンバーズ 20150703
Daisuke Hiraishi
 
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
schoowebcampus
 
第2回 継続率経営セミナー 公開資料:データの設計・取得について
第2回 継続率経営セミナー 公開資料:データの設計・取得について第2回 継続率経営セミナー 公開資料:データの設計・取得について
第2回 継続率経営セミナー 公開資料:データの設計・取得について
pLucky
 
20120622 data conference
20120622 data conference20120622 data conference
20120622 data conference
managami
 

Similar to 論文紹介@ Gunosyデータマイニング研究会 #97 (20)

サービス改善はログデータ分析から
サービス改善はログデータ分析からサービス改善はログデータ分析から
サービス改善はログデータ分析から
 
地図を捨ててコンパスを頼りに進め
地図を捨ててコンパスを頼りに進め地図を捨ててコンパスを頼りに進め
地図を捨ててコンパスを頼りに進め
 
地図を捨ててコンパスを頼りに進め
地図を捨ててコンパスを頼りに進め地図を捨ててコンパスを頼りに進め
地図を捨ててコンパスを頼りに進め
 
ユーザーテスト体験イベント@株式会社メンバーズ 20150703
ユーザーテスト体験イベント@株式会社メンバーズ 20150703ユーザーテスト体験イベント@株式会社メンバーズ 20150703
ユーザーテスト体験イベント@株式会社メンバーズ 20150703
 
UIscope講演@ニフティクラウドmobile backend20150623
UIscope講演@ニフティクラウドmobile backend20150623UIscope講演@ニフティクラウドmobile backend20150623
UIscope講演@ニフティクラウドmobile backend20150623
 
【schoo WEB-campus】サービスの成果に繋げるためのアクセス解析 先生:小川卓
【schoo WEB-campus】サービスの成果に繋げるためのアクセス解析 先生:小川卓【schoo WEB-campus】サービスの成果に繋げるためのアクセス解析 先生:小川卓
【schoo WEB-campus】サービスの成果に繋げるためのアクセス解析 先生:小川卓
 
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
 
CEDEC2015講演 チーム開発をスムーズにするために
CEDEC2015講演 チーム開発をスムーズにするためにCEDEC2015講演 チーム開発をスムーズにするために
CEDEC2015講演 チーム開発をスムーズにするために
 
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけてAgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
 
Ga tracker5_ムラヤマユウスケ_slideshare
 Ga tracker5_ムラヤマユウスケ_slideshare Ga tracker5_ムラヤマユウスケ_slideshare
Ga tracker5_ムラヤマユウスケ_slideshare
 
WebEffective overview 2012 japanese
WebEffective overview 2012 japaneseWebEffective overview 2012 japanese
WebEffective overview 2012 japanese
 
第2回 継続率経営セミナー 公開資料:データの設計・取得について
第2回 継続率経営セミナー 公開資料:データの設計・取得について第2回 継続率経営セミナー 公開資料:データの設計・取得について
第2回 継続率経営セミナー 公開資料:データの設計・取得について
 
Eric Ries at Startup Lessons Learned sllconf 2011 - Japanese Translation
Eric Ries at Startup Lessons Learned sllconf 2011 - Japanese TranslationEric Ries at Startup Lessons Learned sllconf 2011 - Japanese Translation
Eric Ries at Startup Lessons Learned sllconf 2011 - Japanese Translation
 
アジャイルの今とこれから-Agile conference2012参加報告-技術動向編
アジャイルの今とこれから-Agile conference2012参加報告-技術動向編アジャイルの今とこれから-Agile conference2012参加報告-技術動向編
アジャイルの今とこれから-Agile conference2012参加報告-技術動向編
 
その Web サイト、その Web アプリを最新の IE11 に対応しよう
その Web サイト、その Web アプリを最新の IE11 に対応しようその Web サイト、その Web アプリを最新の IE11 に対応しよう
その Web サイト、その Web アプリを最新の IE11 に対応しよう
 
公開資料 バグレポートの改善に向けた問題事例の調査とアンチパターンの作成 Rev10
公開資料 バグレポートの改善に向けた問題事例の調査とアンチパターンの作成 Rev10公開資料 バグレポートの改善に向けた問題事例の調査とアンチパターンの作成 Rev10
公開資料 バグレポートの改善に向けた問題事例の調査とアンチパターンの作成 Rev10
 
20120622 data conference
20120622 data conference20120622 data conference
20120622 data conference
 
ユーザテストと定量分析ツールの併用方法
ユーザテストと定量分析ツールの併用方法ユーザテストと定量分析ツールの併用方法
ユーザテストと定量分析ツールの併用方法
 
あなたはグーグルのモルモットです
あなたはグーグルのモルモットですあなたはグーグルのモルモットです
あなたはグーグルのモルモットです
 
ウェブアナリスト養成講座「LPOとA/Bテスト」
ウェブアナリスト養成講座「LPOとA/Bテスト」ウェブアナリスト養成講座「LPOとA/Bテスト」
ウェブアナリスト養成講座「LPOとA/Bテスト」
 

More from 圭輔 大曽根

5分で分かった気になるリーンスタートアップ(用語編)
5分で分かった気になるリーンスタートアップ(用語編)5分で分かった気になるリーンスタートアップ(用語編)
5分で分かった気になるリーンスタートアップ(用語編)
圭輔 大曽根
 

More from 圭輔 大曽根 (6)

累計DL数3,600万のアプリを成長させ続けるためのピボット
累計DL数3,600万のアプリを成長させ続けるためのピボット累計DL数3,600万のアプリを成長させ続けるためのピボット
累計DL数3,600万のアプリを成長させ続けるためのピボット
 
2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」
2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」 2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」
2015/08/24 第15回 HTML5+JS 勉強会【TechBuzz】資料「HTML5とデータ可視化とExcel」
 
d3jsハンズオン @E2D3ハッカソン
d3jsハンズオン @E2D3ハッカソンd3jsハンズオン @E2D3ハッカソン
d3jsハンズオン @E2D3ハッカソン
 
第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る
第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る
第一回チキチキ秋のデータサイエンスアイデアソン&ハッカソン』開催報告会 アプリ名: 守備視え〜る
 
5分で分かった気になるリーンスタートアップ(用語編)
5分で分かった気になるリーンスタートアップ(用語編)5分で分かった気になるリーンスタートアップ(用語編)
5分で分かった気になるリーンスタートアップ(用語編)
 
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
 

Recently uploaded

Recently uploaded (10)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

論文紹介@ Gunosyデータマイニング研究会 #97

  • 1. Practical Guide to Controlled Experiments on the Web: Listen to Your Customers not to the HiPPO Ron Kohavi Randal M. Henne Dan Sommerfield KDD 2007 Keisuke OSONE Gunosy データマイニング研究会 2015. 12. 21
  • 3. Practical Guide to Controlled Experiments on the Web: Listen to Your Customers not to the HiPPO Ron Kohavi Randal M. Henne Dan Sommerfield KDD 2007 Keisuke OSONE Gunosy データマイニング研究会 論文紹介 2015. 12. 21
  • 4. 選んだ理由 • MicroSoftはA/Bテストで有名 (Usability Testで も有名, e.g. RITE) • 現在は一部でアプリケーションの改善において当た り前になっているAB testingに早くから取り組ん でおり実践におけるノウハウもある • 改めてAB Testingをする理由について考える
  • 7. Practical Guide to Controlled Experiments on the Web: Listen to Your Customers not to the HiPPO Ron Kohavi Randal M. Henne Dan Sommerfield
  • 9.
  • 11. Intro One accurate measure is worth more than thousand expert opinions — Admiral Grace Hopper
  • 12. 2. Motivating EXAMPLES The fewer the facts,the stronger the opinion. — Arnold Glasow
  • 13. 2.1 Checkout Page at Doctor FootCare
  • 14. 2.1 Checkout Page at Doctor FootCare • 2つのUIに有意な差があるのか • Conversion Rate は 購入者 / 訪問者 • デザイナーが訪ねてきたときにどちらがよいのか?
  • 15. 2.2 Rating of Microsoftt Office Help Articles • Microsoft OfficeのユーザはHelpのarticleを5段階 で評価できる • 5-starはライターを評価するためのよりよいFeed Backを得られる • 5-starのウィジェトはユーザビリティをよくする
  • 16. 2.1 Checkout Page at Doctor FootCare
  • 17. 2.3 Results and ROI • AのほうがBより優れていた、AからBにすることで 90%の利益をロストした • クーポンコードが致命的だった(Discountを表示す ることでユーザがもっと安くできないか考えてしまっ た)
  • 18. 2.3 Results and ROI • 評価は急落した • 多くのユーザは5か1をつけた (ユーザを助けるか助 けないかの2択だから) • 両方ともUIの例だが、バックエンドのアルゴリズム にも同じことが言える
  • 19. 3 CONTROLLED EXPERRIMENTS Enlighten trial and error outperforms the planing of flawless execution. — David Kelly,founder of ideo
  • 21. 3 CONTROLLED EXPERRIMENTS • 重要なのは ランダム であること • OECが必要 • Checkout ExampleであればOECはコンバージョ ン率、購入数、収入、利益、推定LTVなどなど、 OECに統計的な有意差がでれば解析は完了
  • 22. 3.1 Terminology • Overall Evaluation Criterion
 客観的に定量的な指標(従属変数とも呼ばれる)
 重み付けされたりしても、ひとつの指標が望ましい
 ひとつの指標はトレードオフがない (複数だとあれは高 くてこれは低いとなる) • よいOECは短期的な指標でない(クリック)、長期 のゴールを入れる(LTVや再訪率(repaet visits))
  • 23. 3.1 Terminology • Factor • Controllable experimental value、A/Bで分けているValueの こと • Variant • テストされているユーザ体験のこと、バグがある際はすぐやめ る • Experimentation Units • 観察が生み出した実体、アイテムとも呼ばれる(独立している)
  • 24. 3.1 Terminology • Null Hypothesis • 帰無仮説 • Confidence Level • 信頼水準 • Power • 検出力
  • 25. 3.1 Terminology • A/A Test • 同じことを二つのグループにさせ、variavilityを見る • Standard Deviation • 標準偏差: σ • Standard Error • 標準誤差
  • 26. 3.2 Hypothesis testing and Sample Size • 比較対象との差は明確なのか • 統計的なテストをする • OECに統計的な差がなければ重要なのは以下のとおり • 信頼水準 • 検出力 • 標準誤差 • 効果
  • 27. 3.3 Extensions for online Setting • online Settingでいろいろ変えられる • Treatment Ramp-up
 数%のユーザで行われるの実験を徐々に拡大する • Automation • 明確なOECがあるなら自動(最適)化できる(Amazonはそうしている) • Software Migration • 徐々にA/Bテストを広げれば(new DBなどの)マイグレーションも助 けることになる
  • 28. 3.4 Limitations • Quantitative Metrics, but No Explanations • どっちのvariantがいいかはわかるがなぜかわからない • Short Term vs Long Term Effects • よいOECは容易に行かないである(ClickをあげるにはAdsを全 面に出せばいいがそれでいいのか?) • Primacy and Newness Effects • ナビゲーションを変えたときなどはユーザが不必要に触る(ホー ソン効果)、数週間はみるべき
  • 29. Limitations • Consistency • 友人や家族との比較で違いに気づく人がいるかもしれない が気にしない(すごく稀) • Media • メディアに気づかれるとユーザはそれを見たくなってしまう • Features must be Implemented • その機能を使う人はサンプル数より少ないかもしれない
  • 30. 4. IMPLEMENTATRION ARCHITECTURE • 実装には2つ必要 • ランダム化アルゴリズム (variantsにユーザを割り 振る) • 割当法 (Assignment method)
  • 31. 4.1 Randomization Algorithm • baisがない必要がある • 同じユーザは同じvariantにいないといけない(訪問 ごとにvariantが変化してはいけない) • 複数の実験を行うときには相関があってはいけない • 少しづつ広げる
  • 32. 4.2 Assignment Method • softwareでは異なったcodeを実行させる必要がある • Traffic Splitting • ロードバランサたプロキシサーバで分ける • server-side selection • サーバサイドで返すAPIで出し分けする • client-side selection • JavaScriptに埋め込む
  • 33. 5. LESSONS LEARNED The Difference between theory and practice is larger in practice than the difference between theory and practice in theory. — Jan L.A.va de Snepscheut
  • 34. 5.1.1 Mine the Data • OECにおいてはひとつの統計的な有意差しかでな いが、幅広いバージョンのユーザが利用しているの 機械学習で何か発見できるかもしれない
  • 35. 5.1.2 Speed Matter • 読み込みの速度が落ちることで結果を悪くしている 可能性もある (時間がOECでないとしても) • Amazonでは、処理が100msec長引くと売上が 1%下がる • Googleでは500msecで利益が20%下がる
  • 36. 5.1.3 Test One Factor at a Time (or Not) • テストはひとつの指標でしたほうがよい • 複数の指標でやるのは大変
  • 37. 5.2 Trust and Execution Run Continuous A/A Tests • まずA/Aテストを行い、データがマッチしているかなど確認す る • A/Aテストの結果に有意差がないか確認 (A/Aテストはパラレ ルでよい) Automate Ramp-up and Abort • 有意に下がった場合には、すぐやめる (オンラインですぐにや められるようにする)
  • 38. 5.2 Trust and Execution Determine the Minimum Sample Size • ミニマムサイズを決める Assign 50% of users to Treatment • 半分のユーザをtreatmentに入れる (そうすれば99%/1%の25倍 のテストができる) Beware of Day of Week Effects • 曜日の影響を考慮する (1週間は少なくともやったほうがよい、国 によっても異なる)
  • 39. 5.3 Culture and Business Agree on the OEC Upfront • Controlled Experimentsは定量的に新機能の効果 を測定できる • 一番いいのはlife time valueを推測すること • 実験にひとつの指標は必ずしも必要ではないが、ゴー ルを明確にすることができる
  • 40. Beware of Launching Features that Do not Hurt Users • 統計的に差が出なくても、ネガティブではなく検出されなかっただけ Weigh the Feature Maintenance Costs • 差があったとしてもメンテナスコストも考えよう Change to Data Driven Culture • オンラインの実験はユーザが新機能をどのように使っているかわかる • Webの世界では消費者のFeedbackで動的に変化できる • OECと吟味された実験でゴールを目指せ 5.3 Culture and Business
  • 41. SUMMARY Almost any question can be answered cheaply,quickly and finally, by a test campaign. And that's the way to answer them – not by arguments around a table. Go to the court of last resort – buyers of your products. — Claude Hopkins,Scientific Advertising,1922
  • 42.