SlideShare a Scribd company logo
1 of 22
Download to read offline
데이터라이즈 PO 이민호
프로덕트를 빠르게 개선하기 위한 

베이지안 A/B 테스트
정원사들 시즌 6 : 잔디콘
그런데 이제 Expected Loss를 곁들인
안녕하세요!
이민호 Miika
데이터라이즈에서 Product Owner 를 맡고 있습니다!
기획, 개발, 데이터, UX 등 다양한 분야에 관심이 많아요!
이번 시즌 잔디 모임에서는 

인과추론, 베이지안 통계, A/B 테스트, 그리고 JS를 주로 공부했어요 :)
lumiamitie@gmail.com
날이 갈수록 중요해지고 있는 A/B 테스트
A/B 테스트를 통해 어떤 방안이 좋은지 데이터를 바탕으로 평가할 수 있다.
> A/B 테스트를 이론적으로 뒷받침하는 RCTRandomized Controlled Trial는 인과적인 효과를 가장 효과적으로 추정할 수 있는 방법이다.
실험을 통한 개선이 장기적으로 반복되면 그 효과가 복리처럼 누적되어 큰 성과로 이어진다.
> 매달 5%씩 지표를 향상시킬 수 있다면, 1년간 80%의 개선이 이루어진다.
대부분의 실험은 원하는 결과를 얻는데 실패하기 때문에 실험의 양이 중요하며, 

많은 실험을 안정적으로 수행하기 위해 체계적인 실험 사이클이 필요하다.
> AB 테스트의 성공 확률은 (집계한 곳마다 다르지만) 평균적으로 10% 내외로 보는 것 같다.
일반적으로 사용하는 A/B 테스트 평가 방법
NHST Null hypothesis significance testing
(1) 귀무가설 Null Hypothesis 을 선택한다. 보통 A, B안 사이에 차이가 없을 것이라고 가정하게 된다.
(2) 이제 실험을 수행하고, 통계량을 구한다.
(3) p-value를 계산한다.
A/B 테스트 환경에서 p-value 가 의미하는 것은 아래와 같다.
"동일한 샘플 크기로 A/A 테스트를 수행했을 때, 

방금 본 결과와 같거나 더 극단적인 결과가 나올 확률이 p값보다 작다."
의사결정을 위한 통계학의 두 가지 접근 방법
Frequentist Bayesian
빈도주의 베이지안
아까 살펴본 NHST는 이쪽!!
의사결정을 위한 통계학의 두 가지 접근 방법
아니 사실 이건 좀 극단적인 것 같긴 한데요.... ㅋㅋㅋ
의사결정을 위한 통계학의 두 가지 접근 방법
(1) Frequentist
법정의 논리
무죄 추정의 원칙 → 증거가 모자라면 증거 불충분
(1) 일단 A안과 B안은 큰 차이가 없다고 보자.
(2) 두 안이 차이가 없다고 가정하면, 지금 데이터가 그 가정을 깰 수 있는 강한 증거가 될까?
(3) 강한 증거를 찾지 못하면 증거 불충분으로 결론 내린다.
"최대한 보수적인 가설을 세우고, 현재 데이터가 가설을 깰 수 있는지를 기준으로 판단한다."
의사결정을 위한 통계학의 두 가지 접근 방법
(2) Bayesian
베팅의 원리 (블랙잭 카드 카운팅?)
사전 정보 → 데이터(증거) 반영 → 사후 정보
(1) 그 동안의 실험을 보면 우리의 B안은 보통 전환율이 2% 정도 더 높았어.
(2) 생각보다 전환이 더 잘되는데?? B안 더 기대해봐도 되나??
(3) 지금까지 데이터로는 B안 전환율이 A안보다 4%는 더 높을 것 같아.
"과거의 정보(또는 믿음)에 현재의 데이터를 반영하여 판단한다."
기존의 NHST 방식은 빠른 프로덕트 개선에 적합하지 않을 수 있다.
이유1. 귀무가설에 우호적이어서, 개선폭이 적으면 귀무가설을 채택하려는 경향이 있다.
이유2. Frequentist 방식은 모든 False Positive 를 동일하게 평가한다.
> 10% vs 10.1% 와 10% vs 15%가 같은가?
이유3. p-value 라는 개념 자체가 비즈니스적으로 해석하기 어려운 수치다.
> p-value 는 B안이 A안보다 좋을 확률을 의미하는 것이 아니지만, 그렇게 사용되는 경우가 있다.
기존의 NHST 방식은 빠른 프로덕트 개선에 적합하지 않을 수 있다.
이유1. 귀무가설에 우호적이어서, 개선폭이 적으면 귀무가설을 채택하려는 경향이 있다.
이유2. Frequentist 방식은 모든 False Positive 를 동일하게 평가한다.
> 10% vs 10.1% 와 10% vs 15%가 같은가?
이유3. p-value 라는 개념 자체가 비즈니스적으로 해석하기 어려운 수치다.
> p-value 는 B안이 A안보다 좋을 확률을 의미하는 것이 아니지만, 그렇게 사용되는 경우가 있다.
그렇다면 대안이 있나요?
Bayesian A/B Test, 그런데 이제 Expected Loss를 곁들인
(1) 실험에서 목표로 하는 에러 허용치 e 를 정한다.
(2) 실험 진행 : A안과 B안 중 하나를 랜덤하게 유저에게 보여준다.
(3) A, B안의 기대 손실을 계산한다.
(4) A안과 B안의 기대 손실 중 에러 허용치보다 작은 값이 있는지 확인한다.
Bayesian A/B Test, 그런데 이제 Expected Loss를 곁들인
(1) 실험에서 목표로 하는 에러 허용치 e 를 정한다.
(2) 실험 진행 : A안과 B안 중 하나를 랜덤하게 유저에게 보여준다.
(3) A, B안의 기대 손실을 계산한다.
(4) A안과 B안의 기대 손실 중 에러 허용치보다 작은 값이 있는지 확인한다.
e는 우리가 잘못된 선택을 했을 때, 해당 선택을 함으로써 발생하는 손실
따라서 발생하더라도 크게 신경쓰이지 않는 낮은 숫자를 설정해야 한다.

뒤에 나올 코드 예시에서는 0.01로 설정했다.
Bayesian A/B Test, 그런데 이제 Expected Loss를 곁들인
(1) 실험에서 목표로 하는 에러 허용치 e 를 정한다.
(2) 실험 진행 : A안과 B안 중 하나를 랜덤하게 유저에게 보여준다.
(3) A, B안의 기대 손실을 계산한다.
(4) A안과 B안의 기대 손실 중 에러 허용치보다 작은 값이 있는지 확인한다.
각 안의 노출 및 전환 횟수를 수집해야 한다.
Bayesian A/B Test, 그런데 이제 Expected Loss를 곁들인
(1) 실험에서 목표로 하는 에러 허용치 e 를 정한다.
(2) 실험 진행 : A안과 B안 중 하나를 랜덤하게 유저에게 보여준다.
(3) A, B안의 기대 손실을 계산한다.
(4) A안과 B안의 기대 손실 중 에러 허용치보다 작은 값이 있는지 확인한다.
Loss Function 을 

"예상되는 손실의 양을 나타나는 함수"로 정의한다.
A안의 Loss Function = max(B안 전환율 - A안 전환율, 0)

B안의 Loss Function = max(A안 전환율 - B안 전환율, 0)
기대 손실은 

"Loss Function으로 계산한 값의 기대값"을 구하면 된다.
Bayesian A/B Test, 그런데 이제 Expected Loss를 곁들인
(1) 실험에서 목표로 하는 에러 허용치 e 를 정한다.
(2) 실험 진행 : A안과 B안 중 하나를 랜덤하게 유저에게 보여준다.
(3) A, B안의 기대 손실을 계산한다.
(4) A안과 B안의 기대 손실 중 에러 허용치보다 작은 값이 있는지 확인한다.
없는 경우 → 실험을 계속한다.
있는 경우 → 실험을 멈추고 기대 손실이 e 보다 작은 안을 선택한다.
Expected Loss를 사용하는 Bayesian A/B Test 의 장점
(1) 작은 개선에도 열려있기 때문에, 새로운 안으로 변경하는 위험이 적은 비즈니스 환경에 적합하다.
> 최근의 비즈니스 환경에서는 중요한 지표를 개선하기 위해 다양한 실험을 반복하는 경우가 많다. 

> 작은 수치라도 개선되는 방안을 빠르게 선택하면, 결과적으로 더 많은 실험을 빠르게 수행하여 지표를 최대한 개선할 수 있게 된다.
(2) Loss Function 으로 인해 중요한 부분에서 발생한 에러가 의사 결정에 더 큰 영향을 미친다.
> 10% vs 10.1% 보다는 10% vs 15% 일 때 더 큰 영향을 미친다.
(3) B안이 A안보다 좋을 확률을 직접 계산할 수 있다.
> p-value와 다르게 더 직관적으로 해석할 수 있다.
코드로 살펴보자
(1) Python + PyMC3
Python (PyMC3)
Python (PyMC3)
코드로 살펴보자
(2) R + Stan
Stan
R
고민
여전히 남아있는 고민 : 신중한 큰 걸음 vs 신속한 잰 걸음
> 이 방식은 새로운 방안을 선택하는 비용이 생각보다 적다는 것을 전제로 하고 있다. 정말로 그럴까?
NHST 에 익숙한 사람들
> 많은 사람들은 여전히 "p-value가 유의수준(보통 0.05) 보다 작을 때 선택한다" 라는 명확한 기준이 존재하는 NHST를 선호한다.
베이지안 통계 도구의 진입장벽
> 사실 Frequentist 테스트 방법과 비교하면 PyMC3 나 Stan 모두 사용하기 어려운 편이다.
MAB(특히 톰슨 샘플링)와 A/B 테스트의 역할 분배
> 최적화와 의사결정. 사실 둘 다 중요한데 각각 어떻게 활용하는 것이 최선의 선택일까?
저는 데이터라이즈에서 이커머스를 위한 올인원 그로스 서비스 다이버스를 만들고 있습니다.
> 실제 비즈니스에 데이터를 적용해보고 싶으신가요?
> 끊임없이 데이터가 흐르는 파이프라인을 다루어보고 싶으신가요?
> 모든 사람이 데이터의 혜택을 받을 수 있도록 사용하기 쉬운 솔루션을 만들어보고 싶으신가요?


혹시 해당되는 항목이 있나요? 그렇다면 언젠가 저희와 함께 할지도 모르겠네요!

먼저 가서 기다리고 있을게요 :) 데이터라이즈에서 같이 고민해요!
데이터라이즈에서 함께 고민해요!
https://team.datarize.ai/
참고자료
https://cdn2.hubspot.net/hubfs/310840/VWO_SmartStats_technical_whitepaper.pdf
https://cxl.com/blog/bayesian-frequentist-ab-testing/
https://medium.com/convoy-tech/the-power-of-bayesian-a-b-testing-f859d2219d5
감사합니다 :D

More Related Content

What's hot

그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)Dylan Ko
 
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnABokyung Choi
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )정혁 권
 
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스Minwoo Kim
 
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best PracticesPAP (Product Analytics Playground)
 
Causal Inference : Primer (2019-06-01 잔디콘)
Causal Inference : Primer (2019-06-01 잔디콘)Causal Inference : Primer (2019-06-01 잔디콘)
Causal Inference : Primer (2019-06-01 잔디콘)Minho Lee
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법Jeongsang Baek
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석Seonggwan Lee
 
올바른 분석을 방해하는 함정 카드 피해가기
올바른 분석을 방해하는 함정 카드 피해가기올바른 분석을 방해하는 함정 카드 피해가기
올바른 분석을 방해하는 함정 카드 피해가기Minho Lee
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기승화 양
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석YOO SE KYUN
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립승화 양
 
그로스해킹 기초
그로스해킹 기초그로스해킹 기초
그로스해킹 기초keunbong kwak
 
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...AWSKRUG - AWS한국사용자모임
 
전환율 이해하기
전환율 이해하기전환율 이해하기
전환율 이해하기Wooseok Seo
 
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정PAP (Product Analytics Playground)
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)Yongho Ha
 
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data LiteracyPAP (Product Analytics Playground)
 

What's hot (20)

그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
 
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
 
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스
 
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
 
Causal Inference : Primer (2019-06-01 잔디콘)
Causal Inference : Primer (2019-06-01 잔디콘)Causal Inference : Primer (2019-06-01 잔디콘)
Causal Inference : Primer (2019-06-01 잔디콘)
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석
 
올바른 분석을 방해하는 함정 카드 피해가기
올바른 분석을 방해하는 함정 카드 피해가기올바른 분석을 방해하는 함정 카드 피해가기
올바른 분석을 방해하는 함정 카드 피해가기
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립
 
그로스해킹 기초
그로스해킹 기초그로스해킹 기초
그로스해킹 기초
 
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
스타트업 나홀로 데이터 엔지니어: 데이터 분석 환경 구축기 - 천지은 (Tappytoon) :: AWS Community Day Onlin...
 
전환율 이해하기
전환율 이해하기전환율 이해하기
전환율 이해하기
 
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
 
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
 

Similar to 프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트

파이썬 라이브러리로 쉽게 시작하는 데이터 분석
파이썬 라이브러리로 쉽게 시작하는 데이터 분석파이썬 라이브러리로 쉽게 시작하는 데이터 분석
파이썬 라이브러리로 쉽게 시작하는 데이터 분석Heekyung Yoon
 
6월 9일 발표자료_최종.pptx
6월 9일 발표자료_최종.pptx6월 9일 발표자료_최종.pptx
6월 9일 발표자료_최종.pptxssuserd4afad
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical MethodologyKyeongUkJang
 
Benefits of A/B testing
Benefits of A/B testingBenefits of A/B testing
Benefits of A/B testingClaire Lee
 
190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)
190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)
190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)StartupAlliance
 
2017 빅콘테스트
2017 빅콘테스트2017 빅콘테스트
2017 빅콘테스트Sanghyun Kim
 
합리적 의사결정 방법 활용 방안
합리적 의사결정 방법 활용 방안합리적 의사결정 방법 활용 방안
합리적 의사결정 방법 활용 방안Osan University
 
Plab pm5 2019 v0.9 - slide share
Plab   pm5 2019 v0.9 - slide sharePlab   pm5 2019 v0.9 - slide share
Plab pm5 2019 v0.9 - slide shareJason TaeHyoung Yun
 
170801 hypothesis
170801 hypothesis170801 hypothesis
170801 hypothesisGyu Min Sim
 
GrowthHackers 0801 hypothesis
GrowthHackers 0801 hypothesisGrowthHackers 0801 hypothesis
GrowthHackers 0801 hypothesisGyumin Sim
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )Seung-Woo Kang
 
Istqb 4-테스트설계기법-2015-3-배포
Istqb 4-테스트설계기법-2015-3-배포Istqb 4-테스트설계기법-2015-3-배포
Istqb 4-테스트설계기법-2015-3-배포Jongwon Lee
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)SANG WON PARK
 
SKPlanet 추천 플랫폼 콜로세오 - SK ICT Tech Summit 2017 SKPlanet 추천 플랫폼 콜로세오 - SK IC...
SKPlanet 추천 플랫폼 콜로세오  - SK ICT Tech Summit 2017 SKPlanet 추천 플랫폼 콜로세오  - SK IC...SKPlanet 추천 플랫폼 콜로세오  - SK ICT Tech Summit 2017 SKPlanet 추천 플랫폼 콜로세오  - SK IC...
SKPlanet 추천 플랫폼 콜로세오 - SK ICT Tech Summit 2017 SKPlanet 추천 플랫폼 콜로세오 - SK IC...Jaehoon Jung
 
주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)Seung-Woo Kang
 
Istqb 1-소프트웨어테스팅기초
Istqb 1-소프트웨어테스팅기초Istqb 1-소프트웨어테스팅기초
Istqb 1-소프트웨어테스팅기초Jongwon Lee
 
Learning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonseiLearning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonseiIsabel Myeongju Han
 
Istqb 1-소프트웨어테스팅기초-2015
Istqb 1-소프트웨어테스팅기초-2015Istqb 1-소프트웨어테스팅기초-2015
Istqb 1-소프트웨어테스팅기초-2015Jongwon Lee
 
테스터가 말하는 테스트코드 작성 팁과 사례
테스터가 말하는 테스트코드 작성 팁과 사례테스터가 말하는 테스트코드 작성 팁과 사례
테스터가 말하는 테스트코드 작성 팁과 사례SangIn Choung
 

Similar to 프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트 (20)

파이썬 라이브러리로 쉽게 시작하는 데이터 분석
파이썬 라이브러리로 쉽게 시작하는 데이터 분석파이썬 라이브러리로 쉽게 시작하는 데이터 분석
파이썬 라이브러리로 쉽게 시작하는 데이터 분석
 
6월 9일 발표자료_최종.pptx
6월 9일 발표자료_최종.pptx6월 9일 발표자료_최종.pptx
6월 9일 발표자료_최종.pptx
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
Benefits of A/B testing
Benefits of A/B testingBenefits of A/B testing
Benefits of A/B testing
 
190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)
190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)
190829 테헤란로 런치클럽-그로스, 만병통치약에 대한 허와 실 (눔코리아 그로스팀 양욱진 매니저)
 
2017 빅콘테스트
2017 빅콘테스트2017 빅콘테스트
2017 빅콘테스트
 
합리적 의사결정 방법 활용 방안
합리적 의사결정 방법 활용 방안합리적 의사결정 방법 활용 방안
합리적 의사결정 방법 활용 방안
 
Plab pm5 2019 v0.9 - slide share
Plab   pm5 2019 v0.9 - slide sharePlab   pm5 2019 v0.9 - slide share
Plab pm5 2019 v0.9 - slide share
 
170801 hypothesis
170801 hypothesis170801 hypothesis
170801 hypothesis
 
GrowthHackers 0801 hypothesis
GrowthHackers 0801 hypothesisGrowthHackers 0801 hypothesis
GrowthHackers 0801 hypothesis
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
 
Istqb 4-테스트설계기법-2015-3-배포
Istqb 4-테스트설계기법-2015-3-배포Istqb 4-테스트설계기법-2015-3-배포
Istqb 4-테스트설계기법-2015-3-배포
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
 
SKPlanet 추천 플랫폼 콜로세오 - SK ICT Tech Summit 2017 SKPlanet 추천 플랫폼 콜로세오 - SK IC...
SKPlanet 추천 플랫폼 콜로세오  - SK ICT Tech Summit 2017 SKPlanet 추천 플랫폼 콜로세오  - SK IC...SKPlanet 추천 플랫폼 콜로세오  - SK ICT Tech Summit 2017 SKPlanet 추천 플랫폼 콜로세오  - SK IC...
SKPlanet 추천 플랫폼 콜로세오 - SK ICT Tech Summit 2017 SKPlanet 추천 플랫폼 콜로세오 - SK IC...
 
주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)
 
Istqb 1-소프트웨어테스팅기초
Istqb 1-소프트웨어테스팅기초Istqb 1-소프트웨어테스팅기초
Istqb 1-소프트웨어테스팅기초
 
Learning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonseiLearning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonsei
 
Istqb 1-소프트웨어테스팅기초-2015
Istqb 1-소프트웨어테스팅기초-2015Istqb 1-소프트웨어테스팅기초-2015
Istqb 1-소프트웨어테스팅기초-2015
 
테스터가 말하는 테스트코드 작성 팁과 사례
테스터가 말하는 테스트코드 작성 팁과 사례테스터가 말하는 테스트코드 작성 팁과 사례
테스터가 말하는 테스트코드 작성 팁과 사례
 
20161222 기출문제해설강의
20161222 기출문제해설강의20161222 기출문제해설강의
20161222 기출문제해설강의
 

More from Minho Lee

230304 UX/UI 해외 인기 아티클 8기 발표
230304 UX/UI 해외 인기 아티클 8기 발표230304 UX/UI 해외 인기 아티클 8기 발표
230304 UX/UI 해외 인기 아티클 8기 발표Minho Lee
 
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표Minho Lee
 
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표Minho Lee
 
220319 해외 아티클 스터디 5기 : 1주차 발표
220319 해외 아티클 스터디 5기 : 1주차 발표220319 해외 아티클 스터디 5기 : 1주차 발표
220319 해외 아티클 스터디 5기 : 1주차 발표Minho Lee
 
201107 해외 아티클 스터디 2기 : 2주차 발표
201107 해외 아티클 스터디 2기 : 2주차 발표201107 해외 아티클 스터디 2기 : 2주차 발표
201107 해외 아티클 스터디 2기 : 2주차 발표Minho Lee
 
[DS Meetup] iPad로 가벼운 분석환경 구축해보기
[DS Meetup] iPad로 가벼운 분석환경 구축해보기[DS Meetup] iPad로 가벼운 분석환경 구축해보기
[DS Meetup] iPad로 가벼운 분석환경 구축해보기Minho Lee
 
Today I Learned - Bayesian Statistics
Today I Learned - Bayesian StatisticsToday I Learned - Bayesian Statistics
Today I Learned - Bayesian StatisticsMinho Lee
 
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화Minho Lee
 
For Better Data Visualization
For Better Data VisualizationFor Better Data Visualization
For Better Data VisualizationMinho Lee
 
Facebook prophet
Facebook prophetFacebook prophet
Facebook prophetMinho Lee
 

More from Minho Lee (10)

230304 UX/UI 해외 인기 아티클 8기 발표
230304 UX/UI 해외 인기 아티클 8기 발표230304 UX/UI 해외 인기 아티클 8기 발표
230304 UX/UI 해외 인기 아티클 8기 발표
 
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표
 
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표
 
220319 해외 아티클 스터디 5기 : 1주차 발표
220319 해외 아티클 스터디 5기 : 1주차 발표220319 해외 아티클 스터디 5기 : 1주차 발표
220319 해외 아티클 스터디 5기 : 1주차 발표
 
201107 해외 아티클 스터디 2기 : 2주차 발표
201107 해외 아티클 스터디 2기 : 2주차 발표201107 해외 아티클 스터디 2기 : 2주차 발표
201107 해외 아티클 스터디 2기 : 2주차 발표
 
[DS Meetup] iPad로 가벼운 분석환경 구축해보기
[DS Meetup] iPad로 가벼운 분석환경 구축해보기[DS Meetup] iPad로 가벼운 분석환경 구축해보기
[DS Meetup] iPad로 가벼운 분석환경 구축해보기
 
Today I Learned - Bayesian Statistics
Today I Learned - Bayesian StatisticsToday I Learned - Bayesian Statistics
Today I Learned - Bayesian Statistics
 
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
 
For Better Data Visualization
For Better Data VisualizationFor Better Data Visualization
For Better Data Visualization
 
Facebook prophet
Facebook prophetFacebook prophet
Facebook prophet
 

프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트

  • 1. 데이터라이즈 PO 이민호 프로덕트를 빠르게 개선하기 위한 
 베이지안 A/B 테스트 정원사들 시즌 6 : 잔디콘 그런데 이제 Expected Loss를 곁들인
  • 2. 안녕하세요! 이민호 Miika 데이터라이즈에서 Product Owner 를 맡고 있습니다! 기획, 개발, 데이터, UX 등 다양한 분야에 관심이 많아요! 이번 시즌 잔디 모임에서는 
 인과추론, 베이지안 통계, A/B 테스트, 그리고 JS를 주로 공부했어요 :) lumiamitie@gmail.com
  • 3. 날이 갈수록 중요해지고 있는 A/B 테스트 A/B 테스트를 통해 어떤 방안이 좋은지 데이터를 바탕으로 평가할 수 있다. > A/B 테스트를 이론적으로 뒷받침하는 RCTRandomized Controlled Trial는 인과적인 효과를 가장 효과적으로 추정할 수 있는 방법이다. 실험을 통한 개선이 장기적으로 반복되면 그 효과가 복리처럼 누적되어 큰 성과로 이어진다. > 매달 5%씩 지표를 향상시킬 수 있다면, 1년간 80%의 개선이 이루어진다. 대부분의 실험은 원하는 결과를 얻는데 실패하기 때문에 실험의 양이 중요하며, 
 많은 실험을 안정적으로 수행하기 위해 체계적인 실험 사이클이 필요하다. > AB 테스트의 성공 확률은 (집계한 곳마다 다르지만) 평균적으로 10% 내외로 보는 것 같다.
  • 4. 일반적으로 사용하는 A/B 테스트 평가 방법 NHST Null hypothesis significance testing (1) 귀무가설 Null Hypothesis 을 선택한다. 보통 A, B안 사이에 차이가 없을 것이라고 가정하게 된다. (2) 이제 실험을 수행하고, 통계량을 구한다. (3) p-value를 계산한다. A/B 테스트 환경에서 p-value 가 의미하는 것은 아래와 같다. "동일한 샘플 크기로 A/A 테스트를 수행했을 때, 
 방금 본 결과와 같거나 더 극단적인 결과가 나올 확률이 p값보다 작다."
  • 5. 의사결정을 위한 통계학의 두 가지 접근 방법 Frequentist Bayesian 빈도주의 베이지안 아까 살펴본 NHST는 이쪽!!
  • 6. 의사결정을 위한 통계학의 두 가지 접근 방법 아니 사실 이건 좀 극단적인 것 같긴 한데요.... ㅋㅋㅋ
  • 7. 의사결정을 위한 통계학의 두 가지 접근 방법 (1) Frequentist 법정의 논리 무죄 추정의 원칙 → 증거가 모자라면 증거 불충분 (1) 일단 A안과 B안은 큰 차이가 없다고 보자. (2) 두 안이 차이가 없다고 가정하면, 지금 데이터가 그 가정을 깰 수 있는 강한 증거가 될까? (3) 강한 증거를 찾지 못하면 증거 불충분으로 결론 내린다. "최대한 보수적인 가설을 세우고, 현재 데이터가 가설을 깰 수 있는지를 기준으로 판단한다."
  • 8. 의사결정을 위한 통계학의 두 가지 접근 방법 (2) Bayesian 베팅의 원리 (블랙잭 카드 카운팅?) 사전 정보 → 데이터(증거) 반영 → 사후 정보 (1) 그 동안의 실험을 보면 우리의 B안은 보통 전환율이 2% 정도 더 높았어. (2) 생각보다 전환이 더 잘되는데?? B안 더 기대해봐도 되나?? (3) 지금까지 데이터로는 B안 전환율이 A안보다 4%는 더 높을 것 같아. "과거의 정보(또는 믿음)에 현재의 데이터를 반영하여 판단한다."
  • 9. 기존의 NHST 방식은 빠른 프로덕트 개선에 적합하지 않을 수 있다. 이유1. 귀무가설에 우호적이어서, 개선폭이 적으면 귀무가설을 채택하려는 경향이 있다. 이유2. Frequentist 방식은 모든 False Positive 를 동일하게 평가한다. > 10% vs 10.1% 와 10% vs 15%가 같은가? 이유3. p-value 라는 개념 자체가 비즈니스적으로 해석하기 어려운 수치다. > p-value 는 B안이 A안보다 좋을 확률을 의미하는 것이 아니지만, 그렇게 사용되는 경우가 있다.
  • 10. 기존의 NHST 방식은 빠른 프로덕트 개선에 적합하지 않을 수 있다. 이유1. 귀무가설에 우호적이어서, 개선폭이 적으면 귀무가설을 채택하려는 경향이 있다. 이유2. Frequentist 방식은 모든 False Positive 를 동일하게 평가한다. > 10% vs 10.1% 와 10% vs 15%가 같은가? 이유3. p-value 라는 개념 자체가 비즈니스적으로 해석하기 어려운 수치다. > p-value 는 B안이 A안보다 좋을 확률을 의미하는 것이 아니지만, 그렇게 사용되는 경우가 있다. 그렇다면 대안이 있나요?
  • 11. Bayesian A/B Test, 그런데 이제 Expected Loss를 곁들인 (1) 실험에서 목표로 하는 에러 허용치 e 를 정한다. (2) 실험 진행 : A안과 B안 중 하나를 랜덤하게 유저에게 보여준다. (3) A, B안의 기대 손실을 계산한다. (4) A안과 B안의 기대 손실 중 에러 허용치보다 작은 값이 있는지 확인한다.
  • 12. Bayesian A/B Test, 그런데 이제 Expected Loss를 곁들인 (1) 실험에서 목표로 하는 에러 허용치 e 를 정한다. (2) 실험 진행 : A안과 B안 중 하나를 랜덤하게 유저에게 보여준다. (3) A, B안의 기대 손실을 계산한다. (4) A안과 B안의 기대 손실 중 에러 허용치보다 작은 값이 있는지 확인한다. e는 우리가 잘못된 선택을 했을 때, 해당 선택을 함으로써 발생하는 손실 따라서 발생하더라도 크게 신경쓰이지 않는 낮은 숫자를 설정해야 한다.
 뒤에 나올 코드 예시에서는 0.01로 설정했다.
  • 13. Bayesian A/B Test, 그런데 이제 Expected Loss를 곁들인 (1) 실험에서 목표로 하는 에러 허용치 e 를 정한다. (2) 실험 진행 : A안과 B안 중 하나를 랜덤하게 유저에게 보여준다. (3) A, B안의 기대 손실을 계산한다. (4) A안과 B안의 기대 손실 중 에러 허용치보다 작은 값이 있는지 확인한다. 각 안의 노출 및 전환 횟수를 수집해야 한다.
  • 14. Bayesian A/B Test, 그런데 이제 Expected Loss를 곁들인 (1) 실험에서 목표로 하는 에러 허용치 e 를 정한다. (2) 실험 진행 : A안과 B안 중 하나를 랜덤하게 유저에게 보여준다. (3) A, B안의 기대 손실을 계산한다. (4) A안과 B안의 기대 손실 중 에러 허용치보다 작은 값이 있는지 확인한다. Loss Function 을 
 "예상되는 손실의 양을 나타나는 함수"로 정의한다. A안의 Loss Function = max(B안 전환율 - A안 전환율, 0)
 B안의 Loss Function = max(A안 전환율 - B안 전환율, 0) 기대 손실은 
 "Loss Function으로 계산한 값의 기대값"을 구하면 된다.
  • 15. Bayesian A/B Test, 그런데 이제 Expected Loss를 곁들인 (1) 실험에서 목표로 하는 에러 허용치 e 를 정한다. (2) 실험 진행 : A안과 B안 중 하나를 랜덤하게 유저에게 보여준다. (3) A, B안의 기대 손실을 계산한다. (4) A안과 B안의 기대 손실 중 에러 허용치보다 작은 값이 있는지 확인한다. 없는 경우 → 실험을 계속한다. 있는 경우 → 실험을 멈추고 기대 손실이 e 보다 작은 안을 선택한다.
  • 16. Expected Loss를 사용하는 Bayesian A/B Test 의 장점 (1) 작은 개선에도 열려있기 때문에, 새로운 안으로 변경하는 위험이 적은 비즈니스 환경에 적합하다. > 최근의 비즈니스 환경에서는 중요한 지표를 개선하기 위해 다양한 실험을 반복하는 경우가 많다. 
 > 작은 수치라도 개선되는 방안을 빠르게 선택하면, 결과적으로 더 많은 실험을 빠르게 수행하여 지표를 최대한 개선할 수 있게 된다. (2) Loss Function 으로 인해 중요한 부분에서 발생한 에러가 의사 결정에 더 큰 영향을 미친다. > 10% vs 10.1% 보다는 10% vs 15% 일 때 더 큰 영향을 미친다. (3) B안이 A안보다 좋을 확률을 직접 계산할 수 있다. > p-value와 다르게 더 직관적으로 해석할 수 있다.
  • 17. 코드로 살펴보자 (1) Python + PyMC3 Python (PyMC3) Python (PyMC3)
  • 19. 고민 여전히 남아있는 고민 : 신중한 큰 걸음 vs 신속한 잰 걸음 > 이 방식은 새로운 방안을 선택하는 비용이 생각보다 적다는 것을 전제로 하고 있다. 정말로 그럴까? NHST 에 익숙한 사람들 > 많은 사람들은 여전히 "p-value가 유의수준(보통 0.05) 보다 작을 때 선택한다" 라는 명확한 기준이 존재하는 NHST를 선호한다. 베이지안 통계 도구의 진입장벽 > 사실 Frequentist 테스트 방법과 비교하면 PyMC3 나 Stan 모두 사용하기 어려운 편이다. MAB(특히 톰슨 샘플링)와 A/B 테스트의 역할 분배 > 최적화와 의사결정. 사실 둘 다 중요한데 각각 어떻게 활용하는 것이 최선의 선택일까?
  • 20. 저는 데이터라이즈에서 이커머스를 위한 올인원 그로스 서비스 다이버스를 만들고 있습니다. > 실제 비즈니스에 데이터를 적용해보고 싶으신가요? > 끊임없이 데이터가 흐르는 파이프라인을 다루어보고 싶으신가요? > 모든 사람이 데이터의 혜택을 받을 수 있도록 사용하기 쉬운 솔루션을 만들어보고 싶으신가요? 
 혹시 해당되는 항목이 있나요? 그렇다면 언젠가 저희와 함께 할지도 모르겠네요!
 먼저 가서 기다리고 있을게요 :) 데이터라이즈에서 같이 고민해요! 데이터라이즈에서 함께 고민해요! https://team.datarize.ai/