SlideShare a Scribd company logo
1 of 45
Download to read offline
Causal Inference

: Primer
카카오 데이터분석가 이민호 (miika)
캐쥬얼 (casual) 아니에요

causal 이에요
카카오에서 데이터를 다룹니다
흔히들 Data Science 라고 표현하지만, 사실 엄청나게 넓은 분야
관련된 업무들 중에서 주로
- 데이터를 분석하거나
- 분석 관련 도구를 (대시보드 같은 것들) 만듭니다
"데이터 분석" 하면 어떤게 떠오르세요?
데이터 분석과 관련된 책이나 강의를 본적이 있나요?
강의/책에서 주로 가르치는 걸 보면..
- 분류/예측
- 텍스트 마이닝 (+ 워드 클라우드..)
- 지도에 데이터 뿌리기
- 기타 등등 재미있어 보이는 것들
까는거 아닙니다 저도 강의하면 이런거 해요
실제로는 무슨 일을 주로 하게 될까요?
원인 찾기
- DAU가 갑자기 떨어졌는데 왜 그래요??
- 로그수가 이유없이 뚝 떨어졌어요
효과 측정하기
- 이번 업데이트로 매출에 얼마나 영향을 주었나요??
- 카카오톡 내 광고가 추가되면서 "광고 추적 제한" 기능을 켠 사용자가 얼마나 늘었나요?

(이거 켜놓는다고 광고가 없어지지 않습니다.. 추천이 안될뿐)
배운 것과 업무의 간극
모델링을 통해

분류하고 예측하는 방법
인과 관계를 설명하는 방법
우리가 배운 것 일할 때 필요한 것
원인파악 / 효과측정을 위해 제일 좋은 방법은?
Randomized Control Test
- 흔히들 말하는 A/B 테스트
- 모든 변수를 완벽하게 고정하는 대신, 무작위 배정으로 평균적인 효과를 측정할 수 있다
그런데 A/B 테스트를 할 수 없는 상황이라면 어떻게 해야 할까?
측정하고자 하는 변수 이외에는 모든 것들을 고정시키고,
확인하고 싶은 항목만 변경해서 테스트해본다
A/B 테스트를 할 수 없다면?
테스트를 하려면 ...
- 돈이 많이든다
- 시간이 많이든다
- 플랫폼에서 지원하지 않으면 리소스가 많이 필요하다
데이터의 특성상 테스트를 하기 어려울 수도 있다
- 윤리적인 문제, 이미 지나간 사건일 경우 등등
데이터만 가지고 인과 관계를 파악하거나 효과를 측정할 수는 없을까?
쌓여 있는 데이터에서 원인 파악을 위한 자료를 수집해보자
뭐부터 봐야하지?
만만한건 변수간의 상관관계
문제가 되는 목표 변수와 상관관계가 높은 변수부터 탐색해보면 되지 않을까?
그런데 갑자기 떠오르는 수업 시간의 한 장면...!
Correlation
숨쉬는 사람들은 전부 죽는다
Causation

사람이 숨을 못쉬면 죽는다
"상관관계는 인과관계를 의미하지 않는다"
통계학 수업에서 흔히 하는 단골 멘트
인과관계가 구체적으로 무엇을 말하는지에 대해서는 알려주지 않는다
- 그렇다면 인과관계란 뭐지?
- 상관관계에 어떤 조건이 추가되어야 인과관계라고 볼 수 있는걸까?
- 무엇이 다른걸까?
이번 시간에 알아볼 내용
(1) 인과 관계란 무엇일까?
(2) 인과 관계로 인한 효과를 (실험하지 않고) 어떻게 추정할 수 있을까?
(3) 다양한 변수들이 만들어내는 인과 관계를 어떻게 표현할 수 있을까?
인과 관계와 효과를 설명하기 위한 다양한 방법
...이 있지만

그 중에서 두 가지를 살펴보자
Potential outcomes Causal graphical models
Potential Outcomes : Intuition
케빈은 1년 전 오늘 삼성바이오로직스 주식을 샀다
케빈은 주식을 삼으로써 어떤 심경의 변화를 겪게 되었을까? 얼마나 이득을 보았을까?
image from 뉴스타파 기사 : https://newstapa.org/38392
이상적인 솔루션 : 과거로 돌아가서 다른 선택을 해본다
1년 전 선택의 그날, 새로운 케빈은 주식 대신에 적금 통장에 돈을 넣는다 아니면 코인?
새로운 선택을 한 세계에서 1년간 케빈이 벌어들인 수익을 구한다
그리고 이쪽 세계의 케빈이 삼바 주식으로 벌어들인 수익/손해와 비교한다
케빈 케빈-0116
케빈의 선택에 따른 영향을 구해보자
현실 케빈의 선택(Y0)과 저쪽 세계 케빈의 선택(Y1)이 있다
두 세계에서 바뀐게 케빈의 선택뿐이라면,

이후에 달라지는 모든 결과들은 케빈의 선택으로 인한 인과적인 영향이라고 볼 수 있다
그렇다면 케빈의 선택으로 인한 영향은 간단하게 Y0 - Y1 을 계산하면 구할 수 있다
케빈 케빈-0116
Y0
Y1
하지만 우리에겐 타임머신이 없다..
어밴져스는 xxx로 가서 xxx할 수 있었지만 우리는 그럴 수 없다
그렇다면 어떻게 해야 하지?
Potential Outcomes: 현실에서 적용하기
데이터를 테이블에 정리해서 보다보니 Y1 (저쪽 세계 케빈의 수익) 값만 비어있다
- 그렇다면 빈 칸을 예측해서 채워넣으면 되지 않을까?
- 그동안 배워온 머신러닝을 적용해보자!
케빈 개인이 아니라 일반적인 삼바 투자자들에 대한 효과를 알고 싶다
- 한 명의 효과만 측정하는 대신 모든 사람의 효과를 비교해서 평균을 구하자!
- Average Treatment Effect (ATE)
이제 우리의 목표는 투자로 인한 평균적인 효과 (ATE)를 잘 추정해보는 것이다
Y0 Y1
A 20 -
B 18 -
C - 35
Y0 Y1
A 20 27
B 18 21
C 28 35
Potential Outcomes: Matching
삼바에 투자하지 않은 케빈의 수익을 어떻게 예상해 볼 수 있을까?
다양한 방법이 있겠지만, 한 가지 방법은 

삼바에 투자하지 않은 사람중에서 케빈과 가장 유사한 조건의 사람을 찾아서

비교하는 것이다
케빈
20대 후반 남성, 유명 IT회사의 돈 많은 개발자, 멀리서 통근, 자차는 없음, ...
이런 작업을 모든 사람에 대하여 반복하고, 평균적인 효과를 구한다
다양한 조건을 반영하여 최대한 비슷한 사람을 찾고,
유사 케빈의 1년간 수익을 케빈과 비교한다!
케빈의 조건
케빙
vs
Potential Outcomes: Stratification
또 한 가지 방법은 유사한 특성을 가진 사람들끼리 그룹을 구성하는 것이다
- 20대 남성 + 개발자 + ...
- 변수가 많아지면 스코어 값을 구해서 비슷한 점수의 사람들로 구분하기도 한다
각 그룹별로 평균 수익을 구해 ATE를 추정할 수 있다
케빈
Potential Outcomes
상대적으로 쉽고, 직관적이며, 우리에게 친숙한 도구들을 사용한다
- 어려운 인과관계 문제를 상대적으로 쉬운 결측치 예측 문제로 바꿔서 해결한다
- 모형보다는 데이터를 중심으로 추론한다
그런데, 변수들의 관계를 고려하지 않고 기계적으로 예측해도 인과관계를 잘 추론할 수 있을까?
- 친숙한 도구들을 사용한다는 것은 "상관관계"를 바탕으로 하는 방법론을 사용한다는 것
→ 원점으로 돌아와서, 상관관계 만으로 인과관계를 추론할 수 있을까?
- Potential Outcomes의 방법론은 기본적으로 교란 변수 (Confounder) 의 효과를 보정하는 것
→ 어떤 변수가 교란 변수인지 어떻게 확인할까? 교란 변수의 값을 측정할 수 없다면 어떻게 하지?
변수들 사이의 관계를 해석할 때 주의해야 하는 경우들
Spurious Correlation
Simpson's Paradox
Perkson's Paradox
Spurious Correlation
서로 연관이 없어보이는 두 데이터가 높은 연관성을 보이는 경우가 있다
99.26%의 상관관계!!
Simpson's Paradox
어떤 경향을 나타내는 전체 데이터를 하위 그룹으로 나누었을 때, 

각각의 하위 그룹에서는 정반대의 결론이 나오는 현상을 말한다
우측 데이터에서 심근경색이 일어날 확률을 살펴보자
- 여성 : 약 안먹으면 5% -> 약 먹으면 7.5%
- 남성 : 약 안먹으면 30% -> 약 먹으면 50%
- 전체 : 약 안먹으면 27.7% -> 약 먹으면 18.3%
여성한테도 안좋고 남성한테도 안좋은 결과인데 전체 사람들에게는 좋다..? 뭔소리지
Control (No Drug) Treatment(Drug)
Heart Attack No Heart Attack Heart Attack No Heart Attack
Female 1 (5%) 19 3 (7.5%) 37
Male 12 (30%) 28 8 (40%) 12
Total 13 (27.7%) 47 11 (18.3%) 49
왜 이런 일이 발생할까?
Confounder (교란변수) 의 존재!
- Gender가 Drug, Heart Attack에 모두 영향을 미치고 있다
- 여성은 2/3가 약을 먹었고, 남성은 1/3만 약을 먹었다
남녀 각각에 대해서 효과를 계산하고, 평균을 구해야 한다
- No Drug (17.5%) -> Drug (23.75%)
- 결론적으로 이 약은 여성한테도 안좋고 남성한테도 안좋고 전체 사람들에게도 안좋다
그렇다면 데이터를 항상 쪼개어봐야하나? 그건 또 아니다!
동일한 수치의 데이터를 다시 살펴보자


혈압이 심근경색의 원인 중 하나로 알려져있고, 혈압을 낮추기 위해 약을 먹는다
그렇다면, 약을 먹으면 심근경색도 줄어드는 효과가 있을까?
가정
Control (No Drug) Treatment(Drug)
Heart Attack No Heart Attack Heart Attack No Heart Attack
낮은 혈압 1 (5%) 19 3 (7.5%) 37
높은 혈압 12 (30%) 28 8 (40%) 12
Total 13 (27.7%) 47 11 (18.3%) 49
테이블의 값은 동일하지만, 변수간의 관계가 아까와는 다르다
여기서 협압 변수는 Confounder가 아니다
따라서 여기서는 전체 수치를 기준으로 결론을 내린다
- 심근경색이 발생할 확률 : No Drug (27.7%) -> Drug (18.3%)
Perkson's Paradox
데이터를 쪼개는게 능사가 아니라는 것을 보여주는 또 다른 사례
통제된 데이터에서 얻은 상관관계가 잘못된 해석으로 이어질 수도 있다
1979년 Sackett의 논문
- 입원환자 257명 대상으로 이동성 질환과 호흡기 질환의 연관성을 분석했다
- Odds ratio = 4.06 로 높은 연관성이 나타났다
- 그런데 일반 2783명 대상으로 다시 확인한 결과

Odd ratio = 1.06 으로 연관성이 없다는 결론
어떻게 된 일일까?
General Population 6개월 이상 입원 환자
이동성 질환 O 이동성 질환 X 이동성 질환 O 이동성 질환 X
호흡기 질환 O 17 (7.6%) 207 5 (25%) 15
호흡기 질환 X 184 (7.2%) 2376 18 (7.6%) 219
왜 이런 결과가 발생했을까?
호흡기 질환과 이동성 질환 모두 병원에 입원해서 치료를 받게하는 변수다
- 호흡기 질환 -> 입원
- 이동성 질환 -> 입원
따라서 이 경우에 "입원여부" 변수는 Collider
이러한 상황에서는 입원여부에 조건을 걸게 되면, 변수간의 관계에 왜곡이 발생할 수 있다
- Collider Bias
함정카드가 너무 많은데.... 어떻게 하면 좋을까????
Causal graphical models
데이터만 사용해서 추론할 경우에는 함정에 빠지기 쉽다
우리가 가지고 있는 데이터들이 어떤 방식으로 생성되는지부터 고민해야 한다
데이터의 생성 과정을 그래프를 통해 표현하고, 이를 통해 인과 관계를 추론한다
=> Causal graphical models!
인과 관계를 표현하기
DAG(Directed Acyclic Graphs)를 통해서 인과관계를 표현할 수 있다
- X →Y 라면 X는 Y의 직접적인 원인이다
- X → X1 → Y 라면 X는 Y의 간접적인 원인이다
- 그래프를 통해 인과관계를 표현하면 정량화시키기 어려운 변수들도 쉽게 표현할 수 있다
그래프를 사용하면 결합 확률분포를 효과적으로 표현할 수 있게 된다
- X, Y, Z 변수가 있을 때 원래는 모든 (x, y, z) 조합의 확률값을 알아야 한다
- X → Y → Z 그래프를 가정하면 직접 연결된 노드에만 영향을 미치기 때문에 

X, (Y|X), (Z|Y) 세 가지만 알면 된다
세 개의 변수에서 나타나는 특별한 관계들
변수의 개수가 더 많아질 경우, 위 관계들을 조합하여 판단한다
- 임의의 두 변수가 path를 통해 연결되어 있는가?
- 임의의 두 변수가 서로 영향을 미칠 수 있는 상태인가?
x1
x2
x3
x1
x2
x3
x1
x2
x3
Chain Fork Collider
이걸 왜 알아야 하지..?
변수들의 관계를 바탕으로 인과 관계를 더 명확하게 이해할 수 있다
Potential Outcomes 모형에 필요한 조건부 독립 가정들을 그래프를 통해 검증할 수 있다
- Chain, Fork : x2 값이 고정되면 x1과 x3는 조건부 독립
- Collider : 기본적으로 x1과 x3는 독립 , x2값이 고정되면 x1과 x3가 연결됨
그래프를 다 그렸다면, 우리는 뭘 구해야할까?
원인과 결과 (X → Y)
X에 변화를 주었을 때 (개입) Y는 어떻게 변할까?
- 이것을 P(Y | do(X)) 라고 해보자
- 우리가 관찰할 수 있는 P(Y | X) 와는 다르다
- P(Y | X) = P(Y | see(X)) : X를 관찰했을 때 Y가 일어날 확률
P(Y | X)로 P(Y | do(X)) 를 추정하기
데이터로는 P(Y | X) 만을 알 수 있다
실험없이 데이터만 가지고 P(Y | do(X)) 를 계산할 수 있을까?
특정한 형태의 그래프가 구성되면, 관찰한 데이터를 통해 변화의 영향을 측정할 수 있다
- Simple Case : X -> Y ( 이 때는 P(Y | X ) = P(Y | do(X)) )
- Back-door Adjustment
- Front-door Adjustment
Back-door / Front-door Adjustment
Back-door, Front-door가 성립하는 구조를 찾는다
=> 어떤 변수를 보정해야 하는지 알 수 있게 된다 

=> P(Y | X) 만으로 P(Y | do(X))를 구할 수 있다
특정한 조건이 충족되는 경우, 관찰한 데이터를 바탕으로 개입에 의한 변화를 추정할 수 있다
Back-door Adjustment

- X와 Y에 동시에 영향을 미치고 있는 Z 변수가 있을 경우

- X, Y, Z 모두 측정 가능해야 한다
Front-door Adjustment

- 측정할 수 없는 Counfounder 변수 Z가 X, Y에 영향을 미치는 경우 

- Z를 측정할 수 없지만 X, W, Y 는 측정할 수 있어야 한다
여기까지, 정리해볼까요?
1) 두 가지 방법론 비교
Potential Outcomes Causal Graphical Model
목표 Clone Y - Y P(Y | do(X))
방식 Missing Value Prediction Directed Acyclic Graphs 를 통한 모델링
장점 직관적이고, 상대적으로 친숙한 도구들을 활용한다 변수들 사이의 관계를 데이터에 잘 반영할 수 있다
단점
상대적으로 많은 가정을 필요로 한다
Matching의 커버리지가 높지 않다면 예측력이 떨어진다
생소함 (DAG, do(X) 를 활용한 표현 등등)
모델링이 잘 되어야만 좋은 결과를 얻을 수 있다
2) 인과관계 모형을 통해 알 수 있는 것
어렵구나.. ★★★★★
인과관계를 파악하기 위해서는 수치만 보는 것이 아니라, 

데이터가 어떻게 생성되었는지도 고민해야 한다
특정한 구조를 가진 데이터에서는 관측 데이터로 인과 관계를 추정할 수 있다
이러한 구조를 찾기 위해 그래피컬 모형을 이용한다
근데 이거..

이렇게까지 고생하면서 알아야 할까요?
인과 관계에 대해 고민해야 하는 이유 : 데이터 분석가
데이터 분석은 인과 관계를 바탕으로 스토리텔링하는 것이라고 볼 수 있다
분석이 힘을 얻기 위해서는 개연성이 필요하다
납득할 수 있는 명확한 인과관계는 스토리에 힘을 불어넣는다
따라서 데이터를 바탕으로 인과 관계에 기반한 스토리텔링을 잘 하기 위해서는 

인과 관계에 대한 고민이 필수적이다
인과 관계에 대해 고민해야 하는 이유 : AI/ML/DL
Judea Pearl의 "Ladder of Causation" : 인과 관계 추론은 세 단계로 구성되어 있다
- 1단계 Association
- 서로 연관성이 높은 현상들을 찾고, 추세를 바탕으로 예측한다 (현재 대부분의 머신러닝)
- 2단계 Intervention
- 어떤 행동을 취했을 때 무슨 일이 일어나는지 예측한다 (강화학습에서 많이 다루는 영역)
- 3단계 Imagining
- 발생하지 않은 상황을 상상한다 (인과관계 추론의 최종 목표, Counterfactuals)
인과관계 추론을 통해 Counterfactual를 더 잘 예상할 수 있게 된다면,

현재의 AI가 한 단계 더 도약할 수 있을 것이다
어찌됐든 어렵지만 계속 공부하고 있습니다
TIL 시즌3 출석률 (75일째 기준) : 55일 / 75일 (73.3%)
그 중에서 Causal Inference 관련 공부한 비율 : 23일 / 55일 (41.8%)
주로 공부하는 자료
- (DataCamp Open Course) Causal Inference in R
- (Judea Pearl) The Book of Why
- (Judea Pearl) Causal Inference in Statistics : A Primer
- (Python Library) Causalinference, CausalGraphicalModels, dowhy
- (Coursera, Daphne Koller) Probabilistic Graphical Models 강의
Causal Inference는 현재 많은 연구가 이루어지고 있는 분야입니다.



어렵지만 따라가보려고 열심히 공부하고 있습니다.

혹시라도 잘못된/개선이 필요한 부분이 있다면 알려주세요!
lumiamitie@gmail.com

More Related Content

What's hot

[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정PAP (Product Analytics Playground)
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기승화 양
 
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화Minho Lee
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
 
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnABokyung Choi
 
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트Minho Lee
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)Yongho Ha
 
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 [데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 choi kyumin
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.Yongho Ha
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101DaeMyung Kang
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )정혁 권
 
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.Yongho Ha
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다승화 양
 
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan Ko
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Seongyun Byeon
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립승화 양
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)SANG WON PARK
 
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data LiteracyPAP (Product Analytics Playground)
 

What's hot (20)

[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
[팝콘 시즌1] 허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기
 
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
 
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) 오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA)
 
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
[PAP] 팝콘 시즌 1 컨퍼런스 사전 QnA
 
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트
 
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)
 
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 [데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
 
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
 
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립
 
boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)boosting 기법 이해 (bagging vs boosting)
boosting 기법 이해 (bagging vs boosting)
 
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
[팝콘 시즌1] 박동혁 : 마케터에게 필요한 Data Literacy
 

Similar to Causal Inference : Primer (2019-06-01 잔디콘)

데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...Jungmin Lee
 
[TOC for Education] Approaches to Problem Solving
[TOC for Education]  Approaches to Problem Solving [TOC for Education]  Approaches to Problem Solving
[TOC for Education] Approaches to Problem Solving Namkee Chung
 
[Data Journalism] The Dilemma of Career Women - Design Process
[Data Journalism] The Dilemma of Career Women - Design Process[Data Journalism] The Dilemma of Career Women - Design Process
[Data Journalism] The Dilemma of Career Women - Design ProcessJiyeon Kang
 
디포커스 전홍구
디포커스 전홍구디포커스 전홍구
디포커스 전홍구Newsjelly
 
이지연 디미컨 한스로슬링
이지연 디미컨 한스로슬링이지연 디미컨 한스로슬링
이지연 디미컨 한스로슬링Ji Yeon Lee
 
디미컨_2 Visualize this
디미컨_2 Visualize this디미컨_2 Visualize this
디미컨_2 Visualize thisjiiiy
 
Week9 data vis(5)
Week9 data vis(5)Week9 data vis(5)
Week9 data vis(5)Eun Yu
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )Seung-Woo Kang
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께백승민 Baek Seung Min
 
1314587 신은빈 디미컨 최종발표
1314587 신은빈 디미컨 최종발표1314587 신은빈 디미컨 최종발표
1314587 신은빈 디미컨 최종발표eunbin119
 
Matrix에 오신 것을_환영합니다!
Matrix에 오신 것을_환영합니다!Matrix에 오신 것을_환영합니다!
Matrix에 오신 것을_환영합니다!Lee_Cheol_Hyun
 
(강의자료) 사회문제해결사에 관하여 김재훈
(강의자료) 사회문제해결사에 관하여 김재훈(강의자료) 사회문제해결사에 관하여 김재훈
(강의자료) 사회문제해결사에 관하여 김재훈JAEHUN KIM
 
So You Wanna Change the World?
So You Wanna Change the World?So You Wanna Change the World?
So You Wanna Change the World?Lab80
 
데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?Glen Park
 
2. 행동경제학
2. 행동경제학2. 행동경제학
2. 행동경제학Suyeong Park
 
[TOCfE] 생각하는 어른들의 문제해결 사고도구
[TOCfE] 생각하는 어른들의 문제해결 사고도구[TOCfE] 생각하는 어른들의 문제해결 사고도구
[TOCfE] 생각하는 어른들의 문제해결 사고도구Youngok Kim
 
From Data Literacy to Data Fluency
From Data Literacy to Data FluencyFrom Data Literacy to Data Fluency
From Data Literacy to Data Fluencysidney yang
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질Sun Young Kim
 

Similar to Causal Inference : Primer (2019-06-01 잔디콘) (20)

데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
 
[TOC for Education] Approaches to Problem Solving
[TOC for Education]  Approaches to Problem Solving [TOC for Education]  Approaches to Problem Solving
[TOC for Education] Approaches to Problem Solving
 
[Data Journalism] The Dilemma of Career Women - Design Process
[Data Journalism] The Dilemma of Career Women - Design Process[Data Journalism] The Dilemma of Career Women - Design Process
[Data Journalism] The Dilemma of Career Women - Design Process
 
디포커스 전홍구
디포커스 전홍구디포커스 전홍구
디포커스 전홍구
 
이지연 디미컨 한스로슬링
이지연 디미컨 한스로슬링이지연 디미컨 한스로슬링
이지연 디미컨 한스로슬링
 
20161222 기출문제해설강의
20161222 기출문제해설강의20161222 기출문제해설강의
20161222 기출문제해설강의
 
디미컨_2 Visualize this
디미컨_2 Visualize this디미컨_2 Visualize this
디미컨_2 Visualize this
 
Week9 data vis(5)
Week9 data vis(5)Week9 data vis(5)
Week9 data vis(5)
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께
 
빅데이터
빅데이터빅데이터
빅데이터
 
1314587 신은빈 디미컨 최종발표
1314587 신은빈 디미컨 최종발표1314587 신은빈 디미컨 최종발표
1314587 신은빈 디미컨 최종발표
 
Matrix에 오신 것을_환영합니다!
Matrix에 오신 것을_환영합니다!Matrix에 오신 것을_환영합니다!
Matrix에 오신 것을_환영합니다!
 
(강의자료) 사회문제해결사에 관하여 김재훈
(강의자료) 사회문제해결사에 관하여 김재훈(강의자료) 사회문제해결사에 관하여 김재훈
(강의자료) 사회문제해결사에 관하여 김재훈
 
So You Wanna Change the World?
So You Wanna Change the World?So You Wanna Change the World?
So You Wanna Change the World?
 
데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?데이터를 비즈니스에 활용하기 왜 어려울까?
데이터를 비즈니스에 활용하기 왜 어려울까?
 
2. 행동경제학
2. 행동경제학2. 행동경제학
2. 행동경제학
 
[TOCfE] 생각하는 어른들의 문제해결 사고도구
[TOCfE] 생각하는 어른들의 문제해결 사고도구[TOCfE] 생각하는 어른들의 문제해결 사고도구
[TOCfE] 생각하는 어른들의 문제해결 사고도구
 
From Data Literacy to Data Fluency
From Data Literacy to Data FluencyFrom Data Literacy to Data Fluency
From Data Literacy to Data Fluency
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 

More from Minho Lee

230304 UX/UI 해외 인기 아티클 8기 발표
230304 UX/UI 해외 인기 아티클 8기 발표230304 UX/UI 해외 인기 아티클 8기 발표
230304 UX/UI 해외 인기 아티클 8기 발표Minho Lee
 
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표Minho Lee
 
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표Minho Lee
 
220319 해외 아티클 스터디 5기 : 1주차 발표
220319 해외 아티클 스터디 5기 : 1주차 발표220319 해외 아티클 스터디 5기 : 1주차 발표
220319 해외 아티클 스터디 5기 : 1주차 발표Minho Lee
 
201107 해외 아티클 스터디 2기 : 2주차 발표
201107 해외 아티클 스터디 2기 : 2주차 발표201107 해외 아티클 스터디 2기 : 2주차 발표
201107 해외 아티클 스터디 2기 : 2주차 발표Minho Lee
 
[DS Meetup] iPad로 가벼운 분석환경 구축해보기
[DS Meetup] iPad로 가벼운 분석환경 구축해보기[DS Meetup] iPad로 가벼운 분석환경 구축해보기
[DS Meetup] iPad로 가벼운 분석환경 구축해보기Minho Lee
 
Today I Learned - Bayesian Statistics
Today I Learned - Bayesian StatisticsToday I Learned - Bayesian Statistics
Today I Learned - Bayesian StatisticsMinho Lee
 
For Better Data Visualization
For Better Data VisualizationFor Better Data Visualization
For Better Data VisualizationMinho Lee
 
Facebook prophet
Facebook prophetFacebook prophet
Facebook prophetMinho Lee
 

More from Minho Lee (9)

230304 UX/UI 해외 인기 아티클 8기 발표
230304 UX/UI 해외 인기 아티클 8기 발표230304 UX/UI 해외 인기 아티클 8기 발표
230304 UX/UI 해외 인기 아티클 8기 발표
 
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표
221105 UX/UI 해외 인기 아티클 7기 : 1주차 발표
 
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표
220806 UX/UI 해외 인기 아티클 6기 : 3주차 발표
 
220319 해외 아티클 스터디 5기 : 1주차 발표
220319 해외 아티클 스터디 5기 : 1주차 발표220319 해외 아티클 스터디 5기 : 1주차 발표
220319 해외 아티클 스터디 5기 : 1주차 발표
 
201107 해외 아티클 스터디 2기 : 2주차 발표
201107 해외 아티클 스터디 2기 : 2주차 발표201107 해외 아티클 스터디 2기 : 2주차 발표
201107 해외 아티클 스터디 2기 : 2주차 발표
 
[DS Meetup] iPad로 가벼운 분석환경 구축해보기
[DS Meetup] iPad로 가벼운 분석환경 구축해보기[DS Meetup] iPad로 가벼운 분석환경 구축해보기
[DS Meetup] iPad로 가벼운 분석환경 구축해보기
 
Today I Learned - Bayesian Statistics
Today I Learned - Bayesian StatisticsToday I Learned - Bayesian Statistics
Today I Learned - Bayesian Statistics
 
For Better Data Visualization
For Better Data VisualizationFor Better Data Visualization
For Better Data Visualization
 
Facebook prophet
Facebook prophetFacebook prophet
Facebook prophet
 

Causal Inference : Primer (2019-06-01 잔디콘)

  • 1. Causal Inference
 : Primer 카카오 데이터분석가 이민호 (miika)
  • 3. 카카오에서 데이터를 다룹니다 흔히들 Data Science 라고 표현하지만, 사실 엄청나게 넓은 분야 관련된 업무들 중에서 주로 - 데이터를 분석하거나 - 분석 관련 도구를 (대시보드 같은 것들) 만듭니다
  • 4. "데이터 분석" 하면 어떤게 떠오르세요? 데이터 분석과 관련된 책이나 강의를 본적이 있나요? 강의/책에서 주로 가르치는 걸 보면.. - 분류/예측 - 텍스트 마이닝 (+ 워드 클라우드..) - 지도에 데이터 뿌리기 - 기타 등등 재미있어 보이는 것들 까는거 아닙니다 저도 강의하면 이런거 해요
  • 5. 실제로는 무슨 일을 주로 하게 될까요? 원인 찾기 - DAU가 갑자기 떨어졌는데 왜 그래요?? - 로그수가 이유없이 뚝 떨어졌어요 효과 측정하기 - 이번 업데이트로 매출에 얼마나 영향을 주었나요?? - 카카오톡 내 광고가 추가되면서 "광고 추적 제한" 기능을 켠 사용자가 얼마나 늘었나요?
 (이거 켜놓는다고 광고가 없어지지 않습니다.. 추천이 안될뿐)
  • 6. 배운 것과 업무의 간극 모델링을 통해
 분류하고 예측하는 방법 인과 관계를 설명하는 방법 우리가 배운 것 일할 때 필요한 것
  • 7. 원인파악 / 효과측정을 위해 제일 좋은 방법은? Randomized Control Test - 흔히들 말하는 A/B 테스트 - 모든 변수를 완벽하게 고정하는 대신, 무작위 배정으로 평균적인 효과를 측정할 수 있다 그런데 A/B 테스트를 할 수 없는 상황이라면 어떻게 해야 할까? 측정하고자 하는 변수 이외에는 모든 것들을 고정시키고, 확인하고 싶은 항목만 변경해서 테스트해본다
  • 8. A/B 테스트를 할 수 없다면? 테스트를 하려면 ... - 돈이 많이든다 - 시간이 많이든다 - 플랫폼에서 지원하지 않으면 리소스가 많이 필요하다 데이터의 특성상 테스트를 하기 어려울 수도 있다 - 윤리적인 문제, 이미 지나간 사건일 경우 등등 데이터만 가지고 인과 관계를 파악하거나 효과를 측정할 수는 없을까?
  • 9. 쌓여 있는 데이터에서 원인 파악을 위한 자료를 수집해보자 뭐부터 봐야하지? 만만한건 변수간의 상관관계 문제가 되는 목표 변수와 상관관계가 높은 변수부터 탐색해보면 되지 않을까? 그런데 갑자기 떠오르는 수업 시간의 한 장면...!
  • 10. Correlation 숨쉬는 사람들은 전부 죽는다 Causation
 사람이 숨을 못쉬면 죽는다
  • 11. "상관관계는 인과관계를 의미하지 않는다" 통계학 수업에서 흔히 하는 단골 멘트 인과관계가 구체적으로 무엇을 말하는지에 대해서는 알려주지 않는다 - 그렇다면 인과관계란 뭐지? - 상관관계에 어떤 조건이 추가되어야 인과관계라고 볼 수 있는걸까? - 무엇이 다른걸까?
  • 12. 이번 시간에 알아볼 내용 (1) 인과 관계란 무엇일까? (2) 인과 관계로 인한 효과를 (실험하지 않고) 어떻게 추정할 수 있을까? (3) 다양한 변수들이 만들어내는 인과 관계를 어떻게 표현할 수 있을까?
  • 13. 인과 관계와 효과를 설명하기 위한 다양한 방법 ...이 있지만
 그 중에서 두 가지를 살펴보자 Potential outcomes Causal graphical models
  • 14. Potential Outcomes : Intuition 케빈은 1년 전 오늘 삼성바이오로직스 주식을 샀다 케빈은 주식을 삼으로써 어떤 심경의 변화를 겪게 되었을까? 얼마나 이득을 보았을까? image from 뉴스타파 기사 : https://newstapa.org/38392
  • 15. 이상적인 솔루션 : 과거로 돌아가서 다른 선택을 해본다 1년 전 선택의 그날, 새로운 케빈은 주식 대신에 적금 통장에 돈을 넣는다 아니면 코인? 새로운 선택을 한 세계에서 1년간 케빈이 벌어들인 수익을 구한다 그리고 이쪽 세계의 케빈이 삼바 주식으로 벌어들인 수익/손해와 비교한다 케빈 케빈-0116
  • 16. 케빈의 선택에 따른 영향을 구해보자 현실 케빈의 선택(Y0)과 저쪽 세계 케빈의 선택(Y1)이 있다 두 세계에서 바뀐게 케빈의 선택뿐이라면,
 이후에 달라지는 모든 결과들은 케빈의 선택으로 인한 인과적인 영향이라고 볼 수 있다 그렇다면 케빈의 선택으로 인한 영향은 간단하게 Y0 - Y1 을 계산하면 구할 수 있다 케빈 케빈-0116 Y0 Y1
  • 17. 하지만 우리에겐 타임머신이 없다.. 어밴져스는 xxx로 가서 xxx할 수 있었지만 우리는 그럴 수 없다 그렇다면 어떻게 해야 하지?
  • 18. Potential Outcomes: 현실에서 적용하기 데이터를 테이블에 정리해서 보다보니 Y1 (저쪽 세계 케빈의 수익) 값만 비어있다 - 그렇다면 빈 칸을 예측해서 채워넣으면 되지 않을까? - 그동안 배워온 머신러닝을 적용해보자! 케빈 개인이 아니라 일반적인 삼바 투자자들에 대한 효과를 알고 싶다 - 한 명의 효과만 측정하는 대신 모든 사람의 효과를 비교해서 평균을 구하자! - Average Treatment Effect (ATE) 이제 우리의 목표는 투자로 인한 평균적인 효과 (ATE)를 잘 추정해보는 것이다 Y0 Y1 A 20 - B 18 - C - 35 Y0 Y1 A 20 27 B 18 21 C 28 35
  • 19. Potential Outcomes: Matching 삼바에 투자하지 않은 케빈의 수익을 어떻게 예상해 볼 수 있을까? 다양한 방법이 있겠지만, 한 가지 방법은 
 삼바에 투자하지 않은 사람중에서 케빈과 가장 유사한 조건의 사람을 찾아서
 비교하는 것이다 케빈 20대 후반 남성, 유명 IT회사의 돈 많은 개발자, 멀리서 통근, 자차는 없음, ... 이런 작업을 모든 사람에 대하여 반복하고, 평균적인 효과를 구한다 다양한 조건을 반영하여 최대한 비슷한 사람을 찾고, 유사 케빈의 1년간 수익을 케빈과 비교한다! 케빈의 조건 케빙 vs
  • 20. Potential Outcomes: Stratification 또 한 가지 방법은 유사한 특성을 가진 사람들끼리 그룹을 구성하는 것이다 - 20대 남성 + 개발자 + ... - 변수가 많아지면 스코어 값을 구해서 비슷한 점수의 사람들로 구분하기도 한다 각 그룹별로 평균 수익을 구해 ATE를 추정할 수 있다 케빈
  • 21. Potential Outcomes 상대적으로 쉽고, 직관적이며, 우리에게 친숙한 도구들을 사용한다 - 어려운 인과관계 문제를 상대적으로 쉬운 결측치 예측 문제로 바꿔서 해결한다 - 모형보다는 데이터를 중심으로 추론한다 그런데, 변수들의 관계를 고려하지 않고 기계적으로 예측해도 인과관계를 잘 추론할 수 있을까? - 친숙한 도구들을 사용한다는 것은 "상관관계"를 바탕으로 하는 방법론을 사용한다는 것 → 원점으로 돌아와서, 상관관계 만으로 인과관계를 추론할 수 있을까? - Potential Outcomes의 방법론은 기본적으로 교란 변수 (Confounder) 의 효과를 보정하는 것 → 어떤 변수가 교란 변수인지 어떻게 확인할까? 교란 변수의 값을 측정할 수 없다면 어떻게 하지?
  • 22. 변수들 사이의 관계를 해석할 때 주의해야 하는 경우들 Spurious Correlation Simpson's Paradox Perkson's Paradox
  • 23. Spurious Correlation 서로 연관이 없어보이는 두 데이터가 높은 연관성을 보이는 경우가 있다 99.26%의 상관관계!!
  • 24. Simpson's Paradox 어떤 경향을 나타내는 전체 데이터를 하위 그룹으로 나누었을 때, 
 각각의 하위 그룹에서는 정반대의 결론이 나오는 현상을 말한다 우측 데이터에서 심근경색이 일어날 확률을 살펴보자 - 여성 : 약 안먹으면 5% -> 약 먹으면 7.5% - 남성 : 약 안먹으면 30% -> 약 먹으면 50% - 전체 : 약 안먹으면 27.7% -> 약 먹으면 18.3% 여성한테도 안좋고 남성한테도 안좋은 결과인데 전체 사람들에게는 좋다..? 뭔소리지 Control (No Drug) Treatment(Drug) Heart Attack No Heart Attack Heart Attack No Heart Attack Female 1 (5%) 19 3 (7.5%) 37 Male 12 (30%) 28 8 (40%) 12 Total 13 (27.7%) 47 11 (18.3%) 49
  • 25. 왜 이런 일이 발생할까? Confounder (교란변수) 의 존재! - Gender가 Drug, Heart Attack에 모두 영향을 미치고 있다 - 여성은 2/3가 약을 먹었고, 남성은 1/3만 약을 먹었다 남녀 각각에 대해서 효과를 계산하고, 평균을 구해야 한다 - No Drug (17.5%) -> Drug (23.75%) - 결론적으로 이 약은 여성한테도 안좋고 남성한테도 안좋고 전체 사람들에게도 안좋다 그렇다면 데이터를 항상 쪼개어봐야하나? 그건 또 아니다!
  • 26. 동일한 수치의 데이터를 다시 살펴보자 
 혈압이 심근경색의 원인 중 하나로 알려져있고, 혈압을 낮추기 위해 약을 먹는다 그렇다면, 약을 먹으면 심근경색도 줄어드는 효과가 있을까? 가정 Control (No Drug) Treatment(Drug) Heart Attack No Heart Attack Heart Attack No Heart Attack 낮은 혈압 1 (5%) 19 3 (7.5%) 37 높은 혈압 12 (30%) 28 8 (40%) 12 Total 13 (27.7%) 47 11 (18.3%) 49
  • 27. 테이블의 값은 동일하지만, 변수간의 관계가 아까와는 다르다 여기서 협압 변수는 Confounder가 아니다 따라서 여기서는 전체 수치를 기준으로 결론을 내린다 - 심근경색이 발생할 확률 : No Drug (27.7%) -> Drug (18.3%)
  • 28. Perkson's Paradox 데이터를 쪼개는게 능사가 아니라는 것을 보여주는 또 다른 사례 통제된 데이터에서 얻은 상관관계가 잘못된 해석으로 이어질 수도 있다 1979년 Sackett의 논문 - 입원환자 257명 대상으로 이동성 질환과 호흡기 질환의 연관성을 분석했다 - Odds ratio = 4.06 로 높은 연관성이 나타났다 - 그런데 일반 2783명 대상으로 다시 확인한 결과
 Odd ratio = 1.06 으로 연관성이 없다는 결론 어떻게 된 일일까? General Population 6개월 이상 입원 환자 이동성 질환 O 이동성 질환 X 이동성 질환 O 이동성 질환 X 호흡기 질환 O 17 (7.6%) 207 5 (25%) 15 호흡기 질환 X 184 (7.2%) 2376 18 (7.6%) 219
  • 29. 왜 이런 결과가 발생했을까? 호흡기 질환과 이동성 질환 모두 병원에 입원해서 치료를 받게하는 변수다 - 호흡기 질환 -> 입원 - 이동성 질환 -> 입원 따라서 이 경우에 "입원여부" 변수는 Collider 이러한 상황에서는 입원여부에 조건을 걸게 되면, 변수간의 관계에 왜곡이 발생할 수 있다 - Collider Bias
  • 30. 함정카드가 너무 많은데.... 어떻게 하면 좋을까????
  • 31. Causal graphical models 데이터만 사용해서 추론할 경우에는 함정에 빠지기 쉽다 우리가 가지고 있는 데이터들이 어떤 방식으로 생성되는지부터 고민해야 한다 데이터의 생성 과정을 그래프를 통해 표현하고, 이를 통해 인과 관계를 추론한다 => Causal graphical models!
  • 32. 인과 관계를 표현하기 DAG(Directed Acyclic Graphs)를 통해서 인과관계를 표현할 수 있다 - X →Y 라면 X는 Y의 직접적인 원인이다 - X → X1 → Y 라면 X는 Y의 간접적인 원인이다 - 그래프를 통해 인과관계를 표현하면 정량화시키기 어려운 변수들도 쉽게 표현할 수 있다 그래프를 사용하면 결합 확률분포를 효과적으로 표현할 수 있게 된다 - X, Y, Z 변수가 있을 때 원래는 모든 (x, y, z) 조합의 확률값을 알아야 한다 - X → Y → Z 그래프를 가정하면 직접 연결된 노드에만 영향을 미치기 때문에 
 X, (Y|X), (Z|Y) 세 가지만 알면 된다
  • 33. 세 개의 변수에서 나타나는 특별한 관계들 변수의 개수가 더 많아질 경우, 위 관계들을 조합하여 판단한다 - 임의의 두 변수가 path를 통해 연결되어 있는가? - 임의의 두 변수가 서로 영향을 미칠 수 있는 상태인가? x1 x2 x3 x1 x2 x3 x1 x2 x3 Chain Fork Collider
  • 34. 이걸 왜 알아야 하지..? 변수들의 관계를 바탕으로 인과 관계를 더 명확하게 이해할 수 있다 Potential Outcomes 모형에 필요한 조건부 독립 가정들을 그래프를 통해 검증할 수 있다 - Chain, Fork : x2 값이 고정되면 x1과 x3는 조건부 독립 - Collider : 기본적으로 x1과 x3는 독립 , x2값이 고정되면 x1과 x3가 연결됨
  • 35. 그래프를 다 그렸다면, 우리는 뭘 구해야할까? 원인과 결과 (X → Y) X에 변화를 주었을 때 (개입) Y는 어떻게 변할까? - 이것을 P(Y | do(X)) 라고 해보자 - 우리가 관찰할 수 있는 P(Y | X) 와는 다르다 - P(Y | X) = P(Y | see(X)) : X를 관찰했을 때 Y가 일어날 확률
  • 36. P(Y | X)로 P(Y | do(X)) 를 추정하기 데이터로는 P(Y | X) 만을 알 수 있다 실험없이 데이터만 가지고 P(Y | do(X)) 를 계산할 수 있을까? 특정한 형태의 그래프가 구성되면, 관찰한 데이터를 통해 변화의 영향을 측정할 수 있다 - Simple Case : X -> Y ( 이 때는 P(Y | X ) = P(Y | do(X)) ) - Back-door Adjustment - Front-door Adjustment
  • 37. Back-door / Front-door Adjustment Back-door, Front-door가 성립하는 구조를 찾는다 => 어떤 변수를 보정해야 하는지 알 수 있게 된다 
 => P(Y | X) 만으로 P(Y | do(X))를 구할 수 있다 특정한 조건이 충족되는 경우, 관찰한 데이터를 바탕으로 개입에 의한 변화를 추정할 수 있다 Back-door Adjustment
 - X와 Y에 동시에 영향을 미치고 있는 Z 변수가 있을 경우
 - X, Y, Z 모두 측정 가능해야 한다 Front-door Adjustment
 - 측정할 수 없는 Counfounder 변수 Z가 X, Y에 영향을 미치는 경우 
 - Z를 측정할 수 없지만 X, W, Y 는 측정할 수 있어야 한다
  • 39. 1) 두 가지 방법론 비교 Potential Outcomes Causal Graphical Model 목표 Clone Y - Y P(Y | do(X)) 방식 Missing Value Prediction Directed Acyclic Graphs 를 통한 모델링 장점 직관적이고, 상대적으로 친숙한 도구들을 활용한다 변수들 사이의 관계를 데이터에 잘 반영할 수 있다 단점 상대적으로 많은 가정을 필요로 한다 Matching의 커버리지가 높지 않다면 예측력이 떨어진다 생소함 (DAG, do(X) 를 활용한 표현 등등) 모델링이 잘 되어야만 좋은 결과를 얻을 수 있다
  • 40. 2) 인과관계 모형을 통해 알 수 있는 것 어렵구나.. ★★★★★ 인과관계를 파악하기 위해서는 수치만 보는 것이 아니라, 
 데이터가 어떻게 생성되었는지도 고민해야 한다 특정한 구조를 가진 데이터에서는 관측 데이터로 인과 관계를 추정할 수 있다 이러한 구조를 찾기 위해 그래피컬 모형을 이용한다
  • 42. 인과 관계에 대해 고민해야 하는 이유 : 데이터 분석가 데이터 분석은 인과 관계를 바탕으로 스토리텔링하는 것이라고 볼 수 있다 분석이 힘을 얻기 위해서는 개연성이 필요하다 납득할 수 있는 명확한 인과관계는 스토리에 힘을 불어넣는다 따라서 데이터를 바탕으로 인과 관계에 기반한 스토리텔링을 잘 하기 위해서는 
 인과 관계에 대한 고민이 필수적이다
  • 43. 인과 관계에 대해 고민해야 하는 이유 : AI/ML/DL Judea Pearl의 "Ladder of Causation" : 인과 관계 추론은 세 단계로 구성되어 있다 - 1단계 Association - 서로 연관성이 높은 현상들을 찾고, 추세를 바탕으로 예측한다 (현재 대부분의 머신러닝) - 2단계 Intervention - 어떤 행동을 취했을 때 무슨 일이 일어나는지 예측한다 (강화학습에서 많이 다루는 영역) - 3단계 Imagining - 발생하지 않은 상황을 상상한다 (인과관계 추론의 최종 목표, Counterfactuals) 인과관계 추론을 통해 Counterfactual를 더 잘 예상할 수 있게 된다면,
 현재의 AI가 한 단계 더 도약할 수 있을 것이다
  • 44. 어찌됐든 어렵지만 계속 공부하고 있습니다 TIL 시즌3 출석률 (75일째 기준) : 55일 / 75일 (73.3%) 그 중에서 Causal Inference 관련 공부한 비율 : 23일 / 55일 (41.8%) 주로 공부하는 자료 - (DataCamp Open Course) Causal Inference in R - (Judea Pearl) The Book of Why - (Judea Pearl) Causal Inference in Statistics : A Primer - (Python Library) Causalinference, CausalGraphicalModels, dowhy - (Coursera, Daphne Koller) Probabilistic Graphical Models 강의
  • 45. Causal Inference는 현재 많은 연구가 이루어지고 있는 분야입니다.
 
 어렵지만 따라가보려고 열심히 공부하고 있습니다.
 혹시라도 잘못된/개선이 필요한 부분이 있다면 알려주세요! lumiamitie@gmail.com