- 강의록 전문 읽기: http://bit.ly/2KKtzRA
데이터 분석(데이터 사이언스 말고, 통상적으로 스타트업에서 '데이터 분석'이나 '그로스'에 쓰는 데이터 분석)을 공부하려면, 어떤 기본 개념을 가지고 계시면 좋을지에 대해 만들어 본 강의 자료입니다.
카우앤독에서 지인 위주로 꾸린 강의에서 꽤 좋은 평가를 받았으나, 강의안 준비가 너무 힘들어서 실제 유료 강의로 이어지지는 않은 비운의 슬라이드...
멘탈 모델이란 무엇인지, 지표는 무엇이며 퍼널(Funnel)은 무엇인지, 등등의 이야기를 합니다. 기승전 결론은 SQL 배우세요. (https://brunch.co.kr/@minu-log/4)
4. 멘탈 모델(Mental Model)
- “우리 머릿속에 담긴, 우리를 둘러싼 세계의 이미지는
모형(Model)일 뿐이다.
그 누구도 세계의 전체를 머릿속에 상상할 수는 없다.
사람은 선택적인 개념 몇 개, 그리고 그 개념들 사이의
관계만을 알 수 있으며, 이를 통해 실재 세계를
머릿속에서 재현해 낸다."
(Jay Wright Forrester
미국의 컴퓨터 엔지니어, 시스템 과학자, MIT Sloan School of Management 교수)
5. - 인간의 두뇌와 기억력에는 한계가 있음
- 세상의 모든 것을 머릿속에 담고 기억하는 것은 불가능
- 예) 사람 얼굴 기억하기
- 세계가 작동하는 방식을 이해하는 방법
- 세상에는 수없이 많은 변수들이 있음
- 그 변수들은 각기 영향을 끼치면서 세상을 구성함
- 우리는 그 변수들 중 영향력이 큰 중요한 변수들을
선택적으로 기억하고, 그 변수들의 관계로 세상을 파악함
멘탈 모델(Mental Model)
6.
7.
8.
9. - 좋은 멘탈 모델을 갖고 있으면 좋은 점들
- 세상을 더 효율적으로(빠르게), 효과적으로(잘) 이해할 수 있다.
- 더 빠르고, 효율적이고, 효과적으로 행동할 수 있다.
- 체스 월드 챔피언이 동시에 여러 사람과 대국하는 모습
멘탈 모델(Mental Model)
10.
11. - 천재라서 가능한 일일까? 아닙니다.
- 숙련된 체스 플레이어들 vs. 초보자의 기억. 실제 체스 포지션에서는...
- 숙련된 플레이어: 최대 25개까지 말의 위치를 기억
- 초보자: 5개 정도만 기억
- 숙련된 체스 플레이어들 vs. 초보자의 기억. 랜덤 포지션에서는…
- 숙련된 플레이어나 초보자나 기억에 차이가 없음
- 최상위권 체스 플레이어들이 초보자들에 비해 기억력 자체가 더 좋지는
않지만, 실제 체스 포지션을 기억하는 데는 훨씬 뛰어남.
- 상황을 빠르게 판단하고 몇 수 앞을 내다볼 수 있음
- 어떤 말을 어디로 움직여야 효과적인지 알 수 있음
- 멘탈 모델의 힘
멘탈 모델(Mental Model)
12.
13. 그럼, 데이터 분석을 하려면
어떤 멘탈 모델(Mental Model)을
가지고 있어야 할까요?
14. 데이터 분석을 위한 멘탈 모델(Mental Model)
- 사업에 대한 이해: 사업을 파악하고 이해하는 특정한 방식 (오늘 수업의 주제)
- 사업은 어떤 단계로 구성되어 있나?
- 각 단계에서는 어떤 요소/변수들이 중요한가?
- 그 요소/변수들은 서로 어떤 관계를 가지고 상호작용하나?
- 데이터 자체에 대한 이해
- 통계학적 개념의 이해
16. 지표(Metrics)란?
- 지표란, 사업의 성과, 혹은 상태를 측정(Measure)해서 수치화한(Quantified)한
것
- 예) 일간, 주간, 월간 매출
- 사업을 운영하면서는 지표들을 계속해서 모니터링하고
- 지표의 변화에 대응하기 위해, 혹은 지표를 변화(개선)시키기 위해 무엇인가를 실행함
- KPI?
- Key Performance Indicators
- 주요 지표
18. OMTM (One Metric That Matters)
- OMTM = 정말 중요한 단 하나의 지표
- ‘린 스타트업(Lean Startup)’에서 많이 언급하는
개념
- 스타트업은 초기에 너무 많은 지표에 정신을 뺏기지
말고
- 하나의 중요한 지표에 집중해서
- 그 지표를 개선하기 위해 모든 힘을 다해야 한다
- OMTM의 예
- 초기 기업: 우리 제품에 열광적인 팬은 몇 명이나 되나?
- 성장 기업: 성장률
- 동의어: North Star Metric(NSM)
19. - 비교를 가능하게 함
- 지난 주와 이번 주의 성과를 비교 (기간 대 기간 비교)
- 광고 유입자와 검색 유입자를 비교 (고객 집단 비교)
- 이해할 수 있음
- 사람들이 이해할 수 없는 복잡한 지표: 논의의 대상이 되기 힘듦, 지표의 변화에 따른 실행도
어려움
- 물론, “이해할 수 있다"라는 것은 상대적인 개념
- 조직마다 데이터 이해도에 따라서 다름
- 실무에서 멀리 떨어진 사람일수록 이해도가 낮을 수 있음
- 비율과 변화율
- 이번 주 신규 획득 고객 100명: 이 숫자 자체로는 별다른 Implication을 뽑아내기 힘듦
- 전체 고객 수가 1,000명이었면 → 파티 타임
- 전체 고객 수가 1,000,000명이었다면 → 반성 타임
- ‘절대값’을 쓰기보다는 ‘성장률, 변화율'을 쓰는 것이 더 좋음
좋은 지표들
20. - 2만 명 유입, 1,000명 구매
- 구매 전환율 5%
→ “뭔가 문제가 있는 것 같다”
- 1만 명 유입, 1,000명 구매
- 구매 전환율 10%
비율 지표
지난 주 구매자 수: 1,000명 이번 주 구매자 수: 1,000명
21.
22.
23.
24. - Actionable하지 않은 지표 → 허영 지표
- 특히, 언론 보도용으로 사용되는 지표들
- Number of Hits: 클릭할 게 많으면 클릭 수도 늘어남
- Number of Pageviews: 페이지뷰 기준으로 광고비를 받는 모델에서만 유용함
- Number of Unique Visitors: Engagement 없는 방문자들이라면?
- Followers, Friends, Likes
- 누적 OOO: 누적 다운로드, 누적 가입자… 언론 보도자료 단골손님
- 누적 지표는 우상향 그래프를 그릴 수밖에 없음
→ 시간이 지날수록 ‘좋아 보이는' 지표
- 100만 명이 가입해서 90만 명이 이탈한 서비스
vs. 10만 명이 가입해서 2만 명이 이탈한 서비스
어느 쪽이 지속 가능한 사업일까요?
나쁜 지표: 허영 지표 (Vanity Metric)
27. - 선행 지표: 미래를 예측할 수 있게 해 주는 지표
- 후행 지표: 뭔가가 일어난 뒤에 파악할 수 있게 해 주는 지표
- 각기 다른 목적이 있음. ‘선행 지표는 좋고, 후행 지표는 나쁜’ 것은 아님.
선행(Leading) 지표, 후행(Lagging) 지표
28.
29. 선행(Leading) 지표, 후행(Lagging) 지표
예) 고객 이탈(Customer Churn)
- 이탈률: 이미 이탈이 이뤄진 다음에 보는, 전형적인 후행 지표
- 이탈률이 높다는 것을 알았을 때는, 이미 늦었을 수 있음
- 선제 대응을 위해서는 이탈에 선행하는 지표가 무엇인지 찾을 필요가 있음
- “고객의 Engagement가 떨어진 뒤에 이탈이 발생한다”
→ 고객의 Engagement Level이 선행 지표
- 선행 지표는 발견하기 어려움
- 사업에 대한 이해가 필요하고
- 심층적인 분석으로 변수 사이의 관계를 파악해야 함
- 시작할 때는, 후행 지표를 제대로 측정하는 데 중점을 둬 보아요
37. 원인
원래 소셜한 성격을 가지고 있음
결과 1
7일 이내에 10명 이상 친구 추가
결과 2
페이스북을 오래오래 사용함
What If…?
38. 관찰(Observation)과 실험(Controlled Experiments)
- 인과관계를 발견하려면, 의도적으로 변수를 통제해서 실험해야 함
- A/B Test도 일종의 Controlled Experiment
- 실험군과 대조군을 설정하고,
‘원인으로 예상되는 변수(7일 이내 10명 친구 추가)’를 변화시키기
단, 나머지 변수는 통제하기
- 대조군(Control Group): 원래 하던 대로 서비스 제공
- 실험군(Test Group): 친구를 추가하게끔 유도
- 친구 추가하라고 Push Notification
- ‘알 수도 있는 사람' 제안
- 실험군과 대조군은 동질한 집단이어야 함
- 실험군은 20대, 통제군은 30대… 이러면 안됨
- 실험군과 대조군 사이에 통계적으로 유의미한 차이가 있다면,
변수 사이에 ‘인과관계’가 있다고 결론
39.
40. Q&A
- 지표
- OMTM, NSM
- 좋은 지표: 비교 가능하고, 이해할 수 있는 지표. ‘비율’로 나타나는
지표
- 허영 지표 (Vanity Metric)
- 선행(Leading) 지표, 후행(Lagging) 지표
- 상관관계와 인과관계
- 변수를 통제한 실험 (Controlled Experiments)
- 실험군, 대조군, 변수 통제
43. - 사람들이 새롭게 우리 사업(제품, 서비스)에 관심을
가지는 것
- Paid acquisition (광고)
- Organic acquisition
- Acquisition 관련 지표
- 트래픽
- 앱 다운로드
- Cost Per Click (CPC)
- Customer Acquisition Cost (CAC)
- Acquisition 지표는 사업에 따라서, 목적과 필요에
따라서 달리 해야 함
- 트래픽이 의미 있는 경우도 있고 (미디어 사이트)
- 앱 다운로드가 의미 있는 경우도 있고
Acquisition (획득)
44.
45.
46. - UTM = Urchin Tracking Module
- 웹에서 보편적으로 쓰는 유입 경로 트래킹 방식
- Urchin은 회사 이름 (나중에 구글이 인수해서 Google Analytics를 만듦)
- UTM 코드: URL뒤에 붙이는 값
- 사용 사례 보기: https://www.facebook.com/publyteam/posts/2222463551113309
- https://publy.co/project/1289?utm_source=facebook&utm_medium=post&utm_content=r
ethinkfood2017_pre001&utm_campaign=rethinkfood2017
- utm_source: 어느 경로에서 유입되었나? (페이스북, 트위터, 이메일…)
- utm_medium: 어떤 매체를 통해 유입되었나? (포스팅, 광고, 페이스북 샵…)
- utm_content: 어떤 컨텐츠를 통해 유입되었나?
- utm_campaign: 어떤 캠페인을 통해 유입되었나?
Acquisition 관련 개념: UTM 코드
48. - 마케터 입장에서는 별다른 기술이 필요하지 않음
- 링크 URL에 UTM 코드를 정해진 형식에 맞춰서 입력하기만 하면 됨.
- 나머지는 Analytics 툴이 다 해줌
- UTM 코드를 읽고
- utm_source, utm_medium, utm_content가 무엇인지 파악하고
- 각 변수에 따라서 분리해서 보여주는 일까지
- 물론, 웹 페이지에 Analytics 툴을 설치해야 함
- Google Analytics, Mixpanel, Amplitude 등
Acquisition 관련 개념: UTM 코드
49.
50. - 우리 제품에 관심을 가진 사람들이 ‘활성화' 되는 것
- ‘활성화' 지표의 기준은 사업마다 다르게 정의할 수
있음
- 회원 가입한 사람
- User Onboarding 과정을 마친 사람
- 서비스를 한 번이라도 이용한 사람
- 컨텐츠를 한 개라도 읽은 사람 (2개 읽은 사람, 3개 읽은
사람…)
- 어떤 지표든, 모든 사업에 통용되는 절대적인 기준은
없음.
사업을 잘 이해하고, 사업에 맞는 지표를 설정해야 함
Activation (활성화)
51.
52. - 이용자가 계속해서 우리 제품이나 서비스를 이용하는
것
- ‘Retention' 지표의 기준 역시 사업마다 다르게 정의할
수 있음
- (기간 중) 한 번이라도 접속한 사람
- (기간 중) 한 번이라도 ‘장바구니에 담기'를 한 사람
- (기간 중) 특정 시간 이상 서비스를 이용한 사람
- (기간 중) 3개 이상의 컨텐츠를 조회한 사람
Retention (고객 유지)
53. - 이탈을 측정하는 기준 역시 절대적인 기준은 없음
- Contractual business model vs. Non-contractual business model
- Contractual: 통신사, 월 정기 구독(Netflix, Apple Music) 등
- 고객 이탈을 명시적으로 파악할 수 있음
- 요금 납부를 중지하면 → “이탈했다!"
- Non-contractual: 정기 요금 납부 모델이 아닌 다른 모든 모델
- 고객 이탈을 명시적으로 파악할 수 없음
(고객이 이탈 의사를 밝히는 과정이 없음)
- 몇 달 동안 이용/구매하지 않으면 → “이탈한 것일까? 다시 돌아와서 이용/구매할까?
모르겠다. ”
Non-contractual에서 이탈을 측정하기란… 어렵습니다. (저도 잘 못 함)
Retention 관련 개념: Churn (이탈)
54. - 고객이 우리가 제공하는 제품/서비스에 가치를 느끼고
돈을 지불함
- 사용자(User)가 곧 고객(Customer)일까? 아니다.
- 사용자가 유료로 제품/서비스를 이용하면,
사용자 = 고객
- 사용자는 무료로 이용하고, 광고주로부터 돈을 번다면,
광고주 = 고객
Revenue (매출)
55. - 구매 전환율:
- 유입된 사람들 중 몇%가 실제로 구매를 하는가?
- 구매 전환율을 높이는 노력: 더 혹하는 사진과 문구, 간편한 결제 등
- Shopping cart size:
- 고객들이 한 번 구매할 때, 얼마나 큰 금액을 결제하는가?
- Shopping cart size를 높이는 노력: “OO원 더 구매하시면, 무료 배송!”
- Customer Lifetime Value (CLV, CLTV, LTV)
-
Revenue 관련 개념들
56. Revenue 관련 개념: Customer Lifetime Value
- 고객 생애 가치, Customer Lifetime Value (CLV, CLTV, LTV)
- 고객 한 명으로 인해, 그 고객의 생애 동안 우리 사업에서 발생하는 가치
(즉, 우리 사업이 고객 한 명으로부터 벌어들이는 돈)
- 예) Netflix 유료 가입자
→ 평균 12개월을 이용하고, 월 평균 1만원을 지불한다면
→ Lifetime Value = 12개월 X 1만원 = 12만원
- Contractual model에서는 CLV 계산이 비교적 쉬움
- 이탈율 계산이 Non-contractual model에서보다 상대적으로 쉽기 때문
- Non-contractual model에서의 CLV 계산은 어려운 분석 주제 (저도 잘 못해요)
- 중요한 것: 고객 획득 비용(CAC)보다 CLV가 높아야 하는 것
- 광고비 5만원을 들여서 고객을 1명 획득했는데, 고객이 4만원만 쓰고 떠나면?
- 통상적으로는 CLV가 CAC의 3배 이상이 되어야 함
- 고객 획득 비용 말고도 사업에 소요되는 각종 비용을 충당해야 하므로
57. - 고객의 추천과 입소문을 통해 새로운 고객을 확보하는
것
- Viral Coefficient: 고객 1명이 몇 명의 새 고객을
데려오나?
Referral (추천)
60. 목표 상태에 있지 않음
- 우리 제품에 관심이 없음
- 웹사이트에 들어는 왔으나 회원 가입
안 함
- 회원이지만 장바구니에 상품을 담지
않음
- 장바구니에 상품만 담고 구매를 하지
않음
- 광고에 노출되기만 함
전환 (Conversion)
목표 상태에 도달
- 관심을 가지고 웹사이트로 유입됨
- 회원으로 가입함
- 장바구니에 상품을 담음
- 구매하고 결제함
- 광고를 클릭함
61. - 다양한 종류의 Conversion
- 광고 노출 대비 클릭 Conversion
- 웹사이트 유입 대비 회원 가입 Conversion
- 웹사이트 유입 대비 구매 Conversion
- 회원 가입 대비 유료 서비스 이용 Conversion
- 사업에 따라서 각기 다른 방식으로 Conversion을 정의함
- 중요한 것은 Conversion 단계를 세분화해서 측정하는 것
- 광고 노출 → 구매 전환율만 통으로 보기보다는…
광고 노출 → 클릭 / 클릭 → 회원 가입 / 회원 가입 → 구매 전환 단계를 세분화해서 측정하기
- 세분화 하는 이유는? 변화가 생겼을 때 대처하기 위해서!
- Funnel 개념, AARRR 개념 적용
전환 (Conversion)
62.
63. - 다른 말로 퍼널 최적화(Funnel Optimization)라고도 함
- 각 전환 단계의 전환율을 조정해서, 최종 전환 결과값을 높이는 것
- 목표 최종 전환 결과는 보통 ‘구매'
- ‘모든 단계의 전환율을 끌어올린다’가 목표가 될 필요는 없음
- 각 단계의 전환율 사이에 Trade-off가 존재할 수 있음
- 예) 광고 클릭율을 높이기 위해서 ‘낚시성' 문구와 이미지를 사용하면 클릭율은
높아지지만,
광고로 유입된 사람들이 다음 단계(구매 등)로 이어지는 전환율은 낮아질 수밖에 없음
- 모든 단계를 개선하기에는 시간/자원의 제약이 있음
전환 최적화 (Conversion Rate Optimization)
64.
65. - 기간의 문제: 전환이 얼마만에 일어나는가?
- 1시간? 1일? 7일? 30일? 90일?
- Conversion Time Window를 어떻게 설정하는지에 따라서, 각기 다른 판단을 할 수 있음
전환 타임 윈도우 (Conversion Time Window)
68. - Time Window를 1일로 설정하고 전환율을 측정:
- A안의 전환율보다 B안의 전환율이 20% 높음
→ “배너 교체하길 잘 했다!!”
- Time Window를 7일로 설정하고 전환율을 측정:
- A안의 전환율이나 B안의 전환율이나 차이가 없음
- 배너를 교체하면서 즉각적인 효과는 나타났지만,
어차피 나중에 전환할 사람을 “미리 끌어당겨서” 전환시켰을 뿐
- Time Window를 30일로 설정한다면… 또 다른 결과가 나올지도?
- Time Window를 어떻게 설정하는지에 따라서,
테스트 결과가 성공인지 실패인지에 대한 판단 역시 달라질 수 있음.
전환 타임 윈도우 (Conversion Time Window)
73. - Segmentation: 고객 세분화 (모두가 다 아는 그것)
- Slice, Dice, Slice, Dice…
- Cohort
- 통계적으로 동일한 특색이나 행동 양식을 공유하는 집단
(Segmentation이랑 뭐가 다르지?)
- 보통 Cohort는 ‘가입월(주)별로 이용자들이 어떻게 다른 행동 양식을 보이는가' 식에서 활용함
Segmentation과 Cohort
75. 이용월
1월 2월 3월 4월 5월 6월 7월 8월 9월
가입
월
1월 5,000 4,000 3,400 3,060 2,907 2,820 2,763 2,708 2,627
2월 6,000 5,100 4,590 4,361 4,273 4,188 4,104 4,022
3월 10,000 7,500 6,000 5,100 4,488 4,039 3,635
4월 15,000 9,000 6,300 5,040 4,032 3,427
5월 11,000 8,800 7,480 6,956 6,609
6월 13,000 11,050 9,945 9,448
가입 시점을 기준으로 쪼개서 봄
(1월 가입 Cohort, 2월 가입 Cohort, 3월 가입 Cohort …)
76. 이용월
1월 2월 3월 4월 5월 6월 7월 8월 9월
가입
월
1월 5,000 4,000 3,400 3,060 2,907 2,820 2,763 2,708 2,627
2월 6,000 5,100 4,590 4,361 4,273 4,188 4,104 4,022
3월 10,000 7,500 6,000 5,100 4,488 4,039 3,635
4월 15,000 9,000 6,300 5,040 4,032 3,427
5월 11,000 8,800 7,480 6,956 6,609
6월 13,000 11,050 9,945 9,448
각 Cohort별로, 시간이 지나면서 몇 명이 남아있는지(Retention)
측정
78. 이용월
1월 2월 3월 4월 5월 6월 7월 8월 9월
가입
월
1월 100% 80% 68% 61% 58% 56% 55% 54% 53%
2월 100% 85% 77% 73% 71% 70% 68% 67%
3월 100% 75% 60% 51% 45% 40% 36%
4월 100% 60% 42% 34% 27% 23%
5월 100% 80% 68% 63% 60%
6월 100% 85% 77% 73%
Retention을 절대값이 아닌 백분율(퍼센트)로 표시하면 이해하기
쉬움
79. 이용월
1월 2월 3월 4월 5월 6월 7월 8월 9월
가입
월
1월 100% 80% 68% 61% 58% 56% 55% 54% 53%
2월 100% 85% 77% 73% 71% 70% 68% 67%
3월 100% 75% 60% 51% 45% 40% 36%
4월 100% 60% 42% 34% 27% 23%
5월 100% 80% 68% 63% 60%
6월 100% 85% 77% 73%
Retention을 절대값이 아닌 백분율(퍼센트)로 표시하면 이해하기
쉬움
1월 가입자는 2월에 80%가 남았는데,
4월 가입자는 5월에 60%밖에 남지 않았네?
80. 이용월
M+0 M+1 M+2 M+3 M+4 M+5 M+6 M+7 M+8
가입
월
1월 5,000 4,000 3,400 3,060 2,907 2,820 2,763 2,708 2,627
2월 6,000 5,100 4,590 4,361 4,273 4,188 4,104 4,022
3월 10,000 7,500 6,000 5,100 4,488 4,039 3,635
4월 15,000 9,000 6,300 5,040 4,032 3,427
5월 11,000 8,800 7,480 6,956 6,609
6월 13,000 11,050 9,945 9,448
가입월로부터 ‘경과월'을 기준으로 데이터를 배치하기
- 1월의 M+1은 2월, M+2는 3월, …
- 4월의 M+1은 5월, M+2는 6월, …
81. 이용월
M+0 M+1 M+2 M+3 M+4 M+5 M+6 M+7 M+8
가입
월
1월 100% 80% 68% 61% 58% 56% 55% 54% 53%
2월 100% 85% 77% 73% 71% 70% 68% 67%
3월 100% 75% 60% 51% 45% 40% 36%
4월 100% 60% 42% 34% 27% 23%
5월 100% 80% 68% 63% 60%
6월 100% 85% 77% 73%
Cohort별 두 번째 달 Retention Rate를 비교할 수 있음
82. 이용월
M+0 M+1 M+2 M+3 M+4 M+5 M+6 M+7 M+8
가입
월
1월 100% 80% 68% 61% 58% 56% 55% 54% 53%
2월 100% 85% 77% 73% 71% 70% 68% 67%
3월 100% 75% 60% 51% 45% 40% 36%
4월 100% 60% 42% 34% 27% 23%
5월 100% 80% 68% 63% 60%
6월 100% 85% 77% 73%
엑셀, 구글 스프레드시트 등에서 ‘조건부 서식'을 적용하면 눈에
잘 들어옴
- 2월, 6월 가입자는 전반적으로 Retention Rate가 높음
- 1월, 5월 가입자는 그럭저럭
- 3월, 4월 가입자의 Retention Rate에는 문제가 있음
→ 무엇이 문제였을까?
→ 같은 문제를 반복하지 않으려면 무엇을 해야 할까?
83. 이용월
M+0 M+1 M+2 M+3 M+4 M+5 M+6 M+7 M+8
가입
월
1월 100% 80% 85% 90% 95% 97% 98% 98% 97%
2월 100% 85% 90% 95% 98% 98% 98% 98%
3월 100% 75% 80% 85% 88% 90% 90%
4월 100% 60% 70% 80% 80% 85%
5월 100% 80% 85% 93% 95%
6월 100% 85% 90% 95%
앞에서처럼 가입월 대비 Retention Rate를 볼 수도 있지만,
이렇게 전월 대비 Retention Rate를 볼 수도 있음
→ 각 Cohort별로 어느 시점에 문제가 생겼는지 파악할 수 있음
86. - 멘탈 모델(Mental Model)은 세계를 이해하는 방식
- 좋은 멘탈 모델을 가지고 있으면, 세계를 더 빠르고 효율적으로 효과적으로 이해할 수 있다.
- 우리도 체스 월드 챔피언처럼 될 수 있다.
- 데이터 분석을 하기 위해서는 사업을 파악하는 멘탈 모델이 필요하다
- 단지 엑셀, SQL, R만 기계적으로 다루는 것이 데이터 분석이 아님
- 사업의 체계, 단계, 주요 구성 요소를 이해하면 무엇을 어떻게 분석해야할지 알 수 있음
- 지표: 좋은 지표, 나쁜 지표(Vanity Metric)
- 상관관계와 인과관계
- 인과관계를 파악하는 방법은 변수를 통제한 실험(Controlled Experiments)뿐
- AARRR (Acquisition, Activatio, Retention, Revenue, Referral)
- Conversion, Conversion Rate, Conversion Time Window
- Time Window가 짧은지 긴지에 따라서 경영상의 판단까지 달라질 수 있음
- Cohort 분석
- 주로 가입 시점을 기준으로 Cohort를 구분하며, Retention 분석을 할 때 유용함.
오늘 수업 주요 내용
87. 다음 수업 예고
- ‘데이터’를 이해하는 멘탈 모델
- A/B 테스트, Iteration
- 데이터의 종류: Numerical, Datetime, Categorical
- 현재 상태(State)와 로그(Log)
- Tidy data
- Sanity Check
- Event, Property
- 데이터 분석에 꼭 필요한 통계학 멘탈 모델
- 평균과 분산
- 상관관계와 인과관계
- Anscombe's Quartet
- 정규 분포, 확률 밀도 함수
- 조건부 확률
- 실험(테스트), 독립시행, 가설 검정, 통계적 유의미성, p-value, Statistical Power 등