Successfully reported this slideshow.                                             Upcoming SlideShare
×

# Big data 시대의 통계학

10,003 views

Published on

빅데이터의 실존(선택편향과 정보편향으로 인하여 왜곡된 결론을 얻을수 있다)을 설명하고 통계학이 어떻게 빅데이터를 구원할수 있는지에 대한 내용을 다룸

Published in: Education
• Full Name
Comment goes here.

Are you sure you want to Yes No ### Big data 시대의 통계학

1. 1. 빅데이터 시대의 통계학 - 빅데이터의 실존과 구원 김재광 KAIST 2017년 12월 1일 1 / 50
2. 2. What is big data? 2 / 50
3. 3. 서론 데이터를 통해 사회를 이해하는 방식 물리학적 접근법 아돌프 케틀레 개체의 동질성 (homogeneity)에 기반한 접근법 모집단을 창조주가 부여한 불변의 법칙을 따르는 개체들을 만들어 내는 공장 같은 곳으로 이해. 모집단을 잘 대표하는 특정 개체를 찾는 방식으로 접근함. 생물학적 접근법 다윈, 갈톤 개체의 이질성(heterogeneity)에 더 주목 모집단이란 현실 세계에 존재하는 고유한 특성을 가진 개체들의 합집합으로 이해 (Population science) Yu Xie (2013). Population heterogeneity and causal inference. PNAS, 110, 6262-6268. 4 / 50
4. 4. 서론 데이터로부터 정보를 얻어내는 과학적 방법에 관한 학문 = 통계학 지식 정보 데이터 추상화 재현성 5 / 50
5. 5. 서론 사회 과학에서의 자료 분석 우리는 데이터를 관측하지만 모집단에 관심이 있다. 데이터 = 모집단 데이터는 모집단을 대표한다는 것을 전제로 함 확률표본 추출은 모집단 대표성 확보를 위한 충분 조건 6 / 50
6. 6. 서론 모집단과 표본 모집단 Sample 추정량 모수 7 / 50
7. 7. 서론 표본 조사 (Survey Sampling) Survey: 측정 Sampling: 대표성 Table: 조사 방법론과 조사 통계 조사 방법론(Survey Methodology) 표본 추출론(Sampling Statistics) 사회학, 심리학 (인지과학) 에서 연구 통계학에서 연구 표본 오차보다는 비표본 오차에 초점 비표본 오차보다는 표본 오차에 초점 조사 오차(비표본 오차)를 줄이는 조사 오차를 측정하고 추정에 반영하는 것에 관심 것에 관심 설문지 설계 , 조사 방법 연구 표본 추출, 에디팅, 추정 및 분석방법 연구 8 / 50
8. 8. 서론 표본 조사의 양 날개 9 / 50
9. 9. 서론 Sir Francis Galton (1822-1911) Galton was a polymath who made important contributions in many ﬁelds of science, including meteorology (the anti-cyclone and the ﬁrst popular weather maps), statistics (regression and correlation), psychology (synesthesia), biology (the nature and mechanism of heredity), and criminology (ﬁngerprints) He ﬁrst introduced the use of questionnaires and surveys for collecting data on human communities. 10 / 50
10. 10. 서론 Karl Pearson (1857 - 1936) Student of Francis Galton He has been credited with establishing the discipline of mathematical statistics, and contributed signiﬁcantly to the ﬁeld of biometrics, meteorology, theories of social Darwinism and eugenics Founding chair of department of Applied Statistics in University of London (1911), the ﬁrst stat department in the world! Founding editor of Biometrika 11 / 50
11. 11. 서론 표본 조사 데이터 증거 + 논리 + (전제) = 결론 증거 = 데이터 논리 = 통계 분석 방법 전제 = 모델 데이터가 좋아야 결론이 탄탄해진다. 어떻게 양질의 데이터를 얻어낼 것인가가 표본 조사론의 핵심 주제 12 / 50
12. 12. 서론 우리나라 최초의 여론 조사 세종 12년 (서기 1430년) 세금 제도에 대한 여론 조사 표본 크기: 172,648명 (전국 8도) 결과: 개혁안 찬성 57%, 반대 43% 13 / 50
13. 13. 빅데이터 빅데이터 시대 - 이론의 종말? 15 / 50
14. 14. 빅데이터 빅데이터 시대 - 공짜경제학 (Freeconomics) 16 / 50
15. 15. 빅데이터 표본조사 데이터 vs 빅데이터 Table: 두가지 데이터의 특징 표본조사 데이터 빅데이터 비용함수 표본수에 비례 표본수와 상관없음 측정 관심변수 Y 를 직접 측정 보조변수 X 를 측정 대표성 확보 미확보 17 / 50
16. 16. 빅데이터 표본조사 데이터 vs 빅데이터 Table: 두가지 데이터의 통계학적 특징 표본조사 데이터 빅데이터 편향 Bias = 0 Bias = 0 분산 Variance = K/n Variance ∼= 0 18 / 50
17. 17. 빅데이터 조사 데이터의 오차 크기 (X축 = 표본수, Y축 =오차한계) 0 2000 4000 6000 8000 10000 0.020.040.060.080.10 n Error 19 / 50
18. 18. 빅데이터 빅데이터의 편향(bias) 편향: 자료 자체의 체계적인 오차 (systematic error) 편향의 종류 1 선택 편향 (selection bias) 2 정보 편향 (information bias) 선택 편향: 자료가 random sampling 에 의해 얻어진 것이 아닌 참여자의 자발적 선택에 의해 얻어지는 경우 생기는 편향 정보 편향: 기억의 왜곡, 부정확한 측정 등으로 생기는 편향 20 / 50
19. 19. 빅데이터 선택편향 유한 모집단: U = {1, · · · , N}. 모수: 모평균 ¯YN = N−1 N i=1 yi 빅데이터 샘플: B ⊂ U. Ii = 1 if i ∈ B 0 otherwise. 추정량: 표본 평균 ¯yB = N−1 B N i=1 Iiyi, where NB = N i=1 Ii is the big data sample size (NB < N). 21 / 50
20. 20. 빅데이터 Fundamental theorem of estimation error Formula (Meng, 2016) Eζ(¯yB − ¯Y )2 = Eζ(ρ2 I,Y ) × σ2 × 1 − fB fB where ρI,Y is the correlation between I and Y ,fB = NB/N, ζ is the big data sampling mechanism, generally unknown. Three components: data quality, problem difﬁculty, and data quantity 유효 표본수 (Effective sample size): 동일한 모집단에서 얻어진 Big data 표본수와 같은 효과(MSE)를 갖는 가상의 simple random sample 의 표본수 22 / 50
21. 21. 빅데이터 유효표본수 neﬀ = fB 1 − fB × 1 Eζ(ρ2 I,Y ) . If ρI,Y = 0.05 and fB = 1/2, then neﬀ = 400. 예를 들어 서울시 인구가 1천만명이라고 하고 그중 50% 인 500만명을 조사하더라도 ρI,Y = 0.05 라면 실제로는 확률 표본 400명을 조사한 것과 동일한 효과를 가짐. 23 / 50
22. 22. 빅데이터 Paradox of Big data 빅데이터 자료를 그냥 램덤 표본으로 간주하고 신뢰구간을 작성하는 경우 CI = (¯yB − 1.96 (1 − fB)S2/NB, ¯yB + 1.96 (1 − fB)S2/NB) As NB → ∞, we have Pr( ¯YN ∈ CI) → 0. Paradox: 편향을 무시하고 그냥 통상적인 방법론을 적용할 경우, 자료의 크기가 커질수록 그 추론이 틀릴 확률이 높아진다. (If one ignores the bias and apply the standard method of estimation, the bigger the dataset, the more misleading it is for valid statistical inference.) 24 / 50
23. 23. Salvation Salvation of Big Data 26 / 50
24. 24. Salvation 1. 선택 편향 보정: Data integration 두개의 데이터: 빅데이터와 서베이 데이터 빅데이터는 선택 편향이 존재 논의를 단순하게 하기 위하여 Y 가 지시변수라고 하자. I = 1 I = 0 Y = 1 NB1 Y = 0 NB0 NB N − NB where Ii = 1 if unit i belongs to the big data sample and Ii = 0 otherwise. 관심 모수: P = P(Y = 1). 27 / 50
25. 25. Salvation 서베이 데이터에서는 다음과 같은 결과를 얻을수 있다. (랜덤 샘플링을 가정하자) I = 1 I = 0 Y = 1 nB1 nC1 n1 Y = 0 nB0 nC0 n0 n 이 두자료를 어떻게 결합하여 P를 추정할 것인가? 28 / 50
26. 26. Salvation 제안된 방법론 Note that P(Y = 1) = P(Y = 1 | I = 1)P(I = 1) + P(Y = 1 | I = 0)P(I = 0). Three components 1 P(I = 1): Big data proportion (known) 2 P(Y = 1 | I = 1) = NB1/NB: obtained from the big data. 3 P(Y = 1 | I = 0): estimated by nC1/(nC0 + nC1) from the survey data. Final estimator ˆP = PBWB + ˆPC(1 − WB) (1) where WB = NB/N, PB = NB1/NB, and ˆPC = nC1/(nC0 + nC1). 29 / 50
27. 27. Salvation Remark Variance V ( ˆP) = (1 − WB)2 V ( ˆPC) . = (1 − WB) 1 n PC(1 − PC). If WB is close to one, then the above variance is very small. Instead of using ˆPC = nC1/(nC0 + nC1), we can construct a ratio estimator of PC to improve the efﬁciency. That is, use ˆPC,r = 1 1 + ˆθC where ˆθC = NB0/NB1 nB0/nB1 × (nC0/nC1). 30 / 50
28. 28. Salvation 2. 정보 편향 관심 변수: Y 보조 변수: X 관측 비용: CX << CY . 빅데이터: X만 관측됨. (선택 편향은 없다고 가정) 관심 모수: µy = E(Y ). 31 / 50
29. 29. Salvation 정보 편향 보정 - Calibration study Idea 만약 E(Yi | Xi) = β0 + β1Xi이 성립하고 모수 β0, β1를 안다면 ˆµy = N−1 B i∈B (β0 + β1xi) 를 이용하여 µy = E(Y )를 추정할수 있다. 실제로는 β0, β1 을 모르므로 빅데이터 샘플에서 일부 calibration study 를 실시하여 (xi, yi)를 관측한 후에 모수 추정치 ˆβ0, ˆβ1을 얻어낸후 ˆµy = N−1 B i∈B (ˆβ0 + ˆβ1xi) 을 사용한다. 32 / 50
30. 30. 사례 분석 사례 분석 - 외래관광객 실태조사 한국관광공사 의뢰 - 빅데이터를 활용한 ’외래관광객 실태조사’ 지역관광통계 개선 연구 지역관광 통계 작성을 위한 두가지 데이터 1 외래관광객 실태조사: 서베이 데이터 2 KT 핸드폰 로밍데이터: 위치 정보 빅데이터 조사 목적: 외국인 관광객의 국적별, 방문지별 통계를 매년 작성하여 관광 정책 수립의 기초 자료로 삼는다. 모집단: 2016년에 한국을 방문한 외국인 34 / 50
31. 31. 사례 분석 외래 관광객 실태조사의 활용 사례 35 / 50
32. 32. 사례 분석 기초 분석 - 중국인 관광객 (단위: 천명) 지역 서베이 값 KT 자료값 T-통계량 서울 5,953 4,945 5.91 부산 390 357 0.40 대구 35 87 -2.01 인천 354 1,335 -11.95 광주 18 30 -0.75 대전 33 32 0.03 울산 0 35 경기 624 1,216 -5.68 강원 228 128 1.54 충북 13 125 -6.67 충남 38 78 -1.54 전북 56 50 0.17 전남 44 111 -2.31 경북 61 83 -0.72 경남 44 83 -1.37 제주 2,818 2,009 4.39 36 / 50
33. 33. 사례 분석 지역 단위 모형 각 지역별로 두개의 통계값이 존재 : (Xi, ˆYi) Yi: 지역 i의 방문자수 참값 (Unobserved) ˆYi: Yi에 대한 서베이 추정값 (subject to sampling error) Xi: 빅데이터에서 얻어진 추청값 (subject to non-sampling errors) 분석의 단위는 지역 (시도) 37 / 50
34. 34. 사례 분석 Figure: 서베이 자료와 로밍 데이터 분석 자료 38 / 50
35. 35. 사례 분석 Area level model (Cont’d) The goal is to predict Yi(=참값) using the observation of ˆYi (=서베이값) and and Xi(=KT 자료). Area level model is a useful tool for combining information from different sources by making an area level matching. Area level model consists of two parts: 1 Sampling error model: relationship between ˆYi and Yi. 2 Structural error model: relationship between Yi and Xi. 39 / 50
36. 36. 사례 분석 Area level model: Fay-Herriot model approach Figure: A Directed Acyclic Graph (DAG) for classical area level models. ˆY Y X (2)(1) (1): Sampling error model (known), (2): Structural error model (known up to θ). 40 / 50
37. 37. 사례 분석 Combining two models Prediction model = sampling error model + structural error model Bayes formula for prediction model p(Yi | ˆYi, Xi) ∝ g( ˆYi | Yi)f(Yi | Xi), where g(·) is the sampling error model and f(·) is the structural error model. g(·): assumed to be known. f(·): known up to parameter θ. 여기에서는 Yi = βXi + ei, ei ∼ (0, σ2 X2 i ) 을 사용함 41 / 50
38. 38. 사례 분석 Parameter estimation Obtain the prediction model using Bayes formula EM algorithm: Update the parameters ˆθ(t+1) = argθ max i E{log f(Yi | Xi; θ) | ˆYi, Xi; ˆθ(t) } where the conditional expectation is with respect to the prediction model evaluated at the current parameter ˆθ(t) . 42 / 50
39. 39. 사례 분석 Prediction vs Parameter estimation Figure: EM algorithm ˆY Y X ˆθ M-step E-step 43 / 50
40. 40. 사례 분석 Prediction (frequentist approach) 최적 추정: Expectation from the prediction model at θ = ˆθ ˆY ∗ i = E{Yi | ˆYi, Xi; ˆθ} If f(Yi | Xi) is a normal distribution then ˆY ∗ i = αi ˆYi + (1 − αi)E(Yi | Xi; ˆθ) for some αi where αi = V (Yi | Xi; ˆθ) V ( ˆYi) + V (Yi | Xi; ˆθ) . 44 / 50
41. 41. 사례 분석 분석 결과 (단위: 천명 ) 지역 ˆYi Xi ˆβ αi 최적 추정값 상대 MSE (%) 서울 5,953 3,589 0.993 5,936 99.6 부산 390 259 0.755 358 87.4 대구 35 64 0.663 45 82.1 인천 354 969 0.978 367 99.0 광주 18 22 0.354 21 59.5 대전 33 23 0.222 26 47.1 울산 0 25 0.000 25 경기 624 883 0.958 635 97.9 강원 228 93 0.392 146 62.6 충북 13 91 0.904 21 95.1 충남 38 57 0.604 45 77.7 전북 56 36 0.286 42 53.5 전남 44 81 0.712 54 84.4 경북 60 61 0.524 60 72.4 경남 44 60 0.582 51 76.3 제주 2,818 1,458 0.953 2,754 97.7 상대 MSE: 직접 추정량의 MSE 대비 최적 추정값의 MSE 비율 45 / 50
42. 42. 결론 결론: 1. 빅데이터의 실존 빅데이터의 희망 (기회요인) 자료 수집 비용을 절약 풍부하고, 다양하고, 빠른 정보 세부 도메인에 대한 정보를 제공 (소지역 추정) 빅데이터의 절망 (위험요인) 편향 존재 (선택 편향, 정보 편향) 대수의 법칙이 성립하지 않음 47 / 50
43. 43. 결론 결론: 2. 빅데이터의 구원 빅데이터의 구원 - 통계학 (수학) 빅데이터의 선택 편향은 data integration 으로 보정 가능 빅데이터의 정보 편향은 calibration study 를 이용하여 보정 가능 빅데이터와 서베이 자료를 결합한 개선된 통계 방법론 개발이 향후 이 분야의 주요 연구 주제가 될 것으로 전망됨. 48 / 50
44. 44. 결론 Take-home message: 빅데이터는 자료 수집 비용을 절약하지만 자료 분석 비용의 증가를 초래한다. 49 / 50
45. 45. 결론 The end 50 / 50