Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Sampling-Importance-Sampling을 이용한 선수 경기능력 측정

Monte Carlo Sampling 기법인 SIR 기법을 활용하여 여론과 같은 추상화 된 데이터 혹은 기댓값과 통계적 데이터의 결합을 추구하여 과학에 근사할 만한 경기 능력 분석 방법을 제시한다

  • Login to see the comments

Sampling-Importance-Sampling을 이용한 선수 경기능력 측정

  1. 1. 베이지언 연구방법론 기말발표 기댓값이 반영된 선수의 시즌별 경기능 력 향상 측정 방법 제시 Particle Filter SIR 알고리즘을 이용하여 설 명 페이지 프로젝트 개요 2 Sampling-Importance-Resampling 3 데이터 설명 7 계산과정 설명 8 결과 분석 12 120150251 안재현
  2. 2. 베이지언 연구방법론 기말발표 프로젝트 개요 •  스포츠에서는 선수들의 득점치 뿐 아니라 다양한 기준을 가지고 성과를 측정하고 이를 바탕으로 다음 해의 연봉을 결정한다 •  그러나 대부분은 사실에 근거한 수치에 불과하며 각 선수들의 컨디션이나 나이를 근거로 한 능력 저하 또는 대중들의 선수에 대한 기댓값을 반영하고 있진 않다 •  또한 시즌 경기에서 개인이 낼 수 있는 통계적 수치가 그렇게 많지 않을 뿐 아니기 에 기대값이 들어갈 수 있을 만한 통계적 단단함 역시 부족한 편이다 •  이번 프로젝트에서는 샘플링 방법 중 하나인 SIR Simula*on(Sampling- Importance-Resampling)을 통해 통계적 부족함을 극복하고, 기대값을 반영하여 선수의 다음 해 경기 능력을 예측하는 방법을 소개한다 2
  3. 3. 베이지언 연구방법론 기말발표 Sampling-Importance-Resampling •  SIR은 Monte Carlo(MC) sampler의 한 방법으로 기존의 데이터를 근간으로 한 Sampling과 기존 모델을 바탕으로 새로운 모델에 적용하는 Importance Weigh*ng, 그리고 Resampling의 과정으로 이루어져 있다 •  Sampling: •  Importance Weigh*ng: 3 !! ! !!!! 시점의 샘플을 생성하기 위하여 번째 데이터를 사용한다. 이 단계는 Sampling 또는 Draw -ing이라고도 불리며 기본의 모델 분포를 근간으로 t 시점의 데이터를 샘플링한다 !! ! 의 시점을 고려하여 해당 샘플의 확률분포값을 가지고 중요도 weight를 계산산다
  4. 4. 베이지언 연구방법론 기말발표 Sampling-Importance-Resampling •  SIR은 Monte Carlo(MC) sampler의 한 방법으로 기존의 데이터를 근간으로 한 Sampling과 기존 모델을 바탕으로 새로운 모델에 적용하는 Importance Weigh*ng, 그리고 Resampling의 과정으로 이루어져 있다 •  Resampling: 4 !! ! 시점의 샘플을 가지고 N 샘플을 생성한다. 이때 생성된 샘플은 weight을 근간으로 한다 새로 그려진 시점의 샘플 즉, 가 샘플링의 결과가 된다 !! Albert-Ludwigs-Universität Freiburg Sta<s<cs 강의자료
  5. 5. 베이지언 연구방법론 기말발표 Sampling-Importance-Resampling •  Get expecta*on value for target func*on, when . •  B가 x의 속할 여부가 결정되는 binary func*on이라고 할 때, Sampling 된 A로 부터 얻어진 데이터 x들에 대하여 정해지는 binary wieght의 기댓값은 •  이고, 이때 weight, 즉 w를 아래와 같이 정의한다 5 !! ! ! = ! ! ∙ ! ! !" ! ∈ ! Albert-Ludwigs-Universität Freiburg Sta<s<cs 강의자료
  6. 6. 베이지언 연구방법론 기말발표 Sampling-Importance-Resampling •  우리는 distribu*on of π(x) , 즉 sampling pool의 probability distribu*on을 모른다. 그러나 이 분포는 i-시점에서 샘플 된 데이터 S의 기대값과 그 분포가 같으므로, 다음과 같이 적을 수 있다 •  마지막으로 이렇게 구해진 π(x)를 이용한 가중치 weight를 사용하여 Sample 공간 B를 정의하여 근사할 수 있다면, π distribu<on을 통한 Re-sampling을 구 현할 수 있다 6 Albert-Ludwigs-Universität Freiburg Sta<s<cs 강의자료
  7. 7. 베이지언 연구방법론 기말발표 데이터 설명 •  부족한 샘플을 극복할 수 있는 방식을 구체적으로 설명하기 위하여 데이터는 1994 년 대한 농구협회의 자료를 이용하였다. (강승호 등 1996) 데이터는 년도별 시즌 평 균 득점과, 해당 시즌 총 득점, 게임 수가 기록되어 있다 •  상단 정보에 대한 평균 득점의 기댓값은 23.2이며, 95% 신뢰 구간은 (19.423, 30.398)이다. 그러나 수치는 기대치가 반영되지 않았으며 9년치 수치를 종합한 것 임에도 활용할 수 있는 정보의 수가 충분치 않아 보인다 7 몬테칼로 베이지안 분석과 응용 사례, 강승호 박태성, 한국통계학회논문집 (1996)
  8. 8. 베이지언 연구방법론 기말발표 데이터 설명 •  주어진 데이터 외에 여론(1000명에게 설문)이라고 하는 가상의 데이터를 추가하여 보자. 여론이 생각하는 해당 선수의 내년 성적에 대한 기댓값 통계가 주어졌을 때, 이 평균 30점, 표준편차 1.73의 분포를 가진다고 하자 •  이 때 95% 신뢰 구간은 (27.42128, 32.57822)로, 해당 선수의 과거 기록(19.423, 30.398)을 상회하는 수치이다 •  그러나 여론과 주어진 통계를 단순 합으로 생각하기엔 문제가 있다. 데이터의 가중 치 뿐 아니라 데이터 풀의 개수가 다르기 때문이다. SIR 알고리즘은 Weight factor 라는 가중치를 둠으로서 Resampling이 양쪽 분포를 균형있게 결합할 수 있도록 한 다 8
  9. 9. 베이지언 연구방법론 기말발표 계산과정 •  주어진 데이터의 분포 를 먼저 구한다. 는 기대값을 근거로 한 1000개의 샘플이다 •  데이터의 사전확률 분포 를 구하고 이를 바탕으로 π(x)를 유추한다 •  Cpost(distribu<on, sample)은 distribu<on에 대하여 sample의 편차를 가지고 Importance Sampling을 해준다. 즉 weight of π 를 구하는 함수이다 9 ! theta.p = sqrt(exVarScore) * rt(1000, sampleN-1) + exScore !(!) ! pi.theta = exp(cpost(theta.p, score)) ! ! !" ≈ 1 ! !(! ! ∈ !) ! !!! !
  10. 10. 베이지언 연구방법론 기말발표 계산과정 •  본 과정을 거쳐 나오는 , 즉 1000개의 여론 기대값 대비 weight 의 분포는 다음과 같다 10 ! ! ! = !(!) !(!)
  11. 11. 베이지언 연구방법론 기말발표 계산과정 •  가중치 weight를 가지고 Re-sampling을 추출하는 코드는 다음과 같고 •  Sample된 데이터는 다음과 같이 관찰할 수 있다 11 # get samples from distribution probs= weights/sum(weights) theta.sample = sample(theta.p,size=1000,prob= probs,replace=TRUE) theta.sample
  12. 12. 베이지언 연구방법론 기말발표 결과분석 •  주어진 선수 데이터 9가지, 여론을 통해 얻어진 1000 개의 기댓값을 통하여 SIR을 통해 얻어진 Sample을 얻을 수 있으며, 각각을 Given, 여론 기대치 (Expecta*on), SIR Sample 추출(SIR Sample Expecta*on)을 추출하고 Normal Distribu*on에 근 사하여 Mean과 Variance를 구할 수 있다. 12
  13. 13. 베이지언 연구방법론 기말발표 결과분석 13 •  각각의 데이터를 보면 통계를 상회하던 여론의 기대값과 편차가 크던 9개년 데이터 모두가 반영된 채 평균으로 수렴하고 있는 분포를 관찰할 수 있다.
  14. 14. 베이지언 연구방법론 기말발표 결과분석 14 •  각각의 데이터를 보면 통계를 상회하던 여론의 기대값과 편차가 크던 9개년 데이터 모두가 반영된 채 평균으로 수렴하고 있는 분포를 관찰할 수 있다.

×