Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
[패스트캠퍼스] 야구 선수 연봉 예측
1. 데이터 사이언스 SCHOOL
1
Abstract
야구 선수 연봉 책정을 선수 개인의 능력을 바탕으로 예측해보고자 하며, 개인의 능력은
KBO 기록실에 있는 선수의 경기 데이터를 바탕으로 측정한다. 타석, 타수 등 경기
데이터의 Feature(X)가 많아 PCA(주성분분석)를 사용해 연봉 예측을 진행하고자 하며,
이를 바탕으로 저평가된 선수를 찾을 수 있는 유익한 결과를 낳을 것으로 예상한다.
Project Description-1
GOAL (프로젝트 목표)
● 기록되어 있는 야구선수 데이터를 바탕으로 다음해의 연봉을 예측
WHY (동기)
● 야구 선수들의 연봉을 능력 위주로 측정한다면 영향을 끼치는 요소를 파악하여
선수 개개인 모두에게 적정 몸값이 제시되길 바라고자 진행함
HOW (데이터 수집 및 분석 방법론)
● 데이터 수집
- X : Statiz 라는 웹사이트에서의 총 222명의 타자의 기록(타석, 타점 등)
- Y : 다음해 연봉 (예: 2015년 시즌 기록[X], 2016년 연봉[Y] )
● 방법론
- Regression(회귀분석)
> PCA 회귀분석 - 70%의 예측 정확도를 보임
Project-01 : Salary Prediction
>팀 project / 데이터 전처리 및 모델링 / 2016.10 ~ 2016.11
<그림 2. >
테스트 데이터에 대한 예측 결과
<그림 1. > train 데이터에 대한
OLS 리포트
2. 데이터 사이언스 SCHOOL
2
Project Description-2
Why PCA?
● 야구 특성상 Feature(X)끼리 상관관계가 높은 것이 존재하여 일반적 회귀분석이
사용 불가함. (일반 회귀분석 전제조건 : X는 서로 독립)
● 또한, 많은 X 수를 줄여 효율적인 회귀분석을 위해 PCA를 선택함.
한계점
● 데이터에 0이 많으면 회귀분석 결과를 보기 힘들어 100타석 이상 타자로 샘플
● 이로 인해 데이터의 수가 222명에서 85명으로 줄어듬
● 적은 데이터로 Train을 하여 높은 정확도를 기대하기 어려움.
향후계획
● 모든 타자 데이터를 대상으로 주성분회귀분석을 진행
● 선수의 데이터는 매년 축적되므로 일반 회귀분석이 아닌 시계열 분석을 실시해
연봉 예측 모델링을 수정 후 진행
Project-01 : Salary Prediction
>팀 project / 데이터 전처리 및 모델링 / 2016.10 ~ 2016.11
<그림 3. >
X 사이의 상관계수를 나타낸 Heatmap