2. 1. 분석동기 및 데이터 설명
대용량 데이터를 핸들링하는 스킬과 분석 이전 단계에서 자료를 탐색
적으로 살펴보아 분석 방향 설정과 전처리 과정에서 직관을 얻기 위하
여 실시하였다. 또한, 방대한 국민건강보험 데이터에 대한 이해를 도
와 현재의 국민건강보험의 대한 정보를 제공하는 데 목적이 있다.
1. 분석동기
국민건강보험 데이터는 국민건강보험 공공데이터 개방서비스에서
제공되고 있다. 개인식별정보는 제외되었으며 표번은 매년 100만명
의 무작위추출(Random Sampling)되었다. 자료는 매년 12월 2년 전
데이터를 추가하는 방식으로 직전년도 데이터는 추가되지 않는다.
여기서는 가장 최근 자료인 2015년도 데이터를 분석한다. 또한 ‘진
료내역 정보’와 ‘건강검진정보’를 주로 활용하였다.
2. 데이터 설명
3. 2. 데이터 전처리
데이터셋에서 제공하는 체중과 신장을 통해 BMI 지수를 산출했다.
이는 검진정보와 민감하게 연결되어 있을 자료라 판단했기 때문이다.
1. BMI지수 산출
4. 2. 데이터 전처리
‘건강검진정보’ 데이터에서는 제공하는 진료분류기호는 매우
세분화되어 있어 이를 대분류 기준으로 변환하였다.
2. 질병코드 차원축소
12. 4. 결론
- ‘진료내역 정보’와 ‘건강검진정보’를 살펴본 결과 국민건강보험은 공공부
조로의 역할을 수행한다는 사실을 확인할 수 있었다. 이는 사회적 약자인
영유아와 임산부 그리고 노년계층에게 쉽게 발생할 수 있는 질병에 대한
보장률이 높다는 데서 확인할 수 있었다.
- 또한, ‘진료내역정보’를 통하여 성별과 연령별로 쉽게 발생할 수 있는 질
병을 파악할 수 있었다.
- 종합적으로 살펴보면 현재 급격하게 진행되어가고 있는 노령화에 국민건
강보험이 대처하기 위해서는 부과방식(PAYG)보다는 적립방식으로 그 무게
를 더 옮겨야 한다고 생각한다.