SlideShare a Scribd company logo
1 of 25
Download to read offline
- 1 -
붙임3 과학중점학교 학생 연구 성과 보고서
연구팀명 CPU 관련분야 수학및정보
연 구 명 빅 데이터 방법론 기반 타이타닉과 세월호 생존 예측 분석
학 교 명 군산제일고등학교 지도교사
참여학생
1. 개요
□ 연구 동기 및 목적
○ 빅 데이터 이전의 시대에 특정 분야의 전문가는 어떤 주제에 대하여
오랜 시간의 축적된 경험을 바탕으로 직관에 의존해서 의사결정을
해왔다. 빅 데이터 시대에는 인간의 경험과 직관 뿐 만 아니라 컴퓨팅
이론에 기반 한 데이터 탐사와 분석을 통하여 보다 객관적이며 정확
한 예측과 판단을 할 수 있게 되었으며, 기존 전문가의 판단을 넘어서
게 되었다.
○ 빅 데이터 방법론이란 “대량의 데이터로 부터 통찰력을 발견하고,
이를 이용하여 문제를 해결하는 것”을 의미한다. 즉, 특정 분야의
전문가가 오랜 시간을 통해서만 축적할 수 있는 데이터와 경험을
다양한 IT 기술을 통해 대량으로 수집 축적하고, 이를 최신 컴퓨팅
이론을 기반으로 분석할 수 있도록 해주는 기술이다.
○ 1912년 4월 14일의 타이타닉호와 2014년 4월 16일의 세월호는 100여
년의 시차에도 불구하고 서로 다른 면과 비슷한 면을 갖고 있다.
타이타닉호는 해안으로 640km 떨어졌지만 세월호는 겨우 3km의
거리에 있었고 100여년 간 선박기술의 발전이 있었지만, 생존률은
32%와 36.5%로 비슷한 경향을 보였다.
- 2 -
○ 현재까지의 세월호에 관한 언론 기사나 연구들은 단편적인 생존률이
나 선박기술상의 원인만 대상으로 해왔다. 세월호에는 우리 연구팀
과 동일한 나이의 단원고 2학년 학생들이 타고 있었다. 우리는 기존의
연구에서 시도하지 않았던 빅 데이터 방법론을 통하여 보다 구체적으
로 두 케이스를 비교 분석함으로서 단편적인 생존률 안에 숨겨진
의미를 발견해 내고자 한다.
□ 연구범위
○ 우리 연구에서는 빅 데이터 방법론의 프로세스와 알고리즘들의 기본
개념을 파악하고, 이를 기반으로 타이타닉의 생존률과 세월호의 생
존률을 다양한 데이터 관점에서 비교 분석할 것이다. 이를 위해 기존
에 여러 곳에 흩어져 있던 세월호 생존자 데이터를 통합하여 구축하
는 작업이 국내 최초로 수행되었다.
○ 빅 데이터 방법론 기반의 타이타닉과 세월호 생존률 비교 분석의
순서는 아래와 같다.
첫째, 빅 데이터 방법론의 프로세스들을 파악하고 데이터 비교 분석
을 위한 계획을 수립한다.
둘째, 빅 데이터 분석을 위해 사용되는 알고리즘들의 기본 개념과
장단점을 파악한다.
셋째, 세월호 생존자와 사망자 데이터를 구축하고 이를 기반으로
타이타닉 생존률 데이터와 통계적 데이터 분석을 수행하며
의미를 도출한다.
넷째, 다양한 빅 데이터 알고리즘을 이용하여 어떤 알고리즘이 세월
호와 타이타닉 데이터를 기반으로 더 정확하게 생존률을 예측
할 수 있는지 비교 분석한다.
다섯째, 소수의 실제 탑승 예상자의 정보를 이용하여 세월호를 탑승
했을 때와 타이타닉호를 탔을 때의 예상 생존률을 예측하여
보여줌으로서 실제적 체감을 할 수 있게 한다.
- 3 -
2. 연구 수행 내용
□ 이론적 배경 및 선행 연구
가. 빅 데이터 분석의 프로세스와 분류
(1) 빅 데이터 분석 프로세스의 개요
○ 빅 데이터 분석 프로세스는 데이터 분석을 통해서 문제를 해결하는
과정으로서, 원시데이터 수집과 구축, 데이터 전처리, 탐색적 데이터
분석, 데이터 분석 모델과 알고리즘의 단계로 구성된다.
원시데이터
수집과 구축
데이터 전처리 정제된
데이터셋
탐색적
데이터 분석
사람을 위한
시각화/보고서
데이터 분석
모델/알고리즘
데이터 분석
제품(의사결정)
그림 1. 빅 데이터 분석 프로세스
○ 원시 데이터 수집과 구축을 통해 수집된 데이터는 결손되거나 수집시
의 오차 등 많은 문제를 내포하고 있다. 이러한 데이터는 데이터
전처리 단계를 통해 메워지거나 수정되며, 실제적인 분석을 위해
정제된 데이터 셋이 만들어 진다.
○ 탐색적 데이터 분석 단계는 본격적인 분석을 하기 전에 전체적인
탐색을 위한 단계로서 요약 통계나 시각화 등을 통해 데이터 전반적
인 내용이 관찰되면 실제적인 분석을 위한 기초로 사용된다. 간단한
문제들은 이 단계에서 해결되기도 한다.
- 4 -
○ 빅 데이터 분석 모델과 알고리즘 적용 단계는 분류화(classification),
군집화(clustering), 로지스틱회귀(logistic regression) 등의 컴퓨팅
분석 알고리즘들이 적용되는 단계로서 빅 데이터 기반의 예측이나
설명이 도출되는 단계이다. 이 단계를 통해 도출된 지식이 의사결정
을 할 수 있는 사용자에 전달되며, 이를 기반으로 실세계에 적용된다.
(2) 데이터 분석 작업의 분야
○ 빅 데이터 분석 작업은 일반적으로 예측작업과 서술작업의 두 가지
분야로 구분된다.
○ 예측 작업(predictive task) : 다른 속성의 값들을 기반으로 특정 속성
의 값을 예측하는 것이다. 예측해야 하는 속성은 목표(target) 또는
종속변수(dependent variable)라고 하며, 예측을 만드는 데 사용하는
속성은 설명(explanatory) 또는 독립변수(independant variable)라고
한다.
○ 서술 작업(descriptive tasks) : 데이터에 숨어있는 관련성을 요약하고
있는 상관성이나 경향, 군집, 궤적, 이상치 등의 패턴을 찾아내는 것이
다. 서술 데이터 마이닝 작업은 보통 탐구적이며 결과의 타당성을
검증하고 설명하기 위하여 후처리 기법을 요구한다.
○ 이 연구의 타이타닉호와 세월호 데이터 분석은 예측 작업에 해당한다.
즉 각 탑승자의 생존 여부는 종속변수가 되며, 이를 예측하기 위해서
사용되는 나이나 직업 등의 속성은 독립변수라 할 수 있다. 방법적
측면에서 이 연구에서는 예측 모델링(predictive modeling)을 위하여
분류화(classfication)와 회귀(regression)의 방법들이 적용된다.
- 5 -
나. 탐색적 데이터 분석
○ 탐색적 데이터 분석(exploratory data analysis : EDA)이란 수집한
데이터가 분석에 적합한지를 알아보는 과정으로서, 본격적인 분석을
수행하기에 전에 데이터의 전체적인 특성을 살펴보는 것을 의미한다.
○ 존 튜키(John Tukey)1)
라는 미국의 저명한 통계학자가 창안한 자료
분석 방법론으로서, 자료를 이론적인 모델이나 틀에 적용하기 보다는
데이터를 있는 그대로 보여주는데 중점을 맞춰서 데이터 스스로 말하
도록 유도하는 분석법이다.
○ 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가
가지고 있는 본연의 의미를 찾는데 어려움이 있었고 이를 보완하고자
주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 통계적 특성
파악과 그래프를 이용한 시각화 방법 등이 사용된다2)
.
○ 탐색적 데이터 분석 과정을 통해 문제를 풀어나갈 수 있는 큰 방향을
잡을 수 있게 되며, 문제 해결을 위해 어떤 데이터나 자원이 요구되는
지 파악하여 전체적인 데이터 분석 시간과 자원을 줄이는데 중요한
역할을 한다. 종종 단순한 문제들은 탐색적 데이터 분석 과정에서
해결되는 경우도 있다.
(1) 통계적 특성 파악
○ 탐색적 데이터 분석의 첫 번째 단계는 기본적인 통계 특성을 분석하는
것이다. 데이터가 수치형 일때 가장 기본적으로 살펴보는 것이 데이
터의 요약 통계(summary statistic)이다. 요약 통계는 평균이나 표준
1) AT&T 벨 연구소에 근무했던 유명한 통계학과 컴퓨터학자로서 Software라는 단어와 Bit라는 단어를
처음 만들고 사용한 사람이다. 참고 :https://en.wikipedia.org/wiki/John_Tukey
2) https://ko.wikipedia.org/wiki/탐색적_자료_분석
- 6 -
편차, 분산과 같이 대규모 데이터의 집합에 대하여 여러가지 특징을
하나의 수치나 소수의 수치 집합으로 파악하는 정량적인 값을 의미한
다.
- 예를 들면, 어떤 회사의 평균 연봉이나 암환자의 5년간 생존률 등이
요약 통계에 해당한다.
○ 요약 통계를 위해서 빈도와 최빈값, 백분위수, 평균과 중앙값, 범위와
편차, 다변량 요약 통계, 편향 등의 다양한 통계적 기법들이 적용될
수 있다. 통계적 기법들이 탐색적 데이터 분석에서 적용되기 위해서
는 데이터의 저항성(resistance)과 잔차의 해석(Residual), 데이터의
재표현(re-expression) 들이 추가적으로 고려된다.
○ 저항성은 자료의 일부가 현격히 다른 값을 갖거나 회손되었을 때
영향을 적게 받는 성질을 의미한다. 데이터를 탐색하여 데이터의 부
분적 변동에 민감하게 하지 않는 저항성 있는 통계나 통계적 방법을
선택하여 데이터를 분석할 수 있게 한다.
- 예를 들면 한 학급의 평균 키는 한 두명의 키를 매우 크거나 작게
적는 오타를 포함하고 있을 때 큰 영향을 받지만, 중앙값은 값의 표기
오류와 관계 없이 동일한 값을 도출하므로 저항성이 크다고 할 수
있다.
○ 잔차란 표본에 의해 추출된 관찰 값들이 주경향으로 부터 얼마나
벗어나 있는지의 차이를 의미한다. 계산된 잔차에서 매우 크거나 작
은 잔차를 발견하게 되었을 때, 이 잔차가 발생하게 된 원인을 파악하
거나 의문을 풀기위해 탐구를 하는 추가적인 작업을 요구될 수도
있다.
- 예를 들면, 한 한급의 키 데이터에서 표기 오류로 인해 이상하게 크거
- 7 -
나 작은 데이터가 있을 때 이 데이터는 큰 잔차를 가질 것이다. 이
잔차의 의미를 해석하는 것이 데이터 분석 작업에 포함될 수 있다.
○ 데이터 재표현이란 데이터의 해석과 분석이 용이하도록 원래의 변수
나 데이터를 적정한 척도로 변환하는 것을 의미한다. 이러한 변환을
통해 분포의 대칭성이나 선형성, 분산의 안전성 등의 데이터 구조의
파악이 쉬워지는 장점이 있다.
- 예를 들면 자동차의 속도(km)로 수집된 데이터를 속도의 가감속을
이용하여 가속도의 형태로 바꾸는 단순한 변환에 의해 자동차의 엑셀
을 밟은 상태인지에 대한 분석을 수행할 수 있게 된다.
(2) 데이터 시각화
○ 데이터 시각화(data visualization)란 정보를 그래픽이나 테이블 형식
으로 보여주는 것이다. 인간이 데이터의 속성을 한눈에 파악하려면
데이터의 특성을 그래프로 나타내는 것이 효과적이다. 성공적인 시각
화는 데이터의 특성과 항목이나 속성들간의 관계가 갖는 특징들을
분석하여 인간이 쉽게 이해할 수 있게 한다3)
.
○ 히스토그램(histogram)은 어떤 사건이 발생하는 분포를 보이기 위해
사용된다. 일반적인 연속선 그래프가 어떤 사건이 발생할 확률을 가
시화 한 것이라면, 히스토그램은 그림2의 (a)와 같이 정해진 구간값에
서의 실제 발생횟수를 표현한다는 것에 차이가 있다. 데이터 특정
분류가 정해지게 되면 그림 2의 (b)와 같은 막대 그래프의 형태로
표현될 수 있다.
3) https://en.wikipedia.org/wiki/Data_visualization
- 8 -
(a) (b)
그림 2. 히스토그램과 막대 그래프 시각화
○ 산포도(scatter plot)란 대표값을 중심으로 자료들이 흩어져 있는 정도
를 가시화한 것이다. 데이터내의 속성들을 x와 y의 좌표로 사용하여
평면에서 점으로 가시화한 것이다. 일반적으로 나이와 수입의 관계와
같은 연속형 변수를 기반으로 산포도를 가시화하게 되나 연속형 변수
와 범주형 변수를 이용해서 가시화 할 수도 있다. 최근에는 그림3의
(b)와 같이 3차원 산포도도 사용된다.
(a) (b)
그림 3. 2차원 산포도와 3차원 산포도 시각화
○ 네트워크 그래프는 그래프를 이용하여 데이터를 시각화 하는 것이
다. 소셜 네트워크 분석(Social Network Analysis)에서는 사용자 간의
- 9 -
관계를 수학의 그래프 이론을 통해 표현하고 네트워크의 구조와 연결
강도를 통해 핵심이 되는 인물이나 중계 역할을 하는 사용자를 찾고
분석하기 위해 그래프 시각화 기법을 이용한다. 또한 시간의 흐름에
따라 데이터 양의 변화를 시각적으로 파악하기 쉽게 하기 위하여
스트림 그래프의 형태도 최근 많이 사용되고 있다.
(a) (b)
그림 4. 네트워크와 스트림 그래프 시각화
다. 빅 데이터 분석 모델과 알고리즘
(1) 데이터 분석 모델
○ 데이터란 자연 상태나 인위적 행동의 결과가 밖으로 표출된 것이라고
볼 수 있으며, 그 본질적인 내용이나 숨어있는 의미를 찾아내는 작업
이 데이터 분석이다. 이 때 데이터를 발생시킨 원래 시스템을 설명하
기 위해 설정한 구조를 모델이라고 한다. 모델을 표현하는 방법은
수식과 알고리즘 등으로 표현될 수 있다4)
.
- 예를 들면, 다양한 높이의 가지에서 사과가 떨어지는 시간을 측정한
데이터들의 모음이 있다고 가정하자. 이 시간 데이터 집합에는 사람
의 실수나 시계의 오차에 의해 오류값을 포함하고 있을 것이다. 이
4) 김화종, 데이터 사이언스 개론, 홍릉과학출판사
- 10 -
데이터를 이용하여 가속도의 법칙을 검증하고 할 때 연구자는 다음과
같이 간결한 수식으로 표현할 수 있는 실세계의 모델을 먼저 만들고
이를 실제 데이터와 부합하는지를 확인하고자 할 것이다. 다음의 가
속도의 법칙의 수식을 모델이라고 할 수 있다.
그림 5. 가속도의 법칙
○ 빅 데이터 분석에서는 먼저 가정을 포함한 모델을 만들고 이를 실제
데이터와 비교하여 분석할 수 있을 뿐만 아니라, 반대로 모델이 없을
지라도 다양한 기계학습 알고리즘에 의하여 빅 데이터로 부터 모델을
만들어낼 수 있게 한다.
데이터 분석
알고리즘
모델 검증훈련
데이터셋
테스트
데이터셋
모델
반 영
그림 6. 네트워크와 스트림 그래프 시각화
○ 모델은 학습을 통해 성능이 개선되고 일반화될 수 있어야 한다. 이를
위해 주어진 샘플 데이터를 사용해 모델을 완성해나가는 훈련
(training) 과정을 거치게 되며, 이 훈련을 통해 만들어진 모델을 테스
트 데이터를 이용하여 검증하게 된다. 이러한 과정을 통해 만들어진
모델이 앞으로 발생하는 새로운 입력 데이터에 대해서도 정확하게
잘 동작할 수 있도록 하는 것이 일반화(generalization)라 한다.
- 11 -
(2) 데이터 분석 알고리즘
○ 빅 데이터 분석 알고리즘들은 기초 통계 분석과, 회귀 분석, 기계학습
(machine learning)으로 구성된다. 이 알고리즘들은 다시 서술적 모델
과 예측형 모델들로 구성된다. 타이타닉호와 세월호 데이터 분석은
예측을 목적으로 하므로 아래에는 예측형 모델에 한하여 설명한다.
○ 예측(prediction)이란 과거의 데이터를 보고 미래에 어떤 값이 나타날
지를 예상하는 것이다. 예를 들면, 과거의 연간 기온 변화 이력을
파악하고 이를 이용해 미래의 기온 변화를 예상하는 것이다. 예측에
서 가장 널리 사용되는 알고리즘은 최소제곱법을 사용하는 회귀
(regression) 모델이다. 회귀 모델은 아래 그림과 같이 선형이거나
곡선이 사용될 수 있으며, 전자를 선형 회귀이라 하고 후자를 다항
수식을 이용하므로 다항 회귀라 한다5)
.
그림 7. 훈련 데이터(a)와 선형/다항 회귀분석(b)의 예
○ 타이타닉호와 세월호 생존률 예측 분석은 결론적으로 생존 ‘여부’
예측을 목적으로 하는 분류화(classifiation) 문제에 해당한다. 그러므
로, 회귀 모델을 분류화에 적용한 로지스틱 회귀분석(logistic
regression)이 사용된다. 로지스틱 회귀분석은 아래의 그림 (b)와 같
이 분석하고자 하는 대상들이 둘 이상의 집단으로 구분되는 경우에
개별 관측 속성들을 이용하여 어느 집단으로 분류될 수 있는가를
5) http://blog.naver.com/PostView.nhn?blogId=samsjang&logNo=221006905415
- 12 -
분석하고 예측하는 모델을 개발하는데 사용되는 알고리즘이다6)
. 예
를 들면, 일반적인 선형 회귀모델을 단순히 그림 8의 (a)와 같이 적용
할 수 있으나, 실제 분류화 문제에 적용하게 되었을때의 실제 데이터
는 그림 8의 (b)와 같은 비연속값으로 분류되며 이 때 데이터 확장성의
문제를 갖게된다7)
.
(a) (b)
그림 8. 선형 회귀분석(a)과 분류화 적용의 문제점(b)
○ 로지스틱 회귀분석은 아래 그림의 시그모이드(sigmod) 함수를 사용
함으로서 이러한 문제를 해결한다. 전체적으로 S자 형태의 그래프로
서 좌측 끝에서 0으로 수렴하고 우측 끝은 1로 수렴하는 함수이다.
그림에서 보는 것과 같이 sigmod 함수는 ‘true/false'와 같은 2가지
판단에 대한 분류에 적합하다. 3단계 이상의 분류에 적용하기 위해서
는 다항 로지스틱 회귀분석으로 확장되어야 한다.
그림 9. 로지스틱 모델에서 사용되는 sigmoid 함수
6) https://ko.wikipedia.org/wiki/로지스틱_회귀
7) http://bcho.tistory.com/1142
- 13 -
○ 의사결정 트리(decision tree)는 분류화 문제에서 사용되는 대표적인
학습법으로서, 최종 결과 모델이 아래의 그림(a)와 같이 가부 판단의
나무 모양이 되는 학습법이다. 입력 변수를 바탕으로 어떤 변수와
값에 의해 데이터를 구분했을 때 가장 순수하게 데이터가 분류되는
지를 계산해서 반복적으로 공간을 분할하게 되며, 의사결정 트리를
공간상에 표현하게 되면 (b)와 같은 이진 분할의 형태를 갖는다8)
.
(a) (b)
그림 10. 의사결정 트리(a)와 공간 분할(b)의 예
○ 의사결정 트리는 훈련에 사용되는 데이터에 따라 생성되는 모델의
성능 변동폭이 크다는 결점을 갖고 있다. 즉, 학습 데이터에 따라
결정 트리의 모양이 달라지기 때문에 일반화하여 사용하기에 어려운
점이 있다는 것이다. 그러므로 랜덤하게 추출된 다양한 학습 데이터
를 이용하여 생성된 여러 개의 의사결정 트리를 사용하는 랜덤 포레
스트(random forest) 알고리즘이 제안되었다.
○ 랜덤 포레스트 학습법은 여러 개의 의사결정 트리를 이용하여 하나의
결과를 도출하기 위하여 앙상블(ensemble) 모델을 이용한다. 즉, 아래
의 그림과 같이 여러 개의 트리에 같은 입력을 주게 되며 이를 통해
각 트리에서 얻어진 확률의 평균에 의해 적합한 분류를 예측하게
된다. 랜덤 포레스트는 의사결정 트리가 갖는 일반화 문제를 해결하
므로 다양한 상황에서 보다 나은 결과를 보일 수 있다. 그러나 작은
8) https://ko.wikipedia.org/wiki/결정_트리_학습법
- 14 -
양의 한정된 학습 데이터를 사용하는 경우, 랜덤하게 소규모의 데이
터를 추출하여 사용하므로 작은 의사결정 트리를 생성한다. 그러므로
하나의 큰 데이터를 사용하여 세밀하게 구축된 큰 의사결정 트리보다
좋지 못한 결과를 보이는 경우도 있다.
그림 11. 랜덤 포레스트의 앙상블 기법의 예
○ 서포트 벡터 머신(support vector machine : SVM)은 두 범주를 갖는
객체들을 분류하는 방법으로서 초평면 상에서 여백(margin)을 최대
화 하여 일반화 능력을 극대화 하는 알고리즘이다9)
. 이진 분류 문제에
서 일반적인 데이터는 선형 구분이 되지 않는다. 그러므로 데이터를
커널함수(kernel)를 이용하여 선형으로 구분할 수 있는 초평면으로
변환하며, 이를 기반으로 여백을 최대화 할 수 있는 선형함수를 구하
는 방법을 사용한다.
그림 12. SVM의 평면 변환과 마진
9) https://ko.wikipedia.org/wiki/서포트_벡터_머신
- 15 -
□ 연구 주제와 방법
○ 2014년 4월 16일. 325명의 단원고 2학년 학생들이 수학여행을 위해
승선하고 있던 세월호가 침몰하며 사회적으로 큰 충격을 안겨주었다.
희생된 단원고 학생들은 연구팀과 동갑인 고2 학생들로서 비슷한
꿈과 희망을 갖고 있던 학생들이 희생되었다는 측면에서 큰 의미가
있다. 해안에서 겨우 3km 떨어진 곳에서 발생한 이 사고로 단원고
교사 14명을 포함한 339명 가운데 262명(77.2%)이 사망하거나 실종되
었다.
○ 1912년 4월 14일. 100여년전 2224명이 승선하고 있던 타이타닉호
사고는 해안으로부터 640km 떨어진 곳에서 발생하였으며 1,514명
(68%)이 사망하였다. 100여년의 기술발전과 해안까지의 거리가 현저
히 가까웠음에도 불구하고 세월호의 사망률과 타이타닉의 사망률은
거의 차이가 없다.
○ 데이터적 측면에서 더 충격적인 사실은 세월호 사고에서 전체 사망률
이 63.5%에 불과함에도 교사를 포함한 단원고 사망률은 77.2%로 훨
씬 더 높았다는 것이다. 타이타닉호 침몰사건에는 여자와 아이를 먼
저 구조하기 위해 남자 어른들이 자발적으로 희생했다는 신화같은
얘기가 전해져 왔다. 이 연구에서는 실제 타이타닉 생존 데이터를
이용하여 이 전설이 사실인지를 탐색적 데이터 분석으로 확인하고,
세월호의 사망률과 통계적으로 비교하여 세월호에서는 어떤 일이
발생했는지를 탐색할 것이다. 또한 동일한 탑승자에 대하여 타이타닉
을 탑승했을 때와 세월호에 탑승했을 때의 생존을 예측할 수 있는
알고리즘을 찾고자 한다.
○ 이 연구를 위해 아직까지 통합해서 공개되어 있지 않은 세월호 생존자
에 대한 데이터를 공개 데이터를 기반으로 수집하여 구축하였다. 빅
데이터 분석용으로 구축된 최초의 세월호 생존 데이터로 생각된다.
- 16 -
□ 연구 활동 및 과정
○ 연구팀은 군산대학교 남광우 교수와 박사과정 1명, 학부생 1명, CPU
연구팀 6명으로 구성되었다. CPU 연구팀이 빅 데이터 분석에 대한
기본 지식을 쌓기 위하여 초기 1개월 동안은 학교에서 수학시간에
배우는 수식을 이용해서 쉽게 접근할 수 있는 선형 회귀와 k-NN
등의 이론에 대한 학습을 수행하였다.
그림 13. CPU 팀과 군산대 팀의 세미나 모습
○ 연구의 초기에는 게임 데이터를 이용한 분석 등에 초점을 두었으나,
실제적이며 사회적으로 의미있는 데이터 분석 주제를 선정하기 위한
다양한 고민과 토론 후에 세월호와 타이타닉호를 비교분석하는 것으
로 주제를 전환하였다. 아래와 같이 총 8회 이상의 세미나와 회의를
수행하였다.
번호 세미나 및 회의 주제 시기
1 선형 회귀 분석 모델 6월
2 k-NN 최근접 이웃 모델 6월
3 Tensorflow 인공지능 모델 실습 I 7월
4 Tensorflow 인공지능 모델 실습 II 7월
5 Kaggle 데이터 분석 8월
6 모델 비교 평가 8월
7 세월호 데이터 구축 및 비교 분석(R Studio) 9월
8 타이타닉호와 세월 비교 분석(R Studio) 9월
- 17 -
○ 최종적으로 세월호 데이터와 타이타닉호 데이터의 분석을 위해서
R Studio 툴이 사용되었으며, 새롭게 인터넷상에 흩어져 있던 세월호
생존 데이터를 통합하여 데이터 분석용 데이터로 구축하였다.
그림 14. 세월호 데이터 분석 회의
3. 연구 결과 및 시사점
□ 연구 결과
가. 데이터의 수집과 전처리
○ 타이타닉호 생존률 데이터는 kaggle.com에 공개된 데이터를 이용하
였다. 공개된 데이터는 빅 데이터 알고리즘의 학습을 위해 사용되는
훈련 데이터 셋과 실제 알고리즘의 정확성을 측정하기 위한 테스트
셋으로 구성되어 있으며 다음과 같이 10개의 속성을 갖는다.
번호 속성명 의미
1 survival 생존 여부
2 pclass 티켓 클래스(1등급, 2등급, 3등급)
3 sex 성별
4 Age 나이
5 sibsp 동승한 사촌의 수
6 parch 아이당 부모의 수
7 ticket 티켓 번호
8 fare 승선 요금
9 cabin 캐빈 번호
10 embarked 승선한 항구(C, Q, S)
- 18 -
○ 세월호의 생존률 데이터는 인터넷 상에 공개되어 있지 않다. 그러므로
신문기사와 해양수산부의 기관 홈페이지에 공개된 단편적인 데이터
들을 다양한 방법으로 수집하여 통합한 후 빅 데이터 분석용으로
다음의 속성들과 같이 구축하였다.
번호 속성명 의미
1 name 이름
2 age 나이
3 sex 성별
4 job 직업
6 suvival 생존 여부
○ 타이타닉호 데이터가 100여년 전의 침몰인데도 불구하고 부모의 수나
요금과 같이 매우 구체적인 내용까지 공개되어 미래 연구를 위해
사용되는데 비해 세월호의 경우 겨우 3년 전의 데이터임에도 구하기
매우 어렵다는 점에서 큰 차이점이 있었다.
<데이터 클리닝과 전처리>
○ 수집된 세월호 데이터는 나이와 성별 등이 최후까지 확보되지 않은
소수의 값들이 존재했다. 타이타닉호 데이터도 동일하게 몇개의 값들
이 없는 경우가 존재했다. 빅 데이터 분석 방법에서는 실제 데이터에
이러한 미싱(missing) 값들이 존재할 경우 전체적인 통계에 변화를
주지 않도록 랜덤 대체법을 사용한다.
○ 이 연구에서도 학생들의 나이와 몇몇 일반 승선자들의 나이 정보가
존재 하지 않았다. 학생들의 나이는 고2의 평균 나이로 쉽게 일괄
대체 할 수 있었으며, 2-3명의 일반인의 나이는 전체 통계에 영향을
주지 않는 랜덤 나이값을 선택하여 대체하였다. 일부 성별의 경우도
비슷한 방법을 사용하여 대체되었다.
- 19 -
나. 탐색적 데이터 분석
○ 타이타닉 신화는 존재하는가? 타이타닉호 침몰시에 여성과 아이를
먼저 구조선에 태우고 남성 어른이 희생했다는 신화의 사실 여부를
확인하였다. 아래의 그림에서 보는 것과 타이타닉호에서 여자의 생존
률 80%에 근접하는데 비하여 남자의 생존률은 25% 수준에 머물렀다.
이 신화는 사실임을 확인할 수 있었다.
그림 15. 타이타닉호의 성별 생존률 비교
○ 세월호에도 타이타닉 신화가 재현되었는가? 타이타닉호와 같은 남성
들의 희생이 세월호에 존재했는지를 확인하였다. 안타깝지만 아래의
그림과 같이 세월호에서 여자의 생존률과 남자의 생존률은 큰 차이가
없었으며, 오히려 오차범위내에서 오히려 여자의 생존률이 낮았다.
(a) 타이타닉 생존률 (b) 세월호 생존률
그림 16. 타이타닉호와 세월호의 성별 생존률 비교
- 20 -
- 학생들의 남여 구성 비율이 실제 성별 생존률에 영향을 끼칠 수 있다고
생각되어 학생을 제외한 일반인의 생존률을 분석하였다. 남여 생존률
의 차이에는 큰 변화가 없었다. 대신 전체 생존률이 36.5%인데 비하여
일반인만의 생존률은 훨씬 높은 60%에 근접한다는 것을 확인하였다.
그림 17. 학생 제외 일반인 성별 생존률
○ 어른이 어린이/청소년의 생존을 배려하였는가? 타이타닉호의 10세
이하 생존률은 70%에 근접하며 전체 생존률에 비해 현저히 높으며
16-18세의 생존률도 50%이상으로 일반인 생존률을 훨씬 상회한다.
- 타이타닉호 데이터의 특이점은 45세 근처의 생존률이 일반적인 생존
률 추이와 다르게 훨씬 높다는 것이다. 다양한 추측이 가능하나 유아/
어린이의 생존률과 결합된 ‘엄마‘의 생존률일 것으로 추정된다.
그림 18. 타이타닉호의 나이별 생존률
- 21 -
○ 세월호는 어린이/청소년의 생존을 배려하였는가? 앞에서 기술한 바
와 같이 세월호는 단원고 학생의 비율이 매우 높고 어린이/유아의
탑승자가 매우 적다. 그럼에도 확인할 수 있는 것은 어린이 청소년의
생존률이 매우 높으며, 그에 비해 일반인의 생존률은 매우 높다는
것이다.
- 세월호의 생존률 데이터의 특이점도 45세에서 55세 사이에서 매우
현격한 차이를 발견할 수 있었다. 타이타닉호의 경우는 ‘엄마’라는
특수성에 의해 이해될 수 있는 정도 였으나, 세월호는 특이하게 나이
대에서 90%-100%의 생존률을 보였다. 세월호는 유아/어린이의 수가
매우 적다는 점과 45-55세 나이대가 다른 나이대에 비해 훨씬 수가
많다는 점에도 불구하고 현저히 높은 생존률을 보였다.
그림 19. 세월호의 나이별 생존률
○ 세월호에서 45-55세의 생존률은 왜 높은가? 45-55세의 생존률을 보다
구체적으로 확인하기 위하여 아래와 같이 학생을 제외한 생존률 그래
프를 다시 확인하였다. 다른 나이대의 생존률이 일정한데 비하여
45-55세의 생존률은 90%를 상회하고 있다. 타이타닉호도 45세 근처
에서 약간 높은 양상을 띄나 남녀 생존률을 고려했을 때 큰 차이는
- 22 -
아니라 할 수 있다. 세월호의 45-55세 생존률은 세월호에서 매우 다른
양상이라 할 수 있다. 다양한 위기상황을 경험한 나이대로서 특수한
상황에서의 생존기술과 생존욕구가 특이하게 높은 것이 작용한 것으
로 보인다. 45-55세의 생존률과 62세 이상의 생존률이 유사한 형태를
띄며, 60세 근처의 생존률만이 다른 나이대와 비슷한 양상을 갖는다.
그림 20. 세월호의 학생제외 생존률
○ 교사와 선원의 직업윤리의 차이는 존재하는가? 교사와 선원은 학생과
승객의 보호라는 동일 수준의 의무를 지고 있다고 볼 수 있다. 세월호
에는 33여명의 선원과 14명의 교사가 탑승하고 있었다. 두 직업간의
생존률을 비교함으로서 두 직업간의 직업윤리 차이를 확인할 수 있었
다.
그림 21. 교사와 선원의 생존률 비교
- 23 -
다. 데이터 분석 모델과 알고리즘을 이용한 예측
○ 타이타닉호 데이터와 세월호 데이터를 기반으로 빅 데이터 분석 알고
리즘을 적용하여 특정 나이나 성별 등의 정보를 입력했을 때 생존을
예측할 수 있는 예측 모델을 생성하도록 시도하였다. 시도된 알고리
즘은 로지스틱 회귀분석, 의사결정 트리, 랜덤 포레스트, 그리고 SVM
알고리즘 등이다.
○ 타이타닉호는 10여개의 속성을 포함하고 있으며 요금과 방번호 등의
세밀한 정보를 포함하고 있다. 그러므로, 81%부터 83%까지 높은 생
존 예측률을 확보할 수 있었다. 아래의 그림에서 보는 것과 같이 로지
스틱 회귀와 SVM이 83.72%와 83.61%로 비슷한 예측률을 보였으나
로지스틱 회귀가 1%가량 높은 예측률을 보였다.
80.5
81
81.5
82
82.5
83
83.5
84
Logistic Regression Random Forest Decision Tree SVM
그림 22. 타이타닉호 예측 정확도 비교
알고리즘 예측 정확도
Logistic Regression 83.7226
Random Forest 82.6038
Decision Tree 81.7059
SVM 83.6139
- 24 -
○ 세월호 데이터는 나이와 직업, 성별 등의 정보만을 포함하고 있다.
타이타닉호의 80%대에 비하여 훨씬 낮은 예측률을 보였다. 동일하게
로지스틱 회귀분석, 의사결정 트리, 랜덤 포레스트, 그리고 SVM 알고
리즘이 시도되었다.
- 타이타닉호 데이터에 대해서 좋은 예측 결과를 보였던 로지스틱 회귀
분석과 SVM이 74.6%와 75.2%로 오히려 낮은 예측률을 보였으며,
가장 낮은 예측률을 보였던 의사결정 트리가 가장 좋은 77.9%의 예측
률을 보였다.
72
73
74
75
76
77
78
79
Logistic Regression Random Forest Decision Tree SVM
그림 23. 세월호 예측 정확도 비교
알고리즘 예측 정확도
Logistic Regression 74.6102
Random Forest 75.9465
Decision Tree 77.951
SVM 75.2783
- 25 -
□ 결론과 시사점
○ 세월호는 사회적으로 큰 충격을 주었고, 안전 불감증이나 사회 구조적
문제 등에 대하여 다양한 의문이 제기되었다. 그럼에도 불구하고 생
존률 데이터에 대한 체계적인 분석도 시도되지 않았을 뿐만 아니라
데이터 자체도 구체적으로 공개되지 않고 있다.
○ 우리 연구는 세월호 생존사망자에 대한 데이터를 직접 수집하였으며,
이를 기반으로 빅 데이터 분석 방법론을 이용하여 사회적 관심점에
대한 데이터 분석을 시도 하였다. 구체적으로 다음의 가정에 대한
실제적 답을 도출하였다. 또한 빅 데이터 알고리즘을 이용하여 예측
할 수 있는 모델을 도출하고 비교하였다.
- 타이타닉 신화는 존재하는가?
- 세월호에도 타이타닉 신화가 재현되었는가?
- 어른이 어린이/청소년의 생존을 배려하였는가?
- 세월호는 어린이/청소년의 생존을 배려하였는가?
- 세월호에서 45-55세의 생존률은 왜 높은가?
- 교사와 선원의 직업윤리의 차이는 존재하는가?
○ 위의 질문에 대한 수치적인 데이터 분석을 통해 한국 사회 전반적인
문제와 모순의 일부를 찾아볼 수 있었으며, 이와 함께 교사의 직업
책임윤리에서 희망을 발견할 수 있었다.
4. 홍보 및 사후 활용
○ 세월호 사고에 대한 빅 데이터 방법론 분석은 최초로 시도되었다.
뿐만 아니라 다른 연구자들의 연구에 사용될 수 기본 데이터를 새롭
게 구축하였으며 이를 이용하여 미래 발생할 수 있는 유사 사고에
대비할 수 있는 기초를 제공할 수 있을 것이다.

More Related Content

What's hot

Imitation learning tutorial
Imitation learning tutorialImitation learning tutorial
Imitation learning tutorialYisong Yue
 
Análise de Algoritmos - Método Guloso
Análise de Algoritmos - Método GulosoAnálise de Algoritmos - Método Guloso
Análise de Algoritmos - Método GulosoDelacyr Ferreira
 
Intuitive & Scalable Hyperparameter Tuning with Apache Spark + Fugue
Intuitive & Scalable Hyperparameter Tuning with Apache Spark + FugueIntuitive & Scalable Hyperparameter Tuning with Apache Spark + Fugue
Intuitive & Scalable Hyperparameter Tuning with Apache Spark + FugueDatabricks
 
Data Visualization Tools in Python
Data Visualization Tools in PythonData Visualization Tools in Python
Data Visualization Tools in PythonRoman Merkulov
 
Data Visualization using matplotlib
Data Visualization using matplotlibData Visualization using matplotlib
Data Visualization using matplotlibBruno Gonçalves
 
Towards Causal Representation Learning
Towards Causal Representation LearningTowards Causal Representation Learning
Towards Causal Representation LearningSuyeong Park
 
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기CONNECT FOUNDATION
 
Atlassian jira как полностью раскрыть возможности
Atlassian jira   как полностью раскрыть возможностиAtlassian jira   как полностью раскрыть возможности
Atlassian jira как полностью раскрыть возможностиAndrew Fadeev
 
Python Programming with Google Colab
Python Programming with Google ColabPython Programming with Google Colab
Python Programming with Google Colabvadhaniseetharaman
 
Use MLflow to manage and deploy Machine Learning model on Spark
Use MLflow to manage and deploy Machine Learning model on Spark Use MLflow to manage and deploy Machine Learning model on Spark
Use MLflow to manage and deploy Machine Learning model on Spark Herman Wu
 
mlflow: Accelerating the End-to-End ML lifecycle
mlflow: Accelerating the End-to-End ML lifecyclemlflow: Accelerating the End-to-End ML lifecycle
mlflow: Accelerating the End-to-End ML lifecycleDatabricks
 
Estrutura de Dados - Aula 03 - Ponteiros e Funções
Estrutura de Dados - Aula 03 - Ponteiros e FunçõesEstrutura de Dados - Aula 03 - Ponteiros e Funções
Estrutura de Dados - Aula 03 - Ponteiros e FunçõesLeinylson Fontinele
 
Active learning: Scenarios and techniques
Active learning: Scenarios and techniquesActive learning: Scenarios and techniques
Active learning: Scenarios and techniquesweb2webs
 
⼤語⾔模型 LLM 應⽤開發入⾨
⼤語⾔模型 LLM 應⽤開發入⾨⼤語⾔模型 LLM 應⽤開發入⾨
⼤語⾔模型 LLM 應⽤開發入⾨Wen-Tien Chang
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향LGCNSairesearch
 
adversarial robustness through local linearization
 adversarial robustness through local linearization adversarial robustness through local linearization
adversarial robustness through local linearizationtaeseon ryu
 
Introduction to Machine Learning with Python and scikit-learn
Introduction to Machine Learning with Python and scikit-learnIntroduction to Machine Learning with Python and scikit-learn
Introduction to Machine Learning with Python and scikit-learnMatt Hagy
 
Assessing Graph Solutions for Apache Spark
Assessing Graph Solutions for Apache SparkAssessing Graph Solutions for Apache Spark
Assessing Graph Solutions for Apache SparkDatabricks
 

What's hot (20)

Imitation learning tutorial
Imitation learning tutorialImitation learning tutorial
Imitation learning tutorial
 
Análise de Algoritmos - Método Guloso
Análise de Algoritmos - Método GulosoAnálise de Algoritmos - Método Guloso
Análise de Algoritmos - Método Guloso
 
Python pandas Library
Python pandas LibraryPython pandas Library
Python pandas Library
 
Intuitive & Scalable Hyperparameter Tuning with Apache Spark + Fugue
Intuitive & Scalable Hyperparameter Tuning with Apache Spark + FugueIntuitive & Scalable Hyperparameter Tuning with Apache Spark + Fugue
Intuitive & Scalable Hyperparameter Tuning with Apache Spark + Fugue
 
Data Visualization Tools in Python
Data Visualization Tools in PythonData Visualization Tools in Python
Data Visualization Tools in Python
 
Data Visualization using matplotlib
Data Visualization using matplotlibData Visualization using matplotlib
Data Visualization using matplotlib
 
Towards Causal Representation Learning
Towards Causal Representation LearningTowards Causal Representation Learning
Towards Causal Representation Learning
 
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
 
Atlassian jira как полностью раскрыть возможности
Atlassian jira   как полностью раскрыть возможностиAtlassian jira   как полностью раскрыть возможности
Atlassian jira как полностью раскрыть возможности
 
Python Programming with Google Colab
Python Programming with Google ColabPython Programming with Google Colab
Python Programming with Google Colab
 
Use MLflow to manage and deploy Machine Learning model on Spark
Use MLflow to manage and deploy Machine Learning model on Spark Use MLflow to manage and deploy Machine Learning model on Spark
Use MLflow to manage and deploy Machine Learning model on Spark
 
mlflow: Accelerating the End-to-End ML lifecycle
mlflow: Accelerating the End-to-End ML lifecyclemlflow: Accelerating the End-to-End ML lifecycle
mlflow: Accelerating the End-to-End ML lifecycle
 
Análise de Algoritmos
Análise de AlgoritmosAnálise de Algoritmos
Análise de Algoritmos
 
Estrutura de Dados - Aula 03 - Ponteiros e Funções
Estrutura de Dados - Aula 03 - Ponteiros e FunçõesEstrutura de Dados - Aula 03 - Ponteiros e Funções
Estrutura de Dados - Aula 03 - Ponteiros e Funções
 
Active learning: Scenarios and techniques
Active learning: Scenarios and techniquesActive learning: Scenarios and techniques
Active learning: Scenarios and techniques
 
⼤語⾔模型 LLM 應⽤開發入⾨
⼤語⾔模型 LLM 應⽤開發入⾨⼤語⾔模型 LLM 應⽤開發入⾨
⼤語⾔模型 LLM 應⽤開發入⾨
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
 
adversarial robustness through local linearization
 adversarial robustness through local linearization adversarial robustness through local linearization
adversarial robustness through local linearization
 
Introduction to Machine Learning with Python and scikit-learn
Introduction to Machine Learning with Python and scikit-learnIntroduction to Machine Learning with Python and scikit-learn
Introduction to Machine Learning with Python and scikit-learn
 
Assessing Graph Solutions for Apache Spark
Assessing Graph Solutions for Apache SparkAssessing Graph Solutions for Apache Spark
Assessing Graph Solutions for Apache Spark
 

Similar to 세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석

Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programmingSeongWan Son
 
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic용진 조
 
빅데이터 분석 시각화 분석 : 3장 시각화 방법
빅데이터 분석 시각화 분석 : 3장 시각화 방법빅데이터 분석 시각화 분석 : 3장 시각화 방법
빅데이터 분석 시각화 분석 : 3장 시각화 방법Ji Lee
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께백승민 Baek Seung Min
 
웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1Han Woo PARK
 
웹보메트릭스02 1
웹보메트릭스02 1웹보메트릭스02 1
웹보메트릭스02 1Inho Cho
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)Jaimie Kwon (권재명)
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptxDonghwan Lee
 
Doing data science_ch2
Doing data science_ch2Doing data science_ch2
Doing data science_ch2박 민규
 
파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI )
파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI ) 파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI )
파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI ) Yunho Maeng
 
K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링Edward Yoon
 
[Swift] Data Structure Introduction
[Swift] Data Structure Introduction[Swift] Data Structure Introduction
[Swift] Data Structure IntroductionBill Kim
 
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상백승민 Baek Seung Min
 
Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapupEun Yu
 
연구데이터와 전문도서관
연구데이터와 전문도서관연구데이터와 전문도서관
연구데이터와 전문도서관Suntae Kim
 
머신러닝의 개념과 실습
머신러닝의 개념과 실습머신러닝의 개념과 실습
머신러닝의 개념과 실습Byoung-Hee Kim
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)SK(주) C&C - 강병호
 
데이터베이스활용기술전망
데이터베이스활용기술전망데이터베이스활용기술전망
데이터베이스활용기술전망Hansung University
 
Week13 cluster(2)
Week13 cluster(2)Week13 cluster(2)
Week13 cluster(2)Eun Yu
 

Similar to 세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석 (20)

Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programming
 
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
캐빈머피 머신러닝 Kevin Murphy Machine Learning Statistic
 
빅데이터 분석 시각화 분석 : 3장 시각화 방법
빅데이터 분석 시각화 분석 : 3장 시각화 방법빅데이터 분석 시각화 분석 : 3장 시각화 방법
빅데이터 분석 시각화 분석 : 3장 시각화 방법
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께
 
웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1웹보메트릭스와 계량정보학02 1
웹보메트릭스와 계량정보학02 1
 
웹보메트릭스02 1
웹보메트릭스02 1웹보메트릭스02 1
웹보메트릭스02 1
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
 
Doing data science_ch2
Doing data science_ch2Doing data science_ch2
Doing data science_ch2
 
빅데이터
빅데이터빅데이터
빅데이터
 
파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI )
파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI ) 파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI )
파이썬(Python) 으로 나만의 딥러닝 API 만들기 강좌 (Feat. AutoAI )
 
K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링K means 알고리즘을 이용한 영화배우 클러스터링
K means 알고리즘을 이용한 영화배우 클러스터링
 
[Swift] Data Structure Introduction
[Swift] Data Structure Introduction[Swift] Data Structure Introduction
[Swift] Data Structure Introduction
 
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
[통계분석연구회] 2016년 겨울 맞이 추천 도서와 영상
 
Week14 wrapup
Week14 wrapupWeek14 wrapup
Week14 wrapup
 
연구데이터와 전문도서관
연구데이터와 전문도서관연구데이터와 전문도서관
연구데이터와 전문도서관
 
머신러닝의 개념과 실습
머신러닝의 개념과 실습머신러닝의 개념과 실습
머신러닝의 개념과 실습
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
 
데이터베이스활용기술전망
데이터베이스활용기술전망데이터베이스활용기술전망
데이터베이스활용기술전망
 
Week13 cluster(2)
Week13 cluster(2)Week13 cluster(2)
Week13 cluster(2)
 

More from Kwang Woo NAM

메타버스시대의_디지털트윈과_지역성v01.pdf
메타버스시대의_디지털트윈과_지역성v01.pdf메타버스시대의_디지털트윈과_지역성v01.pdf
메타버스시대의_디지털트윈과_지역성v01.pdfKwang Woo NAM
 
해양디지털트윈v02.pdf
해양디지털트윈v02.pdf해양디지털트윈v02.pdf
해양디지털트윈v02.pdfKwang Woo NAM
 
Moving objects media data computing(2019)
Moving objects media data computing(2019)Moving objects media data computing(2019)
Moving objects media data computing(2019)Kwang Woo NAM
 
Moving Objects and Spatial Data Computing
Moving Objects and Spatial Data ComputingMoving Objects and Spatial Data Computing
Moving Objects and Spatial Data ComputingKwang Woo NAM
 
[공간정보시스템 개론] L04 항공사진의 이해
[공간정보시스템 개론] L04 항공사진의 이해[공간정보시스템 개론] L04 항공사진의 이해
[공간정보시스템 개론] L04 항공사진의 이해Kwang Woo NAM
 
[공간정보시스템 개론] L03 지구의형상과좌표체계
[공간정보시스템 개론] L03 지구의형상과좌표체계[공간정보시스템 개론] L03 지구의형상과좌표체계
[공간정보시스템 개론] L03 지구의형상과좌표체계Kwang Woo NAM
 
[공간정보시스템 개론] L02 공간정보와 지리정보
[공간정보시스템 개론] L02 공간정보와 지리정보[공간정보시스템 개론] L02 공간정보와 지리정보
[공간정보시스템 개론] L02 공간정보와 지리정보Kwang Woo NAM
 
[공간정보시스템 개론] L01 공간정보시스템개요
[공간정보시스템 개론] L01 공간정보시스템개요[공간정보시스템 개론] L01 공간정보시스템개요
[공간정보시스템 개론] L01 공간정보시스템개요Kwang Woo NAM
 
[공간정보시스템 개론] L12 공간정보분석
[공간정보시스템 개론] L12 공간정보분석[공간정보시스템 개론] L12 공간정보분석
[공간정보시스템 개론] L12 공간정보분석Kwang Woo NAM
 
[공간정보시스템 개론] L11 공간정보의 구축
[공간정보시스템 개론] L11 공간정보의 구축[공간정보시스템 개론] L11 공간정보의 구축
[공간정보시스템 개론] L11 공간정보의 구축Kwang Woo NAM
 
[공간정보시스템 개론] L10 수치표고모델
[공간정보시스템 개론] L10 수치표고모델[공간정보시스템 개론] L10 수치표고모델
[공간정보시스템 개론] L10 수치표고모델Kwang Woo NAM
 
[공간정보시스템 개론] L09 공간 데이터 모델
[공간정보시스템 개론] L09 공간 데이터 모델[공간정보시스템 개론] L09 공간 데이터 모델
[공간정보시스템 개론] L09 공간 데이터 모델Kwang Woo NAM
 
[공간정보시스템 개론] L08 gnss의 개념과 활용
[공간정보시스템 개론] L08 gnss의 개념과 활용[공간정보시스템 개론] L08 gnss의 개념과 활용
[공간정보시스템 개론] L08 gnss의 개념과 활용Kwang Woo NAM
 
[공간정보시스템 개론] L07 원격탐사의 개념과 활용
[공간정보시스템 개론] L07 원격탐사의 개념과 활용[공간정보시스템 개론] L07 원격탐사의 개념과 활용
[공간정보시스템 개론] L07 원격탐사의 개념과 활용Kwang Woo NAM
 
[공간정보시스템 개론] L06 GIS의 이해
[공간정보시스템 개론] L06 GIS의 이해[공간정보시스템 개론] L06 GIS의 이해
[공간정보시스템 개론] L06 GIS의 이해Kwang Woo NAM
 
[공간정보시스템 개론] L05 우리나라의 수치지도
[공간정보시스템 개론] L05 우리나라의 수치지도[공간정보시스템 개론] L05 우리나라의 수치지도
[공간정보시스템 개론] L05 우리나라의 수치지도Kwang Woo NAM
 
Swift 3 Programming for iOS : Protocol
Swift 3 Programming for iOS : ProtocolSwift 3 Programming for iOS : Protocol
Swift 3 Programming for iOS : ProtocolKwang Woo NAM
 
Swift 3 Programming for iOS : extension
Swift 3 Programming for iOS : extensionSwift 3 Programming for iOS : extension
Swift 3 Programming for iOS : extensionKwang Woo NAM
 
Swift 3 Programming for iOS : Enumeration
Swift 3 Programming for iOS : EnumerationSwift 3 Programming for iOS : Enumeration
Swift 3 Programming for iOS : EnumerationKwang Woo NAM
 
Swift 3 Programming for iOS : subscript init
Swift 3 Programming for iOS : subscript initSwift 3 Programming for iOS : subscript init
Swift 3 Programming for iOS : subscript initKwang Woo NAM
 

More from Kwang Woo NAM (20)

메타버스시대의_디지털트윈과_지역성v01.pdf
메타버스시대의_디지털트윈과_지역성v01.pdf메타버스시대의_디지털트윈과_지역성v01.pdf
메타버스시대의_디지털트윈과_지역성v01.pdf
 
해양디지털트윈v02.pdf
해양디지털트윈v02.pdf해양디지털트윈v02.pdf
해양디지털트윈v02.pdf
 
Moving objects media data computing(2019)
Moving objects media data computing(2019)Moving objects media data computing(2019)
Moving objects media data computing(2019)
 
Moving Objects and Spatial Data Computing
Moving Objects and Spatial Data ComputingMoving Objects and Spatial Data Computing
Moving Objects and Spatial Data Computing
 
[공간정보시스템 개론] L04 항공사진의 이해
[공간정보시스템 개론] L04 항공사진의 이해[공간정보시스템 개론] L04 항공사진의 이해
[공간정보시스템 개론] L04 항공사진의 이해
 
[공간정보시스템 개론] L03 지구의형상과좌표체계
[공간정보시스템 개론] L03 지구의형상과좌표체계[공간정보시스템 개론] L03 지구의형상과좌표체계
[공간정보시스템 개론] L03 지구의형상과좌표체계
 
[공간정보시스템 개론] L02 공간정보와 지리정보
[공간정보시스템 개론] L02 공간정보와 지리정보[공간정보시스템 개론] L02 공간정보와 지리정보
[공간정보시스템 개론] L02 공간정보와 지리정보
 
[공간정보시스템 개론] L01 공간정보시스템개요
[공간정보시스템 개론] L01 공간정보시스템개요[공간정보시스템 개론] L01 공간정보시스템개요
[공간정보시스템 개론] L01 공간정보시스템개요
 
[공간정보시스템 개론] L12 공간정보분석
[공간정보시스템 개론] L12 공간정보분석[공간정보시스템 개론] L12 공간정보분석
[공간정보시스템 개론] L12 공간정보분석
 
[공간정보시스템 개론] L11 공간정보의 구축
[공간정보시스템 개론] L11 공간정보의 구축[공간정보시스템 개론] L11 공간정보의 구축
[공간정보시스템 개론] L11 공간정보의 구축
 
[공간정보시스템 개론] L10 수치표고모델
[공간정보시스템 개론] L10 수치표고모델[공간정보시스템 개론] L10 수치표고모델
[공간정보시스템 개론] L10 수치표고모델
 
[공간정보시스템 개론] L09 공간 데이터 모델
[공간정보시스템 개론] L09 공간 데이터 모델[공간정보시스템 개론] L09 공간 데이터 모델
[공간정보시스템 개론] L09 공간 데이터 모델
 
[공간정보시스템 개론] L08 gnss의 개념과 활용
[공간정보시스템 개론] L08 gnss의 개념과 활용[공간정보시스템 개론] L08 gnss의 개념과 활용
[공간정보시스템 개론] L08 gnss의 개념과 활용
 
[공간정보시스템 개론] L07 원격탐사의 개념과 활용
[공간정보시스템 개론] L07 원격탐사의 개념과 활용[공간정보시스템 개론] L07 원격탐사의 개념과 활용
[공간정보시스템 개론] L07 원격탐사의 개념과 활용
 
[공간정보시스템 개론] L06 GIS의 이해
[공간정보시스템 개론] L06 GIS의 이해[공간정보시스템 개론] L06 GIS의 이해
[공간정보시스템 개론] L06 GIS의 이해
 
[공간정보시스템 개론] L05 우리나라의 수치지도
[공간정보시스템 개론] L05 우리나라의 수치지도[공간정보시스템 개론] L05 우리나라의 수치지도
[공간정보시스템 개론] L05 우리나라의 수치지도
 
Swift 3 Programming for iOS : Protocol
Swift 3 Programming for iOS : ProtocolSwift 3 Programming for iOS : Protocol
Swift 3 Programming for iOS : Protocol
 
Swift 3 Programming for iOS : extension
Swift 3 Programming for iOS : extensionSwift 3 Programming for iOS : extension
Swift 3 Programming for iOS : extension
 
Swift 3 Programming for iOS : Enumeration
Swift 3 Programming for iOS : EnumerationSwift 3 Programming for iOS : Enumeration
Swift 3 Programming for iOS : Enumeration
 
Swift 3 Programming for iOS : subscript init
Swift 3 Programming for iOS : subscript initSwift 3 Programming for iOS : subscript init
Swift 3 Programming for iOS : subscript init
 

세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석

  • 1. - 1 - 붙임3 과학중점학교 학생 연구 성과 보고서 연구팀명 CPU 관련분야 수학및정보 연 구 명 빅 데이터 방법론 기반 타이타닉과 세월호 생존 예측 분석 학 교 명 군산제일고등학교 지도교사 참여학생 1. 개요 □ 연구 동기 및 목적 ○ 빅 데이터 이전의 시대에 특정 분야의 전문가는 어떤 주제에 대하여 오랜 시간의 축적된 경험을 바탕으로 직관에 의존해서 의사결정을 해왔다. 빅 데이터 시대에는 인간의 경험과 직관 뿐 만 아니라 컴퓨팅 이론에 기반 한 데이터 탐사와 분석을 통하여 보다 객관적이며 정확 한 예측과 판단을 할 수 있게 되었으며, 기존 전문가의 판단을 넘어서 게 되었다. ○ 빅 데이터 방법론이란 “대량의 데이터로 부터 통찰력을 발견하고, 이를 이용하여 문제를 해결하는 것”을 의미한다. 즉, 특정 분야의 전문가가 오랜 시간을 통해서만 축적할 수 있는 데이터와 경험을 다양한 IT 기술을 통해 대량으로 수집 축적하고, 이를 최신 컴퓨팅 이론을 기반으로 분석할 수 있도록 해주는 기술이다. ○ 1912년 4월 14일의 타이타닉호와 2014년 4월 16일의 세월호는 100여 년의 시차에도 불구하고 서로 다른 면과 비슷한 면을 갖고 있다. 타이타닉호는 해안으로 640km 떨어졌지만 세월호는 겨우 3km의 거리에 있었고 100여년 간 선박기술의 발전이 있었지만, 생존률은 32%와 36.5%로 비슷한 경향을 보였다.
  • 2. - 2 - ○ 현재까지의 세월호에 관한 언론 기사나 연구들은 단편적인 생존률이 나 선박기술상의 원인만 대상으로 해왔다. 세월호에는 우리 연구팀 과 동일한 나이의 단원고 2학년 학생들이 타고 있었다. 우리는 기존의 연구에서 시도하지 않았던 빅 데이터 방법론을 통하여 보다 구체적으 로 두 케이스를 비교 분석함으로서 단편적인 생존률 안에 숨겨진 의미를 발견해 내고자 한다. □ 연구범위 ○ 우리 연구에서는 빅 데이터 방법론의 프로세스와 알고리즘들의 기본 개념을 파악하고, 이를 기반으로 타이타닉의 생존률과 세월호의 생 존률을 다양한 데이터 관점에서 비교 분석할 것이다. 이를 위해 기존 에 여러 곳에 흩어져 있던 세월호 생존자 데이터를 통합하여 구축하 는 작업이 국내 최초로 수행되었다. ○ 빅 데이터 방법론 기반의 타이타닉과 세월호 생존률 비교 분석의 순서는 아래와 같다. 첫째, 빅 데이터 방법론의 프로세스들을 파악하고 데이터 비교 분석 을 위한 계획을 수립한다. 둘째, 빅 데이터 분석을 위해 사용되는 알고리즘들의 기본 개념과 장단점을 파악한다. 셋째, 세월호 생존자와 사망자 데이터를 구축하고 이를 기반으로 타이타닉 생존률 데이터와 통계적 데이터 분석을 수행하며 의미를 도출한다. 넷째, 다양한 빅 데이터 알고리즘을 이용하여 어떤 알고리즘이 세월 호와 타이타닉 데이터를 기반으로 더 정확하게 생존률을 예측 할 수 있는지 비교 분석한다. 다섯째, 소수의 실제 탑승 예상자의 정보를 이용하여 세월호를 탑승 했을 때와 타이타닉호를 탔을 때의 예상 생존률을 예측하여 보여줌으로서 실제적 체감을 할 수 있게 한다.
  • 3. - 3 - 2. 연구 수행 내용 □ 이론적 배경 및 선행 연구 가. 빅 데이터 분석의 프로세스와 분류 (1) 빅 데이터 분석 프로세스의 개요 ○ 빅 데이터 분석 프로세스는 데이터 분석을 통해서 문제를 해결하는 과정으로서, 원시데이터 수집과 구축, 데이터 전처리, 탐색적 데이터 분석, 데이터 분석 모델과 알고리즘의 단계로 구성된다. 원시데이터 수집과 구축 데이터 전처리 정제된 데이터셋 탐색적 데이터 분석 사람을 위한 시각화/보고서 데이터 분석 모델/알고리즘 데이터 분석 제품(의사결정) 그림 1. 빅 데이터 분석 프로세스 ○ 원시 데이터 수집과 구축을 통해 수집된 데이터는 결손되거나 수집시 의 오차 등 많은 문제를 내포하고 있다. 이러한 데이터는 데이터 전처리 단계를 통해 메워지거나 수정되며, 실제적인 분석을 위해 정제된 데이터 셋이 만들어 진다. ○ 탐색적 데이터 분석 단계는 본격적인 분석을 하기 전에 전체적인 탐색을 위한 단계로서 요약 통계나 시각화 등을 통해 데이터 전반적 인 내용이 관찰되면 실제적인 분석을 위한 기초로 사용된다. 간단한 문제들은 이 단계에서 해결되기도 한다.
  • 4. - 4 - ○ 빅 데이터 분석 모델과 알고리즘 적용 단계는 분류화(classification), 군집화(clustering), 로지스틱회귀(logistic regression) 등의 컴퓨팅 분석 알고리즘들이 적용되는 단계로서 빅 데이터 기반의 예측이나 설명이 도출되는 단계이다. 이 단계를 통해 도출된 지식이 의사결정 을 할 수 있는 사용자에 전달되며, 이를 기반으로 실세계에 적용된다. (2) 데이터 분석 작업의 분야 ○ 빅 데이터 분석 작업은 일반적으로 예측작업과 서술작업의 두 가지 분야로 구분된다. ○ 예측 작업(predictive task) : 다른 속성의 값들을 기반으로 특정 속성 의 값을 예측하는 것이다. 예측해야 하는 속성은 목표(target) 또는 종속변수(dependent variable)라고 하며, 예측을 만드는 데 사용하는 속성은 설명(explanatory) 또는 독립변수(independant variable)라고 한다. ○ 서술 작업(descriptive tasks) : 데이터에 숨어있는 관련성을 요약하고 있는 상관성이나 경향, 군집, 궤적, 이상치 등의 패턴을 찾아내는 것이 다. 서술 데이터 마이닝 작업은 보통 탐구적이며 결과의 타당성을 검증하고 설명하기 위하여 후처리 기법을 요구한다. ○ 이 연구의 타이타닉호와 세월호 데이터 분석은 예측 작업에 해당한다. 즉 각 탑승자의 생존 여부는 종속변수가 되며, 이를 예측하기 위해서 사용되는 나이나 직업 등의 속성은 독립변수라 할 수 있다. 방법적 측면에서 이 연구에서는 예측 모델링(predictive modeling)을 위하여 분류화(classfication)와 회귀(regression)의 방법들이 적용된다.
  • 5. - 5 - 나. 탐색적 데이터 분석 ○ 탐색적 데이터 분석(exploratory data analysis : EDA)이란 수집한 데이터가 분석에 적합한지를 알아보는 과정으로서, 본격적인 분석을 수행하기에 전에 데이터의 전체적인 특성을 살펴보는 것을 의미한다. ○ 존 튜키(John Tukey)1) 라는 미국의 저명한 통계학자가 창안한 자료 분석 방법론으로서, 자료를 이론적인 모델이나 틀에 적용하기 보다는 데이터를 있는 그대로 보여주는데 중점을 맞춰서 데이터 스스로 말하 도록 유도하는 분석법이다. ○ 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있었고 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 통계적 특성 파악과 그래프를 이용한 시각화 방법 등이 사용된다2) . ○ 탐색적 데이터 분석 과정을 통해 문제를 풀어나갈 수 있는 큰 방향을 잡을 수 있게 되며, 문제 해결을 위해 어떤 데이터나 자원이 요구되는 지 파악하여 전체적인 데이터 분석 시간과 자원을 줄이는데 중요한 역할을 한다. 종종 단순한 문제들은 탐색적 데이터 분석 과정에서 해결되는 경우도 있다. (1) 통계적 특성 파악 ○ 탐색적 데이터 분석의 첫 번째 단계는 기본적인 통계 특성을 분석하는 것이다. 데이터가 수치형 일때 가장 기본적으로 살펴보는 것이 데이 터의 요약 통계(summary statistic)이다. 요약 통계는 평균이나 표준 1) AT&T 벨 연구소에 근무했던 유명한 통계학과 컴퓨터학자로서 Software라는 단어와 Bit라는 단어를 처음 만들고 사용한 사람이다. 참고 :https://en.wikipedia.org/wiki/John_Tukey 2) https://ko.wikipedia.org/wiki/탐색적_자료_분석
  • 6. - 6 - 편차, 분산과 같이 대규모 데이터의 집합에 대하여 여러가지 특징을 하나의 수치나 소수의 수치 집합으로 파악하는 정량적인 값을 의미한 다. - 예를 들면, 어떤 회사의 평균 연봉이나 암환자의 5년간 생존률 등이 요약 통계에 해당한다. ○ 요약 통계를 위해서 빈도와 최빈값, 백분위수, 평균과 중앙값, 범위와 편차, 다변량 요약 통계, 편향 등의 다양한 통계적 기법들이 적용될 수 있다. 통계적 기법들이 탐색적 데이터 분석에서 적용되기 위해서 는 데이터의 저항성(resistance)과 잔차의 해석(Residual), 데이터의 재표현(re-expression) 들이 추가적으로 고려된다. ○ 저항성은 자료의 일부가 현격히 다른 값을 갖거나 회손되었을 때 영향을 적게 받는 성질을 의미한다. 데이터를 탐색하여 데이터의 부 분적 변동에 민감하게 하지 않는 저항성 있는 통계나 통계적 방법을 선택하여 데이터를 분석할 수 있게 한다. - 예를 들면 한 학급의 평균 키는 한 두명의 키를 매우 크거나 작게 적는 오타를 포함하고 있을 때 큰 영향을 받지만, 중앙값은 값의 표기 오류와 관계 없이 동일한 값을 도출하므로 저항성이 크다고 할 수 있다. ○ 잔차란 표본에 의해 추출된 관찰 값들이 주경향으로 부터 얼마나 벗어나 있는지의 차이를 의미한다. 계산된 잔차에서 매우 크거나 작 은 잔차를 발견하게 되었을 때, 이 잔차가 발생하게 된 원인을 파악하 거나 의문을 풀기위해 탐구를 하는 추가적인 작업을 요구될 수도 있다. - 예를 들면, 한 한급의 키 데이터에서 표기 오류로 인해 이상하게 크거
  • 7. - 7 - 나 작은 데이터가 있을 때 이 데이터는 큰 잔차를 가질 것이다. 이 잔차의 의미를 해석하는 것이 데이터 분석 작업에 포함될 수 있다. ○ 데이터 재표현이란 데이터의 해석과 분석이 용이하도록 원래의 변수 나 데이터를 적정한 척도로 변환하는 것을 의미한다. 이러한 변환을 통해 분포의 대칭성이나 선형성, 분산의 안전성 등의 데이터 구조의 파악이 쉬워지는 장점이 있다. - 예를 들면 자동차의 속도(km)로 수집된 데이터를 속도의 가감속을 이용하여 가속도의 형태로 바꾸는 단순한 변환에 의해 자동차의 엑셀 을 밟은 상태인지에 대한 분석을 수행할 수 있게 된다. (2) 데이터 시각화 ○ 데이터 시각화(data visualization)란 정보를 그래픽이나 테이블 형식 으로 보여주는 것이다. 인간이 데이터의 속성을 한눈에 파악하려면 데이터의 특성을 그래프로 나타내는 것이 효과적이다. 성공적인 시각 화는 데이터의 특성과 항목이나 속성들간의 관계가 갖는 특징들을 분석하여 인간이 쉽게 이해할 수 있게 한다3) . ○ 히스토그램(histogram)은 어떤 사건이 발생하는 분포를 보이기 위해 사용된다. 일반적인 연속선 그래프가 어떤 사건이 발생할 확률을 가 시화 한 것이라면, 히스토그램은 그림2의 (a)와 같이 정해진 구간값에 서의 실제 발생횟수를 표현한다는 것에 차이가 있다. 데이터 특정 분류가 정해지게 되면 그림 2의 (b)와 같은 막대 그래프의 형태로 표현될 수 있다. 3) https://en.wikipedia.org/wiki/Data_visualization
  • 8. - 8 - (a) (b) 그림 2. 히스토그램과 막대 그래프 시각화 ○ 산포도(scatter plot)란 대표값을 중심으로 자료들이 흩어져 있는 정도 를 가시화한 것이다. 데이터내의 속성들을 x와 y의 좌표로 사용하여 평면에서 점으로 가시화한 것이다. 일반적으로 나이와 수입의 관계와 같은 연속형 변수를 기반으로 산포도를 가시화하게 되나 연속형 변수 와 범주형 변수를 이용해서 가시화 할 수도 있다. 최근에는 그림3의 (b)와 같이 3차원 산포도도 사용된다. (a) (b) 그림 3. 2차원 산포도와 3차원 산포도 시각화 ○ 네트워크 그래프는 그래프를 이용하여 데이터를 시각화 하는 것이 다. 소셜 네트워크 분석(Social Network Analysis)에서는 사용자 간의
  • 9. - 9 - 관계를 수학의 그래프 이론을 통해 표현하고 네트워크의 구조와 연결 강도를 통해 핵심이 되는 인물이나 중계 역할을 하는 사용자를 찾고 분석하기 위해 그래프 시각화 기법을 이용한다. 또한 시간의 흐름에 따라 데이터 양의 변화를 시각적으로 파악하기 쉽게 하기 위하여 스트림 그래프의 형태도 최근 많이 사용되고 있다. (a) (b) 그림 4. 네트워크와 스트림 그래프 시각화 다. 빅 데이터 분석 모델과 알고리즘 (1) 데이터 분석 모델 ○ 데이터란 자연 상태나 인위적 행동의 결과가 밖으로 표출된 것이라고 볼 수 있으며, 그 본질적인 내용이나 숨어있는 의미를 찾아내는 작업 이 데이터 분석이다. 이 때 데이터를 발생시킨 원래 시스템을 설명하 기 위해 설정한 구조를 모델이라고 한다. 모델을 표현하는 방법은 수식과 알고리즘 등으로 표현될 수 있다4) . - 예를 들면, 다양한 높이의 가지에서 사과가 떨어지는 시간을 측정한 데이터들의 모음이 있다고 가정하자. 이 시간 데이터 집합에는 사람 의 실수나 시계의 오차에 의해 오류값을 포함하고 있을 것이다. 이 4) 김화종, 데이터 사이언스 개론, 홍릉과학출판사
  • 10. - 10 - 데이터를 이용하여 가속도의 법칙을 검증하고 할 때 연구자는 다음과 같이 간결한 수식으로 표현할 수 있는 실세계의 모델을 먼저 만들고 이를 실제 데이터와 부합하는지를 확인하고자 할 것이다. 다음의 가 속도의 법칙의 수식을 모델이라고 할 수 있다. 그림 5. 가속도의 법칙 ○ 빅 데이터 분석에서는 먼저 가정을 포함한 모델을 만들고 이를 실제 데이터와 비교하여 분석할 수 있을 뿐만 아니라, 반대로 모델이 없을 지라도 다양한 기계학습 알고리즘에 의하여 빅 데이터로 부터 모델을 만들어낼 수 있게 한다. 데이터 분석 알고리즘 모델 검증훈련 데이터셋 테스트 데이터셋 모델 반 영 그림 6. 네트워크와 스트림 그래프 시각화 ○ 모델은 학습을 통해 성능이 개선되고 일반화될 수 있어야 한다. 이를 위해 주어진 샘플 데이터를 사용해 모델을 완성해나가는 훈련 (training) 과정을 거치게 되며, 이 훈련을 통해 만들어진 모델을 테스 트 데이터를 이용하여 검증하게 된다. 이러한 과정을 통해 만들어진 모델이 앞으로 발생하는 새로운 입력 데이터에 대해서도 정확하게 잘 동작할 수 있도록 하는 것이 일반화(generalization)라 한다.
  • 11. - 11 - (2) 데이터 분석 알고리즘 ○ 빅 데이터 분석 알고리즘들은 기초 통계 분석과, 회귀 분석, 기계학습 (machine learning)으로 구성된다. 이 알고리즘들은 다시 서술적 모델 과 예측형 모델들로 구성된다. 타이타닉호와 세월호 데이터 분석은 예측을 목적으로 하므로 아래에는 예측형 모델에 한하여 설명한다. ○ 예측(prediction)이란 과거의 데이터를 보고 미래에 어떤 값이 나타날 지를 예상하는 것이다. 예를 들면, 과거의 연간 기온 변화 이력을 파악하고 이를 이용해 미래의 기온 변화를 예상하는 것이다. 예측에 서 가장 널리 사용되는 알고리즘은 최소제곱법을 사용하는 회귀 (regression) 모델이다. 회귀 모델은 아래 그림과 같이 선형이거나 곡선이 사용될 수 있으며, 전자를 선형 회귀이라 하고 후자를 다항 수식을 이용하므로 다항 회귀라 한다5) . 그림 7. 훈련 데이터(a)와 선형/다항 회귀분석(b)의 예 ○ 타이타닉호와 세월호 생존률 예측 분석은 결론적으로 생존 ‘여부’ 예측을 목적으로 하는 분류화(classifiation) 문제에 해당한다. 그러므 로, 회귀 모델을 분류화에 적용한 로지스틱 회귀분석(logistic regression)이 사용된다. 로지스틱 회귀분석은 아래의 그림 (b)와 같 이 분석하고자 하는 대상들이 둘 이상의 집단으로 구분되는 경우에 개별 관측 속성들을 이용하여 어느 집단으로 분류될 수 있는가를 5) http://blog.naver.com/PostView.nhn?blogId=samsjang&logNo=221006905415
  • 12. - 12 - 분석하고 예측하는 모델을 개발하는데 사용되는 알고리즘이다6) . 예 를 들면, 일반적인 선형 회귀모델을 단순히 그림 8의 (a)와 같이 적용 할 수 있으나, 실제 분류화 문제에 적용하게 되었을때의 실제 데이터 는 그림 8의 (b)와 같은 비연속값으로 분류되며 이 때 데이터 확장성의 문제를 갖게된다7) . (a) (b) 그림 8. 선형 회귀분석(a)과 분류화 적용의 문제점(b) ○ 로지스틱 회귀분석은 아래 그림의 시그모이드(sigmod) 함수를 사용 함으로서 이러한 문제를 해결한다. 전체적으로 S자 형태의 그래프로 서 좌측 끝에서 0으로 수렴하고 우측 끝은 1로 수렴하는 함수이다. 그림에서 보는 것과 같이 sigmod 함수는 ‘true/false'와 같은 2가지 판단에 대한 분류에 적합하다. 3단계 이상의 분류에 적용하기 위해서 는 다항 로지스틱 회귀분석으로 확장되어야 한다. 그림 9. 로지스틱 모델에서 사용되는 sigmoid 함수 6) https://ko.wikipedia.org/wiki/로지스틱_회귀 7) http://bcho.tistory.com/1142
  • 13. - 13 - ○ 의사결정 트리(decision tree)는 분류화 문제에서 사용되는 대표적인 학습법으로서, 최종 결과 모델이 아래의 그림(a)와 같이 가부 판단의 나무 모양이 되는 학습법이다. 입력 변수를 바탕으로 어떤 변수와 값에 의해 데이터를 구분했을 때 가장 순수하게 데이터가 분류되는 지를 계산해서 반복적으로 공간을 분할하게 되며, 의사결정 트리를 공간상에 표현하게 되면 (b)와 같은 이진 분할의 형태를 갖는다8) . (a) (b) 그림 10. 의사결정 트리(a)와 공간 분할(b)의 예 ○ 의사결정 트리는 훈련에 사용되는 데이터에 따라 생성되는 모델의 성능 변동폭이 크다는 결점을 갖고 있다. 즉, 학습 데이터에 따라 결정 트리의 모양이 달라지기 때문에 일반화하여 사용하기에 어려운 점이 있다는 것이다. 그러므로 랜덤하게 추출된 다양한 학습 데이터 를 이용하여 생성된 여러 개의 의사결정 트리를 사용하는 랜덤 포레 스트(random forest) 알고리즘이 제안되었다. ○ 랜덤 포레스트 학습법은 여러 개의 의사결정 트리를 이용하여 하나의 결과를 도출하기 위하여 앙상블(ensemble) 모델을 이용한다. 즉, 아래 의 그림과 같이 여러 개의 트리에 같은 입력을 주게 되며 이를 통해 각 트리에서 얻어진 확률의 평균에 의해 적합한 분류를 예측하게 된다. 랜덤 포레스트는 의사결정 트리가 갖는 일반화 문제를 해결하 므로 다양한 상황에서 보다 나은 결과를 보일 수 있다. 그러나 작은 8) https://ko.wikipedia.org/wiki/결정_트리_학습법
  • 14. - 14 - 양의 한정된 학습 데이터를 사용하는 경우, 랜덤하게 소규모의 데이 터를 추출하여 사용하므로 작은 의사결정 트리를 생성한다. 그러므로 하나의 큰 데이터를 사용하여 세밀하게 구축된 큰 의사결정 트리보다 좋지 못한 결과를 보이는 경우도 있다. 그림 11. 랜덤 포레스트의 앙상블 기법의 예 ○ 서포트 벡터 머신(support vector machine : SVM)은 두 범주를 갖는 객체들을 분류하는 방법으로서 초평면 상에서 여백(margin)을 최대 화 하여 일반화 능력을 극대화 하는 알고리즘이다9) . 이진 분류 문제에 서 일반적인 데이터는 선형 구분이 되지 않는다. 그러므로 데이터를 커널함수(kernel)를 이용하여 선형으로 구분할 수 있는 초평면으로 변환하며, 이를 기반으로 여백을 최대화 할 수 있는 선형함수를 구하 는 방법을 사용한다. 그림 12. SVM의 평면 변환과 마진 9) https://ko.wikipedia.org/wiki/서포트_벡터_머신
  • 15. - 15 - □ 연구 주제와 방법 ○ 2014년 4월 16일. 325명의 단원고 2학년 학생들이 수학여행을 위해 승선하고 있던 세월호가 침몰하며 사회적으로 큰 충격을 안겨주었다. 희생된 단원고 학생들은 연구팀과 동갑인 고2 학생들로서 비슷한 꿈과 희망을 갖고 있던 학생들이 희생되었다는 측면에서 큰 의미가 있다. 해안에서 겨우 3km 떨어진 곳에서 발생한 이 사고로 단원고 교사 14명을 포함한 339명 가운데 262명(77.2%)이 사망하거나 실종되 었다. ○ 1912년 4월 14일. 100여년전 2224명이 승선하고 있던 타이타닉호 사고는 해안으로부터 640km 떨어진 곳에서 발생하였으며 1,514명 (68%)이 사망하였다. 100여년의 기술발전과 해안까지의 거리가 현저 히 가까웠음에도 불구하고 세월호의 사망률과 타이타닉의 사망률은 거의 차이가 없다. ○ 데이터적 측면에서 더 충격적인 사실은 세월호 사고에서 전체 사망률 이 63.5%에 불과함에도 교사를 포함한 단원고 사망률은 77.2%로 훨 씬 더 높았다는 것이다. 타이타닉호 침몰사건에는 여자와 아이를 먼 저 구조하기 위해 남자 어른들이 자발적으로 희생했다는 신화같은 얘기가 전해져 왔다. 이 연구에서는 실제 타이타닉 생존 데이터를 이용하여 이 전설이 사실인지를 탐색적 데이터 분석으로 확인하고, 세월호의 사망률과 통계적으로 비교하여 세월호에서는 어떤 일이 발생했는지를 탐색할 것이다. 또한 동일한 탑승자에 대하여 타이타닉 을 탑승했을 때와 세월호에 탑승했을 때의 생존을 예측할 수 있는 알고리즘을 찾고자 한다. ○ 이 연구를 위해 아직까지 통합해서 공개되어 있지 않은 세월호 생존자 에 대한 데이터를 공개 데이터를 기반으로 수집하여 구축하였다. 빅 데이터 분석용으로 구축된 최초의 세월호 생존 데이터로 생각된다.
  • 16. - 16 - □ 연구 활동 및 과정 ○ 연구팀은 군산대학교 남광우 교수와 박사과정 1명, 학부생 1명, CPU 연구팀 6명으로 구성되었다. CPU 연구팀이 빅 데이터 분석에 대한 기본 지식을 쌓기 위하여 초기 1개월 동안은 학교에서 수학시간에 배우는 수식을 이용해서 쉽게 접근할 수 있는 선형 회귀와 k-NN 등의 이론에 대한 학습을 수행하였다. 그림 13. CPU 팀과 군산대 팀의 세미나 모습 ○ 연구의 초기에는 게임 데이터를 이용한 분석 등에 초점을 두었으나, 실제적이며 사회적으로 의미있는 데이터 분석 주제를 선정하기 위한 다양한 고민과 토론 후에 세월호와 타이타닉호를 비교분석하는 것으 로 주제를 전환하였다. 아래와 같이 총 8회 이상의 세미나와 회의를 수행하였다. 번호 세미나 및 회의 주제 시기 1 선형 회귀 분석 모델 6월 2 k-NN 최근접 이웃 모델 6월 3 Tensorflow 인공지능 모델 실습 I 7월 4 Tensorflow 인공지능 모델 실습 II 7월 5 Kaggle 데이터 분석 8월 6 모델 비교 평가 8월 7 세월호 데이터 구축 및 비교 분석(R Studio) 9월 8 타이타닉호와 세월 비교 분석(R Studio) 9월
  • 17. - 17 - ○ 최종적으로 세월호 데이터와 타이타닉호 데이터의 분석을 위해서 R Studio 툴이 사용되었으며, 새롭게 인터넷상에 흩어져 있던 세월호 생존 데이터를 통합하여 데이터 분석용 데이터로 구축하였다. 그림 14. 세월호 데이터 분석 회의 3. 연구 결과 및 시사점 □ 연구 결과 가. 데이터의 수집과 전처리 ○ 타이타닉호 생존률 데이터는 kaggle.com에 공개된 데이터를 이용하 였다. 공개된 데이터는 빅 데이터 알고리즘의 학습을 위해 사용되는 훈련 데이터 셋과 실제 알고리즘의 정확성을 측정하기 위한 테스트 셋으로 구성되어 있으며 다음과 같이 10개의 속성을 갖는다. 번호 속성명 의미 1 survival 생존 여부 2 pclass 티켓 클래스(1등급, 2등급, 3등급) 3 sex 성별 4 Age 나이 5 sibsp 동승한 사촌의 수 6 parch 아이당 부모의 수 7 ticket 티켓 번호 8 fare 승선 요금 9 cabin 캐빈 번호 10 embarked 승선한 항구(C, Q, S)
  • 18. - 18 - ○ 세월호의 생존률 데이터는 인터넷 상에 공개되어 있지 않다. 그러므로 신문기사와 해양수산부의 기관 홈페이지에 공개된 단편적인 데이터 들을 다양한 방법으로 수집하여 통합한 후 빅 데이터 분석용으로 다음의 속성들과 같이 구축하였다. 번호 속성명 의미 1 name 이름 2 age 나이 3 sex 성별 4 job 직업 6 suvival 생존 여부 ○ 타이타닉호 데이터가 100여년 전의 침몰인데도 불구하고 부모의 수나 요금과 같이 매우 구체적인 내용까지 공개되어 미래 연구를 위해 사용되는데 비해 세월호의 경우 겨우 3년 전의 데이터임에도 구하기 매우 어렵다는 점에서 큰 차이점이 있었다. <데이터 클리닝과 전처리> ○ 수집된 세월호 데이터는 나이와 성별 등이 최후까지 확보되지 않은 소수의 값들이 존재했다. 타이타닉호 데이터도 동일하게 몇개의 값들 이 없는 경우가 존재했다. 빅 데이터 분석 방법에서는 실제 데이터에 이러한 미싱(missing) 값들이 존재할 경우 전체적인 통계에 변화를 주지 않도록 랜덤 대체법을 사용한다. ○ 이 연구에서도 학생들의 나이와 몇몇 일반 승선자들의 나이 정보가 존재 하지 않았다. 학생들의 나이는 고2의 평균 나이로 쉽게 일괄 대체 할 수 있었으며, 2-3명의 일반인의 나이는 전체 통계에 영향을 주지 않는 랜덤 나이값을 선택하여 대체하였다. 일부 성별의 경우도 비슷한 방법을 사용하여 대체되었다.
  • 19. - 19 - 나. 탐색적 데이터 분석 ○ 타이타닉 신화는 존재하는가? 타이타닉호 침몰시에 여성과 아이를 먼저 구조선에 태우고 남성 어른이 희생했다는 신화의 사실 여부를 확인하였다. 아래의 그림에서 보는 것과 타이타닉호에서 여자의 생존 률 80%에 근접하는데 비하여 남자의 생존률은 25% 수준에 머물렀다. 이 신화는 사실임을 확인할 수 있었다. 그림 15. 타이타닉호의 성별 생존률 비교 ○ 세월호에도 타이타닉 신화가 재현되었는가? 타이타닉호와 같은 남성 들의 희생이 세월호에 존재했는지를 확인하였다. 안타깝지만 아래의 그림과 같이 세월호에서 여자의 생존률과 남자의 생존률은 큰 차이가 없었으며, 오히려 오차범위내에서 오히려 여자의 생존률이 낮았다. (a) 타이타닉 생존률 (b) 세월호 생존률 그림 16. 타이타닉호와 세월호의 성별 생존률 비교
  • 20. - 20 - - 학생들의 남여 구성 비율이 실제 성별 생존률에 영향을 끼칠 수 있다고 생각되어 학생을 제외한 일반인의 생존률을 분석하였다. 남여 생존률 의 차이에는 큰 변화가 없었다. 대신 전체 생존률이 36.5%인데 비하여 일반인만의 생존률은 훨씬 높은 60%에 근접한다는 것을 확인하였다. 그림 17. 학생 제외 일반인 성별 생존률 ○ 어른이 어린이/청소년의 생존을 배려하였는가? 타이타닉호의 10세 이하 생존률은 70%에 근접하며 전체 생존률에 비해 현저히 높으며 16-18세의 생존률도 50%이상으로 일반인 생존률을 훨씬 상회한다. - 타이타닉호 데이터의 특이점은 45세 근처의 생존률이 일반적인 생존 률 추이와 다르게 훨씬 높다는 것이다. 다양한 추측이 가능하나 유아/ 어린이의 생존률과 결합된 ‘엄마‘의 생존률일 것으로 추정된다. 그림 18. 타이타닉호의 나이별 생존률
  • 21. - 21 - ○ 세월호는 어린이/청소년의 생존을 배려하였는가? 앞에서 기술한 바 와 같이 세월호는 단원고 학생의 비율이 매우 높고 어린이/유아의 탑승자가 매우 적다. 그럼에도 확인할 수 있는 것은 어린이 청소년의 생존률이 매우 높으며, 그에 비해 일반인의 생존률은 매우 높다는 것이다. - 세월호의 생존률 데이터의 특이점도 45세에서 55세 사이에서 매우 현격한 차이를 발견할 수 있었다. 타이타닉호의 경우는 ‘엄마’라는 특수성에 의해 이해될 수 있는 정도 였으나, 세월호는 특이하게 나이 대에서 90%-100%의 생존률을 보였다. 세월호는 유아/어린이의 수가 매우 적다는 점과 45-55세 나이대가 다른 나이대에 비해 훨씬 수가 많다는 점에도 불구하고 현저히 높은 생존률을 보였다. 그림 19. 세월호의 나이별 생존률 ○ 세월호에서 45-55세의 생존률은 왜 높은가? 45-55세의 생존률을 보다 구체적으로 확인하기 위하여 아래와 같이 학생을 제외한 생존률 그래 프를 다시 확인하였다. 다른 나이대의 생존률이 일정한데 비하여 45-55세의 생존률은 90%를 상회하고 있다. 타이타닉호도 45세 근처 에서 약간 높은 양상을 띄나 남녀 생존률을 고려했을 때 큰 차이는
  • 22. - 22 - 아니라 할 수 있다. 세월호의 45-55세 생존률은 세월호에서 매우 다른 양상이라 할 수 있다. 다양한 위기상황을 경험한 나이대로서 특수한 상황에서의 생존기술과 생존욕구가 특이하게 높은 것이 작용한 것으 로 보인다. 45-55세의 생존률과 62세 이상의 생존률이 유사한 형태를 띄며, 60세 근처의 생존률만이 다른 나이대와 비슷한 양상을 갖는다. 그림 20. 세월호의 학생제외 생존률 ○ 교사와 선원의 직업윤리의 차이는 존재하는가? 교사와 선원은 학생과 승객의 보호라는 동일 수준의 의무를 지고 있다고 볼 수 있다. 세월호 에는 33여명의 선원과 14명의 교사가 탑승하고 있었다. 두 직업간의 생존률을 비교함으로서 두 직업간의 직업윤리 차이를 확인할 수 있었 다. 그림 21. 교사와 선원의 생존률 비교
  • 23. - 23 - 다. 데이터 분석 모델과 알고리즘을 이용한 예측 ○ 타이타닉호 데이터와 세월호 데이터를 기반으로 빅 데이터 분석 알고 리즘을 적용하여 특정 나이나 성별 등의 정보를 입력했을 때 생존을 예측할 수 있는 예측 모델을 생성하도록 시도하였다. 시도된 알고리 즘은 로지스틱 회귀분석, 의사결정 트리, 랜덤 포레스트, 그리고 SVM 알고리즘 등이다. ○ 타이타닉호는 10여개의 속성을 포함하고 있으며 요금과 방번호 등의 세밀한 정보를 포함하고 있다. 그러므로, 81%부터 83%까지 높은 생 존 예측률을 확보할 수 있었다. 아래의 그림에서 보는 것과 같이 로지 스틱 회귀와 SVM이 83.72%와 83.61%로 비슷한 예측률을 보였으나 로지스틱 회귀가 1%가량 높은 예측률을 보였다. 80.5 81 81.5 82 82.5 83 83.5 84 Logistic Regression Random Forest Decision Tree SVM 그림 22. 타이타닉호 예측 정확도 비교 알고리즘 예측 정확도 Logistic Regression 83.7226 Random Forest 82.6038 Decision Tree 81.7059 SVM 83.6139
  • 24. - 24 - ○ 세월호 데이터는 나이와 직업, 성별 등의 정보만을 포함하고 있다. 타이타닉호의 80%대에 비하여 훨씬 낮은 예측률을 보였다. 동일하게 로지스틱 회귀분석, 의사결정 트리, 랜덤 포레스트, 그리고 SVM 알고 리즘이 시도되었다. - 타이타닉호 데이터에 대해서 좋은 예측 결과를 보였던 로지스틱 회귀 분석과 SVM이 74.6%와 75.2%로 오히려 낮은 예측률을 보였으며, 가장 낮은 예측률을 보였던 의사결정 트리가 가장 좋은 77.9%의 예측 률을 보였다. 72 73 74 75 76 77 78 79 Logistic Regression Random Forest Decision Tree SVM 그림 23. 세월호 예측 정확도 비교 알고리즘 예측 정확도 Logistic Regression 74.6102 Random Forest 75.9465 Decision Tree 77.951 SVM 75.2783
  • 25. - 25 - □ 결론과 시사점 ○ 세월호는 사회적으로 큰 충격을 주었고, 안전 불감증이나 사회 구조적 문제 등에 대하여 다양한 의문이 제기되었다. 그럼에도 불구하고 생 존률 데이터에 대한 체계적인 분석도 시도되지 않았을 뿐만 아니라 데이터 자체도 구체적으로 공개되지 않고 있다. ○ 우리 연구는 세월호 생존사망자에 대한 데이터를 직접 수집하였으며, 이를 기반으로 빅 데이터 분석 방법론을 이용하여 사회적 관심점에 대한 데이터 분석을 시도 하였다. 구체적으로 다음의 가정에 대한 실제적 답을 도출하였다. 또한 빅 데이터 알고리즘을 이용하여 예측 할 수 있는 모델을 도출하고 비교하였다. - 타이타닉 신화는 존재하는가? - 세월호에도 타이타닉 신화가 재현되었는가? - 어른이 어린이/청소년의 생존을 배려하였는가? - 세월호는 어린이/청소년의 생존을 배려하였는가? - 세월호에서 45-55세의 생존률은 왜 높은가? - 교사와 선원의 직업윤리의 차이는 존재하는가? ○ 위의 질문에 대한 수치적인 데이터 분석을 통해 한국 사회 전반적인 문제와 모순의 일부를 찾아볼 수 있었으며, 이와 함께 교사의 직업 책임윤리에서 희망을 발견할 수 있었다. 4. 홍보 및 사후 활용 ○ 세월호 사고에 대한 빅 데이터 방법론 분석은 최초로 시도되었다. 뿐만 아니라 다른 연구자들의 연구에 사용될 수 기본 데이터를 새롭 게 구축하였으며 이를 이용하여 미래 발생할 수 있는 유사 사고에 대비할 수 있는 기초를 제공할 수 있을 것이다.