SlideShare a Scribd company logo
1 of 30
㈜더아이엠씨 김찬우
한국외대 조인호
온라인 데이터 분석을 통한 선거예측
: 2014년 제6회 대구∙부산 지방선거를 중심으로
목차
Ⅰ. 연구배경
Ⅱ. 기존연구 검토
Ⅲ. 연구모형 및 방법
Ⅳ. 분석 결과
Ⅴ. 결론 및 연구의 한계점
참고문헌
Ⅰ. 연구 배경 및 목적
1. 연구 배경
기존에 선거예측은 전화, 설문 조사 혹은 출구 조사를 통해 이루어져 왔지만,
인터넷 사용층이 많아지면서 선거예측에 온라인 여론의 중요성이 높아지고
있음
전통적인 방식의 조사를 통한 예측 결과와 실제 득표율의 오차가 높아지면서
선거 예측에 대한 새로운 관점의 필요성이 높아짐
2004년 총선에서 한나라당이 승리할 것이란 예측 실패(조선일보,2004/1/5), 2012년
총선에서 통합민주당이 승리할 것이라는 예측 역시 실패함(한겨레, 2012/4/8)
이번 제6회지방선거 방송3사 출구조사에서는 경기도지사 경합을 예상했으나 승패는
틀렸고, 인천과 충남시장 선거에서는 박빙을 예상했으나 격차가 났음
선거예측 연구는 선거패턴을 체계적으로 구조화 할 수 있고, 객관적이고 과학
적인 선거 연구를 가능하게 하여 효율적인 선거운동과 더불어 유권자에게 좀
더 객관적인 후보자를 선택할 수 있는 정보를 제공할 수 있음.
Ⅰ. 연구 배경 및 목적
2. 연구 목적
본 연구는 2014년 지방선거 기간 동안 온라인의 자료를 활용하여 TF-DI, T-
value 분석 방법을 통해 분석하고, 분석 결과를 시계열로 나타내어 선거 결과
를 예측하고, 실제 득표 결과와 비교하여 검증하는 것임
기존 연구 검토를 통해 선거 예측 방법론을 검토하고 분석방법을 제시한 후
연구문제를 설정함
본 연구를 통해 온라인 데이터 분석에 의한 예측 모델이 향후 선거 예측에 미
칠 수 있는 시사점과 적용 여부를 제공함
Ⅱ. 기존 연구 검토
1. 선거 예측의 기존 연구
선거 예측에 관한 연구는 크게 2가지로 나누어 볼 수 있음
여론조사와 출구조사 등 선거예측조사에 관한 연구, 선거예측모형을 작성
하여 그 모형에 따라 선거결과를 예측하는 방법
선거예측조사의 경우 당선자 예측이 빗나가는 요인과 선거예측의 편의를 감소시키는 방안(박
용치, 2000), 전화조사와 출구조사에서 오차문제(홍내리∙허명회, 2001), 출구조사시 표본크기 문
제(김영원∙김지원, 2007), 전화여론조사의 정확도 개선을 위해 표집방법의 변화(조성겸, 2009)
등이 있음
선거예측모형의 경우 송근원(2011)은 후보자 득표율을 종속변수로 두고, 득표율에 영향을 미치
는 요인으로 현직효과, 지역효과, 가시성, -견제효과의 독립변수로 회귀모형을 제시,
Lichtman(2012) 미국 대통령선거에 영향을 미치는 요인으로 의회장악, 댕내경쟁, 현직프리미엄,
제3의 정당 출현가능성, 단기적 경제영향, 사회적 불안정, 정권스캔들, 외교∙군사분야의 실패와
성공, 카리스마, 도전자의 카리스마 등 13가지 제시
즉 전화조사와 출구조사는 표집오차와 비표집오차로 인해 정확한 예측의
한계가 있음. 선거에측모형은 그것을 구성하는 변수가 다양하고, 선거 종
류에 따라 변수의 강도가 다르기 때문에 일반화가 어려움
Ⅱ. 기존 연구 검토
2. 구글 독감 트랜드 분석
(GINSBERG, Jeremy, et al. 2008, Detecting influenza epidemics using search engine
query data. Nature, 457(7232), 1012-1014.)
미국 시민들이 독감과 관련 연관 단어들의 검색 빈도수를 파악하여 지역
별 독감발생 추이를 분석
2003년부터 개별 검색어를 분석해 감기와 연관된 45개의 단어를 찾아내어 이를 분석함으로
써 독감의 유행 수준을 예측함
그 결과, 미국 질병통제예방센터(CDC) 발표보다 2주 먼저 파악했음
실제 병원을 방문한 환자의 수(P)와 독감 관련 키워드를 검색한 수(Q)의 관계가 로그
를 취했을 때 선형
logit(P) = β0 + β1 × logit(Q) + ε (1) P= β0 ×Q (2)
ln(p) = β0 + β1 ×in(Q) (3)
미국 대선 투표일 직전 구글에서 ‘버락 오바마(Barack Obama)’와 ‘밋 롬니(Mitt
Romney)’로 검색된 웹페이지 수가 각각 13억5000만 건(51.1%), 12억9000만 건(48.8%)
으로 실제 개표 결과인 50% vs 48%에 근접(동아일보, 2012/12/21)
β0
Ⅱ. 기존 연구 검토
2. 텍스트마이닝을 통한 미래 예측 분석
(정근하, 2010, 텍스트마이닝과 네트워크 분석을 활용한 미래예측 방법 연구, 한국과학
기술기획평가원 보고서)
텍스트마이닝을 위한 정보추출 방법 중 TF-IDF(Term Frequency - Inverse
Document Frequency)를 변형하여 TF-DI(Term Frequency - Date Index )
을 개발함
위의 방법을 통해 미래예측 키워드를 도출하는 정량적 방법을 제시함
i=키워드 구분
j=시작되는 연도의 첫 횟수(j=1)
n=분석기간의 연도별횟수(n=1,2,3…)
n
j
DF
encytotalfrequ
frequencyi
TF
DITFDITF
j
j
i
n
j
iji



 
)(
)(
1
Ⅱ. 기존 연구 검토
3. 트리플헬릭스 모형을 통해 2012년 대선 분석
(박한우, 2012, Mapping Election Campaigns Through Negative Entropy: Triple
and Quadruple Helix Approach to South Korea’s 2012 Presidential Election)
2012년 대통령 선거기간 동안 박근혜, 문재인, 안철수 후보자 이름과 ‘대
통령’을 포함하는 용어를 구글 문서, 트위터, 페이스북에서 수집하여 정보
엔트로피 분석을 함
(p: 박근혜, a: 안철수, m: 문재인)
분석결과 네거티브 엔트로피는 트위터, 페이스북, 구글 순으로 나타났고,
엔트로피가 안철수는 트위터에서, 문재인은 페이스북에서 더 자주 언급
되었으며, 박근혜는 구글에서 상대적으로 높은 값을 보였음
새로운 온라인 환경에서 선거의 포괄적인 대표 지표를 제시함
pamampmpamappam HHHHHHHT 
Ⅱ. 기존 연구 검토
3. 연구문제
기존 연구 검토를 통해 다음과 같이 연구문제를 도출
1) 온라인 데이터에서 TF-DI 분석을 통해 선거당선 예측을 할 수 있는가?
2) 정보 엔트트로피(T-value) 분석을 통해 선거당선 예측을 할 수 있는가?
3) 여론조사와 온라인 데이터 분석을 비교하였을 때 차이점은 무엇인가?
Ⅲ. 연구 모형 및 방법
1 연구모형
후보자가 언급된 웹 페이지의 일일 데이터 량을 측정하고, 가중치를 적용
하여 선거 예측 가능성을 밝히고, 기존 여론조사와 출구조사, 및 실제 선
거결과와 비교하여 검증함
데이터 수집
(네이버 뉴스, 웹,
지식인, 블로그,
카페)
여론조사
출구조사
실제결과
비교
키워드 추출
(후보자 이름, 제
외어 선택)
TF-DI
T-Value
계산
Ⅲ. 연구 모형 및 방법
2. 데이터
1) 자료수집 기간 : 2014-01-01 ~ 2014-05-31
2) 자료수집 방법 : 온라인 키워드 조사
3) 자료수집 채널 : 네이버(블로그, 카페, 지식인, 뉴스, 웹문서)
4) 수집 데이터량 :
대구: 총 7,937건(TF-DI값) / 총 11,785건(T값)
부산: 총 11,296건(TF-DI값) / 총 14,325건(T값)
5) 수집 키워드
(1) TF-DI (대구)
권영진 = “대구시장” +권영진
김부겸 = “대구시장” +김부겸
(2) TF-DI(부산)
서병수 = “부산시장” +서병수
오거돈 = “부산시장” +오거돈
Ⅲ. 연구 모형 및 방법
5) 수집 키워드
(3) T-value(대구)
•U: 권영진 = 권영진 + 후보 + 대구 – 김부겸 - "대구시장"
•G: 김부겸 = 김부겸 + 후보 + 대구 – 권영진 - "대구시장"
•F: 대구시장 = "대구시장" + 후보 – 권영진 - 김부겸 – 맛집
•UG: 권영진 + 김부겸 = 권영진 + 김부겸 - "대구시장”
•UF: 권영진 + 부산시장 = 권영진 "대구시장" - 김부겸
•GF: 김부겸 + 부산시장 = 김부겸 "대구시장" - 권영진
•UGF: 권영진 + 김부겸 + 대구시장 = 권영진 + 김부겸 + "대구시장“
(4) T-value(부산)
•U: 서병수 = 서병수 +후보 -오거돈 -"부산시장“
•G: 오거돈 = 오거돈 +후보 -서병수 -"부산시장“
•F: 부산시장 = "부산시장" +후보 -서병수 -오거돈 –농부
•UG: 서병수+오거돈 = 서병수 +오거돈 -"부산시장“
•UF: 서병수+부산시장 = 서병수 "부산시장" –오거돈
•GF: 오거돈+부산시장 = 오거돈 "부산시장" –서병수
•UGF: 서병수+오거돈+부산시장 = 서병수 +오거돈 +"부산시장"
* [+후보] : 동명이인 및 전통시장 관련 글 제거 * [+대구] : 대전 유성구의원 후보 관련 글 제거 * [-맛집] : 맛집 관련 글 제거
* [+후보] : 동명이인 및 전통시장 관련 글 제거 * [-농부] : 고(故) 노무현 전 대통령 관련 글 제거
Ⅲ. 연구 모형 및 방법
3. 분석 방법
1) TF-DI(Text Frequency Date Index)
자료수집 채널에서 후보의 이름과 “대구시장”, “부산시장”이라는 단어가 들어간
경우를 조합하여 추출한 후 가중치를 곱하여 계산 후 비교함
• 대구
권영진 TF=“대구시장”+권영진 빈도/전체 빈도
김부겸 TF=“대구시장”+김부겸 빈도/전체 빈도
DI=1월 1주차~5월 5주차(26주) 1/26
• 부산
서병수 TF=“부산시장”+서병수 텍스트 빈도/전체 빈도
오거돈 TF=“부산시장”+오거돈 텍스트 빈도/전체 빈도
DI=1월 1주차~5월 5주차(26주) 1/26
Ⅲ. 연구 모형 및 방법
3. 분석 방법
2) 정보엔트로피(T-Value)
게시물에서 후보의 이름과 ‘대구시장’, ‘부산시장’이라는 단어가 들어간
경우를 조합해 추출한 뒤 지난 1년, 1개월, 1주일간의 정보로서의 가치(정
보 엔트로피)를 계산하여 비교함
T값이 높을수록 엔트로피는 높아지고, 이는 온라인상에 노출이 많다는 것
을 의미하며, 그만큼 사람들에게 관심이 높다는 것을 의미함
ugfufgfugfguugf HHHHHHHT 
ugguugugguug
u g
ugugug
u
uiu
HHHTTHHH
PPHPPH

  )(loglog 22 P는 확률
Ⅳ. 분석 결과
1. 여론조사 결과
조사일자 조사기관 조사의뢰자
조사방법
(피조사자선정법)
여론조사
표본크기 표본오차 응답률
새누리당 권영진
[실제득표율 56.0%]
새정치민주연합 김부겸
[실제득표율 40.3%]
5.17~5.18 대구한길리서치 대구신문 유선 전화면접 (유선 RDD) 1,036 3.1 17.4 40.5 26.8
5.17~5.19 리서치앤리서치 KBS, MBC, SBS
유·무선 전화면접 (유·무선
RDD)
809 3.4 12.2 41.3 29.7
5.19~5.20 케이에스리서치 일요서울 유선 ARS (KT DB) 925 3.6 3.0 54.0 36.5
5.22~5.23 조원씨앤아이 일요신문 유·무선 ARS (유·무선 RDD) 869 3.7 1.2 44.5 43.7
5.22~5.26 중앙일보 조사연구팀 중앙일보
유∙무선전화면접 (유∙무선
RDD)
700 3.7 36.9 42.2 27.0
5.23 폴스미스 영남일보 유선 ARS (유선 RDD) 1,015 3.1 5.9 49.1 36.5
5.23~5.24 에이스리서치 서울신문
유선 전화면접+스마트폰앱
(유선 RDD+KT DB+스마트폰
앱 패널)
500 4.4 9.4 39.2 25.9
5.25~5.26 리서치코리아
대구방송(TBC),
매일신문
유선전화면접+대인면접 (유
선 RDD+보행자 표집)
914 3.1 11.8 43.5 30.8
5.27~5.28 폴스미스 영남일보 유∙무선 ARS (유∙무선 RDD) 1,927 2.2 5.4 49.6 37.7
출처 : 중앙선거여론조사공정심의위원회, 2014년 9월'
대구지역 광역시장 선거여론조사는 총 11회 진행되었음(전국 광역시장 선거 조사 323건의 3%)
1)대구시장 후보 여론조사 결과
Ⅳ. 분석 결과
2) 대구시장 후보 여론조사 결과 그래프
26.8
29.7
36.5
43.7
27.0
36.5
25.9
30.8
37.7
40.3
40.5 41.3
54.0
44.5
42.2
49.1
39.2
43.5
49.6
56.0
0.0
10.0
20.0
30.0
40.0
50.0
60.0
대
구
한
길
리
서
치
리
서
치
앤
리
서
치
케
이
에
스
리
서
치
조
원
씨
앤
아
이
중
앙
일
보
조
사
연
구
팀
폴
스
미
스
에
이
스
리
서
치
리
서
치
코
리
아
폴
스
미
스
실
제
득
표
율
5.17~5.18 5.17~5.19 5.19~5.20 5.22~5.23 5.22~5.26 5.23 5.23~5.24 5.25~5.26 5.27~5.28 6.4
새정치민주연합 김부겸
[실제득표율 40.3%]
새누리당 권영진
[실제득표율 56.0%]
출처 : 중앙선거여론조사공정심의위원회, 2014년 9월'
Ⅳ. 분석 결과
3) 부산시장 후보 여론조사 결과(31회 조사 진행(전체 10%))
조사일자 조사기관 조사의뢰자 조사방법(피조사자선정법)
표본크
기
표본
오차
응답률
여론조사 결과
새누리당 서병수
[실제득표율
50.7%]
무소속 오거돈
[실제득표율
49.3%]
5.14~5.17 현대리서치연구소 JTBC
유·무선 전화면접+스마트폰 앱 (유·무선
RDD+스마트폰 앱 패널)
1,010 3.1 15.0 32.0 30.6
5.17 리얼미터 MBN 유선 전화면접 (유선 RDD) 610 4.0 14.0 47.6 32.6
5.17~5.19 TNS KOREA KBS, MBC, SBS 유·무선 전화면접 (유·무선 RDD) 814 3.4 11.9 39.6 34.2
5.19~5.20 케이에스리서치 일요서울 유선 ARS (KT DB) 980 3.8 3.8 53.6 33.6
5.20 중앙일보 조사연구팀 중앙일보 유·무선 전화면접 (유선 RDD+무선 RDD DB) 800 3.5 35.3 38.0 38.0
5.22~5.23 리서치한국 리서치한국 유선 ARS (KT DB) 820 3.3 4.6 48.6 25.0
5.22~5.23 아이디인큐 JTBC
유선 전화면접+ 스마트폰앱 (유선 RDD+스마
트폰앱 패널)
1,108 3.0 18.3 35.1 31.2
5.22~5.26 중앙일보 조사연구팀 중앙일보 유∙무선전화면접 (유∙무선 RDD) 700 3.7 32.7 42.5 32.6
5.23~5.24 마크로밀엠브레인 YTN 유·무선 전화면접 (유선 RDD+무선 패널) 759 3.6 24.5 31.9 35.8
5.23~5.24 에이스리서치 서울신문
유선 전화면접+스마트폰앱 (유선 RDD+KT
DB+스마트폰앱 패널)
519 4.3 10.6 35.1 34.1
5.23~5.26 메트릭스코퍼레이션 매일경제 유·무선 전화면접 (유·무선 RDD+무선 DB) 600 4.0 19.1 32.7 40.1
5.24 한국갤럽 부산일보 유·무선 전화면접 (유선 RDD+무선 DB) 1,024 3.1 21.6 36.5 38.3
5.24~5.25 한길리서치센터 부산MBC 유선 전화면접 (유선 RDD) 1,070 3.1 18.7 36.7 32.6
5.26~5.27 리서치앤리서치 동아일보 유선 전화면접 (유선 RDD) 709 3.7 14.8 40.2 41.0
5.26~5.27 리서치앤리서치 국제신문 유∙무선전화면접 (유∙무선 RDD) 1,003 3.1 12.4 40.1 43.0
5.26~5.27 코리아리서치센터 한국일보 유∙무선 전화면접 (유∙무선 RDD) 705 3.7 14.9 39.3 42.3
5.26~5.28 TNS KOREA SBS, MBC 유·무선 전화면접 (유·무선 RDD) 502 4.4 11.2 36.9 39.8
5.27~5.28
밀워드브라운미디어리
서치
조선일보 유·무선 전화면접 (유·무선 RDD) 510 4.3 12.8 35.7 38.0
5.27~5.28 리얼미터 MBN 유·무선 전화면접 (유선 RDD+무선 DB) 937 3.2 18.1 44.2 42.5
5.27~5.28 아이디인큐 JTBC
유선전화면접+스마트폰앱 (유선 RDD+스마
트폰앱 패널)
1,147 3.0 19.9 33.9 36.0
5.27~5.28 리서치플러스 한겨레 유·무선 전화면접 (유선 RDD+무선 패널) 517 4.4 27.0 33.9 44.4
출처 : 중앙선거여론조사공정심의위원회, 2014년 9월'
Ⅳ. 분석 결과
4) 부산시장 후보 여론조사 결과 그래프
30.6
32.6
34.2 33.6
38.0
25.0
31.2
32.6 35.8
34.1
40.1
38.3
32.6
41.0 43.0 42.3 39.8
38.0
42.5
36.0
44.4
49.3
32.0
47.6
39.6
53.6
38.0
48.6
35.1
42.5
31.9 35.1
32.7
36.5
36.7
40.2 40.1 39.3
36.9
35.7
44.2
33.9 33.9
50.7
0.0
10.0
20.0
30.0
40.0
50.0
60.0
현
대
리
서
치
연
구
소
리
얼
미
터
TNSKOREA
케
이
에
스
리
서
치
중
앙
일
보
조
사
연
구
팀
리
서
치
한
국
아
이
디
인
큐
중
앙
일
보
조
사
연
구
팀
마
크
로
밀
엠
브
레
인
에
이
스
리
서
치
메
트
릭
스
코
퍼
레
이
션
한
국
갤
럽
한
길
리
서
치
센
터
리
서
치
앤
리
서
치
리
서
치
앤
리
서
치
코
리
아
리
서
치
센
터
TNSKOREA
밀
워
드
브
라
운
미
디
어
리
서
치
리
얼
미
터
아
이
디
인
큐
리
서
치
플
러
스
실
제
득
표
율
5.14~5.17 5.17 5.17~5.195.19~5.20 5.20 5.22~5.235.22~5.235.22~5.265.23~5.245.23~5.245.23~5.26 5.24 5.24~5.255.26~5.275.26~5.275.26~5.275.26~5.285.27~5.285.27~5.285.27~5.285.27~5.28 6.4
무소속 오거돈
[실제득표율 49.3%]
새누리당 서병수
[실제득표율 50.7%]
출처 : 중앙선거여론조사공정심의위원회, 2014년 9월'
Ⅳ. 분석 결과
6) 실제 선거결과
출처: 중앙선거관리위원회 선거통계시스템
시도명 선거인수 투표수 후보자별 득표율 무효투표수
대구 2,012,579 1,052,638
권영진(새누리)
581,175(55.95)
김부겸(새정치연합)
418,891(40.33)
14,019
부산 2,932,179 1,629,167
서병수(새누리)
797,926(50.65)
오거돈(무소속)
777,225(49.34)
54,016
5) 방송3사 출구조사 결과
지역 후보(결과) 차이
대구 권영진(55.6) 김부겸(41.5) 14.1
부산 서병수(51.8) 오거돈(48.2) 3.6
출처: 세계일보(2014/6/5)
• JTBC 부산 출구조사 결과 서병수(46.3): 오거돈(53.7) 발표
0.00
1.00
2.00
3.00
4.00
5.00
6.00
7.00
8.00
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
1월
1주
1월
2주
1월
3주
1월
4주
1월
5주
2월
1주
2월
2주
2월
3주
2월
4주
2월
5주
3월
1주
3월
2주
3월
3주
3월
4주
3월
5주
3월
6주
4월
1주
4월
2주
4월
3주
4월
4주
4월
5주
5월
1주
5월
2주
5월
3주
5월
4주
5월
5주
"대구시장" +권영진 "대구시장" +김부겸 (누적)"대구시장" +권영진 (누적)"대구시장" +김부겸
대구시장 후보 TF*DI
Ⅳ. 분석 결과
2. 대구시장 후보 TF*DI(1월 1주~5월 5주차)
①
② ③
④
⑤
① 김부겸 대구시장 출마 시사, 새누리당 후보 경선. ② 권영진 예비후보 등록 및 새누리당 후보자 활동
③ 새누리당 당내경선, 서상기 후보 출마 ④ 김부경 후보 박정희 컨밴션 공약, 새정치연합 기초공천 폐지 논
란, ⑤ 후보 양자구도, TV 토론회, ⑥ 김부겸 후보 딸(윤세인) 지원 유세
⑥
Ⅳ. 분석 결과
3. 대구시장 후보 T-value
0
0.1
0.2
0.3
0.4
0.5
0.6
1월1주 1월2주 1월3주 1월4주 1월5주 2월1주 2월2주 2월3주 2월4주 2월5주 3월1주 3월2주 3월3주 3월4주 3월5주 3월6주 4월1주 4월2주 4월3주 4월4주 4월5주 5월1주 5월2주 5월3주 5월4주 5월5주
권영진+대구시장 김부겸+대구시장 권영진+대구시장(누적) 김부겸+대구시장(누적)
대구시장 후보 T-Value
•권영진 후보의 경우 2월 1주부터 증가하여 정보엔트로피가 50%대에 있으나, 김부겸 후보의 경우 초기
50%에서 점차 감소하여 3월 4주차에 약 40%까지 내려갔다가 43%대에 머무름
•1월달 권영진 후보가 김부겸 후보보다 낮은 것은 아직 후보등록을 하지 않아서이며, 2월 2주차에 들어서
권영진 후보의 값이 증가하는 것은 예비 후보를 등록했기 때문임
Ⅳ. 분석 결과
4. 부산시장 후보 TF*DI
0.00
1.00
2.00
3.00
4.00
5.00
6.00
7.00
8.00
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
1월
1주
1월
2주
1월
3주
1월
4주
1월
5주
2월
1주
2월
2주
2월
3주
2월
4주
2월
5주
3월
1주
3월
2주
3월
3주
3월
4주
3월
5주
3월
6주
4월
1주
4월
2주
4월
3주
4월
4주
4월
5주
5월
1주
5월
2주
5월
3주
5월
4주
5월
5주
"부산시장" +서병수 "부산시장" +오거돈 (누적)"부산시장" +서병수 (누적)"부산시장" +오거돈
부산시장 후보 TF*DI
① 새정치연합 측 오거돈 후보 영입 논의, 1월 말 서병수 후보 출마, ② 서병수 후보 보좌관 비리, 청와대 입각
설, 새누리당 경선 방식 등의 이슈, ③ 민주당과 새정치연합 측 오거돈 후보 영입 노력, 오거돈 후보 무소속 등
록, ④ 서병수 후보 의원직 사퇴, TV토론회, 새누리당 경선⑤ 오거돈 후보 범시민후보단일화, 논문 표절 논란,
① ②
③ ④
⑤
Ⅳ. 분석 결과
6. 부산시장 후보 T-value
0
0.1
0.2
0.3
0.4
0.5
0.6
서병수+부산시장 오거돈+부산시장 서병수+부산시장(누적) 오거돈+부산시장(누적)
T(당선 예측)값
오거돈 후보의 누적 T값의 차이를 살펴보면, 1월 2주 이후 서병수 후보에 비해 상대적으로 높은 T값을 보임. 서병수
후보의 경우 2월 5주차에서 3월 1주차 까지 누적 T값이 오거돈 후보보다 높다가 3월 2주차 부터 낮아짐. 그러나 4월
1주차부터 오거돈 후보보다 서병수 후보의 T값이 높아지면서 접전을 이룸
Ⅳ. 분석 결과
7. 대구시장 후보 TF-DI와 실제 득표율 비교
대구시장 권영진 후보와 김부겸 후보의 5월 TF-DI 의 값과 실제 득표율과 비교하면, 권영진 후보의 경우 실제 득표율
이 55.95%이나 TF-DI 값은 이보다 높음(5월 1주 1.95%에서 5월 5주차 0.29% 차이). 반면 김부겸 후보의 경우, 실제
득표율은 40.33%이나 TF-DI 값이 더 높게 나옴(5월 1주 1.77%에서 5월 5주 3.43% 높게 나타남)
57.90% 58.02% 57.64%
56.99%
56.24% 55.95%
42.10% 41.98% 42.36%
43.01%
43.76%
40.33%
30.00%
35.00%
40.00%
45.00%
50.00%
55.00%
60.00%
5월 1주 5월 2주 5월 3주 5월 4주 5월 5주 실제득표율
권영진
김부겸
Ⅳ. 분석 결과
8. 부산시장 후보 TF-DI와 실제 득표율 비교
부산시장 서병수 후보와 오거돈 후보의 5월 TF-DI 의 값과 실제 득표율과 비교하면, 서병수 후보의 경우 실제 득표율
이 50.65%이나 TF-DI 값은 이보다 높음(5월 1주 1.95%에서 5월 5주차 0.29% 차이). 반면 오거돈 후보의 경우, 실제
득표율은 49.34%로 TF-DI 값보다 높게 나옴(5월 1주 4.49%에서 5월 5주 2.81% 높게 나타남)
55.15%
54.71%
53.97% 53.81%
53.47%
50.65%
44.85%
45.29%
46.03% 46.19%
46.53%
49.34%
40.00%
42.00%
44.00%
46.00%
48.00%
50.00%
52.00%
54.00%
56.00%
5월 1주 5월 2주 5월 3주 5월 4주 5월 5주 실제득표율
서병수
오거돈
Ⅳ. 분석 결과
9. 대구시장 후보 T-value와 실제 득표율 비교
대구시장 권영진 후보와 김부겸 후보의 5월 T-Value와 실제 득표율과 비교하면, 권영진 후보의 경우 실제 득표율이
55.95%이나 T-value 값은 이보다 낮게 나옴(5월 1주 1.97%에서 5월 5주차 3.10% 차이). 반면 김부겸 후보의 경우, 실
제 득표율은 40.33%이나 T-value 값이 더 높게 나옴(5월 1주 5.69%에서 5월 5주 6.82% 높게 나타남)
53.98% 54.07% 53.91% 53.48%
52.85%
55.95%
46.02% 45.93% 46.09% 46.52%
47.15%
40.33%
30.00%
35.00%
40.00%
45.00%
50.00%
55.00%
60.00%
5월1주 5월2주 5월3주 5월4주 5월5주 실제득표율
권영진 김부겸
Ⅳ. 분석 결과
10. 부산시장 후보 T-value와 실제 득표율 비교
50.09% 50.09%
50.71%
50.54%
50.62%
49.34%
49.91% 49.91%
49.29%
49.46%
49.38%
50.65%
48.50%
49.00%
49.50%
50.00%
50.50%
51.00%
5월1주 5월2주 5월3주 5월4주 5월5주 실제득표율
오거돈 서병수
부산시장 서병수 후보와 오거돈 후보의 5월 T-value 의 값과 실제 득표율과 비교하면, 서병수 후보의 경우 실제 득표
율이 50.65%이나 T-value 값은 이보다 낮게 나옴(5월 1주 0.74%에서 5월 5주차 1.27% 차이). 반면 오거돈 후보의 경
우, 실제 득표율은 49.34%로 T-value가 더 높게 나옴(5월 1주 0.75%에서 5월 5주 1.28% 높게 나타남)
Ⅴ. 결론 및 연구의 한계점
1. 결론
•TF-DI 분석과 정보 엔트로피(T-value) 분석 방법을 통해 2014년
대구∙부산 지방선거 후보자들의 선거예측 분석을 하였음
•TF-DI 분석결과와 T-value 분석결과를 실제투표 결과와 비교 분석
하였음
- TF-DI 분석결과 대구시장과 부산시장 후보의 분석결과와 실제 결과가
유사하게 나타남
- T-value 분석결과의 경우 대구시장 후보의 경우에는 당선결과에 대해서
는 맞으나 예측값에 차이가 있음. 부산시장의 경우에는 당선 예측이 틀림
•두 분석방법의 가중치 적용의 경우 단기간의 분석으로는 오차가
큼. 따라서 적정 가중치 적용을 위해 더 긴 기간의 분석이 요구됨
- TF-DI, T-value의 경우 1월 1주차부터 가중치를 적용하였으나 5월 한
달만으로 계산할 경우 값이 다르게 나옴
Ⅴ. 결론 및 연구의 한계점
2. 연구의 한계점
• 이 연구에서 후보자를 선정할 때 2명의 후보만 선택하고 중도
탈락, 소수 득표 후보 등을 제외시켰다는 점
• 이 연구는 온라인 데이터에서 긍정과 부정 등 분석을 통해 가
중치를 적용하는 등 다양한 가중치 적용의 방법이 모색되어야
함
• 향후 온라인 데이터를 활용한 선거예측의 정확성을 높이기 위
해 다양한 분석방법 적용이 필요함
참고문헌
김영원∙ 김지원, 2007, “2006년 지방선거 출구조사 현황 및 예측오차,” 조사연구, 제8권 1호, 55~79쪽.
박용치, 2000, “선거예측에서 편의의 감소: 거짓응답을 중심으로,” 조사연구, 제1권 2호, 15~34쪽.
박한우, 2012, Mapping Election Campaigns Through Negative Entropy: Triple and Quadruple Helix
Approach to South Korea’s 2012 Presidential Election, http://hanpark.net
송근원, 2011, “후보자 득표율 예측모형과 지표의 구성: 2010 광역단체장 선거를 중심으로,” 조사연구,
제12권 1호, 31~63쪽.
정근하, 2010, 텍스트마이닝과 네트워크 분석을 활용한 미래예측 방법 연구, 한국과학기술기획평가원 보고서
조성겸, 2009, “전화여론조사의 예측정확도 분석,” 조사연구, 제10권 1호, 57~72쪽.
중앙선거여론조사공정심의위원회, 2014, “지방선거 여론조사결과 및 득표율 비교정리표,”
홍내리∙ 허명회, 2001, “16대 국회의원 선거의 예측조사에 대한 사후검증.” 조사연구, 제2권 1호. 1~35쪽.
GINSBERG, Jeremy, et al. 2008, Detecting influenza epidemics using search engine query data.
Nature, 457(7232), 1012-1014
Lichtman, 2012 “The Keys to the White House: Prediction for 2012.” Social Education. 76(2). 57~61.
동아일보, 2012/12/21
세계일보, 2014/6/5
조선일보,2004/1/5
한겨레신문, 2012/4/8
중앙선거관리위원회 선거통계시스템(http://info.nec.go.kr. 검색일: 2014년 10월 13일)

More Related Content

What's hot

[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관
[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관
[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관Newsjelly
 
It윤리적 클라우드 빅데이터 기술의 사업화 동향
It윤리적 클라우드 빅데이터 기술의 사업화 동향It윤리적 클라우드 빅데이터 기술의 사업화 동향
It윤리적 클라우드 빅데이터 기술의 사업화 동향메가트렌드랩 megatrendlab
 
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with dataK data
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원datasciencekorea
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안메가트렌드랩 megatrendlab
 
빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략Seungbyung Chae
 
1.마곡 u city 구축사업 소개
1.마곡 u city 구축사업 소개1.마곡 u city 구축사업 소개
1.마곡 u city 구축사업 소개simrc
 
빅데이터와 딥러닝
빅데이터와 딥러닝빅데이터와 딥러닝
빅데이터와 딥러닝재용 박
 
공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개SANGHEE SHIN
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아K data
 
[2016 데이터 그랜드 컨퍼런스] 6 3(전략, 솔루션).크레딧데이터 공공데이터를 활용한 생활의 질 향상
[2016 데이터 그랜드 컨퍼런스] 6 3(전략, 솔루션).크레딧데이터 공공데이터를 활용한 생활의 질 향상[2016 데이터 그랜드 컨퍼런스] 6 3(전략, 솔루션).크레딧데이터 공공데이터를 활용한 생활의 질 향상
[2016 데이터 그랜드 컨퍼런스] 6 3(전략, 솔루션).크레딧데이터 공공데이터를 활용한 생활의 질 향상K data
 
빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012
빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012
빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012Daum DNA
 
[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-final
[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-final[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-final
[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-finalK data
 
서울시 공공 부문 오픈데이터와 시민참여
서울시 공공 부문 오픈데이터와 시민참여서울시 공공 부문 오픈데이터와 시민참여
서울시 공공 부문 오픈데이터와 시민참여codenamu
 
Personal 빅데이터 주요 이슈 및 기술적 대응 방안
Personal 빅데이터 주요 이슈 및 기술적 대응 방안Personal 빅데이터 주요 이슈 및 기술적 대응 방안
Personal 빅데이터 주요 이슈 및 기술적 대응 방안메가트렌드랩 megatrendlab
 
빅데이터와 타겟 마케팅 Ver 1 0
빅데이터와 타겟 마케팅 Ver 1 0빅데이터와 타겟 마케팅 Ver 1 0
빅데이터와 타겟 마케팅 Ver 1 0Konkuk University
 
정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간
정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간
정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간Han Woo PARK
 

What's hot (20)

[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관
[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관
[데이터 시각화 3rd 세미나] 공공 데이터 시각화_조용현 통계데이터담당관
 
공공기관의 빅데이터 구현 전략
공공기관의 빅데이터 구현 전략공공기관의 빅데이터 구현 전략
공공기관의 빅데이터 구현 전략
 
It윤리적 클라우드 빅데이터 기술의 사업화 동향
It윤리적 클라우드 빅데이터 기술의 사업화 동향It윤리적 클라우드 빅데이터 기술의 사업화 동향
It윤리적 클라우드 빅데이터 기술의 사업화 동향
 
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안
 
빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략빅데이터 분석과 모바일 비즈니스 활용전략
빅데이터 분석과 모바일 비즈니스 활용전략
 
1.마곡 u city 구축사업 소개
1.마곡 u city 구축사업 소개1.마곡 u city 구축사업 소개
1.마곡 u city 구축사업 소개
 
건설기업의 빅데이터 시대 대응방향
건설기업의 빅데이터 시대 대응방향건설기업의 빅데이터 시대 대응방향
건설기업의 빅데이터 시대 대응방향
 
빅데이터와 딥러닝
빅데이터와 딥러닝빅데이터와 딥러닝
빅데이터와 딥러닝
 
공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개공간정보 대량맞춤화 정보지원체계 연구 소개
공간정보 대량맞춤화 정보지원체계 연구 소개
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
[2016 데이터 그랜드 컨퍼런스] 6 3(전략, 솔루션).크레딧데이터 공공데이터를 활용한 생활의 질 향상
[2016 데이터 그랜드 컨퍼런스] 6 3(전략, 솔루션).크레딧데이터 공공데이터를 활용한 생활의 질 향상[2016 데이터 그랜드 컨퍼런스] 6 3(전략, 솔루션).크레딧데이터 공공데이터를 활용한 생활의 질 향상
[2016 데이터 그랜드 컨퍼런스] 6 3(전략, 솔루션).크레딧데이터 공공데이터를 활용한 생활의 질 향상
 
빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012
빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012
빅데이터 기반 공공 데이터 서비스 동향 | Devon 2012
 
[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-final
[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-final[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-final
[2016 데이터 그랜드 컨퍼런스] 1 1. bk1(위세아이텍) 2016데이터그랜드컨퍼런스-머신러닝동향과 산업별 활용_김종현-final
 
서울시 공공 부문 오픈데이터와 시민참여
서울시 공공 부문 오픈데이터와 시민참여서울시 공공 부문 오픈데이터와 시민참여
서울시 공공 부문 오픈데이터와 시민참여
 
Personal 빅데이터 주요 이슈 및 기술적 대응 방안
Personal 빅데이터 주요 이슈 및 기술적 대응 방안Personal 빅데이터 주요 이슈 및 기술적 대응 방안
Personal 빅데이터 주요 이슈 및 기술적 대응 방안
 
빅데이터와 타겟 마케팅 Ver 1 0
빅데이터와 타겟 마케팅 Ver 1 0빅데이터와 타겟 마케팅 Ver 1 0
빅데이터와 타겟 마케팅 Ver 1 0
 
정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간
정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간
정부 3.0 공공(빅)데이터 플랫폼거버넌스(5 sep2015)1시간
 

Viewers also liked

텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남datasciencekorea
 
R의 이해와 활용_데이터사이언스학회
R의 이해와 활용_데이터사이언스학회R의 이해와 활용_데이터사이언스학회
R의 이해와 활용_데이터사이언스학회datasciencekorea
 
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석datasciencekorea
 
Data Centric Art, Science, and Humanities
Data Centric Art, Science, and HumanitiesData Centric Art, Science, and Humanities
Data Centric Art, Science, and Humanitiesdatasciencekorea
 
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...datasciencekorea
 
DATA CENTRIC EDUCATION & LEARNING
 DATA CENTRIC EDUCATION & LEARNING DATA CENTRIC EDUCATION & LEARNING
DATA CENTRIC EDUCATION & LEARNINGdatasciencekorea
 
Data-driven biomedical science: implications for human disease and public health
Data-driven biomedical science: implications for human disease and public healthData-driven biomedical science: implications for human disease and public health
Data-driven biomedical science: implications for human disease and public healthdatasciencekorea
 
International Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data ScienceInternational Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data Sciencedatasciencekorea
 
Analyzing Big Data to Discover Honest Signals of Innovation
Analyzing Big Data to Discover Honest Signals of InnovationAnalyzing Big Data to Discover Honest Signals of Innovation
Analyzing Big Data to Discover Honest Signals of Innovationdatasciencekorea
 
A Unified Music Recommender System Using Listening Habits and Semantics of Tags
A Unified Music Recommender System Using Listening Habits and Semantics of TagsA Unified Music Recommender System Using Listening Habits and Semantics of Tags
A Unified Music Recommender System Using Listening Habits and Semantics of Tagsdatasciencekorea
 
도시의 마음, 그 발현 - Emergent Mind of City
도시의 마음, 그 발현 - Emergent Mind of City도시의 마음, 그 발현 - Emergent Mind of City
도시의 마음, 그 발현 - Emergent Mind of Citydatasciencekorea
 
Studying Social Selection vs Social Influence in Virtual Financial Communities
Studying Social Selection vs Social Influence in Virtual Financial CommunitiesStudying Social Selection vs Social Influence in Virtual Financial Communities
Studying Social Selection vs Social Influence in Virtual Financial Communitiesdatasciencekorea
 
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중datasciencekorea
 
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점datasciencekorea
 
소셜미디어 분석방법론과 사례
소셜미디어 분석방법론과 사례소셜미디어 분석방법론과 사례
소셜미디어 분석방법론과 사례datasciencekorea
 
데이터 시각화의 글로벌 동향 20140819 - 고영혁
데이터 시각화의 글로벌 동향   20140819 - 고영혁데이터 시각화의 글로벌 동향   20140819 - 고영혁
데이터 시각화의 글로벌 동향 20140819 - 고영혁datasciencekorea
 
Bayesian Network 을 활용한 예측 분석
Bayesian Network 을 활용한 예측 분석Bayesian Network 을 활용한 예측 분석
Bayesian Network 을 활용한 예측 분석datasciencekorea
 

Viewers also liked (17)

텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남텍스톰을 이용한 SNA 분석 -전채남
텍스톰을 이용한 SNA 분석 -전채남
 
R의 이해와 활용_데이터사이언스학회
R의 이해와 활용_데이터사이언스학회R의 이해와 활용_데이터사이언스학회
R의 이해와 활용_데이터사이언스학회
 
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
 
Data Centric Art, Science, and Humanities
Data Centric Art, Science, and HumanitiesData Centric Art, Science, and Humanities
Data Centric Art, Science, and Humanities
 
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
 
DATA CENTRIC EDUCATION & LEARNING
 DATA CENTRIC EDUCATION & LEARNING DATA CENTRIC EDUCATION & LEARNING
DATA CENTRIC EDUCATION & LEARNING
 
Data-driven biomedical science: implications for human disease and public health
Data-driven biomedical science: implications for human disease and public healthData-driven biomedical science: implications for human disease and public health
Data-driven biomedical science: implications for human disease and public health
 
International Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data ScienceInternational Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data Science
 
Analyzing Big Data to Discover Honest Signals of Innovation
Analyzing Big Data to Discover Honest Signals of InnovationAnalyzing Big Data to Discover Honest Signals of Innovation
Analyzing Big Data to Discover Honest Signals of Innovation
 
A Unified Music Recommender System Using Listening Habits and Semantics of Tags
A Unified Music Recommender System Using Listening Habits and Semantics of TagsA Unified Music Recommender System Using Listening Habits and Semantics of Tags
A Unified Music Recommender System Using Listening Habits and Semantics of Tags
 
도시의 마음, 그 발현 - Emergent Mind of City
도시의 마음, 그 발현 - Emergent Mind of City도시의 마음, 그 발현 - Emergent Mind of City
도시의 마음, 그 발현 - Emergent Mind of City
 
Studying Social Selection vs Social Influence in Virtual Financial Communities
Studying Social Selection vs Social Influence in Virtual Financial CommunitiesStudying Social Selection vs Social Influence in Virtual Financial Communities
Studying Social Selection vs Social Influence in Virtual Financial Communities
 
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
 
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
 
소셜미디어 분석방법론과 사례
소셜미디어 분석방법론과 사례소셜미디어 분석방법론과 사례
소셜미디어 분석방법론과 사례
 
데이터 시각화의 글로벌 동향 20140819 - 고영혁
데이터 시각화의 글로벌 동향   20140819 - 고영혁데이터 시각화의 글로벌 동향   20140819 - 고영혁
데이터 시각화의 글로벌 동향 20140819 - 고영혁
 
Bayesian Network 을 활용한 예측 분석
Bayesian Network 을 활용한 예측 분석Bayesian Network 을 활용한 예측 분석
Bayesian Network 을 활용한 예측 분석
 

Similar to 온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호

박한우 토크쇼 정치선거사례
박한우 토크쇼 정치선거사례박한우 토크쇼 정치선거사례
박한우 토크쇼 정치선거사례Han Woo PARK
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제5호(20171106)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제5호(20171106)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제5호(20171106)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제5호(20171106)DOMOBRODEUR
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제1호(20170710)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제1호(20170710)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제1호(20170710)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제1호(20170710)DOMOBRODEUR
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제2호(20170803)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제2호(20170803)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제2호(20170803)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제2호(20170803)DOMOBRODEUR
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)DOMOBRODEUR
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제4호(20171012)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제4호(20171012)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제4호(20171012)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제4호(20171012)DOMOBRODEUR
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제6호(20171205)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제6호(20171205)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제6호(20171205)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제6호(20171205)DOMOBRODEUR
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)DOMOBRODEUR
 
[도모브로더X사이람] 20대_국회의원_관계망_리포트_제14호
[도모브로더X사이람] 20대_국회의원_관계망_리포트_제14호[도모브로더X사이람] 20대_국회의원_관계망_리포트_제14호
[도모브로더X사이람] 20대_국회의원_관계망_리포트_제14호DOMOBRODEUR
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)DOMOBRODEUR
 
[도모브로더X사이람] 20대_국회의원_관계망_리포트_제15호
[도모브로더X사이람] 20대_국회의원_관계망_리포트_제15호[도모브로더X사이람] 20대_국회의원_관계망_리포트_제15호
[도모브로더X사이람] 20대_국회의원_관계망_리포트_제15호DOMOBRODEUR
 
대구경북 지방선거 페이스북 (1 june2014) 3
대구경북 지방선거 페이스북 (1 june2014) 3대구경북 지방선거 페이스북 (1 june2014) 3
대구경북 지방선거 페이스북 (1 june2014) 3Han Woo PARK
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제13호(20180709)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제13호(20180709)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제13호(20180709)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제13호(20180709)DOMOBRODEUR
 
커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대
커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대
커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대Han Woo PARK
 
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로Han Woo PARK
 
공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획Han Woo PARK
 
데이터를 통해 보는 송도의 변화
데이터를 통해 보는 송도의 변화데이터를 통해 보는 송도의 변화
데이터를 통해 보는 송도의 변화Ju-Hyung Lee
 
데이터를 통해 알아보는 송도의 변화
데이터를 통해 알아보는 송도의 변화데이터를 통해 알아보는 송도의 변화
데이터를 통해 알아보는 송도의 변화EUNYEONG PARK
 

Similar to 온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호 (20)

박한우 토크쇼 정치선거사례
박한우 토크쇼 정치선거사례박한우 토크쇼 정치선거사례
박한우 토크쇼 정치선거사례
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제5호(20171106)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제5호(20171106)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제5호(20171106)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제5호(20171106)
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제1호(20170710)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제1호(20170710)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제1호(20170710)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제1호(20170710)
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제2호(20170803)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제2호(20170803)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제2호(20170803)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제2호(20170803)
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제8호(20180205)
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제4호(20171012)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제4호(20171012)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제4호(20171012)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제4호(20171012)
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제6호(20171205)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제6호(20171205)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제6호(20171205)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제6호(20171205)
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제7호(20180104)
 
[도모브로더X사이람] 20대_국회의원_관계망_리포트_제14호
[도모브로더X사이람] 20대_국회의원_관계망_리포트_제14호[도모브로더X사이람] 20대_국회의원_관계망_리포트_제14호
[도모브로더X사이람] 20대_국회의원_관계망_리포트_제14호
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제3호(20170905)
 
[도모브로더X사이람] 20대_국회의원_관계망_리포트_제15호
[도모브로더X사이람] 20대_국회의원_관계망_리포트_제15호[도모브로더X사이람] 20대_국회의원_관계망_리포트_제15호
[도모브로더X사이람] 20대_국회의원_관계망_리포트_제15호
 
대구경북 지방선거 페이스북 (1 june2014) 3
대구경북 지방선거 페이스북 (1 june2014) 3대구경북 지방선거 페이스북 (1 june2014) 3
대구경북 지방선거 페이스북 (1 june2014) 3
 
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제13호(20180709)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제13호(20180709)[도모브로더X사이람] 20대 국회의원 관계망_리포트_제13호(20180709)
[도모브로더X사이람] 20대 국회의원 관계망_리포트_제13호(20180709)
 
커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대
커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대
커뮤니케이션 패러다임을 바꾸다 (17 march2014)경북대
 
언론학회
언론학회언론학회
언론학회
 
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
페이스북 선도자 탄핵촛불에서 캠폐인 이동경로
 
공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획공공 데이터와 인포그래픽스를 활용한 문화관광기획
공공 데이터와 인포그래픽스를 활용한 문화관광기획
 
데이터를 통해 보는 송도의 변화
데이터를 통해 보는 송도의 변화데이터를 통해 보는 송도의 변화
데이터를 통해 보는 송도의 변화
 
데이터를 통해 알아보는 송도의 변화
데이터를 통해 알아보는 송도의 변화데이터를 통해 알아보는 송도의 변화
데이터를 통해 알아보는 송도의 변화
 
언론학회
언론학회언론학회
언론학회
 

온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호

  • 1. ㈜더아이엠씨 김찬우 한국외대 조인호 온라인 데이터 분석을 통한 선거예측 : 2014년 제6회 대구∙부산 지방선거를 중심으로
  • 2. 목차 Ⅰ. 연구배경 Ⅱ. 기존연구 검토 Ⅲ. 연구모형 및 방법 Ⅳ. 분석 결과 Ⅴ. 결론 및 연구의 한계점 참고문헌
  • 3. Ⅰ. 연구 배경 및 목적 1. 연구 배경 기존에 선거예측은 전화, 설문 조사 혹은 출구 조사를 통해 이루어져 왔지만, 인터넷 사용층이 많아지면서 선거예측에 온라인 여론의 중요성이 높아지고 있음 전통적인 방식의 조사를 통한 예측 결과와 실제 득표율의 오차가 높아지면서 선거 예측에 대한 새로운 관점의 필요성이 높아짐 2004년 총선에서 한나라당이 승리할 것이란 예측 실패(조선일보,2004/1/5), 2012년 총선에서 통합민주당이 승리할 것이라는 예측 역시 실패함(한겨레, 2012/4/8) 이번 제6회지방선거 방송3사 출구조사에서는 경기도지사 경합을 예상했으나 승패는 틀렸고, 인천과 충남시장 선거에서는 박빙을 예상했으나 격차가 났음 선거예측 연구는 선거패턴을 체계적으로 구조화 할 수 있고, 객관적이고 과학 적인 선거 연구를 가능하게 하여 효율적인 선거운동과 더불어 유권자에게 좀 더 객관적인 후보자를 선택할 수 있는 정보를 제공할 수 있음.
  • 4. Ⅰ. 연구 배경 및 목적 2. 연구 목적 본 연구는 2014년 지방선거 기간 동안 온라인의 자료를 활용하여 TF-DI, T- value 분석 방법을 통해 분석하고, 분석 결과를 시계열로 나타내어 선거 결과 를 예측하고, 실제 득표 결과와 비교하여 검증하는 것임 기존 연구 검토를 통해 선거 예측 방법론을 검토하고 분석방법을 제시한 후 연구문제를 설정함 본 연구를 통해 온라인 데이터 분석에 의한 예측 모델이 향후 선거 예측에 미 칠 수 있는 시사점과 적용 여부를 제공함
  • 5. Ⅱ. 기존 연구 검토 1. 선거 예측의 기존 연구 선거 예측에 관한 연구는 크게 2가지로 나누어 볼 수 있음 여론조사와 출구조사 등 선거예측조사에 관한 연구, 선거예측모형을 작성 하여 그 모형에 따라 선거결과를 예측하는 방법 선거예측조사의 경우 당선자 예측이 빗나가는 요인과 선거예측의 편의를 감소시키는 방안(박 용치, 2000), 전화조사와 출구조사에서 오차문제(홍내리∙허명회, 2001), 출구조사시 표본크기 문 제(김영원∙김지원, 2007), 전화여론조사의 정확도 개선을 위해 표집방법의 변화(조성겸, 2009) 등이 있음 선거예측모형의 경우 송근원(2011)은 후보자 득표율을 종속변수로 두고, 득표율에 영향을 미치 는 요인으로 현직효과, 지역효과, 가시성, -견제효과의 독립변수로 회귀모형을 제시, Lichtman(2012) 미국 대통령선거에 영향을 미치는 요인으로 의회장악, 댕내경쟁, 현직프리미엄, 제3의 정당 출현가능성, 단기적 경제영향, 사회적 불안정, 정권스캔들, 외교∙군사분야의 실패와 성공, 카리스마, 도전자의 카리스마 등 13가지 제시 즉 전화조사와 출구조사는 표집오차와 비표집오차로 인해 정확한 예측의 한계가 있음. 선거에측모형은 그것을 구성하는 변수가 다양하고, 선거 종 류에 따라 변수의 강도가 다르기 때문에 일반화가 어려움
  • 6. Ⅱ. 기존 연구 검토 2. 구글 독감 트랜드 분석 (GINSBERG, Jeremy, et al. 2008, Detecting influenza epidemics using search engine query data. Nature, 457(7232), 1012-1014.) 미국 시민들이 독감과 관련 연관 단어들의 검색 빈도수를 파악하여 지역 별 독감발생 추이를 분석 2003년부터 개별 검색어를 분석해 감기와 연관된 45개의 단어를 찾아내어 이를 분석함으로 써 독감의 유행 수준을 예측함 그 결과, 미국 질병통제예방센터(CDC) 발표보다 2주 먼저 파악했음 실제 병원을 방문한 환자의 수(P)와 독감 관련 키워드를 검색한 수(Q)의 관계가 로그 를 취했을 때 선형 logit(P) = β0 + β1 × logit(Q) + ε (1) P= β0 ×Q (2) ln(p) = β0 + β1 ×in(Q) (3) 미국 대선 투표일 직전 구글에서 ‘버락 오바마(Barack Obama)’와 ‘밋 롬니(Mitt Romney)’로 검색된 웹페이지 수가 각각 13억5000만 건(51.1%), 12억9000만 건(48.8%) 으로 실제 개표 결과인 50% vs 48%에 근접(동아일보, 2012/12/21) β0
  • 7. Ⅱ. 기존 연구 검토 2. 텍스트마이닝을 통한 미래 예측 분석 (정근하, 2010, 텍스트마이닝과 네트워크 분석을 활용한 미래예측 방법 연구, 한국과학 기술기획평가원 보고서) 텍스트마이닝을 위한 정보추출 방법 중 TF-IDF(Term Frequency - Inverse Document Frequency)를 변형하여 TF-DI(Term Frequency - Date Index ) 을 개발함 위의 방법을 통해 미래예측 키워드를 도출하는 정량적 방법을 제시함 i=키워드 구분 j=시작되는 연도의 첫 횟수(j=1) n=분석기간의 연도별횟수(n=1,2,3…) n j DF encytotalfrequ frequencyi TF DITFDITF j j i n j iji      )( )( 1
  • 8. Ⅱ. 기존 연구 검토 3. 트리플헬릭스 모형을 통해 2012년 대선 분석 (박한우, 2012, Mapping Election Campaigns Through Negative Entropy: Triple and Quadruple Helix Approach to South Korea’s 2012 Presidential Election) 2012년 대통령 선거기간 동안 박근혜, 문재인, 안철수 후보자 이름과 ‘대 통령’을 포함하는 용어를 구글 문서, 트위터, 페이스북에서 수집하여 정보 엔트로피 분석을 함 (p: 박근혜, a: 안철수, m: 문재인) 분석결과 네거티브 엔트로피는 트위터, 페이스북, 구글 순으로 나타났고, 엔트로피가 안철수는 트위터에서, 문재인은 페이스북에서 더 자주 언급 되었으며, 박근혜는 구글에서 상대적으로 높은 값을 보였음 새로운 온라인 환경에서 선거의 포괄적인 대표 지표를 제시함 pamampmpamappam HHHHHHHT 
  • 9. Ⅱ. 기존 연구 검토 3. 연구문제 기존 연구 검토를 통해 다음과 같이 연구문제를 도출 1) 온라인 데이터에서 TF-DI 분석을 통해 선거당선 예측을 할 수 있는가? 2) 정보 엔트트로피(T-value) 분석을 통해 선거당선 예측을 할 수 있는가? 3) 여론조사와 온라인 데이터 분석을 비교하였을 때 차이점은 무엇인가?
  • 10. Ⅲ. 연구 모형 및 방법 1 연구모형 후보자가 언급된 웹 페이지의 일일 데이터 량을 측정하고, 가중치를 적용 하여 선거 예측 가능성을 밝히고, 기존 여론조사와 출구조사, 및 실제 선 거결과와 비교하여 검증함 데이터 수집 (네이버 뉴스, 웹, 지식인, 블로그, 카페) 여론조사 출구조사 실제결과 비교 키워드 추출 (후보자 이름, 제 외어 선택) TF-DI T-Value 계산
  • 11. Ⅲ. 연구 모형 및 방법 2. 데이터 1) 자료수집 기간 : 2014-01-01 ~ 2014-05-31 2) 자료수집 방법 : 온라인 키워드 조사 3) 자료수집 채널 : 네이버(블로그, 카페, 지식인, 뉴스, 웹문서) 4) 수집 데이터량 : 대구: 총 7,937건(TF-DI값) / 총 11,785건(T값) 부산: 총 11,296건(TF-DI값) / 총 14,325건(T값) 5) 수집 키워드 (1) TF-DI (대구) 권영진 = “대구시장” +권영진 김부겸 = “대구시장” +김부겸 (2) TF-DI(부산) 서병수 = “부산시장” +서병수 오거돈 = “부산시장” +오거돈
  • 12. Ⅲ. 연구 모형 및 방법 5) 수집 키워드 (3) T-value(대구) •U: 권영진 = 권영진 + 후보 + 대구 – 김부겸 - "대구시장" •G: 김부겸 = 김부겸 + 후보 + 대구 – 권영진 - "대구시장" •F: 대구시장 = "대구시장" + 후보 – 권영진 - 김부겸 – 맛집 •UG: 권영진 + 김부겸 = 권영진 + 김부겸 - "대구시장” •UF: 권영진 + 부산시장 = 권영진 "대구시장" - 김부겸 •GF: 김부겸 + 부산시장 = 김부겸 "대구시장" - 권영진 •UGF: 권영진 + 김부겸 + 대구시장 = 권영진 + 김부겸 + "대구시장“ (4) T-value(부산) •U: 서병수 = 서병수 +후보 -오거돈 -"부산시장“ •G: 오거돈 = 오거돈 +후보 -서병수 -"부산시장“ •F: 부산시장 = "부산시장" +후보 -서병수 -오거돈 –농부 •UG: 서병수+오거돈 = 서병수 +오거돈 -"부산시장“ •UF: 서병수+부산시장 = 서병수 "부산시장" –오거돈 •GF: 오거돈+부산시장 = 오거돈 "부산시장" –서병수 •UGF: 서병수+오거돈+부산시장 = 서병수 +오거돈 +"부산시장" * [+후보] : 동명이인 및 전통시장 관련 글 제거 * [+대구] : 대전 유성구의원 후보 관련 글 제거 * [-맛집] : 맛집 관련 글 제거 * [+후보] : 동명이인 및 전통시장 관련 글 제거 * [-농부] : 고(故) 노무현 전 대통령 관련 글 제거
  • 13. Ⅲ. 연구 모형 및 방법 3. 분석 방법 1) TF-DI(Text Frequency Date Index) 자료수집 채널에서 후보의 이름과 “대구시장”, “부산시장”이라는 단어가 들어간 경우를 조합하여 추출한 후 가중치를 곱하여 계산 후 비교함 • 대구 권영진 TF=“대구시장”+권영진 빈도/전체 빈도 김부겸 TF=“대구시장”+김부겸 빈도/전체 빈도 DI=1월 1주차~5월 5주차(26주) 1/26 • 부산 서병수 TF=“부산시장”+서병수 텍스트 빈도/전체 빈도 오거돈 TF=“부산시장”+오거돈 텍스트 빈도/전체 빈도 DI=1월 1주차~5월 5주차(26주) 1/26
  • 14. Ⅲ. 연구 모형 및 방법 3. 분석 방법 2) 정보엔트로피(T-Value) 게시물에서 후보의 이름과 ‘대구시장’, ‘부산시장’이라는 단어가 들어간 경우를 조합해 추출한 뒤 지난 1년, 1개월, 1주일간의 정보로서의 가치(정 보 엔트로피)를 계산하여 비교함 T값이 높을수록 엔트로피는 높아지고, 이는 온라인상에 노출이 많다는 것 을 의미하며, 그만큼 사람들에게 관심이 높다는 것을 의미함 ugfufgfugfguugf HHHHHHHT  ugguugugguug u g ugugug u uiu HHHTTHHH PPHPPH    )(loglog 22 P는 확률
  • 15. Ⅳ. 분석 결과 1. 여론조사 결과 조사일자 조사기관 조사의뢰자 조사방법 (피조사자선정법) 여론조사 표본크기 표본오차 응답률 새누리당 권영진 [실제득표율 56.0%] 새정치민주연합 김부겸 [실제득표율 40.3%] 5.17~5.18 대구한길리서치 대구신문 유선 전화면접 (유선 RDD) 1,036 3.1 17.4 40.5 26.8 5.17~5.19 리서치앤리서치 KBS, MBC, SBS 유·무선 전화면접 (유·무선 RDD) 809 3.4 12.2 41.3 29.7 5.19~5.20 케이에스리서치 일요서울 유선 ARS (KT DB) 925 3.6 3.0 54.0 36.5 5.22~5.23 조원씨앤아이 일요신문 유·무선 ARS (유·무선 RDD) 869 3.7 1.2 44.5 43.7 5.22~5.26 중앙일보 조사연구팀 중앙일보 유∙무선전화면접 (유∙무선 RDD) 700 3.7 36.9 42.2 27.0 5.23 폴스미스 영남일보 유선 ARS (유선 RDD) 1,015 3.1 5.9 49.1 36.5 5.23~5.24 에이스리서치 서울신문 유선 전화면접+스마트폰앱 (유선 RDD+KT DB+스마트폰 앱 패널) 500 4.4 9.4 39.2 25.9 5.25~5.26 리서치코리아 대구방송(TBC), 매일신문 유선전화면접+대인면접 (유 선 RDD+보행자 표집) 914 3.1 11.8 43.5 30.8 5.27~5.28 폴스미스 영남일보 유∙무선 ARS (유∙무선 RDD) 1,927 2.2 5.4 49.6 37.7 출처 : 중앙선거여론조사공정심의위원회, 2014년 9월' 대구지역 광역시장 선거여론조사는 총 11회 진행되었음(전국 광역시장 선거 조사 323건의 3%) 1)대구시장 후보 여론조사 결과
  • 16. Ⅳ. 분석 결과 2) 대구시장 후보 여론조사 결과 그래프 26.8 29.7 36.5 43.7 27.0 36.5 25.9 30.8 37.7 40.3 40.5 41.3 54.0 44.5 42.2 49.1 39.2 43.5 49.6 56.0 0.0 10.0 20.0 30.0 40.0 50.0 60.0 대 구 한 길 리 서 치 리 서 치 앤 리 서 치 케 이 에 스 리 서 치 조 원 씨 앤 아 이 중 앙 일 보 조 사 연 구 팀 폴 스 미 스 에 이 스 리 서 치 리 서 치 코 리 아 폴 스 미 스 실 제 득 표 율 5.17~5.18 5.17~5.19 5.19~5.20 5.22~5.23 5.22~5.26 5.23 5.23~5.24 5.25~5.26 5.27~5.28 6.4 새정치민주연합 김부겸 [실제득표율 40.3%] 새누리당 권영진 [실제득표율 56.0%] 출처 : 중앙선거여론조사공정심의위원회, 2014년 9월'
  • 17. Ⅳ. 분석 결과 3) 부산시장 후보 여론조사 결과(31회 조사 진행(전체 10%)) 조사일자 조사기관 조사의뢰자 조사방법(피조사자선정법) 표본크 기 표본 오차 응답률 여론조사 결과 새누리당 서병수 [실제득표율 50.7%] 무소속 오거돈 [실제득표율 49.3%] 5.14~5.17 현대리서치연구소 JTBC 유·무선 전화면접+스마트폰 앱 (유·무선 RDD+스마트폰 앱 패널) 1,010 3.1 15.0 32.0 30.6 5.17 리얼미터 MBN 유선 전화면접 (유선 RDD) 610 4.0 14.0 47.6 32.6 5.17~5.19 TNS KOREA KBS, MBC, SBS 유·무선 전화면접 (유·무선 RDD) 814 3.4 11.9 39.6 34.2 5.19~5.20 케이에스리서치 일요서울 유선 ARS (KT DB) 980 3.8 3.8 53.6 33.6 5.20 중앙일보 조사연구팀 중앙일보 유·무선 전화면접 (유선 RDD+무선 RDD DB) 800 3.5 35.3 38.0 38.0 5.22~5.23 리서치한국 리서치한국 유선 ARS (KT DB) 820 3.3 4.6 48.6 25.0 5.22~5.23 아이디인큐 JTBC 유선 전화면접+ 스마트폰앱 (유선 RDD+스마 트폰앱 패널) 1,108 3.0 18.3 35.1 31.2 5.22~5.26 중앙일보 조사연구팀 중앙일보 유∙무선전화면접 (유∙무선 RDD) 700 3.7 32.7 42.5 32.6 5.23~5.24 마크로밀엠브레인 YTN 유·무선 전화면접 (유선 RDD+무선 패널) 759 3.6 24.5 31.9 35.8 5.23~5.24 에이스리서치 서울신문 유선 전화면접+스마트폰앱 (유선 RDD+KT DB+스마트폰앱 패널) 519 4.3 10.6 35.1 34.1 5.23~5.26 메트릭스코퍼레이션 매일경제 유·무선 전화면접 (유·무선 RDD+무선 DB) 600 4.0 19.1 32.7 40.1 5.24 한국갤럽 부산일보 유·무선 전화면접 (유선 RDD+무선 DB) 1,024 3.1 21.6 36.5 38.3 5.24~5.25 한길리서치센터 부산MBC 유선 전화면접 (유선 RDD) 1,070 3.1 18.7 36.7 32.6 5.26~5.27 리서치앤리서치 동아일보 유선 전화면접 (유선 RDD) 709 3.7 14.8 40.2 41.0 5.26~5.27 리서치앤리서치 국제신문 유∙무선전화면접 (유∙무선 RDD) 1,003 3.1 12.4 40.1 43.0 5.26~5.27 코리아리서치센터 한국일보 유∙무선 전화면접 (유∙무선 RDD) 705 3.7 14.9 39.3 42.3 5.26~5.28 TNS KOREA SBS, MBC 유·무선 전화면접 (유·무선 RDD) 502 4.4 11.2 36.9 39.8 5.27~5.28 밀워드브라운미디어리 서치 조선일보 유·무선 전화면접 (유·무선 RDD) 510 4.3 12.8 35.7 38.0 5.27~5.28 리얼미터 MBN 유·무선 전화면접 (유선 RDD+무선 DB) 937 3.2 18.1 44.2 42.5 5.27~5.28 아이디인큐 JTBC 유선전화면접+스마트폰앱 (유선 RDD+스마 트폰앱 패널) 1,147 3.0 19.9 33.9 36.0 5.27~5.28 리서치플러스 한겨레 유·무선 전화면접 (유선 RDD+무선 패널) 517 4.4 27.0 33.9 44.4 출처 : 중앙선거여론조사공정심의위원회, 2014년 9월'
  • 18. Ⅳ. 분석 결과 4) 부산시장 후보 여론조사 결과 그래프 30.6 32.6 34.2 33.6 38.0 25.0 31.2 32.6 35.8 34.1 40.1 38.3 32.6 41.0 43.0 42.3 39.8 38.0 42.5 36.0 44.4 49.3 32.0 47.6 39.6 53.6 38.0 48.6 35.1 42.5 31.9 35.1 32.7 36.5 36.7 40.2 40.1 39.3 36.9 35.7 44.2 33.9 33.9 50.7 0.0 10.0 20.0 30.0 40.0 50.0 60.0 현 대 리 서 치 연 구 소 리 얼 미 터 TNSKOREA 케 이 에 스 리 서 치 중 앙 일 보 조 사 연 구 팀 리 서 치 한 국 아 이 디 인 큐 중 앙 일 보 조 사 연 구 팀 마 크 로 밀 엠 브 레 인 에 이 스 리 서 치 메 트 릭 스 코 퍼 레 이 션 한 국 갤 럽 한 길 리 서 치 센 터 리 서 치 앤 리 서 치 리 서 치 앤 리 서 치 코 리 아 리 서 치 센 터 TNSKOREA 밀 워 드 브 라 운 미 디 어 리 서 치 리 얼 미 터 아 이 디 인 큐 리 서 치 플 러 스 실 제 득 표 율 5.14~5.17 5.17 5.17~5.195.19~5.20 5.20 5.22~5.235.22~5.235.22~5.265.23~5.245.23~5.245.23~5.26 5.24 5.24~5.255.26~5.275.26~5.275.26~5.275.26~5.285.27~5.285.27~5.285.27~5.285.27~5.28 6.4 무소속 오거돈 [실제득표율 49.3%] 새누리당 서병수 [실제득표율 50.7%] 출처 : 중앙선거여론조사공정심의위원회, 2014년 9월'
  • 19. Ⅳ. 분석 결과 6) 실제 선거결과 출처: 중앙선거관리위원회 선거통계시스템 시도명 선거인수 투표수 후보자별 득표율 무효투표수 대구 2,012,579 1,052,638 권영진(새누리) 581,175(55.95) 김부겸(새정치연합) 418,891(40.33) 14,019 부산 2,932,179 1,629,167 서병수(새누리) 797,926(50.65) 오거돈(무소속) 777,225(49.34) 54,016 5) 방송3사 출구조사 결과 지역 후보(결과) 차이 대구 권영진(55.6) 김부겸(41.5) 14.1 부산 서병수(51.8) 오거돈(48.2) 3.6 출처: 세계일보(2014/6/5) • JTBC 부산 출구조사 결과 서병수(46.3): 오거돈(53.7) 발표
  • 20. 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 1월 1주 1월 2주 1월 3주 1월 4주 1월 5주 2월 1주 2월 2주 2월 3주 2월 4주 2월 5주 3월 1주 3월 2주 3월 3주 3월 4주 3월 5주 3월 6주 4월 1주 4월 2주 4월 3주 4월 4주 4월 5주 5월 1주 5월 2주 5월 3주 5월 4주 5월 5주 "대구시장" +권영진 "대구시장" +김부겸 (누적)"대구시장" +권영진 (누적)"대구시장" +김부겸 대구시장 후보 TF*DI Ⅳ. 분석 결과 2. 대구시장 후보 TF*DI(1월 1주~5월 5주차) ① ② ③ ④ ⑤ ① 김부겸 대구시장 출마 시사, 새누리당 후보 경선. ② 권영진 예비후보 등록 및 새누리당 후보자 활동 ③ 새누리당 당내경선, 서상기 후보 출마 ④ 김부경 후보 박정희 컨밴션 공약, 새정치연합 기초공천 폐지 논 란, ⑤ 후보 양자구도, TV 토론회, ⑥ 김부겸 후보 딸(윤세인) 지원 유세 ⑥
  • 21. Ⅳ. 분석 결과 3. 대구시장 후보 T-value 0 0.1 0.2 0.3 0.4 0.5 0.6 1월1주 1월2주 1월3주 1월4주 1월5주 2월1주 2월2주 2월3주 2월4주 2월5주 3월1주 3월2주 3월3주 3월4주 3월5주 3월6주 4월1주 4월2주 4월3주 4월4주 4월5주 5월1주 5월2주 5월3주 5월4주 5월5주 권영진+대구시장 김부겸+대구시장 권영진+대구시장(누적) 김부겸+대구시장(누적) 대구시장 후보 T-Value •권영진 후보의 경우 2월 1주부터 증가하여 정보엔트로피가 50%대에 있으나, 김부겸 후보의 경우 초기 50%에서 점차 감소하여 3월 4주차에 약 40%까지 내려갔다가 43%대에 머무름 •1월달 권영진 후보가 김부겸 후보보다 낮은 것은 아직 후보등록을 하지 않아서이며, 2월 2주차에 들어서 권영진 후보의 값이 증가하는 것은 예비 후보를 등록했기 때문임
  • 22. Ⅳ. 분석 결과 4. 부산시장 후보 TF*DI 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 1월 1주 1월 2주 1월 3주 1월 4주 1월 5주 2월 1주 2월 2주 2월 3주 2월 4주 2월 5주 3월 1주 3월 2주 3월 3주 3월 4주 3월 5주 3월 6주 4월 1주 4월 2주 4월 3주 4월 4주 4월 5주 5월 1주 5월 2주 5월 3주 5월 4주 5월 5주 "부산시장" +서병수 "부산시장" +오거돈 (누적)"부산시장" +서병수 (누적)"부산시장" +오거돈 부산시장 후보 TF*DI ① 새정치연합 측 오거돈 후보 영입 논의, 1월 말 서병수 후보 출마, ② 서병수 후보 보좌관 비리, 청와대 입각 설, 새누리당 경선 방식 등의 이슈, ③ 민주당과 새정치연합 측 오거돈 후보 영입 노력, 오거돈 후보 무소속 등 록, ④ 서병수 후보 의원직 사퇴, TV토론회, 새누리당 경선⑤ 오거돈 후보 범시민후보단일화, 논문 표절 논란, ① ② ③ ④ ⑤
  • 23. Ⅳ. 분석 결과 6. 부산시장 후보 T-value 0 0.1 0.2 0.3 0.4 0.5 0.6 서병수+부산시장 오거돈+부산시장 서병수+부산시장(누적) 오거돈+부산시장(누적) T(당선 예측)값 오거돈 후보의 누적 T값의 차이를 살펴보면, 1월 2주 이후 서병수 후보에 비해 상대적으로 높은 T값을 보임. 서병수 후보의 경우 2월 5주차에서 3월 1주차 까지 누적 T값이 오거돈 후보보다 높다가 3월 2주차 부터 낮아짐. 그러나 4월 1주차부터 오거돈 후보보다 서병수 후보의 T값이 높아지면서 접전을 이룸
  • 24. Ⅳ. 분석 결과 7. 대구시장 후보 TF-DI와 실제 득표율 비교 대구시장 권영진 후보와 김부겸 후보의 5월 TF-DI 의 값과 실제 득표율과 비교하면, 권영진 후보의 경우 실제 득표율 이 55.95%이나 TF-DI 값은 이보다 높음(5월 1주 1.95%에서 5월 5주차 0.29% 차이). 반면 김부겸 후보의 경우, 실제 득표율은 40.33%이나 TF-DI 값이 더 높게 나옴(5월 1주 1.77%에서 5월 5주 3.43% 높게 나타남) 57.90% 58.02% 57.64% 56.99% 56.24% 55.95% 42.10% 41.98% 42.36% 43.01% 43.76% 40.33% 30.00% 35.00% 40.00% 45.00% 50.00% 55.00% 60.00% 5월 1주 5월 2주 5월 3주 5월 4주 5월 5주 실제득표율 권영진 김부겸
  • 25. Ⅳ. 분석 결과 8. 부산시장 후보 TF-DI와 실제 득표율 비교 부산시장 서병수 후보와 오거돈 후보의 5월 TF-DI 의 값과 실제 득표율과 비교하면, 서병수 후보의 경우 실제 득표율 이 50.65%이나 TF-DI 값은 이보다 높음(5월 1주 1.95%에서 5월 5주차 0.29% 차이). 반면 오거돈 후보의 경우, 실제 득표율은 49.34%로 TF-DI 값보다 높게 나옴(5월 1주 4.49%에서 5월 5주 2.81% 높게 나타남) 55.15% 54.71% 53.97% 53.81% 53.47% 50.65% 44.85% 45.29% 46.03% 46.19% 46.53% 49.34% 40.00% 42.00% 44.00% 46.00% 48.00% 50.00% 52.00% 54.00% 56.00% 5월 1주 5월 2주 5월 3주 5월 4주 5월 5주 실제득표율 서병수 오거돈
  • 26. Ⅳ. 분석 결과 9. 대구시장 후보 T-value와 실제 득표율 비교 대구시장 권영진 후보와 김부겸 후보의 5월 T-Value와 실제 득표율과 비교하면, 권영진 후보의 경우 실제 득표율이 55.95%이나 T-value 값은 이보다 낮게 나옴(5월 1주 1.97%에서 5월 5주차 3.10% 차이). 반면 김부겸 후보의 경우, 실 제 득표율은 40.33%이나 T-value 값이 더 높게 나옴(5월 1주 5.69%에서 5월 5주 6.82% 높게 나타남) 53.98% 54.07% 53.91% 53.48% 52.85% 55.95% 46.02% 45.93% 46.09% 46.52% 47.15% 40.33% 30.00% 35.00% 40.00% 45.00% 50.00% 55.00% 60.00% 5월1주 5월2주 5월3주 5월4주 5월5주 실제득표율 권영진 김부겸
  • 27. Ⅳ. 분석 결과 10. 부산시장 후보 T-value와 실제 득표율 비교 50.09% 50.09% 50.71% 50.54% 50.62% 49.34% 49.91% 49.91% 49.29% 49.46% 49.38% 50.65% 48.50% 49.00% 49.50% 50.00% 50.50% 51.00% 5월1주 5월2주 5월3주 5월4주 5월5주 실제득표율 오거돈 서병수 부산시장 서병수 후보와 오거돈 후보의 5월 T-value 의 값과 실제 득표율과 비교하면, 서병수 후보의 경우 실제 득표 율이 50.65%이나 T-value 값은 이보다 낮게 나옴(5월 1주 0.74%에서 5월 5주차 1.27% 차이). 반면 오거돈 후보의 경 우, 실제 득표율은 49.34%로 T-value가 더 높게 나옴(5월 1주 0.75%에서 5월 5주 1.28% 높게 나타남)
  • 28. Ⅴ. 결론 및 연구의 한계점 1. 결론 •TF-DI 분석과 정보 엔트로피(T-value) 분석 방법을 통해 2014년 대구∙부산 지방선거 후보자들의 선거예측 분석을 하였음 •TF-DI 분석결과와 T-value 분석결과를 실제투표 결과와 비교 분석 하였음 - TF-DI 분석결과 대구시장과 부산시장 후보의 분석결과와 실제 결과가 유사하게 나타남 - T-value 분석결과의 경우 대구시장 후보의 경우에는 당선결과에 대해서 는 맞으나 예측값에 차이가 있음. 부산시장의 경우에는 당선 예측이 틀림 •두 분석방법의 가중치 적용의 경우 단기간의 분석으로는 오차가 큼. 따라서 적정 가중치 적용을 위해 더 긴 기간의 분석이 요구됨 - TF-DI, T-value의 경우 1월 1주차부터 가중치를 적용하였으나 5월 한 달만으로 계산할 경우 값이 다르게 나옴
  • 29. Ⅴ. 결론 및 연구의 한계점 2. 연구의 한계점 • 이 연구에서 후보자를 선정할 때 2명의 후보만 선택하고 중도 탈락, 소수 득표 후보 등을 제외시켰다는 점 • 이 연구는 온라인 데이터에서 긍정과 부정 등 분석을 통해 가 중치를 적용하는 등 다양한 가중치 적용의 방법이 모색되어야 함 • 향후 온라인 데이터를 활용한 선거예측의 정확성을 높이기 위 해 다양한 분석방법 적용이 필요함
  • 30. 참고문헌 김영원∙ 김지원, 2007, “2006년 지방선거 출구조사 현황 및 예측오차,” 조사연구, 제8권 1호, 55~79쪽. 박용치, 2000, “선거예측에서 편의의 감소: 거짓응답을 중심으로,” 조사연구, 제1권 2호, 15~34쪽. 박한우, 2012, Mapping Election Campaigns Through Negative Entropy: Triple and Quadruple Helix Approach to South Korea’s 2012 Presidential Election, http://hanpark.net 송근원, 2011, “후보자 득표율 예측모형과 지표의 구성: 2010 광역단체장 선거를 중심으로,” 조사연구, 제12권 1호, 31~63쪽. 정근하, 2010, 텍스트마이닝과 네트워크 분석을 활용한 미래예측 방법 연구, 한국과학기술기획평가원 보고서 조성겸, 2009, “전화여론조사의 예측정확도 분석,” 조사연구, 제10권 1호, 57~72쪽. 중앙선거여론조사공정심의위원회, 2014, “지방선거 여론조사결과 및 득표율 비교정리표,” 홍내리∙ 허명회, 2001, “16대 국회의원 선거의 예측조사에 대한 사후검증.” 조사연구, 제2권 1호. 1~35쪽. GINSBERG, Jeremy, et al. 2008, Detecting influenza epidemics using search engine query data. Nature, 457(7232), 1012-1014 Lichtman, 2012 “The Keys to the White House: Prediction for 2012.” Social Education. 76(2). 57~61. 동아일보, 2012/12/21 세계일보, 2014/6/5 조선일보,2004/1/5 한겨레신문, 2012/4/8 중앙선거관리위원회 선거통계시스템(http://info.nec.go.kr. 검색일: 2014년 10월 13일)