** ITS와 유동인구 데이터를 활용한 교통 예측 모델 **
강변북로, 올림픽대로 두 도시고속도로의 구간별 속도를 예측하는 차별화된 모델을 만들기 위해 ITS데이터와 유동인구 데이터를 포함한 다양한 특징변수를 고려하여 신경망 알고리즘으로 지역별 교통 상황을 예측해본다.
7기 일반 정회빈
7기 일반 구민수
7기 일반 구유림
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
블로그: http://blog.naver.com/boazbigdata
페이스북: https://www.facebook.com/BOAZbigdata
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작
[분석] ITS와 유동인구 데이터를 활용한 교통 예측 모델
1. ITS와 유동인구데이터를 활용한
교통 예측 모델
BOAZ 7기
한양대학교 구민수
동덕여자대학교 구유림
중앙대학교 정회빈
─── 제6회 BOAZ Bigdata Conference
2. - 모델링 방법
- 모델링
01. 개요
02. 데이터
03. 모델링
04. 결론
참고자료
- 주제 및 동기
- 프로젝트 의의
- 데이터 수집
- 데이터 전처리
- 변수 선택
- 최종 데이터
- 예측결과
- 발전방향
Contents
ITS와 유동인구데이터를 활용한 교통 예측 모델
질의응답
4. 주제
ITS와 유동인구데이터를 활용한 교통 예측 모델 4
❖ ITS란 무엇인가?
사진 출처: 국가교통정보센터
- 지능형 교통 체계(Intelligent Transportation System)
- 교통수단 및 교통시설에 첨단 기술을 접목하여 교통 정보 및 서비스 제공
- 버스 도착 안내 시스템, 하이패스, 실시간 교통정보 등
5. 주제
ITS와 유동인구데이터를 활용한 교통 예측 모델 5
❖ 유동인구데이터?
사진 출처: Weclipart
- 특정지점, 일정시간 기준의 유입, 유출, 이동 인구 수
- 유동인구 ⊃ 통근인구
6. 주제
ITS와 유동인구데이터를 활용한 교통 예측 모델 6
❖ 최종 주제
서울특별시의 ITS와 유동인구데이터를 활용하여
강변북로와 올림픽대로의 교통 예측 모델 구축
사진 출처: (좌) Daum Blog / (우) Kooi View (Tistory)
올림픽대로강변북로
7. 주제 선정 동기
ITS와 유동인구데이터를 활용한 교통 예측 모델 7
❖ 강변북로와 올림픽대로를 선정한 이유
- 서울특별시의 484개 도로 전 구간 클러스터링
- 그 중 한 클러스터의 도로들은 비교적 혼잡도가 높은 편
- 강변북로와 올림픽대로 모두 그 클러스터에 포함
[강변북로와 올림픽대로의 특징]
- 서울특별시의 중심부를 지남
- 한강을 사이에 두고 서울특별시의 남북 통행을 가능하게 함
- 두 도로를 이용하면 서울특별시의 동서 뿐만 아니라
수도권까지 이어줌
클러스터
강변북로
경부고속도로
경인고속도로
내부순환로
동부간선도로
벌말로
북부간선도로
분당수서로
올림픽대로
용마터널
자유로
강남순환로
* 클러스터링의 기준
- 서울특별시 484개 도로 + 도시고속도로 등
- K-means 클러스터링
- 전체 거리와 시간별 평균속도 이용
- 총 10개의 클러스터 중 10번째 클러스터
8. 프로젝트 의의
ITS와 유동인구데이터를 활용한 교통 예측 모델 8
❖ 프로젝트 실행목적
혼잡도가 비교적 높은 두 도시고속도로의 속도를 예측하여
미래 특정 입력변수 값을 설정하면 교통 상황을 알려주는 모델을 구축해보자
10. 데이터 수집
ITS와 유동인구데이터를 활용한 교통 예측 모델 10
❖ 데이터 수집 경위
- 서울시열린데이터광장, TOPIS(서울특별시 교통정보센터), 기상청 등 공공기관의 데이터를 주로 사용
- Raw Data가 존재하지 않으면 수작업으로 데이터 생성
- 네이버지도를 이용한 구간 측정
11. 데이터 전처리
ITS와 유동인구데이터를 활용한 교통 예측 모델 11
❖ 데이터 전처리 과정
- 필요에 따라 연속형 변수 → 범주형 변수로 변경
- 연속형 입력변수에 *MIN-MAX Normalization 적용
- 종사자 수 데이터에 직접 만든 *가중치를 적용하여 의미 도출
- 결측치 처리: speed, traffic → 시간, 평일/휴일/명절, 구간별 중위수로 대체
* MIN-MAX Normalization
* 가중치 모형
- 시간, 요일 가중치를 교통수단 이용실태 조사보고서 자료를 이용하여 계산
12. 변수 선택
ITS와 유동인구데이터를 활용한 교통 예측 모델 12
❖ EDA(Exploratory Data Analysis, 탐색적 자료 분석)
- 자료를 이론적인 모델이나 틀에 적용하기 보다는 데이터를 있는 그대로 보여주는데
중점을 맞춰서 데이터 스스로 말하도록 유도하는 분석법
변수의 중요도를 알아보기 위해 시각화 진행
사진 출처: Software Carpentry
13. 변수 선택
ITS와 유동인구데이터를 활용한 교통 예측 모델 13
❖ EDA
- 평균 vs 중위수 → ‘중위수’ 선택
Usage
평균,
표준편차
중위수,
범위
데이터 등간, 비율척도 편포, 서열척도
분포 정규분포 비정규분포
[graph]
- Title: 구간별 시간별 속도 분포
- x: speed, y: density
- 강변북로 상행 / 하행, 올림픽대로 상행 / 하행
14. 변수 선택
ITS와 유동인구데이터를 활용한 교통 예측 모델 14
❖ EDA
- 도로, 방향별 중위속도 비교
[graph]
- Title: 도로별 중위속도 비교
- x: time, y: speed
- 강변북로 / 올림픽대로
[graph]
- Title: 도로, 방향별 중위속도 비교
- x: time, y: speed
- 강변북로 상행 / 하행, 올림픽대로 상행 / 하행
15. 변수 선택
ITS와 유동인구데이터를 활용한 교통 예측 모델 15
❖ EDA
- 요일별 / 평일, 명절, 휴일의 중위속도 비교
[graph]
- Title: 요일별 중위속도 비교
- x: time, y: speed
- 월 / 화 / 수 / 목 / 금 / 토 / 일
[graph]
- Title: 평일, 명절, 휴일의 중위속도 비교
- x: time, y: speed
- 평일 / 명절 / 휴일
16. 변수 선택
ITS와 유동인구데이터를 활용한 교통 예측 모델 16
❖ EDA
- 진입로 / 진출로 존재 여부에 따른 중위속도 비교
[graph]
- Title: 진입로 존재 여부에 따른 중위속도 비교
- x: time, y: speed
- 0: 없음 / 1: 있음
[graph]
- Title: 진출로 존재 여부에 따른 중위속도 비교
- x: time, y: speed
- 0: 없음 / 1: 있음
17. 변수 선택
ITS와 유동인구데이터를 활용한 교통 예측 모델 17
❖ EDA
- 교차로 존재 여부 / 돌발상황 발생에 따른 중위속도 비교
[graph]
- Title: 교차로 존재 여부에 따른 중위속도 비교
- x: time, y: speed
- 0: 없음 / 1: 있음
[graph]
- Title: 돌발상황 발생시 중위속도 비교
- x: time, y: speed
- 공사 / 사고 / 정상 / 통제 / 행사
18. 변수 선택
ITS와 유동인구데이터를 활용한 교통 예측 모델 18
❖ EDA
- 강수 여부 / CCTV 존재 여부에 따른 중위속도 비교
[graph]
- Title: 강수 여부에 따른 중위속도 비교
- x: time, y: speed
- 0: 비, 눈이 시간당 30mm 미만 강수
1: 비, 눈이 시간당 30mm 이상 강수
[graph]
- Title: CCTV 존재 여부에 따른 중위속도 비교
- x: time, y: speed
- 0: 없음 / 1: 있음
19. 변수 선택
ITS와 유동인구데이터를 활용한 교통 예측 모델 19
❖ 예측변수 중요도
- 대상: speed (구간별 평균 속도)
- 강변북로, 올림픽대로 전체 구간 모델링 했을 때의 결과 (상위 10개 변수)
0 0.05 0.1 0.15 0.2
direction
day
cctv_n
workers_n
distance_n
rainfall_n
traffic_n
time
section
workers_w_n
예측변수 중요도
20. 최종 데이터
ITS와 유동인구데이터를 활용한 교통 예측 모델 20
❖ 최종 데이터 변수
- 전체 17개 필드, 806,395 레코드
- 2016년도 기준 데이터
변수이름 설명 값 유형
speed (대상) 구간별 차량통행속도 [7.5, 118] (km/h) 연속형
workers_w_n 종사자 수에 시간과 평일/휴일에 따른 가중치를 부여하고 [0,1] 값으로 변환 연속형
section 강변북로, 올림픽대로의 모든 구간명
천호대교북단-올림픽대교북단,
…, 올림픽대교남단-천호대교남단
범주형
time 하루 24시간을 1시간 단위로 나눔 00~01, 01~02, …, 23~24 범주형
traffic_n 교량통행량을 [0,1] 값으로 변환 연속형
distance_n 구간 길이를 [0,1] 값으로 변환 연속형
workers_n 종사자 수를 [0,1] 값으로 변환 연속형
cctv_n CCTV 개수를 [0,1] 값으로 변환 연속형
day 요일 월, 화, 수, 목, 금, 토, 일 범주형
direction 구간 방향 상행, 하행 범주형
- 상위 10개 이외 IN(진입로 존재 여부), OUT(진출로 존재 여부), CROSS(교차로 존재 여부), day_cat(평일/휴일/명절 구분),
Ac_repair(공사 여부), Ac_event(행사 여부), rainfall_cat(시간당 강수량을 30mm 기준으로 구분), mm(월), dd(일)
21. 최종 데이터
ITS와 유동인구데이터를 활용한 교통 예측 모델 21
변수이름 설명
workers_w_n 통근인구를 표현하기 위해 종사자 수에 시간별 평일/휴일별 가중치 부여
traffic_n 교통량을 간접적으로 추정하기 위한 한강의 교량통행량데이터
rainfall_cat
강수량이 *일정 수준 이상일 때 도로 상황에 끼치는 영향을 파악하기 위한 강수량 여부
*일정 수준: 시간당 30mm 이상의 강수인지의 여부
❖ 특징변수
- 다른 모델과 차별화하기 위해 생성한 변수
- raw 데이터를 목적에 맞게 가공
22. 최종 데이터
ITS와 유동인구데이터를 활용한 교통 예측 모델 22
❖ 특징변수 ─ workers_w_n
- workers_w_n = (종사자수) x (시간 가중치) x (평일/휴일 가중치)
- 서울시 교통수단이용실태 조사자료를 가중치 근거로 이용
구별 인구수 (단위: 명) 서울자치구별 기업 분포 수
23. 최종 데이터
ITS와 유동인구데이터를 활용한 교통 예측 모델 23
❖ 특징변수 ─ workers_w_n
구별 인구수 (단위: 명) 서울자치구별 기업 분포 수
* 교차통근형
- 유·출입 통근량 모두 전국 평균 이상
* 성장형
- 유출통근량 전국 평균 이하, 유입통근량 전국 평균 이상
- 용산구, 성동구, 광진구, 마포구, 강서구, 서초구, 송파구 → *교차통근형
- 영등포구, 강남구 → *성장형
25. 메인 모델링 ── 신경망
ITS와 유동인구데이터를 활용한 교통 예측 모델 25
❖ 신경망이란?
- 모델 구조 및 가정에서 최소의 요구를 가지고 있는 광범위한 예측 모델과 근사
- 모델 해석가능성이 낮지만 좋은 예측력을 확보할 수 있음
사진 출처: Neural Net Works and Deep Learning
26. 모델링
ITS와 유동인구데이터를 활용한 교통 예측 모델 26
❖ 대상
- 모든 구간을 ‘강변북로 상행‘, ‘강변북로 하행‘, ‘올림픽대로 상행‘, ‘올림픽대로 하행’으로 나누어 진행
[상세구간]
- 강변북로 상행: 천호대교북단 ~ 가양대교북단
- 강변북로 하행: 가양대교북단 ~ 천호대교북단
- 올림픽대로 상행: 천호대교남단 ~ 가양IC
- 올림픽대로 하행: 가양IC ~ 천호대교남단
천호대교북단 천호대교남단가양대교북단 가양IC
올림픽대로강변북로
27. Presentation title 27
데이터 파티션 데이터 필터링 데이터 유형 모델링 분석
데이터
강변북로 상행
강변북로 하행
올림픽대로 상행
올림픽대로 하행
Training: 80%
Testing: 20%
파티션
데이터 필터링
사용할 변수 설정
최종 변수 유형 설정
데이터 유형
모델링
신경망
선형회귀
CART
CHAID
모델링
❖ 전체 과정
28. 모델링
ITS와 유동인구데이터를 활용한 교통 예측 모델 28
❖ 연속형 대상: speed
- IBM SPSS Modeler를 사용해 모델링
- 신경망 / 선형회귀 / *CHAID / *CART를 사용하여 모델링 및 각각의 MSE를 비교
* CHAID(Chi-squared Automatic Interaction Detection)
- 카이제곱 검정(이산형 목표변수) 또는 F-검정(연속형 목표변수)을 이용하여
다지분리(multiway split)를 수행하는 알고리즘
* CART
- 이진트리구조로 모형 형성
- 목표변수를 가장 잘 설명하는 설명변수와 그 분리시점을 탐색하여
노드의 다양성을 가장 많이 줄이는 설명변수를 선택하는 알고리즘
30. 예측결과
ITS와 유동인구데이터를 활용한 교통 예측 모델 30
❖ 연속형 대상: speed
- 모델 비교 값은 *MSE를 사용
- 네 구간별 모델 비교 중 MSE가 낮은 모델이 유리 → 신경망이 현저히 낮음
MSE Neural Network
Linear
Regression
CART CHAID
강변북로 상행 91.05571 188.002 151.7986 202.5742
강변북로 하행 102.1669 206.6991 269.398 266.7538
올림픽대로 상행 90.3808 203.9413 197.0772 197.5093
올림픽대로 하행 73.68161 171.8181 198.8982 164.5112
* MSE(Mean Square Error, 평균제곱오차)
- 예측값데이터 오차의 제곱을 인스턴스의 개수로 나눈 것
- 제대로 된 평가를 하기 위해 양의 수치를 얻어내려고 제곱
31. 예측결과
ITS와 유동인구데이터를 활용한 교통 예측 모델 31
- 신경망 예측치에 비교 기준을 추가하여 적중률을 봄
[기준]
- 5km/h : 예측값이 참값에서 ±5km/h 이내에 들어있는 비율
- 10km/h : 예측값이 참값에서 ±10km/h 이내에 들어있는 비율
- 15km/h : 예측값이 참값에서 ±15km/h 이내에 들어있는 비율
- CAT/h : 예측값과 참값을 원할/서행/지체로 구분했을 때 일치하는 비율
Neural Network ±5km/h ±10km/h ±15km/h CAT
강변북로 상행 0.49477 0.77238 0.893935 0.823673
강변북로 하행 0.498496 0.755477 0.874181 0.80484
올림픽대로 상행 0.564223 0.796893 0.896179 0.821182
올림픽대로 하행 0.574616 0.804458 0.908458 0.833999
❖ 연속형 대상: speed
32. 발전방향
ITS와 유동인구데이터를 활용한 교통 예측 모델 32
❖ 모델 활용성 강화
- 시간, 구간별 목적지를 설정하여 소요시간 예측
⇒ 통행하기 효율적인 시간대 탐색 가능
⇒ 통행소요시간에 대한 정보를 제공해주어 시간 절약 극대화
❖ 데이터 확장
- 다른 접경의 도로들을 추가
⇒ 지역적인 특징과 영향을 좀 더 자세하게 알 수 있음
⇒ 서울특별시 이외의 지역적 범위 확대 가능
❖ 새로운 정책 신설
- 국가적 혹은 지역적인 정책 개발
⇒ 목적통행 인구를 위한 효과적인 도로통행 정책 개발 가능성
⇒ 지하철, 버스 노선 등 대중교통 정책 수립에 도움
33. 참고자료
ITS와 유동인구데이터를 활용한 교통 예측 모델 33
❖ 참고문헌
Neural Networks and Deep Learning by By Michael Nielsen / May 2017
교통상황 예측 모델을 위한 딥러닝 신경망 네트워크 / 이홍석, 정희진, 유병용 / 한국정보과학회 학술발표논문집 / 2016.12
기상인자와 RNN을 이용한 딥러닝 기반의 강수예측 / 김희언, 배태석, 신지민, 한국측량학회 학술대회자료집 / 2017.4
딥러닝 기법에 기반한 인터넷 상점 클릭스트림 데이터를 통한 구매 예측 / 김기태 / 한양대학교 대학원 학위논문(석사) /
2016.2
대중교통 이용자 통행 패턴 기반 서울지역 대생활권 분류 : 딥러닝 모형을 이용하여 / 한가인 / 중앙대학교 대학원 학위논
문(석사) / 2016.8
스마트 카드 데이터를 통한 버스 수요 예측에 관한 연구 : 딥러닝을 활용하여 / 백정한 / 중앙대학교 대학원 학위논문(석사)
/ 2016.2
2015 서울 유동인구 조사보고서 / 한국정보화진흥원 / 서울특별시
2016 서울특별시 교통량 조사자료 / 도시교통본부 / 서울특별시
2015 교통수단 이용실태조사 / 한국교통연구원
2015 교통수단 자가용 이용실태조사 / 한국교통연구원
2015 서울시 사업체 보고서 / 서울특별시
인구주택총조사 자료를 활용한 도시 간 통근유형 분석 / 박시내 / 2014
2015년도 국가교통조사 및 DB구축사업 교통수단 이용실태조사 / 한국교통연구원 / 2015.12
교통 통계 정보를 이용한 속도 패턴 예측에 관한 연구 / 최보승, 강현철, 이성건, 한상태 / 2009.10
ITS 데이터를 활용한 도심 구간의 정체도 예측 / 서해윤, 오세도, 김영진 / 2012 외 다수
❖ 참고사이트
ITS국가교통정보센터 (http://www.its.go.kr)
서울 열린데이터 광장 (http://data.seoul.go.kr)
네이버지도 (http://map.naver.com)
TOPIS(http://topis.seoul.go.kr/) 외 다수
34. 질의응답
ITS와 유동인구데이터를 활용한 교통 예측 모델
제6회 BOAZ Bigdata Conference
7기
한양대학교 구민수
동덕여자대학교 구유림
중앙대학교 정회빈
│
│