SlideShare a Scribd company logo
1 of 26
Download to read offline
빅데이터 기술전문가 7기 2조
(범죄 예상/추이/예방, 기반시설 환경과
범죄와의 상관관계)
멘토 : 심탁길 강사님
조원 : 김대훈(조장)
이상민
정용주
최기웅
노현주
목차
1. 개요
2. 개발 일정별 진도
3. Eco system의 설치 및 설정
4. Node별 서비스 구성
5. 사용된 기술
6. 데이터 수집 - 테이블 목록
데이터 수집 - CCTV 위치정보
데이터 수집 - SNS (Twitter)
7. 주소 좌표 변환 작업
8. R을 사용한 시각화
9. 기타 - 서울시 정보보호 정책
부분별 기능 및 진행사항
향후 일정 및 기대효과
1.개요
(1) 설명 : 기반시설 환경(CCTV 및 경찰서의 위치)의 범죄 사각지대를 확인하여
시설 확충으로 범죄를 예방, 더 나아가 범죄자의 거주 위치와 범죄
트랜드를 분석하여 기반시설과 범죄율과의 상관관계를 발굴하고자 함
(2) 환경구성 : CDH5 (Cloudera)
HDFS, Hive, HBase, Hue, Oozie, Solr, Spark ,Sqoop, ZooKeeper
,Impala,Key-Value Store Indexer, YARN (MR2 Included)
(3) 프로세스 :
R ggmap을 통한 시각화
or JSP를 통한 시각화
HIVE
or HBASE
1
정보 수집
경찰서/지구대 정보
CCTV 위치 정보
인구수, 범죄율 정보 등
추가 자료 수집 필요
Yes
No
2
3
분석 및 시각화에 필요한 정보 수집
수집한 정보를 HIVE 또는 HBASE 에 저장
추가 수집이 필요하면 재 정보수집( )
R 의 ggmap 기능을 사용하여 지도상에
분석데이터의 시각화
또는
JSP 를 사용하여 CCTV위치를 시각화하여
범죄 사각지대 예측지역 발굴
1
2
3
1
2.개발 일정별 진도
단계 세부업무
6월 7월 8월
w1 w2 w3 w4 w5 w6 w7
기획/분석
분석/정의/기획
기술 적용 테스트
설계
데이터 모델링
공공/SNS 데이터 저장소 설계
분석 패턴 정의
구현
BigData eco system 설치
Hadoop 저장 / HIVE 구현
Hadoop 저장 데이터 추출
분석 진행
R 개발 , UI/UX 개발
테스트
단위/ 통합 테스트
안정화
산출물 작성, 발표 준비
마일스톤
: 완료 : 예정
중간보고 종료보고
- Cloudera CDH5의 설치 및 환경설정을 통한 시스템 안정화
3. Eco system의 설치 및 설정
환경설정을 통한
시스템 안정화
4.Node별 서비스 구성
- Cloudera CDH5의 노드별 설치된 서비스
Flume
Hbase
Region Server
DataNode
Hive Gateway
Impala
Spark Worker
Yarn (Node Manager)
Zookeeper Server
Hbase Thrift Server
HDFS Secondary
NameNode
Hbase Master Sqoop
Hue Server
HiveServer2
Solr Server
Oozie Server Spark
Yarn
Impala
CDH Service
CDH Service
Name Node
Hive Metastore
5. 사용된 기술
- Cloudera CDH5를 기반으로 다음 기술을 사용
SEQ 기술명 내용
1 CDH5 (Cloudera) Eco system
2 HIVE 경찰서, 학교, CCTV 위치, 트위터 데이터 저장
3 FLUME 범죄 관련 키워드로 Twitter 글 데이터 수집
4 R (rhive , ggmap) 시각화 및 분석
5 JSP (naver 지도 API) 경찰서, 학교, CCTV 위치를 시각화
6
Informatica
Data Transformation
PDF , HWP문서에서 TEXT를 추출하여 CSV로 변환
7 ㈜지오서비스 – 지오코더 주소변환 서비스
- HIVE에 생성되고 수집된 테이블
6.데이터수집 - 테이블 목록
SEQ 테이블명 테이블 한글명 파일(전체건수) 수집건수
1 tb_cctv_loc 서울시 cctv 위치 8586 1759
2 tb_police_loc 경찰서,지구,방범대 위치 3081 3081
3 tb_school_loc 학교,유치원 등 위치 21201 19642
4 tb_seoul_addr 서울 주소(지번,도로명) 589564 589564
5 tb_main_store 주요상권 위치 26738 0
6 tweets 트위터 (범죄 키워드) - -
- 서울시의 각 지역구별 CCTV 설치 현황
6.데이터수집 - 지역구별 CCTV 현황
SEQ 지역구 CCTV대수 SEQ 지역구 CCTV대수 SEQ 지역구 CCTV대수
1 강남구 821 10 용산구 423 19 종로구 269
2 은평구 572 11 마포구 372 20 동작구 250
3 중구 558 12 서초구 352 21 중랑구 196
4 영등포구 542 13 강서구 347 22 금천구 172
5 구로구 540 14 동대문구 337 23 서대문구 172
6 관악구 532 15 성북구 322 24 도봉구 162
7 광진구 519 16 강동구 319 25 송파구 108
8 양천구 489 17 노원구 293 26
9 강북구 447 18 성동구 293 27
- CCTV 시설 위치 정보의 수집
6.데이터수집 - CCTV 위치정보
1) 각 구청에 CCTV정보요청 2) PDF , HWP 파일로 정보 수집
3) XLS 파일로 변환
TEXT 추출
(PDF Parser)
TEXT 추출
- HWP, PDF 형식의 CCTV 시설 위치 파일을 TEXT로 추출하여 HIVE에 저장
인포메티카의 PDF Parser 를 사용하여 텍스트 추출
Parsing 로직
6.데이터수집 - CCTV 위치정보
- HIVE에 기반시설 위치 데이터 저장
6.데이터수집 - CCTV 위치정보
- 범죄 관련 keyword를 사용하여 SNS 글 데이터 수집
6.데이터 수집 - SNS (Twitter)
- HIVE에 Twitter 데이터를 저장
6.데이터 수집 - SNS (Twitter)
HDFS
HIVE에서 Query 조회
- 도로명 주소 전환 서비스와 지오코더(㈜지오서비스의 주소좌표 변환툴)을 사용
(비상업적인 용도에 한해서 자유롭게 사용할 수 있는 주소 좌표 변환 툴)
7.주소 좌표 변환 작업
< 지번 주소에서 도로명 주소로 전환 > < 좌표 변환 프로그램 >
- WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시
경찰서/방범대/치안센터/CCTV의 설치 위치 ( 강남구 개포/대치 )
8.시각화 - R(web)
- WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시
경찰서/방범대/치안센터/CCTV의 설치 위치 ( 강남구 개포/대치 )
8.시각화 - R(web)
Zoom-In
- WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시
범죄에 취약한 학교/유치원을 발굴하기 위한 포인트 설정 ( 강남구 개포/대치 )
8.시각화 - R(web)
Zoom-In
- 학교/유치원의 위치와 CCTV/경찰서의 위치를 비교하여 사각지대 발굴
- 범죄에 상대적으로 취약한 학교/유치원 인근을 발굴
8.시각화 - R(web)
CCTV가 필요한 곳!!!
< CCTV / 경찰서 위치 >< 학교 / 유치원 위치 >
- R스튜디오 클라이언트로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시
8.시각화 - R(pc)
- Naver 지도API와 Jsp (ajax)를 사용하여 CCTV 위치를 지도에 표시.
8.시각화 - JSP
반경 50m
- 네이버 카페를 통한 원활한 정보 공유
9.기타 - 팀원간 정보 공유
9.기타 - 서울시 정보보호 정책
○ 정책적인면에서 CCTV 데이터 수집
1) 국가정보공유포털(www.data.go.kr) 에서 각 지자체의 cctv 데이터를
확보하려 하였으나 대부분 미공개인 상태
2) 국가정보공유포털에 cctv 위치공개 2회에 걸친 요청
답변) 1회 - 범죄목적으로 악용될 수 있으므로 불가
2회 - 각 지자체의 자산이라 불가
3) 서울시 보안정책 담당관에서 유선상 문의
답변) 범죄목적으로 악용될 수 있으므로 불가
4) CCTV의 개인정보 보호법에 대한 항목과 서울시 정보공개법 제9조 제1항
제2호에 대한 사항으로 대한민국 정보공개 포털 (http://wonmun.open.go.kr/)
에 정보 공유 요청 (서울시 홈페이지 정보공개관련 규정참고 )
하여 15일만에 서울시의 24개 지자체 CCTV 데이터 확보 하였으나 포맷이
일정치 않아 데이터 변환에 어려움이 있었음.
9.기타 - 서울시 정보보호 정책
5) 서울시 정보보호 관계법령
9.기타 - 부분별 기능 및 진행사항
○ 진행사항
1) 서울시 각 관할구청에서 방범용,어린이보호용 CCTV 위치 주소를 PDF,
HWP 형태로 받아 TXT로 Parsing하여 한글주소명을 위/경도 좌표
로 변환 (네이버 API)하여 HIVE에 저장.
2) 경찰서와 지구대 위치 정보를 HIVE에 저장.
3) Flume 으로 범죄 관련 SNS 글 수집.
4) R과 RHIVE를 연동하여 GGMAP으로 CCTV위치를 지도에 표시.
5) CCTV 사각지대 발굴(특정 학교 주변 이나 주요상권주변에 cctv 나
경찰서 부재를 발굴)
6) JSP로 CCTV 반경 50M 표시
9.기타 - 향후 일정 및 기대효과
○ 향후 기대 일정
1) 서울시의 구/동별 인구수 및 범죄율 데이터 수집
2) 지역구별 SNS 범죄 관련 글의 빈도율 분석
3) 경찰서,지구대,CCTV와 인구,범죄율의 상관관계 분석
4) D3.JS 와 twitter의 bootstrap을 사용한 시각화
결과 - 인구수,범죄율과 사회 안전 기반시설의 상관관계를 R의 GGMAP에
표시
○ 기대효과
1) 범죄 사각지대를 발굴하여 사회안전시설을 확충하도록 유도
2) 일반에게 공개하여 안전한 길로 보행하도록 유도
3) 범죄에 취약한 어린이 보호구역의 감시 강화 유도
- 결과적으로 지역의 안전성을 향상시켜 범죄율을 낮추고자 함

More Related Content

Viewers also liked

빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)성호(Kevin) 나
 
빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1Kangwook Lee
 
Frieday: order chicken like a game.
Frieday: order chicken like a game.Frieday: order chicken like a game.
Frieday: order chicken like a game.Heechan Bak
 
트렌드분석사례 마인즈랩 축제페스티벌
트렌드분석사례 마인즈랩 축제페스티벌트렌드분석사례 마인즈랩 축제페스티벌
트렌드분석사례 마인즈랩 축제페스티벌Taejoon Yoo
 
20141214 빅데이터실전기술 - 유사도 및 군집화 방법 (Similarity&Clustering)
20141214 빅데이터실전기술 - 유사도 및 군집화 방법 (Similarity&Clustering) 20141214 빅데이터실전기술 - 유사도 및 군집화 방법 (Similarity&Clustering)
20141214 빅데이터실전기술 - 유사도 및 군집화 방법 (Similarity&Clustering) Tae Young Lee
 
Conncected Car & Smart Home based on IoT
Conncected Car & Smart Home based on IoTConncected Car & Smart Home based on IoT
Conncected Car & Smart Home based on IoTSungHyuk Park
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 
[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & KaggleElle Chung
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개Gruter
 
BigData, Hadoop과 Node.js, R2
BigData, Hadoop과 Node.js, R2BigData, Hadoop과 Node.js, R2
BigData, Hadoop과 Node.js, R2고포릿 default
 
Neural stream
Neural streamNeural stream
Neural streamMk Kim
 
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스Teddy Choi
 
Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)Teddy Choi
 
개발자를 위한 R로 wordcloud 10분만에 만들기
개발자를 위한 R로 wordcloud 10분만에 만들기개발자를 위한 R로 wordcloud 10분만에 만들기
개발자를 위한 R로 wordcloud 10분만에 만들기동철 박
 
빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)Kangwook Lee
 
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템FAST CAMPUS
 
[2014 PAG 비즈니스 플랫폼데이] IoT 비즈니스 스타트업을 위한 IBM Bluemix
[2014 PAG 비즈니스 플랫폼데이] IoT 비즈니스 스타트업을 위한 IBM Bluemix[2014 PAG 비즈니스 플랫폼데이] IoT 비즈니스 스타트업을 위한 IBM Bluemix
[2014 PAG 비즈니스 플랫폼데이] IoT 비즈니스 스타트업을 위한 IBM BluemixVentureSquare
 

Viewers also liked (20)

빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
 
R_datamining
R_dataminingR_datamining
R_datamining
 
빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1
 
Frieday: order chicken like a game.
Frieday: order chicken like a game.Frieday: order chicken like a game.
Frieday: order chicken like a game.
 
트렌드분석사례 마인즈랩 축제페스티벌
트렌드분석사례 마인즈랩 축제페스티벌트렌드분석사례 마인즈랩 축제페스티벌
트렌드분석사례 마인즈랩 축제페스티벌
 
RHive tutorial - Installation
RHive tutorial - InstallationRHive tutorial - Installation
RHive tutorial - Installation
 
20141214 빅데이터실전기술 - 유사도 및 군집화 방법 (Similarity&Clustering)
20141214 빅데이터실전기술 - 유사도 및 군집화 방법 (Similarity&Clustering) 20141214 빅데이터실전기술 - 유사도 및 군집화 방법 (Similarity&Clustering)
20141214 빅데이터실전기술 - 유사도 및 군집화 방법 (Similarity&Clustering)
 
Conncected Car & Smart Home based on IoT
Conncected Car & Smart Home based on IoTConncected Car & Smart Home based on IoT
Conncected Car & Smart Home based on IoT
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle[패스트캠퍼스]영화 관객수 예측 & Kaggle
[패스트캠퍼스]영화 관객수 예측 & Kaggle
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
 
BigData, Hadoop과 Node.js, R2
BigData, Hadoop과 Node.js, R2BigData, Hadoop과 Node.js, R2
BigData, Hadoop과 Node.js, R2
 
Neural stream
Neural streamNeural stream
Neural stream
 
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
3회 서울 Hadoop 사용자 모임 / 아파치 피닉스
 
Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)
 
개발자를 위한 R로 wordcloud 10분만에 만들기
개발자를 위한 R로 wordcloud 10분만에 만들기개발자를 위한 R로 wordcloud 10분만에 만들기
개발자를 위한 R로 wordcloud 10분만에 만들기
 
빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)
 
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
[패스트캠퍼스] 데이터 사이언스 스쿨 조용환_영화 관객수 예측 시스템
 
Apache sqoop
Apache sqoopApache sqoop
Apache sqoop
 
[2014 PAG 비즈니스 플랫폼데이] IoT 비즈니스 스타트업을 위한 IBM Bluemix
[2014 PAG 비즈니스 플랫폼데이] IoT 비즈니스 스타트업을 위한 IBM Bluemix[2014 PAG 비즈니스 플랫폼데이] IoT 비즈니스 스타트업을 위한 IBM Bluemix
[2014 PAG 비즈니스 플랫폼데이] IoT 비즈니스 스타트업을 위한 IBM Bluemix
 

Similar to 기술7기 2조

빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종bigdatacampus
 
LH Smartcity for osgeo
LH Smartcity for osgeoLH Smartcity for osgeo
LH Smartcity for osgeossuser3b2776
 
Lh smartcity for_osgeo
Lh smartcity for_osgeoLh smartcity for_osgeo
Lh smartcity for_osgeossuser3b2776
 
2015년 정보화사업설명회 ver4
2015년 정보화사업설명회 ver42015년 정보화사업설명회 ver4
2015년 정보화사업설명회 ver4yooncom
 
LITBiz LBS, GIS Solution
LITBiz LBS, GIS SolutionLITBiz LBS, GIS Solution
LITBiz LBS, GIS SolutioneLITeLIT
 
2020 k hackers-startup club_presentation_final version.pptx
2020 k hackers-startup club_presentation_final version.pptx2020 k hackers-startup club_presentation_final version.pptx
2020 k hackers-startup club_presentation_final version.pptx승형 이
 
융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.Chanjin Park
 
IoT 공통플랫폼의 구축 및 활용전략
IoT 공통플랫폼의 구축 및 활용전략IoT 공통플랫폼의 구축 및 활용전략
IoT 공통플랫폼의 구축 및 활용전략Youn Sang Jang
 
[경북] I'mcloud opensight
[경북] I'mcloud opensight[경북] I'mcloud opensight
[경북] I'mcloud opensightstartupkorea
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)동학 노
 
(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급
(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급
(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급gilgil1973
 
실감영상 에트리
실감영상 에트리실감영상 에트리
실감영상 에트리JM code group
 
8월 24일 인공지능사업화 세미나: 로봇 어드바이저리 - 크래프트 테크놀로지스
8월 24일 인공지능사업화 세미나: 로봇 어드바이저리 - 크래프트 테크놀로지스8월 24일 인공지능사업화 세미나: 로봇 어드바이저리 - 크래프트 테크놀로지스
8월 24일 인공지능사업화 세미나: 로봇 어드바이저리 - 크래프트 테크놀로지스HELENA LEE
 
[NetSec-KR 2018] 2017 정보보호 R&D 데이터 챌린지를 통해 살펴본 Data-Driven Security
[NetSec-KR 2018] 2017 정보보호 R&D 데이터 챌린지를 통해 살펴본 Data-Driven Security[NetSec-KR 2018] 2017 정보보호 R&D 데이터 챌린지를 통해 살펴본 Data-Driven Security
[NetSec-KR 2018] 2017 정보보호 R&D 데이터 챌린지를 통해 살펴본 Data-Driven SecurityKorea University
 
[WeFocus] 한국가상증강현실산업협회_VR/AR 지식재산권 보호 세미나_FSTS(From Startup To Scaleup) 특허 전략...
[WeFocus] 한국가상증강현실산업협회_VR/AR 지식재산권 보호 세미나_FSTS(From Startup To Scaleup) 특허 전략...[WeFocus] 한국가상증강현실산업협회_VR/AR 지식재산권 보호 세미나_FSTS(From Startup To Scaleup) 특허 전략...
[WeFocus] 한국가상증강현실산업협회_VR/AR 지식재산권 보호 세미나_FSTS(From Startup To Scaleup) 특허 전략...Luke Sunghyun Kim
 
WiFi에서의 위치 기반 서비스
WiFi에서의 위치 기반 서비스WiFi에서의 위치 기반 서비스
WiFi에서의 위치 기반 서비스JAE PIL KO
 
스마트 폰 보급으로 새로운 전기를 맞는 Indoor gps 기술
스마트 폰 보급으로 새로운 전기를 맞는 Indoor gps 기술스마트 폰 보급으로 새로운 전기를 맞는 Indoor gps 기술
스마트 폰 보급으로 새로운 전기를 맞는 Indoor gps 기술A-type Company
 
1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdfssuserde0b2d
 
[2017.03.17] 정보보호직무역량 upgrade v1.2
[2017.03.17] 정보보호직무역량 upgrade v1.2[2017.03.17] 정보보호직무역량 upgrade v1.2
[2017.03.17] 정보보호직무역량 upgrade v1.2james yoo
 

Similar to 기술7기 2조 (20)

빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종
 
LH Smartcity for osgeo
LH Smartcity for osgeoLH Smartcity for osgeo
LH Smartcity for osgeo
 
Lh smartcity for_osgeo
Lh smartcity for_osgeoLh smartcity for_osgeo
Lh smartcity for_osgeo
 
2015년 정보화사업설명회 ver4
2015년 정보화사업설명회 ver42015년 정보화사업설명회 ver4
2015년 정보화사업설명회 ver4
 
LITBiz LBS, GIS Solution
LITBiz LBS, GIS SolutionLITBiz LBS, GIS Solution
LITBiz LBS, GIS Solution
 
2020 k hackers-startup club_presentation_final version.pptx
2020 k hackers-startup club_presentation_final version.pptx2020 k hackers-startup club_presentation_final version.pptx
2020 k hackers-startup club_presentation_final version.pptx
 
융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.융합연구포럼 2015.02 big data - engineering & convergence.
융합연구포럼 2015.02 big data - engineering & convergence.
 
IoT 공통플랫폼의 구축 및 활용전략
IoT 공통플랫폼의 구축 및 활용전략IoT 공통플랫폼의 구축 및 활용전략
IoT 공통플랫폼의 구축 및 활용전략
 
[경북] I'mcloud opensight
[경북] I'mcloud opensight[경북] I'mcloud opensight
[경북] I'mcloud opensight
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급
(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급
(10 진흥-라-8) 불법유해정보의-우회접속_기술_동향_조사_및_기술보급
 
실감영상 에트리
실감영상 에트리실감영상 에트리
실감영상 에트리
 
8월 24일 인공지능사업화 세미나: 로봇 어드바이저리 - 크래프트 테크놀로지스
8월 24일 인공지능사업화 세미나: 로봇 어드바이저리 - 크래프트 테크놀로지스8월 24일 인공지능사업화 세미나: 로봇 어드바이저리 - 크래프트 테크놀로지스
8월 24일 인공지능사업화 세미나: 로봇 어드바이저리 - 크래프트 테크놀로지스
 
[NetSec-KR 2018] 2017 정보보호 R&D 데이터 챌린지를 통해 살펴본 Data-Driven Security
[NetSec-KR 2018] 2017 정보보호 R&D 데이터 챌린지를 통해 살펴본 Data-Driven Security[NetSec-KR 2018] 2017 정보보호 R&D 데이터 챌린지를 통해 살펴본 Data-Driven Security
[NetSec-KR 2018] 2017 정보보호 R&D 데이터 챌린지를 통해 살펴본 Data-Driven Security
 
[WeFocus] 한국가상증강현실산업협회_VR/AR 지식재산권 보호 세미나_FSTS(From Startup To Scaleup) 특허 전략...
[WeFocus] 한국가상증강현실산업협회_VR/AR 지식재산권 보호 세미나_FSTS(From Startup To Scaleup) 특허 전략...[WeFocus] 한국가상증강현실산업협회_VR/AR 지식재산권 보호 세미나_FSTS(From Startup To Scaleup) 특허 전략...
[WeFocus] 한국가상증강현실산업협회_VR/AR 지식재산권 보호 세미나_FSTS(From Startup To Scaleup) 특허 전략...
 
WiFi에서의 위치 기반 서비스
WiFi에서의 위치 기반 서비스WiFi에서의 위치 기반 서비스
WiFi에서의 위치 기반 서비스
 
스마트 폰 보급으로 새로운 전기를 맞는 Indoor gps 기술
스마트 폰 보급으로 새로운 전기를 맞는 Indoor gps 기술스마트 폰 보급으로 새로운 전기를 맞는 Indoor gps 기술
스마트 폰 보급으로 새로운 전기를 맞는 Indoor gps 기술
 
1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf1. 개방형 데이터 허브 핵심 기술 V2.pdf
1. 개방형 데이터 허브 핵심 기술 V2.pdf
 
[2017.03.17] 정보보호직무역량 upgrade v1.2
[2017.03.17] 정보보호직무역량 upgrade v1.2[2017.03.17] 정보보호직무역량 upgrade v1.2
[2017.03.17] 정보보호직무역량 upgrade v1.2
 

More from Kangwook Lee (20)

빅데이터
빅데이터빅데이터
빅데이터
 
분석5기 4조
분석5기 4조분석5기 4조
분석5기 4조
 
Apply교육
Apply교육Apply교육
Apply교육
 
Editing textvariables
Editing textvariablesEditing textvariables
Editing textvariables
 
Summarizing data
Summarizing dataSummarizing data
Summarizing data
 
Subsetting andsorting
Subsetting andsortingSubsetting andsorting
Subsetting andsorting
 
Readingfromothersources
ReadingfromothersourcesReadingfromothersources
Readingfromothersources
 
Readingfromapis
ReadingfromapisReadingfromapis
Readingfromapis
 
Reading files4
Reading files4Reading files4
Reading files4
 
Reading files3
Reading files3Reading files3
Reading files3
 
Reading files2
Reading files2Reading files2
Reading files2
 
Reading files1
Reading files1Reading files1
Reading files1
 
Down loadingfiles
Down loadingfilesDown loadingfiles
Down loadingfiles
 
9
99
9
 
8
88
8
 
7
77
7
 
6
66
6
 
5
55
5
 
4
44
4
 
3
33
3
 

기술7기 2조

  • 1. 빅데이터 기술전문가 7기 2조 (범죄 예상/추이/예방, 기반시설 환경과 범죄와의 상관관계) 멘토 : 심탁길 강사님 조원 : 김대훈(조장) 이상민 정용주 최기웅 노현주
  • 2. 목차 1. 개요 2. 개발 일정별 진도 3. Eco system의 설치 및 설정 4. Node별 서비스 구성 5. 사용된 기술 6. 데이터 수집 - 테이블 목록 데이터 수집 - CCTV 위치정보 데이터 수집 - SNS (Twitter) 7. 주소 좌표 변환 작업 8. R을 사용한 시각화 9. 기타 - 서울시 정보보호 정책 부분별 기능 및 진행사항 향후 일정 및 기대효과
  • 3. 1.개요 (1) 설명 : 기반시설 환경(CCTV 및 경찰서의 위치)의 범죄 사각지대를 확인하여 시설 확충으로 범죄를 예방, 더 나아가 범죄자의 거주 위치와 범죄 트랜드를 분석하여 기반시설과 범죄율과의 상관관계를 발굴하고자 함 (2) 환경구성 : CDH5 (Cloudera) HDFS, Hive, HBase, Hue, Oozie, Solr, Spark ,Sqoop, ZooKeeper ,Impala,Key-Value Store Indexer, YARN (MR2 Included) (3) 프로세스 : R ggmap을 통한 시각화 or JSP를 통한 시각화 HIVE or HBASE 1 정보 수집 경찰서/지구대 정보 CCTV 위치 정보 인구수, 범죄율 정보 등 추가 자료 수집 필요 Yes No 2 3 분석 및 시각화에 필요한 정보 수집 수집한 정보를 HIVE 또는 HBASE 에 저장 추가 수집이 필요하면 재 정보수집( ) R 의 ggmap 기능을 사용하여 지도상에 분석데이터의 시각화 또는 JSP 를 사용하여 CCTV위치를 시각화하여 범죄 사각지대 예측지역 발굴 1 2 3 1
  • 4. 2.개발 일정별 진도 단계 세부업무 6월 7월 8월 w1 w2 w3 w4 w5 w6 w7 기획/분석 분석/정의/기획 기술 적용 테스트 설계 데이터 모델링 공공/SNS 데이터 저장소 설계 분석 패턴 정의 구현 BigData eco system 설치 Hadoop 저장 / HIVE 구현 Hadoop 저장 데이터 추출 분석 진행 R 개발 , UI/UX 개발 테스트 단위/ 통합 테스트 안정화 산출물 작성, 발표 준비 마일스톤 : 완료 : 예정 중간보고 종료보고
  • 5. - Cloudera CDH5의 설치 및 환경설정을 통한 시스템 안정화 3. Eco system의 설치 및 설정 환경설정을 통한 시스템 안정화
  • 6. 4.Node별 서비스 구성 - Cloudera CDH5의 노드별 설치된 서비스 Flume Hbase Region Server DataNode Hive Gateway Impala Spark Worker Yarn (Node Manager) Zookeeper Server Hbase Thrift Server HDFS Secondary NameNode Hbase Master Sqoop Hue Server HiveServer2 Solr Server Oozie Server Spark Yarn Impala CDH Service CDH Service Name Node Hive Metastore
  • 7. 5. 사용된 기술 - Cloudera CDH5를 기반으로 다음 기술을 사용 SEQ 기술명 내용 1 CDH5 (Cloudera) Eco system 2 HIVE 경찰서, 학교, CCTV 위치, 트위터 데이터 저장 3 FLUME 범죄 관련 키워드로 Twitter 글 데이터 수집 4 R (rhive , ggmap) 시각화 및 분석 5 JSP (naver 지도 API) 경찰서, 학교, CCTV 위치를 시각화 6 Informatica Data Transformation PDF , HWP문서에서 TEXT를 추출하여 CSV로 변환 7 ㈜지오서비스 – 지오코더 주소변환 서비스
  • 8. - HIVE에 생성되고 수집된 테이블 6.데이터수집 - 테이블 목록 SEQ 테이블명 테이블 한글명 파일(전체건수) 수집건수 1 tb_cctv_loc 서울시 cctv 위치 8586 1759 2 tb_police_loc 경찰서,지구,방범대 위치 3081 3081 3 tb_school_loc 학교,유치원 등 위치 21201 19642 4 tb_seoul_addr 서울 주소(지번,도로명) 589564 589564 5 tb_main_store 주요상권 위치 26738 0 6 tweets 트위터 (범죄 키워드) - -
  • 9. - 서울시의 각 지역구별 CCTV 설치 현황 6.데이터수집 - 지역구별 CCTV 현황 SEQ 지역구 CCTV대수 SEQ 지역구 CCTV대수 SEQ 지역구 CCTV대수 1 강남구 821 10 용산구 423 19 종로구 269 2 은평구 572 11 마포구 372 20 동작구 250 3 중구 558 12 서초구 352 21 중랑구 196 4 영등포구 542 13 강서구 347 22 금천구 172 5 구로구 540 14 동대문구 337 23 서대문구 172 6 관악구 532 15 성북구 322 24 도봉구 162 7 광진구 519 16 강동구 319 25 송파구 108 8 양천구 489 17 노원구 293 26 9 강북구 447 18 성동구 293 27
  • 10. - CCTV 시설 위치 정보의 수집 6.데이터수집 - CCTV 위치정보 1) 각 구청에 CCTV정보요청 2) PDF , HWP 파일로 정보 수집 3) XLS 파일로 변환 TEXT 추출 (PDF Parser)
  • 11. TEXT 추출 - HWP, PDF 형식의 CCTV 시설 위치 파일을 TEXT로 추출하여 HIVE에 저장 인포메티카의 PDF Parser 를 사용하여 텍스트 추출 Parsing 로직 6.데이터수집 - CCTV 위치정보
  • 12. - HIVE에 기반시설 위치 데이터 저장 6.데이터수집 - CCTV 위치정보
  • 13. - 범죄 관련 keyword를 사용하여 SNS 글 데이터 수집 6.데이터 수집 - SNS (Twitter)
  • 14. - HIVE에 Twitter 데이터를 저장 6.데이터 수집 - SNS (Twitter) HDFS HIVE에서 Query 조회
  • 15. - 도로명 주소 전환 서비스와 지오코더(㈜지오서비스의 주소좌표 변환툴)을 사용 (비상업적인 용도에 한해서 자유롭게 사용할 수 있는 주소 좌표 변환 툴) 7.주소 좌표 변환 작업 < 지번 주소에서 도로명 주소로 전환 > < 좌표 변환 프로그램 >
  • 16. - WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시 경찰서/방범대/치안센터/CCTV의 설치 위치 ( 강남구 개포/대치 ) 8.시각화 - R(web)
  • 17. - WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시 경찰서/방범대/치안센터/CCTV의 설치 위치 ( 강남구 개포/대치 ) 8.시각화 - R(web) Zoom-In
  • 18. - WEB 버전의 R스튜디오로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시 범죄에 취약한 학교/유치원을 발굴하기 위한 포인트 설정 ( 강남구 개포/대치 ) 8.시각화 - R(web) Zoom-In
  • 19. - 학교/유치원의 위치와 CCTV/경찰서의 위치를 비교하여 사각지대 발굴 - 범죄에 상대적으로 취약한 학교/유치원 인근을 발굴 8.시각화 - R(web) CCTV가 필요한 곳!!! < CCTV / 경찰서 위치 >< 학교 / 유치원 위치 >
  • 20. - R스튜디오 클라이언트로 R 과 RHIVE 를 연동하여 CCTV 좌표를 지도에 표시 8.시각화 - R(pc)
  • 21. - Naver 지도API와 Jsp (ajax)를 사용하여 CCTV 위치를 지도에 표시. 8.시각화 - JSP 반경 50m
  • 22. - 네이버 카페를 통한 원활한 정보 공유 9.기타 - 팀원간 정보 공유
  • 23. 9.기타 - 서울시 정보보호 정책 ○ 정책적인면에서 CCTV 데이터 수집 1) 국가정보공유포털(www.data.go.kr) 에서 각 지자체의 cctv 데이터를 확보하려 하였으나 대부분 미공개인 상태 2) 국가정보공유포털에 cctv 위치공개 2회에 걸친 요청 답변) 1회 - 범죄목적으로 악용될 수 있으므로 불가 2회 - 각 지자체의 자산이라 불가 3) 서울시 보안정책 담당관에서 유선상 문의 답변) 범죄목적으로 악용될 수 있으므로 불가 4) CCTV의 개인정보 보호법에 대한 항목과 서울시 정보공개법 제9조 제1항 제2호에 대한 사항으로 대한민국 정보공개 포털 (http://wonmun.open.go.kr/) 에 정보 공유 요청 (서울시 홈페이지 정보공개관련 규정참고 ) 하여 15일만에 서울시의 24개 지자체 CCTV 데이터 확보 하였으나 포맷이 일정치 않아 데이터 변환에 어려움이 있었음.
  • 24. 9.기타 - 서울시 정보보호 정책 5) 서울시 정보보호 관계법령
  • 25. 9.기타 - 부분별 기능 및 진행사항 ○ 진행사항 1) 서울시 각 관할구청에서 방범용,어린이보호용 CCTV 위치 주소를 PDF, HWP 형태로 받아 TXT로 Parsing하여 한글주소명을 위/경도 좌표 로 변환 (네이버 API)하여 HIVE에 저장. 2) 경찰서와 지구대 위치 정보를 HIVE에 저장. 3) Flume 으로 범죄 관련 SNS 글 수집. 4) R과 RHIVE를 연동하여 GGMAP으로 CCTV위치를 지도에 표시. 5) CCTV 사각지대 발굴(특정 학교 주변 이나 주요상권주변에 cctv 나 경찰서 부재를 발굴) 6) JSP로 CCTV 반경 50M 표시
  • 26. 9.기타 - 향후 일정 및 기대효과 ○ 향후 기대 일정 1) 서울시의 구/동별 인구수 및 범죄율 데이터 수집 2) 지역구별 SNS 범죄 관련 글의 빈도율 분석 3) 경찰서,지구대,CCTV와 인구,범죄율의 상관관계 분석 4) D3.JS 와 twitter의 bootstrap을 사용한 시각화 결과 - 인구수,범죄율과 사회 안전 기반시설의 상관관계를 R의 GGMAP에 표시 ○ 기대효과 1) 범죄 사각지대를 발굴하여 사회안전시설을 확충하도록 유도 2) 일반에게 공개하여 안전한 길로 보행하도록 유도 3) 범죄에 취약한 어린이 보호구역의 감시 강화 유도 - 결과적으로 지역의 안전성을 향상시켜 범죄율을 낮추고자 함