SlideShare a Scribd company logo
1 of 27
빅데이터 기술을 활용한
뉴스 큐레이션 서비스
군산대 통계컴퓨터과학과
온 병 원
2014년 11월 7일
발표자 소개
• 연구 분야
• 데이터 마이닝, 정보검색, 데이터베이스, 빅데이터
• 연구 경력
• 군산대 통계컴퓨터과학과 조교수 (2014 – 현재)
• 서울대 차세대융합기술연구원 연구교수 (2011 – 2014)
• 일리노이대 차세대디지털과학센터 선임연구원 (2010)
• 브리티시컬럼비아대 박사후연구원 (2008 – 2009)
• 펜실베이니아주립대 컴퓨터공학 박사 (2007)
• 연구 업적
• CACM, KAIS 등 SCI 11편
• ICDM, ICDE, SDM 등 주요 데이터 마이닝 학회 논문 발표
• 폴리티즈, 뉴스소스, 사회문제 키워드 추출 시스템 등 시스템 개발 및 시
연
• 연구재단, 정보화진흥원, 에너지기술평가원, 닐슨 등 빅데이터 연구 과
제 수행
• Data Science Lab : datalab@kunsan.ac.kr
2
News On New Media
Aggregation & Curation, Customization, Visualization
3
새로운 방식의 뉴스 전달
낚시, 선정, 광고, 아마추어, 편향성, 쓸모 없음, 떨어지는 가독성…
4
Journalism적인 가치
• 사실성, 다양성, 심층성
• 사실성을 드러내는 관례
• 인용, 수치, 사례 등 [van Dijk 1988]
• 정보원 (News Source)
• 인용대상
• 기사 내용의 핵심 제공자
• 저널리즘 연구의 주요 주제
• [Sigal 1973], [Schudson 1978], & [Gans 1979]
5
New Source Network Analysis (뉴스 정보원 연결망 분석)
• 목표: 뉴스를 정보원 간의 관계를 통해 분류, 정리
• 뉴스 정보원 연결망
• 같은 기사에 두 정보원이 직접 인용문으로 함께 인용되면 이 정
보원들 간에 서로 의미론적 관계가 있다.
• 연결망(Network)을 분석하여 인물의 중요도를 계산
• 언론에서 중시되는 인물의 중요도를 소셜그래프의 중요도 척도
로 추정
• 같은 정보원이 있는 뉴스를 클러스터링  중복기사를 사건별로
정리
6
뉴스정보원연결망 – 소셜 그래프 분석 (예시)
서울시 뉴타운
7
Journalism가치에 기초한 기사 제공
• 뉴스 소스 (News Source) – 새로운 뉴스제공 웹어플리케이션
• 뉴스 기사를 쟁점 중심, 사실 중심으로 제시
• 관련된 기사, 정보원, 사실을 클러스터링
• 중복 기사와 문장을 축약해 대표 기사와 문장을 제공
• 기사, 정보원, 사실을 가중치에 따라 배치
• 인물 중심 시각화(visualization) 통한 뉴스의 새로운 측면 확인
• 한 기사에 대한 분야별 시각을 쉽게 확인할 수 있다
• 이용 대상 - 언론계, 전문가, 일반인
• 1차 타겟: 언론학자, 기자
• 2차 타겟: 법률가, 컨설턴트, 시장조사, 정치인, 대학생 등 뉴스 중
이용자(heavy user)
• 3차 타겟: 정치, 경제, 사회 등 사회 쟁점에 관심 많은 일반 독자
8
News Source
9
News Source – 2013년 9월 10일 주요 뉴스
10
News Source – 기사와 정보원
11
News Source – 동일 사안에 대한 다양한 인용
12
News Source – 동일 사안에 대한 다양한 시각
13
뉴스정보원연결망 – 소셜 그래프 구현
전문가용 UI : 정보원연결망 출력 및 파일 다운로드
사회연결망 기본정보 사회연결망 구현
• 결점(node)
• 파당(clique)
• 구성집단(component)
• 주요구성집단(main component) node
• main component clique
• degree centrality
군집계수(clustering coefficient)
• 랜덤 네트워크의 군집계수
• 최단경로길이(average path length)
랜덤 네트워크의 평균경로길이
연결 정도 집중도(standardized degree centralization)
closeness centrality
• center
• diameter
• betweenness centrality
• density
뉴타운
검색어: 뉴타운
14
뉴스정보원연결망 – 시연
15
기술적 접근
• 자연어 처리 (Natural Language Processing)
• 정보원의 자동 추출
• 이름, 조직, 직함
• 박근혜 대통령, 박 대통령, 박 전대표
• 통일부 김형석 대변인, 김형석 대변인, 김 대변인
• 익명이 많다 (김모씨, 이모씨, 청와대 모 관계자, 청와
대 핵심 관계자)
• 인용문의 추출
• Fact들도 추출 (숫자)
• 대용량 데이터
• 한국언론진흥재단 KINDS
• 28,507,321건의 기사
• 1990년 이후 66개 매체 기사
• 정보 시각화
자연어 처리
대용량 데이
터
정보 시각화
16
자연어 처리
정보원 추출 및 매칭
• Web Resource & 수작업
검증을 통한 사전의 구성
• 저널리즘 영역 지식 활용한
정보원 추출 룰 작성
• SVM을 활용한 정보원
매칭
최소한의 수작업이 요구되는 정확한 자연어
처리
다매체 기사의 종합 및
문장의 중요도 결정 카테고리 분류
• 정보원의 소속 분류
• Bayesian classifier 를
활용하여 미 분류 기사의
지면 분류
• 문장 및 기사 클러스터링을
통해 유사 문장의 추출
• Inverted index Join
algorithm을 활용한 All-pair
similarity 의 빠른 계산
• TF-IDF 및 정보원의 중요도에
따른 대표 문장의 추출
오픈 소스를 활용한
범용성 확보
• JAVA 기반
• Lucene 검색엔진
• 서울대 꼬꼬마 형태소
분석기
• Weka의 기계학습
라이브러리
• Hadoop framework
17
자연어처리 – 정보원 추출 및 매칭
- 뉴스의 인용문으로 부터 인명/직함/소속을 추출하고 동일 개체를 판단하여 하나의 개체로 매칭
18
자연어처리 – 정보원 추출 및 매칭
19
자연어처리 – 다매체 기사의 요약 및 문장의 중요도 결정
- 다매체의 기사들을 대표 문장만으로 표현함으로써 중복된 기사 제거
- 대표 문장의 중요도 결정
20
대용량 데이터
한국언론진흥재단 카인즈 데이터
☞ 1990년~2013년 9월 30일 까지 총 66개, 현60개 매체 28,507,321건 신문 기사
매체 유형 매체명 기사건수
전국종합일간신문
(10개)
경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 한겨레, 한국일보, 아시아투데
이
7,408,042
영자신문
( 1개)
Korea Herald 357,355
지역종합일간신문
(25개)
강원도민일보, 강원일보, 경기일보, 경남도민일보, 경남신문, 경상일보, 경인일보, 광주일보, 국제신문,
대전일보, 매일신문, 무등일보, 부산일보, 새전북신문,
영남일보, 인천일보, 전남일보, 전북도민일보, 전북일보, 제민일보, 중도일보,
중부매일, 충북일보, 충청투데이, 한라일보
6,493,604
인터넷전문신문
(8개)
대덕넷, 오마이뉴스, 이데일리, 조세일보, 투데이코리아, 한국재경신문,
아이콘TV., 국방일보
2,002,632
지역주간신문
(4개)
김포뉴스, 옥천신문, 주간당진시대, 홍성신문 95,701
경제일간신문
(7개)
매일경제, 머니투데이, 이투데이, 한국경제, 서울경제, 파이낸셜뉴스, 프라임경제 9,237,812
시사잡지
(1개)
시사인 9,711
TV뉴스
(4개)
KBS, MBC, SBS, KNN 2,194,543
21
빅데이터 처리속도
68
90
63
1048
처리 시간(초)
기사와 무관한 텍스트 제거
정보원 추출 및 매칭
Lucene indexing
다매체 기사 요약 및 중요 문장 추출
- 1일치 평균 뉴스 기사 수 3,300개 기준일 때 21분 소요
- 실행 환경 CPU: Intel i3-2100 CPU @ 3.10GHz, RAM: 4GB, OS : Ubuntu 12.04
- 서비스 시작 후 1일 치 씩 처리시는 문제 없음
- Single machine에서 모든 데이터(365(일) * 23(년))를 처리 하기 위해서는 49일 소요 예상됨
22
빅데이터 기술을 이용한 자연어 처리
- 분산처리를 통한 속도 개선 : Map-reduce 모델에서 Mapper 만 활용하여 Hadoop 분산
Framework를 통해 분산 처리
… Map
Map
Map
MySQL DB
…
1990/01/01
1990/01/02
1990/01/03
2013/12/05
1개의 Mapper의 task 끝날 때마다
다음 날짜를 처리
정보원
추출 모듈
HDFSSequential file
Lucene
index file
다매체 요약
모듈
HDFSLocal file sys.
자연어 처리결과
23
성능 측정 결과
실험 환경
- Cluster 환경 : 1개의 Name Node, 8개 Data node ,
- Node spec. : CPU- Intel i3-2100 CPU @ 3.10GHz, RAM- 4GB, OS - Ubuntu 12.04
(Single machine 환경과 동일)
49일  6일 1시간 20 분
Name Node
(DFS Master)
Job Tracker
2nd Name Node
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
24
빅데이터 서비스
검색
조인
테이블
5년 치 뉴스기사
- 쿼리 응답시간 최소화
- 조인 연산의 병렬 처리
Hive
- 실시간 데이터 서비스
- 부하 분산
- Failover
HBase
Name Node
(DFS Master)
Job Tracker
2nd Name Node
Client API
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
HBase
Task
Tracker
HDFS
Linux
25
26
26
☞ 66매체, 29백만 뉴스기사
(1990 – 현재)
☞ 매일 7000 뉴스기사 생성
크롤링
서버
크롤링
클라이언트
Hbase
데이터베
이스
자연어
처리
JSP
아파치 톰캣 서버
Lucene 검색
엔진
PHP
Ajax
한국언론진흥재단
하둡 분산 파일 시스템
리눅스 운영체제
DB 최적화
Hive
뉴스 큐레이션 시스템
RDBMS
동아
일보
중앙
일보
. . .
-인명사전 구축
-인명/소속/직함 식별
-인명 매칭 (김웅남 vs 김웅남)
-중복 뉴스기사 클러스터링
-지면 자동 분류
-소셜 그래프 생성
-인물 중요도 측정
☞단일 컴퓨터: 7000*23*70분 = 49일
☞분산병렬처리: 6일 1시간 20분
7배 성능 향상
클러스터 시스템
☞ 1 Name Node & 8 Data Nodes
빅데이터 시스템 구성
MapReduce
News Source: Journalism 가치에 기반한 뉴스 제공
• Journalism적인 가치: 사실성, 다양성, 심층성
• 목표: 뉴스를 정보원 간의 관계를 통해 분류, 정리
• 정보원 (News Source)
• 인용대상
• 기사 내용의 핵심 제공자 & 저널리즘 연구의 주요 주제
• 뉴스 정보원 연결망
• 언론에서 중시되는 인물의 중요도를 소셜그래프의 중요도 척도로 추정
• 같은 정보원이 있는 뉴스를 클러스터링  중복기사를 사건별로 정리
• 뉴스 소스 (News Source) – 새로운 뉴스제공 웹 어플리케이션
• 뉴스 기사들을 뉴스기사 내의 사실을 중심으로 요약해서 제공 함
• 중요한 순서대로 기사를 배열
• 의미 관계를 파악하게 도와주는 스마트 뉴스 서비스
• 인물 중심의 시각화(visualization)을 통한 사건의 새로운 측면 확인
• 한 기사에 대한 분야별 시각을 쉽게 확인할 수 있다
• 타겟 유저: 뉴스 중 이용자(heavy user)
• 기자, 언론학자, 정치인, 법률가, 컨설턴트, 대학생 등을 위한 서비스
• 뉴스를 쟁점 중심으로 심층적으로 분석하기 위한 사람을 위한 서비스
자연어 처리
대용량 데이
터
정보 시각화
27

More Related Content

What's hot

Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...Daemin Park
 
뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스의 미래, 뉴스 빅데이터의 혁신뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스의 미래, 뉴스 빅데이터의 혁신Daemin Park
 
뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1Newsjelly
 
How to do things with 'BigKinds'
How to do things with 'BigKinds'How to do things with 'BigKinds'
How to do things with 'BigKinds'Daemin Park
 
News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'Daemin Park
 
오픈 데이터와 인공지능
오픈 데이터와 인공지능오픈 데이터와 인공지능
오픈 데이터와 인공지능Myungjin Lee
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향Webometrics Class
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data AnalyticsDaemin Park
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석ko donghwi
 
디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안Daemin Park
 
빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2ko donghwi
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)Wonjin Lee
 
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델Newsjelly
 
UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015YoungMin Jeon
 
News Media Network Analysis: Comparing Media Systems Mathematically
News Media Network Analysis: Comparing Media Systems MathematicallyNews Media Network Analysis: Comparing Media Systems Mathematically
News Media Network Analysis: Comparing Media Systems MathematicallyDaemin Park
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용Jin wook
 
Natural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelNatural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelDaemin Park
 
LOD를 말하다: Europeana, BBC, LinkedUp
LOD를 말하다: Europeana, BBC, LinkedUpLOD를 말하다: Europeana, BBC, LinkedUp
LOD를 말하다: Europeana, BBC, LinkedUpHansung University
 
집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요Kwang Woo NAM
 

What's hot (20)

Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...
Newspapers 26 years: the history of newspapers by visualizing 3.1 million new...
 
뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스의 미래, 뉴스 빅데이터의 혁신뉴스의 미래, 뉴스 빅데이터의 혁신
뉴스의 미래, 뉴스 빅데이터의 혁신
 
뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1뉴스젤리 - 데이터저널리즘 이해하기 1
뉴스젤리 - 데이터저널리즘 이해하기 1
 
How to do things with 'BigKinds'
How to do things with 'BigKinds'How to do things with 'BigKinds'
How to do things with 'BigKinds'
 
News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'
 
오픈 데이터와 인공지능
오픈 데이터와 인공지능오픈 데이터와 인공지능
오픈 데이터와 인공지능
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향
 
News Big Data Analytics
News Big Data AnalyticsNews Big Data Analytics
News Big Data Analytics
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석
 
디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안디지털 및 모바일 혁신을 위한 제안
디지털 및 모바일 혁신을 위한 제안
 
digital archiving
digital archivingdigital archiving
digital archiving
 
빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2
 
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
빅데이터의 개념과 이해 그리고 활용사례 (Introduction to big data and use cases)
 
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델뉴스젤리 - 데이터 저널리즘 비즈니스 모델
뉴스젤리 - 데이터 저널리즘 비즈니스 모델
 
UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015
 
News Media Network Analysis: Comparing Media Systems Mathematically
News Media Network Analysis: Comparing Media Systems MathematicallyNews Media Network Analysis: Comparing Media Systems Mathematically
News Media Network Analysis: Comparing Media Systems Mathematically
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용
 
Natural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelNatural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based model
 
LOD를 말하다: Europeana, BBC, LinkedUp
LOD를 말하다: Europeana, BBC, LinkedUpLOD를 말하다: Europeana, BBC, LinkedUp
LOD를 말하다: Europeana, BBC, LinkedUp
 
집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요
 

Viewers also liked

국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603
국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603
국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603datasciencekorea
 
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호datasciencekorea
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선datasciencekorea
 
스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영datasciencekorea
 
Data-driven biomedical science: implications for human disease and public health
Data-driven biomedical science: implications for human disease and public healthData-driven biomedical science: implications for human disease and public health
Data-driven biomedical science: implications for human disease and public healthdatasciencekorea
 
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점datasciencekorea
 
Analyzing Big Data to Discover Honest Signals of Innovation
Analyzing Big Data to Discover Honest Signals of InnovationAnalyzing Big Data to Discover Honest Signals of Innovation
Analyzing Big Data to Discover Honest Signals of Innovationdatasciencekorea
 
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중datasciencekorea
 
DATA CENTRIC EDUCATION & LEARNING
 DATA CENTRIC EDUCATION & LEARNING DATA CENTRIC EDUCATION & LEARNING
DATA CENTRIC EDUCATION & LEARNINGdatasciencekorea
 
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석datasciencekorea
 
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...datasciencekorea
 
R의 이해와 활용_데이터사이언스학회
R의 이해와 활용_데이터사이언스학회R의 이해와 활용_데이터사이언스학회
R의 이해와 활용_데이터사이언스학회datasciencekorea
 
도시의 마음, 그 발현 - Emergent Mind of City
도시의 마음, 그 발현 - Emergent Mind of City도시의 마음, 그 발현 - Emergent Mind of City
도시의 마음, 그 발현 - Emergent Mind of Citydatasciencekorea
 
Data Centric Art, Science, and Humanities
Data Centric Art, Science, and HumanitiesData Centric Art, Science, and Humanities
Data Centric Art, Science, and Humanitiesdatasciencekorea
 
A Unified Music Recommender System Using Listening Habits and Semantics of Tags
A Unified Music Recommender System Using Listening Habits and Semantics of TagsA Unified Music Recommender System Using Listening Habits and Semantics of Tags
A Unified Music Recommender System Using Listening Habits and Semantics of Tagsdatasciencekorea
 
Studying Social Selection vs Social Influence in Virtual Financial Communities
Studying Social Selection vs Social Influence in Virtual Financial CommunitiesStudying Social Selection vs Social Influence in Virtual Financial Communities
Studying Social Selection vs Social Influence in Virtual Financial Communitiesdatasciencekorea
 
International Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data ScienceInternational Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data Sciencedatasciencekorea
 
소셜미디어 분석방법론과 사례
소셜미디어 분석방법론과 사례소셜미디어 분석방법론과 사례
소셜미디어 분석방법론과 사례datasciencekorea
 
데이터 시각화의 글로벌 동향 20140819 - 고영혁
데이터 시각화의 글로벌 동향   20140819 - 고영혁데이터 시각화의 글로벌 동향   20140819 - 고영혁
데이터 시각화의 글로벌 동향 20140819 - 고영혁datasciencekorea
 
Bayesian Network 을 활용한 예측 분석
Bayesian Network 을 활용한 예측 분석Bayesian Network 을 활용한 예측 분석
Bayesian Network 을 활용한 예측 분석datasciencekorea
 

Viewers also liked (20)

국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603
국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603
국가의 신성장 동력으로서 공간정보의 가치와 활용 2016-0603
 
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호
온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
 
스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영스마트 시티의 빅데이터 분석론 - 최준영
스마트 시티의 빅데이터 분석론 - 최준영
 
Data-driven biomedical science: implications for human disease and public health
Data-driven biomedical science: implications for human disease and public healthData-driven biomedical science: implications for human disease and public health
Data-driven biomedical science: implications for human disease and public health
 
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
소셜 텍스트 빅 테이터를 통해 분석한 화장품 유통구조 시사점
 
Analyzing Big Data to Discover Honest Signals of Innovation
Analyzing Big Data to Discover Honest Signals of InnovationAnalyzing Big Data to Discover Honest Signals of Innovation
Analyzing Big Data to Discover Honest Signals of Innovation
 
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
Deep Learning - 인공지능 기계학습의 새로운 트랜드 :김인중
 
DATA CENTRIC EDUCATION & LEARNING
 DATA CENTRIC EDUCATION & LEARNING DATA CENTRIC EDUCATION & LEARNING
DATA CENTRIC EDUCATION & LEARNING
 
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
데이터사이언스학회 5월 세미나 데이터저널리즘과 트위터네트워크 분석
 
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
Structures of Twitter Crowds and Conversations Six distinct types of crowds t...
 
R의 이해와 활용_데이터사이언스학회
R의 이해와 활용_데이터사이언스학회R의 이해와 활용_데이터사이언스학회
R의 이해와 활용_데이터사이언스학회
 
도시의 마음, 그 발현 - Emergent Mind of City
도시의 마음, 그 발현 - Emergent Mind of City도시의 마음, 그 발현 - Emergent Mind of City
도시의 마음, 그 발현 - Emergent Mind of City
 
Data Centric Art, Science, and Humanities
Data Centric Art, Science, and HumanitiesData Centric Art, Science, and Humanities
Data Centric Art, Science, and Humanities
 
A Unified Music Recommender System Using Listening Habits and Semantics of Tags
A Unified Music Recommender System Using Listening Habits and Semantics of TagsA Unified Music Recommender System Using Listening Habits and Semantics of Tags
A Unified Music Recommender System Using Listening Habits and Semantics of Tags
 
Studying Social Selection vs Social Influence in Virtual Financial Communities
Studying Social Selection vs Social Influence in Virtual Financial CommunitiesStudying Social Selection vs Social Influence in Virtual Financial Communities
Studying Social Selection vs Social Influence in Virtual Financial Communities
 
International Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data ScienceInternational Collaboration Networks in the Emerging (Big) Data Science
International Collaboration Networks in the Emerging (Big) Data Science
 
소셜미디어 분석방법론과 사례
소셜미디어 분석방법론과 사례소셜미디어 분석방법론과 사례
소셜미디어 분석방법론과 사례
 
데이터 시각화의 글로벌 동향 20140819 - 고영혁
데이터 시각화의 글로벌 동향   20140819 - 고영혁데이터 시각화의 글로벌 동향   20140819 - 고영혁
데이터 시각화의 글로벌 동향 20140819 - 고영혁
 
Bayesian Network 을 활용한 예측 분석
Bayesian Network 을 활용한 예측 분석Bayesian Network 을 활용한 예측 분석
Bayesian Network 을 활용한 예측 분석
 

Similar to 빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원

Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum DNA
 
웹보메트릭스와 계량정보학14 2
웹보메트릭스와 계량정보학14 2웹보메트릭스와 계량정보학14 2
웹보메트릭스와 계량정보학14 2Han Woo PARK
 
사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1Han Woo PARK
 
Webonaver(2012-09-02)
Webonaver(2012-09-02)Webonaver(2012-09-02)
Webonaver(2012-09-02)Han Woo PARK
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)Han Woo PARK
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
 
[오픈소스컨설팅]레이어별오픈소스
[오픈소스컨설팅]레이어별오픈소스[오픈소스컨설팅]레이어별오픈소스
[오픈소스컨설팅]레이어별오픈소스Ji-Woong Choi
 
디지털아카이빙계획V03312010
디지털아카이빙계획V03312010디지털아카이빙계획V03312010
디지털아카이빙계획V03312010광영 김
 
20100401 황혜경 디지털아카이빙계획v03312010
20100401 황혜경 디지털아카이빙계획v0331201020100401 황혜경 디지털아카이빙계획v03312010
20100401 황혜경 디지털아카이빙계획v03312010glorykim
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재Suntae Kim
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재Suntae Kim
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요Hosung Lee
 
Statistics and linked data
Statistics and linked dataStatistics and linked data
Statistics and linked dataymchu88
 
I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)Suntae Kim
 
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerAutomated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerDaemin Park
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Channy Yun
 
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용구중억 (한국기초과학지원연구원)
 
News clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingNews clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingJunyoung Park
 

Similar to 빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원 (20)

Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012
 
웹보메트릭스와 계량정보학14 2
웹보메트릭스와 계량정보학14 2웹보메트릭스와 계량정보학14 2
웹보메트릭스와 계량정보학14 2
 
사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1
 
Webonaver(2012-09-02)
Webonaver(2012-09-02)Webonaver(2012-09-02)
Webonaver(2012-09-02)
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
연구업적 데이터베이스를 활용한 빅데이터 분석시스템 (16 sep2014)
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
[오픈소스컨설팅]레이어별오픈소스
[오픈소스컨설팅]레이어별오픈소스[오픈소스컨설팅]레이어별오픈소스
[오픈소스컨설팅]레이어별오픈소스
 
디지털아카이빙계획V03312010
디지털아카이빙계획V03312010디지털아카이빙계획V03312010
디지털아카이빙계획V03312010
 
20100401 황혜경 디지털아카이빙계획v03312010
20100401 황혜경 디지털아카이빙계획v0331201020100401 황혜경 디지털아카이빙계획v03312010
20100401 황혜경 디지털아카이빙계획v03312010
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재
 
과학데이터와연구소재
과학데이터와연구소재과학데이터와연구소재
과학데이터와연구소재
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
Statistics and linked data
Statistics and linked dataStatistics and linked data
Statistics and linked data
 
링크드 데이터 사례
링크드 데이터 사례링크드 데이터 사례
링크드 데이터 사례
 
I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)I rods분석(20170313,01,김선태)
I rods분석(20170313,01,김선태)
 
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerAutomated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network Analyzer
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
 
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
도서관 이해관계자의 보다 나은 의사결정을 위한 비즈니스 인텔리전스 구축 및 활용
 
News clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingNews clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word Embedding
 

빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원

  • 1. 빅데이터 기술을 활용한 뉴스 큐레이션 서비스 군산대 통계컴퓨터과학과 온 병 원 2014년 11월 7일
  • 2. 발표자 소개 • 연구 분야 • 데이터 마이닝, 정보검색, 데이터베이스, 빅데이터 • 연구 경력 • 군산대 통계컴퓨터과학과 조교수 (2014 – 현재) • 서울대 차세대융합기술연구원 연구교수 (2011 – 2014) • 일리노이대 차세대디지털과학센터 선임연구원 (2010) • 브리티시컬럼비아대 박사후연구원 (2008 – 2009) • 펜실베이니아주립대 컴퓨터공학 박사 (2007) • 연구 업적 • CACM, KAIS 등 SCI 11편 • ICDM, ICDE, SDM 등 주요 데이터 마이닝 학회 논문 발표 • 폴리티즈, 뉴스소스, 사회문제 키워드 추출 시스템 등 시스템 개발 및 시 연 • 연구재단, 정보화진흥원, 에너지기술평가원, 닐슨 등 빅데이터 연구 과 제 수행 • Data Science Lab : datalab@kunsan.ac.kr 2
  • 3. News On New Media Aggregation & Curation, Customization, Visualization 3
  • 4. 새로운 방식의 뉴스 전달 낚시, 선정, 광고, 아마추어, 편향성, 쓸모 없음, 떨어지는 가독성… 4
  • 5. Journalism적인 가치 • 사실성, 다양성, 심층성 • 사실성을 드러내는 관례 • 인용, 수치, 사례 등 [van Dijk 1988] • 정보원 (News Source) • 인용대상 • 기사 내용의 핵심 제공자 • 저널리즘 연구의 주요 주제 • [Sigal 1973], [Schudson 1978], & [Gans 1979] 5
  • 6. New Source Network Analysis (뉴스 정보원 연결망 분석) • 목표: 뉴스를 정보원 간의 관계를 통해 분류, 정리 • 뉴스 정보원 연결망 • 같은 기사에 두 정보원이 직접 인용문으로 함께 인용되면 이 정 보원들 간에 서로 의미론적 관계가 있다. • 연결망(Network)을 분석하여 인물의 중요도를 계산 • 언론에서 중시되는 인물의 중요도를 소셜그래프의 중요도 척도 로 추정 • 같은 정보원이 있는 뉴스를 클러스터링  중복기사를 사건별로 정리 6
  • 7. 뉴스정보원연결망 – 소셜 그래프 분석 (예시) 서울시 뉴타운 7
  • 8. Journalism가치에 기초한 기사 제공 • 뉴스 소스 (News Source) – 새로운 뉴스제공 웹어플리케이션 • 뉴스 기사를 쟁점 중심, 사실 중심으로 제시 • 관련된 기사, 정보원, 사실을 클러스터링 • 중복 기사와 문장을 축약해 대표 기사와 문장을 제공 • 기사, 정보원, 사실을 가중치에 따라 배치 • 인물 중심 시각화(visualization) 통한 뉴스의 새로운 측면 확인 • 한 기사에 대한 분야별 시각을 쉽게 확인할 수 있다 • 이용 대상 - 언론계, 전문가, 일반인 • 1차 타겟: 언론학자, 기자 • 2차 타겟: 법률가, 컨설턴트, 시장조사, 정치인, 대학생 등 뉴스 중 이용자(heavy user) • 3차 타겟: 정치, 경제, 사회 등 사회 쟁점에 관심 많은 일반 독자 8
  • 10. News Source – 2013년 9월 10일 주요 뉴스 10
  • 11. News Source – 기사와 정보원 11
  • 12. News Source – 동일 사안에 대한 다양한 인용 12
  • 13. News Source – 동일 사안에 대한 다양한 시각 13
  • 14. 뉴스정보원연결망 – 소셜 그래프 구현 전문가용 UI : 정보원연결망 출력 및 파일 다운로드 사회연결망 기본정보 사회연결망 구현 • 결점(node) • 파당(clique) • 구성집단(component) • 주요구성집단(main component) node • main component clique • degree centrality 군집계수(clustering coefficient) • 랜덤 네트워크의 군집계수 • 최단경로길이(average path length) 랜덤 네트워크의 평균경로길이 연결 정도 집중도(standardized degree centralization) closeness centrality • center • diameter • betweenness centrality • density 뉴타운 검색어: 뉴타운 14
  • 16. 기술적 접근 • 자연어 처리 (Natural Language Processing) • 정보원의 자동 추출 • 이름, 조직, 직함 • 박근혜 대통령, 박 대통령, 박 전대표 • 통일부 김형석 대변인, 김형석 대변인, 김 대변인 • 익명이 많다 (김모씨, 이모씨, 청와대 모 관계자, 청와 대 핵심 관계자) • 인용문의 추출 • Fact들도 추출 (숫자) • 대용량 데이터 • 한국언론진흥재단 KINDS • 28,507,321건의 기사 • 1990년 이후 66개 매체 기사 • 정보 시각화 자연어 처리 대용량 데이 터 정보 시각화 16
  • 17. 자연어 처리 정보원 추출 및 매칭 • Web Resource & 수작업 검증을 통한 사전의 구성 • 저널리즘 영역 지식 활용한 정보원 추출 룰 작성 • SVM을 활용한 정보원 매칭 최소한의 수작업이 요구되는 정확한 자연어 처리 다매체 기사의 종합 및 문장의 중요도 결정 카테고리 분류 • 정보원의 소속 분류 • Bayesian classifier 를 활용하여 미 분류 기사의 지면 분류 • 문장 및 기사 클러스터링을 통해 유사 문장의 추출 • Inverted index Join algorithm을 활용한 All-pair similarity 의 빠른 계산 • TF-IDF 및 정보원의 중요도에 따른 대표 문장의 추출 오픈 소스를 활용한 범용성 확보 • JAVA 기반 • Lucene 검색엔진 • 서울대 꼬꼬마 형태소 분석기 • Weka의 기계학습 라이브러리 • Hadoop framework 17
  • 18. 자연어처리 – 정보원 추출 및 매칭 - 뉴스의 인용문으로 부터 인명/직함/소속을 추출하고 동일 개체를 판단하여 하나의 개체로 매칭 18
  • 19. 자연어처리 – 정보원 추출 및 매칭 19
  • 20. 자연어처리 – 다매체 기사의 요약 및 문장의 중요도 결정 - 다매체의 기사들을 대표 문장만으로 표현함으로써 중복된 기사 제거 - 대표 문장의 중요도 결정 20
  • 21. 대용량 데이터 한국언론진흥재단 카인즈 데이터 ☞ 1990년~2013년 9월 30일 까지 총 66개, 현60개 매체 28,507,321건 신문 기사 매체 유형 매체명 기사건수 전국종합일간신문 (10개) 경향신문, 국민일보, 내일신문, 동아일보, 문화일보, 서울신문, 세계일보, 한겨레, 한국일보, 아시아투데 이 7,408,042 영자신문 ( 1개) Korea Herald 357,355 지역종합일간신문 (25개) 강원도민일보, 강원일보, 경기일보, 경남도민일보, 경남신문, 경상일보, 경인일보, 광주일보, 국제신문, 대전일보, 매일신문, 무등일보, 부산일보, 새전북신문, 영남일보, 인천일보, 전남일보, 전북도민일보, 전북일보, 제민일보, 중도일보, 중부매일, 충북일보, 충청투데이, 한라일보 6,493,604 인터넷전문신문 (8개) 대덕넷, 오마이뉴스, 이데일리, 조세일보, 투데이코리아, 한국재경신문, 아이콘TV., 국방일보 2,002,632 지역주간신문 (4개) 김포뉴스, 옥천신문, 주간당진시대, 홍성신문 95,701 경제일간신문 (7개) 매일경제, 머니투데이, 이투데이, 한국경제, 서울경제, 파이낸셜뉴스, 프라임경제 9,237,812 시사잡지 (1개) 시사인 9,711 TV뉴스 (4개) KBS, MBC, SBS, KNN 2,194,543 21
  • 22. 빅데이터 처리속도 68 90 63 1048 처리 시간(초) 기사와 무관한 텍스트 제거 정보원 추출 및 매칭 Lucene indexing 다매체 기사 요약 및 중요 문장 추출 - 1일치 평균 뉴스 기사 수 3,300개 기준일 때 21분 소요 - 실행 환경 CPU: Intel i3-2100 CPU @ 3.10GHz, RAM: 4GB, OS : Ubuntu 12.04 - 서비스 시작 후 1일 치 씩 처리시는 문제 없음 - Single machine에서 모든 데이터(365(일) * 23(년))를 처리 하기 위해서는 49일 소요 예상됨 22
  • 23. 빅데이터 기술을 이용한 자연어 처리 - 분산처리를 통한 속도 개선 : Map-reduce 모델에서 Mapper 만 활용하여 Hadoop 분산 Framework를 통해 분산 처리 … Map Map Map MySQL DB … 1990/01/01 1990/01/02 1990/01/03 2013/12/05 1개의 Mapper의 task 끝날 때마다 다음 날짜를 처리 정보원 추출 모듈 HDFSSequential file Lucene index file 다매체 요약 모듈 HDFSLocal file sys. 자연어 처리결과 23
  • 24. 성능 측정 결과 실험 환경 - Cluster 환경 : 1개의 Name Node, 8개 Data node , - Node spec. : CPU- Intel i3-2100 CPU @ 3.10GHz, RAM- 4GB, OS - Ubuntu 12.04 (Single machine 환경과 동일) 49일  6일 1시간 20 분 Name Node (DFS Master) Job Tracker 2nd Name Node HBase Task Tracker HDFS Linux HBase Task Tracker HDFS Linux HBase Task Tracker HDFS Linux 24
  • 25. 빅데이터 서비스 검색 조인 테이블 5년 치 뉴스기사 - 쿼리 응답시간 최소화 - 조인 연산의 병렬 처리 Hive - 실시간 데이터 서비스 - 부하 분산 - Failover HBase Name Node (DFS Master) Job Tracker 2nd Name Node Client API HBase Task Tracker HDFS Linux HBase Task Tracker HDFS Linux HBase Task Tracker HDFS Linux HBase Task Tracker HDFS Linux 25
  • 26. 26 26 ☞ 66매체, 29백만 뉴스기사 (1990 – 현재) ☞ 매일 7000 뉴스기사 생성 크롤링 서버 크롤링 클라이언트 Hbase 데이터베 이스 자연어 처리 JSP 아파치 톰캣 서버 Lucene 검색 엔진 PHP Ajax 한국언론진흥재단 하둡 분산 파일 시스템 리눅스 운영체제 DB 최적화 Hive 뉴스 큐레이션 시스템 RDBMS 동아 일보 중앙 일보 . . . -인명사전 구축 -인명/소속/직함 식별 -인명 매칭 (김웅남 vs 김웅남) -중복 뉴스기사 클러스터링 -지면 자동 분류 -소셜 그래프 생성 -인물 중요도 측정 ☞단일 컴퓨터: 7000*23*70분 = 49일 ☞분산병렬처리: 6일 1시간 20분 7배 성능 향상 클러스터 시스템 ☞ 1 Name Node & 8 Data Nodes 빅데이터 시스템 구성 MapReduce
  • 27. News Source: Journalism 가치에 기반한 뉴스 제공 • Journalism적인 가치: 사실성, 다양성, 심층성 • 목표: 뉴스를 정보원 간의 관계를 통해 분류, 정리 • 정보원 (News Source) • 인용대상 • 기사 내용의 핵심 제공자 & 저널리즘 연구의 주요 주제 • 뉴스 정보원 연결망 • 언론에서 중시되는 인물의 중요도를 소셜그래프의 중요도 척도로 추정 • 같은 정보원이 있는 뉴스를 클러스터링  중복기사를 사건별로 정리 • 뉴스 소스 (News Source) – 새로운 뉴스제공 웹 어플리케이션 • 뉴스 기사들을 뉴스기사 내의 사실을 중심으로 요약해서 제공 함 • 중요한 순서대로 기사를 배열 • 의미 관계를 파악하게 도와주는 스마트 뉴스 서비스 • 인물 중심의 시각화(visualization)을 통한 사건의 새로운 측면 확인 • 한 기사에 대한 분야별 시각을 쉽게 확인할 수 있다 • 타겟 유저: 뉴스 중 이용자(heavy user) • 기자, 언론학자, 정치인, 법률가, 컨설턴트, 대학생 등을 위한 서비스 • 뉴스를 쟁점 중심으로 심층적으로 분석하기 위한 사람을 위한 서비스 자연어 처리 대용량 데이 터 정보 시각화 27