11. 매체별 수집 시기
박대민, 김옥태 (2016.12.5.). 뉴스 빅데이터로 본 아동 보도 20년: ‘결식아동’에서 ‘성범죄’를 거쳐 ‘아동학대’로 . <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥
재단.
11
12. 데이터 수집 DB, 수집 일
박대민, 김옥태 (2016.12.5.). 뉴스 빅데이터로 본 아동 보도 20년: ‘결식아동’에서 ‘성범죄’를 거쳐 ‘아동학대’로 . <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥
재단.
12
- 데이터 수집 DB: <빅카인즈>
- 데이터 수집 완료일: 2016년 10월 21일
13. 매체별 기사 수
13
박대민(2016.4.18.). 신문 26년: 150만 건 기사의 뉴스 빅데이터로 본 신문의 역사. <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥재단.
14. 검색 기사의 기술통계
박대민, 김옥태 (2016.12.5.). 뉴스 빅데이터로 본 아동 보도 20년: ‘결식아동’에서 ‘성범죄’를 거쳐 ‘아동학대’로 . <News Big Data Analytics & Insights>, 1권 4호. 서울: 한국언론진흥
재단.
14
26. - 형태소분석, NER
- 구문분석, 의미분석
- data cleansing
- 프로그램 기획 개발
- Visualization
- 정보원 분석
- 인용문 분석
- 담론분석
- 구조 파악
- Transpose, Diagonal,
Dichotomize
- centrality
01
02
03
04
Crawling NLP, Data cleansing
Semantic Network
Analysis
Discourse Analysis
26
- 데이터 모델링
- 수작업, Crawler, 계약
- 자료는 충분히 많아야
함
Procedure of News Big Data Analytics
빅카인즈
27. Transformation
27
빅카인즈: 데이터 수집, 자연어처리
뉴스젤리: 탐색적 연구
-형태소분석
- 워드클라우드
넷마이너: 행렬 변환
- file > import
- transform > 2 mode
- comembership-correlation-inner product
- transform > value > diagonal
- analyze > neighbor > degree
UCINET: 파일 포맷 변환
- data > data editor > DL editor
- data format > matrix > save
28. Analysis & Visualization
28
NETDRAW: 연결망 분석 및 시각화
- file > open > ucinet dl text file > network
(1-mode)
- analysis > centrality measures > set node
sizes by: degree
- properties > nodes > label > size
- properties > lines > size > tie strength
- properties > lines > arrow heads > arrow
heads off, apply to all
-layout > graphic theoretic layout
- layout > ego network
- geodesic distance from ego: 1 or 2
35. Maturity
35
Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic.
Information Sciences..
40. Fundamentals of News Source Network
박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.
21
1
2 3
1
4 5
2 3
1
4 5
40
- 같은 기사에 두 정보원이 직접인용문으로 함께 인용됐을 경우 이 정보원들 간에 서로 의미론적인 관계가 있는 것으로 보고 간접적으로 만드는
준연결망(quasi network)
- 기사공동출현에 의한 관계로 관계 방향이 양방향 내지 무방향인 연결망(undirected graph)
56. NLP 성능: 키워드 추출
56
Berlocher, I., Lee, K. I., & Kim, K. (2008, July). TopicRank: bringing insight to users. In Proceedings of the 31st annual international ACM SIGIR conference on
Research and development in information retrieval (pp. 703-704). ACM. ISO 690
57. NLP 성능: 사건 사고 분류
57
솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5