4. 4
시각화란 보고 쉽게 이해할 수 있도록 하여 통찰력을 얻도록 하는 것
시각화(Visualization, 視覺化)란 무엇인가?
Understand
See
Insight
=
deep
=get
“Visualizing information is a form of knowledge compression. It’s a way of squeezing an
enormous amount of information and understanding into a small space.” - David McCandless
(시각화는 지식압축의 한 형태로, 방대한 정보와 이해를 좁은 공간에 압축한 것이다.)
7. 7
Why visualization? (시각화의 과학적 배경)
視覺이 五感 중 가장 빠르게 정보를 처리하며, 전체 감각기관의 약 70%를 차지함
덴마크 물리학자 노레트란더스
무의식 감각과 의식 감각기관의 대역폭
Sensory bandwidths reaching sub-conscious and
conscious mind, from Tor Norretranders' The User
Illusion.
Visualization from Stephen Few’s Information Dashboard Design
8. 8
Why visualization? (시각화의 과학적 배경) – Pre-attentive visual
前主意的(pre-attentive) 시각특성(길이, 폭, 방향, 위치, 크기, 모양, 채도, 명도 등) 활용
A selection of pre-attentive visual attributes, and precision of their quantitative perception. Visualisation from
Stephen Few’s Information Dashboard Design
Relative accuracy of comparison using different basic visual features, from Cleveland
and McGill. Visualisation from Alberto Cairo’sThe Functional Art
9. 9
Why visualization? (시각화의 과학적 배경) – Grouping/Ordering
데이터 시각화를 통한 관계를 인식하는 방법은 지각심리학적 이론에 기반함
게슈탈트 인식이론.The Gestalt laws of perception relating to grouping,
from Stephen Few’s Information Dashboard Design
게슈탈트(Gestalt)는 형태, 형상을 뜻하는 독일어, 형태심리학의 중추개념이며, 지각심리학영역에서 중요한 법칙.
시지각(視知覺)에서 군화(群化,Grouping)의 문제를 밝혔는데, 의미를 갖는 규칙이나 유사한 요소들을 그룹으로 보려는 경향이 있으며, 그것은 자신의 경험을 조화롭고, 규칙적이고, 체계적이고, 단순한 방식에
따라 지각하는 경향이 있다는 것이다.
통폐합 Closure : 기존의 지식을 토대로 완성되지 않은 형태를 완성시켜 인지하는 경향
유사성 Similarity : 유사한 요소끼리 그룹지어 하나의 패턴으로 보려는 경향
근접성 Proximity : 시공간적으로 서로 가까이 있는 것들을 함께 집단화해서 보는 경향
단순성 Simplicity : 주어진 조건 하에서 최대한 가장 단순한 쪽으로 인식하는 것.
연속성 Continuity : 요소들이 부드러운 연속을 따라 함께 묶여 지각된다는 원리
시각화에 있어 통상적으로 개별적인 데이터에 초점을 맞추기
보다는, 구조화하고 그룹핑을 함으로써 잘 표현될 수 있음
Visualisation by Hannah Fairfield of the New York Times
그룹핑外 가장 강력한 방법인 오더링(Ordering,정렬/순
위부여, 시계열 정렬)은 추가적 노력이 없이 즉각적인 효
과적 시각화를 할 수 있음
통폐합
유사성근접성
연속성
10. 10
“Visualizing information can give us a very quick solution to those kinds of problems.
Even when the information is terrible, the visual can be quite beautiful. Often we can get
clarity or the answer to a simple question very quickly.” David McCandless
“정보를 시각화 한다는 것은 여러 가지 문제들에 대한 아주 빠른 해결방안을 줄 수 있다. 비록
주어진 정보가 끔찍할지라도 시각화된 결과는 아주 아름다울 수 있다. 종종 우리는 간단한 문제
에서 명확한 정보 또는 답을 신속하게 도출할 수 있다.” 데이비드 맥캔들레스
데이터 홍수 속에서 문제를 명확히 하고, 해결방안을 찾을 수 있도록 돕는 것이다
시각화(Visualization, 視覺化)로 무엇을 할 수 있는가?
“Let the dataset change your mindset. And if it can do that, maybe it can also
change your behavior.” - Hans Rosling
“데이터로 사고방식을 변화하게 만들어라. 그렇게 된다면 그것은 너의 행동까지 변화시킬 것
이다. 한스 로슬링
11. Acquire
(획득)
시각화(Visualization, 視覺化) 방법론 - What is Questions?
Ben Fry의 시각화 방법은 질문에서 시작한다. 왜 데이터가 수집되었는가?
Parse
(분해)
Filter
(선별)
Mine
(탐색)
Represent
(표현)
Refine
(정제)
Interact
(상호작용)
데이터를 획득 데이터를 구조
화 하고 분류
관심 있는 데이
터만 추출
통계적인 방법
혹은 데이터마
이닝 기법 적용
바 그래프, 리스
트 혹은 트리 등
의 기본적인 시
각모델을 선택
보다 명확하게,
매력적인 표현
으로 개선
데이터를 변경
혹은 보여지는
특질을 조작하
는 방법을 추가
11
* Ben Fry , Ph.D. (in "Computational Information Design“) MIT
Media Lab출신, 오픈소스 Processing 미디어 시각화 도구 저작자.
그의 저서 Visualizing Data 중 시각화 방법론
Ben Fry Visualizing Data Principles
• Each Project Has Unique Requirements
• Avoid the All-You-Can-Eat Buffet
• Know Your Audience
어떤 부분이 흥미로운가? 그리고 어떤 스토리를 말할 수 있는가?
12. 탐색
Exploration
발표
Presentation
특성
Characteristics
• 놀라운(surprising) 데이터
• 이상치(outlier)가 있는 데이터
• 예측 할 수 없이 움직이는 데이터
• 화자(viewer)와 상호 작용
• 발표자가 잘 알고 있는 데이터
• 정리된(clean) 데이터
• 수동적인 화자(viewer)
목표/절차
Goals/procedures
• 한 번에 여러 차원 분석
• 여러 번 맵핑 변경
• 추세 및 허점(trends and holes)
탐색
• 차원을 줄여 요점만 발표
• 명확히 검토된 차원
• 중요한 부분만 강조
• 추세와 움직임 (trends and
motions)을 보여주기 위하여 요
점을 요약
Animation for Visualization: Opportunities and Drawbacks, Danyel Fisher
12
시각화(Visualization, 視覺化) 방법론 - Presentation Is Not Exploration
시각화에서 상호작용(interaction)이 중요한 이유는 바로 탐색을 목적으로 하기 때문임
“분석자”는 상관 관계, 연결고리, 숨겨진 아이디어 및 과정 등을 다양한 각도에서 봐야 하고,
“발표자”는 요점을 명확하고 극적으로 설명할 수 있어야 함
14. Big Data & Visualization
방대한 데이터를 수집/분석하는 목적은 효율적인 의사결정을 하기 위한 것이다.
source : Big Data An insurance business imperative ,Deloitte, 2014
• 효율적인 의사결정
정보에 기반한 의사결정이
좀 더 효율적이고 시기
적절하게 이루어 질 수
있음
• 혁신적인 서비스(혹은
신규 비즈니스 모델)를
지원하는 도구
효율적인 시각화는 Big
Data 분석을 보다
효과적으로 수행하여
insight를 찾음으로써
혁신을 촉진할 수 있음
빅
데
이
터
자
산
화
를
통
한
통
찰
력
15. Source: Analytics Culture: The Secret to Success, Accenture
The Secret to Success
비즈니스 성공의 비결은 리더쉽과 분석문화(Analytics culture)이다.
Leadership
16. 고급 데이터 시각화 기능은 기존의 정적인 차트나 그래프 작성기능과 달리, 별도의 SQL문장을 기술하지 않
고 쿼리 결과에 따라 유동적으로 시각화를 제공하는 것을 의미함.
아래는 Forrester에서 제시한 고급 시각화 도구 평가 항목임
■ 다양한 고급 데이터 시각화 기능(ADV) 콘텐츠.
별도 작업 없이 바로 사용 가능한 다양한 그래프 및 차트(조종석 게이지, 개인화된 차트 밑 맵, 지리공간적
인 표현 및 인포그래픽 등의) 기능 포함.
■ 효과적인 데이터 시각화.
비즈니스 사용자가 데이터셋을 시각화 하고 결과로부터 행동할 수 있도록 하는 가정 효율적이며 효과적인
고급기능(ADV)은 애니메이션, 자동 제안, 상호 작용 모드, 복합적인 치수 그리고 스토리보딩 같은 기능 포
함. 자동 제안이 ADV중에서 가장 차별화 할 수 있음.
사용자에게 가장 잘 맞는 시각화 및 차트 유형을 찾을 수 있도록 도와주는 기능. 시스템이 소스 데이터를 분
석 하고 패턴과 필드의 키를 자동인식하고, 자동적으로 ‘최적의 모범 사례’ 를 제안
Source: The Forrester Wave™: Agile Business Intelligence Platforms, Q3 2014 by Boris Evelson, July 3, 2014
16
Advanced Data Visualization
빅데이터 분석에 있어 민첩하고 효과적인 분석을 위하여 고급 시각화 기능이 필요함
17. 시각화(Visualization, 視覺化) 도구
분석역량 저변확대를 위하여 사용이 용이한 시각화 도구의 선택이 필요함
대표적인 오픈소스인 R, D3.js 등 많은 시각화 도
구들이 존재하고 있으며, 사용자가 직접 코드를 작
성해야 하는 어려움이 있으나 유연한 작성이 가능함
상용 시각화 도구들은 오픈소스 보다 사용의 편의
성 및 통합성이 높고, 다양한 고급 기능들을 보다
손쉽게 사용할 수 있음
17
25. Word Cloud : R에서 text mining 시 많이 사용하는 Word Cloud 결과를 바로 출력
25
빅 데이터 시각화 사례
26. 26
R graphics plot region : regression chart & script
빅 데이터 시각화 사례
27. ebay 타블로 도입을 통해 복잡한 데이터 세트를 직관적이고 상호적으로 시각화 해준다.
27
빅 데이터 시각화 사례
배경
1억 800만의 동시 접속자수를 기록하며, 지난해 680억 달러의 판매 매출을 올린 이베이(eBay)는 막대한 양의 데이터를
생성해낸다.
직원들은 이용자 행동에서부터 온라인 거래, 고객 배송 등에 걸친 52PB의 데이터를, 허용된 것만 볼 수 있도록 제한된
상태에서 접속할 수 있다.
자료 : itworld.co.kr "Big Data 시각화로 직원 통찰력을 증대시켜라" 이베이의 과제
추진 내용
이베이는 세 가지 분리된 분석 환경을 구축했다. 두 가지는 테라데이터 소프트웨어상에 엄격한 보안 접속과 함께 세워진
데이터웨어하우스들이고, 나머지 하나는 하둡(Hadoop)을 사용해 비구조적 데이터 작업 부하를 처리하기 위함이다.
이베이는 검색 연관성과 이베이닷컴 사이트의 품질을 시각화하고, 최신 고객 피드백을 모니터하고 이베이닷컴에 대한
정서를 측정하고, 데이터웨어하우스 시스템을 위한 작업 보고를 달성하는데 타블로를 사용
추진 결과
이베이 직원들은 언제라도 최신 고객 피드백과 정서 분석등을 모니터하거나, 검색 연관성과 품질을 시각화할 수 있었다.
이용자들이 다양한 플랫폼에 걸쳐 데이터를 탐험할 수 있게 해줬으며, 전략을 지원하는데 더욱 많이 사용
타블로 서버(Tableau Server)를 통해 브라우저-기반 인터페이스를 사용해 데이터세트를 공유
28. 28
빅 데이터 시각화 사례
Who has it? Who produces it? Who uses it? All of these questions and more are answered in this interactive
piece which explores how natural gas stacks up against other fossil fuels.
GE Data Visualization : Natural Gas Is Everywhere
29. 29
빅 데이터 시각화 사례
It’s easy to take energy for granted. We expect to flip a switch and voila. Germany’s transition away from
nuclear energy gives us another reason to think a bit harder about energy and where it comes from. Here,
we investigate the past, present and future of German’s energy mix
GE Data Visualization : The Great Energy Debate
30. 30
빅 데이터 시각화 사례
It’s 10 p.m. Do you know how much energy your kitchen appliances are using? You will, with Brillion
technology, which can connect your appliances to a smart meter that you can access via your computer or
mobile device. The visualization was originally developed as a touchscreen application for the Consumer
Electronics Show, but now you can explore this web version to learn more about how appliances in a sample
home consumed energy over the course of a month.
GE Data Visualization : Powering the Kitchen
31. 31
빅 데이터 시각화 사례
The ongoing UK floods offer a useful example of some of the links between digital data trails and the
phenomena they represent. In the graphics below, we mapped every geocoded tweet between Nov 20 and
Nov 27, 2012 that mentioned the word "flood" (or variations like "flooded" or "flooding").
Digital Data Trails of the UK Floods
32. 32
빅 데이터 시각화 사례
This is one of the most beautiful examples of data visualization we’ve ever seen – and it actually gives a very
useful advice for every aspiring author. What’s the best recipe to make your novel a bestseller? Kill off your
characters.
The infographic was developed by Joanna Kamradt and Christian Tate for the literary magazine Delayed
Gratification. It analyses 13 novels that won the prestigious Man Booker Prize in 2011. All 13 titles cannot
live without death – check the black end of the chart.
33. 33
빅 데이터 시각화 사례
The relationships between the links are created through the use of common tags based on those used on
against the sites on Delicious.com. You can select one of two views: network and comparison. The first is
shown above the second is available when a group of nodes are selected, and allows the users to see
differences in how people perceive each site.
If you wish to download the data you can do so and it is worth noting that the content will be constantly
updated to keep it contemporary and relevant.
34. 34
빅 데이터 시각화 사례
Jer Thorp의 글을 토대로 Barack Obama와 올해 미국
에 강제진출한 가수 싸이(PSY)에 대한 내용을 뉴욕 타
임즈의 API와 Processing을 활용하여 시각화 해 보았다.
테스트용으로 사용한 Query는 간단하게 검색 날짜 범
위와, 사람 이름이다. 사람 이름으로 검색하면 그와 관
련된 기사의 빈도수와 관련 인물을 토대로 시각화가 가
능한 Library를 사용하였다.
그 결과, OBAMA의 경우 뉴욕타임즈에 기사화 된 경우
와 빈도수도 높아서 아래의 결과처럼 다양한 연관 링크
가 생기고, PSY의 경우에는 최근9월에 이슈화 된 인물
로 그리 많지 않은 링크를 보인다. PSY의 이름이 가장
크게 나오지 않은 것으로 보아 PSY의 영향력 보다는
Chris Brown이나 Rihanna의 영향력이 더 큰것으로 파
악된다. Processing을 통해서 원하는 정보에 대해서 시
각화 할 수 있었다.
35. 35
빅 데이터 시각화 사례
The eXplorer platforms of the
Swedish company NComVA process
very large volumes of data to create
stunning statistical visualizations.
Europe Explorer allows the user to
navigate their way through a large
(and downloadable) dataset
containing economic and
demographic information on
European countries.
The highlight – one can also
customize the data displayed – such
as GDP growth, fertility rate, life
expectancy at birth or population by
age.
36. 36
빅 데이터 시각화 사례
Displaying News
News map is an application that
visually reflects the constantly
changing landscape of the Google
News aggregator.
The size of data blocks is defined by
their popularity at the moment.
37. 37
빅 데이터 시각화 사례
Displaying connections
Show the results of research
graphical visualization
find forms of graphical and/or
typographical representation of the
essays that are both appealing and
informative.
create a system which automatically
generates graphics according to
predefined rules.
38. 38
GoogleVis 패키지 : R에서 Google 데이터 시각화 API를 이용
빅 데이터 시각화 사례
https://www.ted.com/talks/hans_rosling_at_state
40. 《진주 귀고리를 한 소녀》
(네덜란드어: Het Meisje met de Parel)는
네덜란드 화가 요하네스 페르메이르의 걸작
으로, 이름에서 암시하듯이 소녀가 걸고 있
는 진주 귀고리를 그림의 초점으로 사용하였
다. 헤이그의 마우리츠호이스에 전시되어 있
으며, "북유럽의 《모나리자》", 또는 "네덜란
드의 《모나리자》"라고도 불린다.
페르메이르 특유의 미묘한 빛의 표현, 단순
하지만 조화로운 구성, 선명한 색채가 특징
이다. 빛의 효과를 사용하여 두 번 이상의 붓
터치로 그려진 진주는 왼쪽 윗부분이 밝게
빛나고 있으며, 아랫 부분은 하얀 옷깃을 반
사하여 부드럽게 비추면서 맑고 투명한 느낌
을 준다.
그림에서 머리에 터번을 두른 진주 귀고리의
소녀는 누군가를 보기 위해서 왼쪽 어깨를
틀어 고개를 돌리고 있다. 큰 눈동자와 관능
적인 입술, 특유의 시선과 표정이 보는 사람
에게 비밀스러움이 어우러진 신비감을 주고
있다.
41. Data Story
Visual
* Data Storytelling Using visualization to share the human impact of numbers, Jock Mackinlay, PhD, Robert Kosara, PhD, Michelle Wallace
Storytelling with Data
42. [명사] 일정한 줄거리를 담고 있는 말이나 글
• 데이터는 발생하고 있는 현상을 전달하지만
스토리는 이러한 현상의 의미가 무엇인지 알려줌.
• 이벤트의 ‘시작’ 과 ‘끝’을 살펴보면 사건이 진행된
방법에 대해 이해
• 뉴욕타임즈 일본 후쿠시마 대지진
- 데이터 : 오후 2시 46분, 진도 9.0,
30-feet 높이의 해일
- 공감 요소 : ‘굉음’ ‘흔들림’ 라는 단어
Reference : http://public.tableau.com/views/EarthquakesOnTheRise-Full/Earthquakestory?:showVizHome=no#1
Story란?
43. • 스토리에는 ‘무엇을’, ‘누가’, ‘어떻게’, ‘왜’에 대한 내용 뿐만 아니라, 누락되기 쉬운 ‘예측’ 포함
• 데이터는 발생하고 있는 현상을 전달하지만 스토리는 이러한 현상의 의미가 무엇인지 알려줌
• 이벤트의 ‘시작’ 과 ‘끝’을 살펴보면 사건이 진행된 방법에 대해 이해
• At the end, 핵심을 쉽게 기억할 수 있으며, 미래의 모습을 다채로운 그림으로 표현할 수 있음
“진실과 인간을 연결하는 최단거리는 스토리”
– 심리학자 및 작가 인도인, Anthony de mello, One Minute Wisdom
• 스토리의 조건
- 캐릭터 : 스토리 속 인물이 되어 대리만족경험
- 극복해야 할 장애물 : 극복 후 얻는 깨달음 또는 성취감
- 결과 : 예측 또는 스토리에 대한 이해
데이터를 사용한 효과적인 스토리텔링의 5가지 모범 사례
44. 존 스노우 (Dr. John Snow) : 1854
년 콜레라 (Cholera) 발병했던 런던
유행병 학자.
콜레라 발생 원인 및 예방 방법을 전
달하기 위해 도시에 사망자 수 표시.
런던 공무원들에게 원인이 오염된 물
펌프이었다는 사실을 지도를 통해 보
여주며 설득.
대부분 사망이 해당 펌프 인근에서 발
생했기 때문에, 펌프 손잡이 제거 결
정.
강력한 스토리가 사람들의 마음을 움직인다
지도 (hand illustrate)
지도의 사망자 표시 → 물 펌프 근처 → 손잡이 제거 → 콜레라 확산 억제 → 10년 후 세균 이론 개발
스토리를 전달하는 이유
45. 데이터를 사용한 효과적인 스토리텔링의 5가지 방법
1. 분석을 스토리라고 생각하여 스토리 구조 사용
http://public.tableau.com/views/EarthquakesOnTheRise-Full/Earthquakestory?:showVizHome=no#1
“ 중요한 내용에 귀
를 ‘쫑긋’ “
스토리를 통해
데이터와 사실에
생기를 불어 넣다
“대시보드는 무엇이 발생했는지는 보여주지만, 스토리는 이유를 설명한다”
46. 데이터를 사용한 효과적인 스토리텔링의 5가지 방법
2. 자연스러운 스토리 진행의 조건은 진실성
• 구체적이고 감성적으로 작성
• 비유나 일화로 시작
• 데이터를 사용: 진실성은 사실에서 나오고 사실은
데이터를 기반으로 함
• 딱딱한 데이터를 수향 데이터로 보완할 것
https://public.tableau.com/profile/hyegi.choi#!/vizhome/Mers/MERSOutbreakinSouthKorea
https://public.tableau.com/s/gallery/rain-patterns-seoul
47. 데이터를 사용한 효과적인 스토리텔링의 5가지 방법
3. 시각적 효과 – 프레젠테이션은 일종의 영화 제작
https://public.tableau.com/s/gallery/top-movie-directors-film
“차트는 보는 순간
바로 이해할 수 있
어야 한다”
“기호와 그림은 효
과적인 의사 소통
수단이다”
48. 데이터를 사용한 효과적인 스토리텔링의 5가지 방법
4. 청중과 분석가 모두 쉽게 이해할 수 있어야 함