SlideShare a Scribd company logo
1 of 33
February 2015
권재명
실리콘 밸리
데이터 사이언티스트의 하루
권재명
● 통계학자
o "빅데이터" + 머신 러닝 + 데이터 사이언스
● 경력
o Berkeley Transportation Systems (2000~2007): 대용량 교통 데이터
o Wichorus (2009): 와이파이 데이터 모델링
o AOL Platforms (2009-): 온라인 광고 데이터
o Percolata* (2015): 리테일 애널리틱 데이터
o Molocoads.com* (2015): 모빌 DSP
(* : 자문 / 투자)
2
실리콘 밸리 "데이터" 기업들
서비스 (검색,
추천, 뉴스, ...)
사용자
클릭, 구매, "
좋아요", ...
알고리즘 / 서
비스 개선
사용 데이터
서비스 이용
3
서비스 - 사용자 - 데
이터 선순환
(positive feedback)
데이터보다 성공적
인 서비스가 선행
광고 알고리즘
온라인 광고
사용자 (3rd
party)
광고 클릭 / 구
매
광고 알고리즘
개선
클릭 / 구매 데이터
온라인 광고
노출
4
빅데이터 / 데이터 사이언스 대
표 분야
하루에 몇조개의 관측치 생성
수백-수천개의 변량을 이용한
클릭/구매 예측모형
0.001초 내로 "클릭 확률 예측"
5
http://www.lumapartners.com/lumascapes/display-ad-tech-lumascape/
"빅데이터"
웹서버 로그. 검색엔진 문서 자료/인덱스. 온라인 광고 로그. 소셜 네트웍
로그. 교통자료. 과학 자료. 의료자료. 센서 자료. 사물인터넷...
컴한대로 저장/처리 불가 → 분산
기존 소프트웨어로 처리 불가 → 하둡+
수집 / 저장 / 처리 / 분석 / 예측
하둡과 아마존 웹 서비스 (AWS) 로 코모디티 화 완료
6
7
http://www.google.com/trends/
서비스-사용자-데이터 선순환
"간단한" 통계분석
애널리틱
리포팅
"복잡한" 통계
머신러닝
코어 알고리즘 개발
8
"데이터 인력"
데이터 인프라
온디매드 클라우드
컴퓨팅
오픈 소스 빅데이터
소프트웨어 (Hadoop)
데이터 엔
지니어
데이터 사이언
티스트
머신러닝 사이
언티스트
* 링크드인의 2014 구조조정
통계 / 머신 러닝
코딩
적용 영역 지식
데이터 사이언스
9
통계 / 머신
러닝
코딩 적용 영역 지
식
전통적인 통계학자
10
통계 / 머신 러닝
코딩
적용 영역 지식
"데이터 엔지니어"
11
통계 / 머신 러닝
코딩
적용 영역 지식
"데이터 사이언티스트"
12
통계 / 머신 러닝
코딩
적용 영역 지식
"머신러닝 사이언티스트" ("통계학자")
13
통계 / 머신 러닝
코딩
적용 영역 지식
네 직업군의 수요-공급*
14
머신 러닝 사이
언티스트
데이터 엔지니어
데이터 사이언
티스트
데이터 엔지니어
전통 통계학자
수요-공급 불균형의 이유?
"데이터 사이언티스트"로 입사한 똑똑한 이공계분야 신입사
원의 경우:
● 적용분야 지식: 1-3개월+
● 코딩: 6-12개월+
● 통계의 올바른 적용: 1년+
● 고급 모델링과 알고리즘 개발: 보통 석/박사를 뽑는다.
통계학 / 머신러닝이 쉽지 않다
15
16
http://scikit-learn.org/
예측 프로덕션 시스템
어려운 통계
모델 구축 (Build
model)
데이터 사이언티스트(팀)의 하루
자료 추출
(Acquire)
자료 청소
(Clean)
대화형 분석
(Interactive
Analysis)
시각화 분석
(Visual
Analysis)
탐색적 자료 분
석 (EDA)
자료 저장 / 관리
(Store)
자료 랭글링
(Wrangle)
스토리 텔링
(Story-telling)
보고서 쓰기
(Reporting)
엔지니어들과의 협
업
문제 정의
모델 디플로이
(Deploy Model)
모델 모니터
(Monitor model)
비즈니스의 필요
랩장/선임(chief scientist)의 리더쉽
연구원들간의 개방적인 토론
구글 닥을 통한 동기부여(motivation)와 요구사
항 (requirements) 공유
문제 정의
자료 추출
(Acquire)
Hadoop, RDBMS (SQL)
Python (Streaming), Hive ...
코딩 능력이 가장 많이 필요
보통 데이터 사이언티스트들이 자체적으로
해냄
종종 데이터 엔지니어들의 도움
Git 트랙킹 시작
자료 청소
(Clean)
생각보다 많은 시간이 걸림...
Unix + Python + R
스타일 가이드
(pylint, pep 8...)
Git 트랙킹
자료 저장 / 관리
(Store)
자료 랭글링
(Wrangle)
R (가끔 Python)
자료의 문제가 수시로
발견됨
Git 트랙킹
결과는 구글 닥 공유시각화 분석
(Visual
Analysis)
탐색적 자료 분
석 (EDA)
대화형 분석
(Interactive
Analysis)
R
통계 고수의 도움이 필요한
때
베이지안 모델
계층모형 (Hierarchical
model)
어려운 통계
스토리 텔링
(Story-telling)
고품질 작문 (writing)
고품질 시각화 (ggplot2)
구글 닥
팀내 공유 필수
전사 공유 권고
코드 리뷰
Git
보고서 쓰기
(Visual
Analysis)
프로덕션 시스템
모델 구축 (Build
model)
엔지니어들과의 협
업
모델 디플로이
(Deploy Model)
모델 모니터
(Monitor model)
Python (+R)
좀더 엄격한 코드 리뷰
요구사항은 Python Pseudocode로
Git 집중활용 (fork/pull model)
리서치 + 프로덕션 거리를 좁히려 노력
데이터 사이언스 툴채인
● Powerful text editor (Sublime)
● Python
● R / RStudio
● Unix / bash
● Git
● RDBMS (SQL)
● Google App / Slack / JIRA / ...: 개방된 협업
데이터 사이언스 베스트 프랙티스
26
1. 툴 채인 통일 (OSX/Unix, Sublime Editor, RStudio, ...)
2. 스타일 가이드 (R, Python, Bash, Java)
3. 도큐먼트 탬플릿
4. 적극적인 문서 / 코드 공유
5. 코드 리뷰 / 피어 코딩
6. 준-애자일 워크플로우 (Semi-Agile process)
7. 재생가능 연구 (reproducible research)
조금은 심한 개방 / 협업
28https://github.com/WhiteHouse/2016-budget-data https://www.atlassian.com/software/jira
https://www.atlassian.com/software/sourcetree/overviewhttps://www.atlassian.com/git/tutorials/comparing-workflows/gitflow-workflow
데이터 = 신호 + 잡음
y = μ + 𝜀
y = β x + 𝜀
사실 = 진실 + 우연
뉴스 = 역사 + 우연
주식주가 = 가치 + 우연
성공 = 실력 + 우연
통계적 세계관: 신호와 잡음
데이터 = 신호 + 잡음
오버피팅
오차한도 / 신뢰구간
샘플링 에러 ~ 1/sqrt(n)
한계효용 체감의 법칙
탐색적 자료분석 (EDA)
자료는 항상 오염되어 있다
베이지언 기법들 (데이터가 부족한 경우 / 초기화)
계층 모형 (변량이 많은 경우)
데이터 사이언스 필수 통계 개념들
데이터 사이언스의 사내 도입
데이터에 기반한 의사결정 문화가 선행되어야
"솔루션"은 상대적으로 덜 중요
데이터 사이언스 전문 인력 / 팀이 필요
애널리틱과 서비스를 만드는 팀은 보통 분리
통계 내공이 도움이 된다
"데이터 기업"은 데이터 사이언스 인력/팀에 충분한 독립성 부여
엔지니어 팀과의 긴밀한 협업과 소통이 중요
신뢰받는 테크 리더쉽 + 베스트 프랙티스
31
요약
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
32
Q&A

More Related Content

What's hot

코로나19로 인해 변화된 우리 시대의 데이터 트랜드
코로나19로 인해 변화된 우리 시대의 데이터 트랜드코로나19로 인해 변화된 우리 시대의 데이터 트랜드
코로나19로 인해 변화된 우리 시대의 데이터 트랜드Yongho Ha
 
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 [데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 choi kyumin
 
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기Hui Seo
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Seongyun Byeon
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )정혁 권
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립승화 양
 
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan Ko
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석YOO SE KYUN
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)Hyojun Jeon
 
개발자를 위한 (블로그) 글쓰기 intro
개발자를 위한 (블로그) 글쓰기 intro개발자를 위한 (블로그) 글쓰기 intro
개발자를 위한 (블로그) 글쓰기 introSeongyun Byeon
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다승화 양
 
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트Minho Lee
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
 
[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기NAVER D2
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101DaeMyung Kang
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석Seonggwan Lee
 
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)Jaikwang Lee
 
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론PAP (Product Analytics Playground)
 

What's hot (20)

코로나19로 인해 변화된 우리 시대의 데이터 트랜드
코로나19로 인해 변화된 우리 시대의 데이터 트랜드코로나19로 인해 변화된 우리 시대의 데이터 트랜드
코로나19로 인해 변화된 우리 시대의 데이터 트랜드
 
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 [데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
 
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립
 
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)
 
Data Science. Intro
Data Science. IntroData Science. Intro
Data Science. Intro
 
개발자를 위한 (블로그) 글쓰기 intro
개발자를 위한 (블로그) 글쓰기 intro개발자를 위한 (블로그) 글쓰기 intro
개발자를 위한 (블로그) 글쓰기 intro
 
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
 
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트
프로덕트를 빠르게 개선하기 위한 베이지안 A/B 테스트
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
 
[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기[261] 실시간 추천엔진 머신한대에 구겨넣기
[261] 실시간 추천엔진 머신한대에 구겨넣기
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석
 
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
대용량 로그분석 Bigquery로 간단히 사용하기 (20170215 T아카데미)
 
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
[팝콘 시즌1] 이윤희 : 다짜고짜 배워보는 인과추론
 

Viewers also liked

분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질Sun Young Kim
 
Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나choi kyumin
 
ML + 주식 phase 2
ML + 주식  phase 2ML + 주식  phase 2
ML + 주식 phase 2HoChul Shin
 
머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기HoChul Shin
 
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표cbs15min
 
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장cbs15min
 
Jupyter notebook 이해하기
Jupyter notebook 이해하기 Jupyter notebook 이해하기
Jupyter notebook 이해하기 Yong Joon Moon
 
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요Yongho Ha
 
화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자Yongho Ha
 
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례Jemin Huh
 
스프링 부트와 로깅
스프링 부트와 로깅스프링 부트와 로깅
스프링 부트와 로깅Keesun Baik
 
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
 
중국 VR 보고서 - 2016
중국 VR 보고서 - 2016중국 VR 보고서 - 2016
중국 VR 보고서 - 2016Brandon Lee
 
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.Yongho Ha
 

Viewers also liked (15)

분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 
Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나
 
ML + 주식 phase 2
ML + 주식  phase 2ML + 주식  phase 2
ML + 주식 phase 2
 
머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기
 
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
 
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
 
Jupyter notebook 이해하기
Jupyter notebook 이해하기 Jupyter notebook 이해하기
Jupyter notebook 이해하기
 
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
 
화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자
 
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
 
스프링 부트와 로깅
스프링 부트와 로깅스프링 부트와 로깅
스프링 부트와 로깅
 
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
 
중국 VR 보고서 - 2016
중국 VR 보고서 - 2016중국 VR 보고서 - 2016
중국 VR 보고서 - 2016
 
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
 

Similar to 실리콘 밸리 데이터 사이언티스트의 하루

AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)Metatron
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Amazon Web Services Korea
 
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture상래 노
 
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining SuHyun Jeon
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWSKRUG - AWS한국사용자모임
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020Jinwoong Kim
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아K data
 
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2BruceDong WinnersLab
 
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼ABRC_DATA
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)Treasure Data, Inc.
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례Amazon Web Services Korea
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장eungjin cho
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망Open Cyber University of Korea
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019Sangkyu Kim
 
Week1 ot
Week1 otWeek1 ot
Week1 otEun Yu
 

Similar to 실리콘 밸리 데이터 사이언티스트의 하루 (20)

AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
 
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
 
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
 
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019
 
Week1 ot
Week1 otWeek1 ot
Week1 ot
 

More from Jaimie Kwon (권재명)

효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁Jaimie Kwon (권재명)
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)Jaimie Kwon (권재명)
 
데이터분석의 길 4: “고수는 통계학습의 달인이다”
데이터분석의 길 4:  “고수는 통계학습의 달인이다”데이터분석의 길 4:  “고수는 통계학습의 달인이다”
데이터분석의 길 4: “고수는 통계학습의 달인이다”Jaimie Kwon (권재명)
 
데이터분석의 길 3 “r 워크플로우 (스토리텔링)”
데이터분석의 길 3   “r 워크플로우 (스토리텔링)”데이터분석의 길 3   “r 워크플로우 (스토리텔링)”
데이터분석의 길 3 “r 워크플로우 (스토리텔링)”Jaimie Kwon (권재명)
 
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2:  “고수는 최고의 연장을 사용한다” (툴채인)데이터분석의 길 2:  “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)Jaimie Kwon (권재명)
 
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)Jaimie Kwon (권재명)
 

More from Jaimie Kwon (권재명) (6)

효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁
 
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)데이터분석의 길 5:  “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
데이터분석의 길 5: “고수는 큰자료를 두려워하지 않는다” (클릭확률예측 상편)
 
데이터분석의 길 4: “고수는 통계학습의 달인이다”
데이터분석의 길 4:  “고수는 통계학습의 달인이다”데이터분석의 길 4:  “고수는 통계학습의 달인이다”
데이터분석의 길 4: “고수는 통계학습의 달인이다”
 
데이터분석의 길 3 “r 워크플로우 (스토리텔링)”
데이터분석의 길 3   “r 워크플로우 (스토리텔링)”데이터분석의 길 3   “r 워크플로우 (스토리텔링)”
데이터분석의 길 3 “r 워크플로우 (스토리텔링)”
 
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2:  “고수는 최고의 연장을 사용한다” (툴채인)데이터분석의 길 2:  “고수는 최고의 연장을 사용한다” (툴채인)
데이터분석의 길 2: “고수는 최고의 연장을 사용한다” (툴채인)
 
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
데이터 분석의 길 1. “고수는 생선 잡는 법을 알고있다” (검색과 영어)
 

실리콘 밸리 데이터 사이언티스트의 하루

  • 2. 권재명 ● 통계학자 o "빅데이터" + 머신 러닝 + 데이터 사이언스 ● 경력 o Berkeley Transportation Systems (2000~2007): 대용량 교통 데이터 o Wichorus (2009): 와이파이 데이터 모델링 o AOL Platforms (2009-): 온라인 광고 데이터 o Percolata* (2015): 리테일 애널리틱 데이터 o Molocoads.com* (2015): 모빌 DSP (* : 자문 / 투자) 2
  • 3. 실리콘 밸리 "데이터" 기업들 서비스 (검색, 추천, 뉴스, ...) 사용자 클릭, 구매, " 좋아요", ... 알고리즘 / 서 비스 개선 사용 데이터 서비스 이용 3 서비스 - 사용자 - 데 이터 선순환 (positive feedback) 데이터보다 성공적 인 서비스가 선행
  • 4. 광고 알고리즘 온라인 광고 사용자 (3rd party) 광고 클릭 / 구 매 광고 알고리즘 개선 클릭 / 구매 데이터 온라인 광고 노출 4 빅데이터 / 데이터 사이언스 대 표 분야 하루에 몇조개의 관측치 생성 수백-수천개의 변량을 이용한 클릭/구매 예측모형 0.001초 내로 "클릭 확률 예측"
  • 6. "빅데이터" 웹서버 로그. 검색엔진 문서 자료/인덱스. 온라인 광고 로그. 소셜 네트웍 로그. 교통자료. 과학 자료. 의료자료. 센서 자료. 사물인터넷... 컴한대로 저장/처리 불가 → 분산 기존 소프트웨어로 처리 불가 → 하둡+ 수집 / 저장 / 처리 / 분석 / 예측 하둡과 아마존 웹 서비스 (AWS) 로 코모디티 화 완료 6
  • 8. 서비스-사용자-데이터 선순환 "간단한" 통계분석 애널리틱 리포팅 "복잡한" 통계 머신러닝 코어 알고리즘 개발 8 "데이터 인력" 데이터 인프라 온디매드 클라우드 컴퓨팅 오픈 소스 빅데이터 소프트웨어 (Hadoop) 데이터 엔 지니어 데이터 사이언 티스트 머신러닝 사이 언티스트 * 링크드인의 2014 구조조정
  • 9. 통계 / 머신 러닝 코딩 적용 영역 지식 데이터 사이언스 9 통계 / 머신 러닝 코딩 적용 영역 지 식
  • 10. 전통적인 통계학자 10 통계 / 머신 러닝 코딩 적용 영역 지식
  • 11. "데이터 엔지니어" 11 통계 / 머신 러닝 코딩 적용 영역 지식
  • 12. "데이터 사이언티스트" 12 통계 / 머신 러닝 코딩 적용 영역 지식
  • 13. "머신러닝 사이언티스트" ("통계학자") 13 통계 / 머신 러닝 코딩 적용 영역 지식
  • 14. 네 직업군의 수요-공급* 14 머신 러닝 사이 언티스트 데이터 엔지니어 데이터 사이언 티스트 데이터 엔지니어 전통 통계학자
  • 15. 수요-공급 불균형의 이유? "데이터 사이언티스트"로 입사한 똑똑한 이공계분야 신입사 원의 경우: ● 적용분야 지식: 1-3개월+ ● 코딩: 6-12개월+ ● 통계의 올바른 적용: 1년+ ● 고급 모델링과 알고리즘 개발: 보통 석/박사를 뽑는다. 통계학 / 머신러닝이 쉽지 않다 15
  • 17. 예측 프로덕션 시스템 어려운 통계 모델 구축 (Build model) 데이터 사이언티스트(팀)의 하루 자료 추출 (Acquire) 자료 청소 (Clean) 대화형 분석 (Interactive Analysis) 시각화 분석 (Visual Analysis) 탐색적 자료 분 석 (EDA) 자료 저장 / 관리 (Store) 자료 랭글링 (Wrangle) 스토리 텔링 (Story-telling) 보고서 쓰기 (Reporting) 엔지니어들과의 협 업 문제 정의 모델 디플로이 (Deploy Model) 모델 모니터 (Monitor model)
  • 18. 비즈니스의 필요 랩장/선임(chief scientist)의 리더쉽 연구원들간의 개방적인 토론 구글 닥을 통한 동기부여(motivation)와 요구사 항 (requirements) 공유 문제 정의
  • 19. 자료 추출 (Acquire) Hadoop, RDBMS (SQL) Python (Streaming), Hive ... 코딩 능력이 가장 많이 필요 보통 데이터 사이언티스트들이 자체적으로 해냄 종종 데이터 엔지니어들의 도움 Git 트랙킹 시작
  • 20. 자료 청소 (Clean) 생각보다 많은 시간이 걸림... Unix + Python + R 스타일 가이드 (pylint, pep 8...) Git 트랙킹 자료 저장 / 관리 (Store) 자료 랭글링 (Wrangle)
  • 21. R (가끔 Python) 자료의 문제가 수시로 발견됨 Git 트랙킹 결과는 구글 닥 공유시각화 분석 (Visual Analysis) 탐색적 자료 분 석 (EDA) 대화형 분석 (Interactive Analysis)
  • 22. R 통계 고수의 도움이 필요한 때 베이지안 모델 계층모형 (Hierarchical model) 어려운 통계
  • 23. 스토리 텔링 (Story-telling) 고품질 작문 (writing) 고품질 시각화 (ggplot2) 구글 닥 팀내 공유 필수 전사 공유 권고 코드 리뷰 Git 보고서 쓰기 (Visual Analysis)
  • 24. 프로덕션 시스템 모델 구축 (Build model) 엔지니어들과의 협 업 모델 디플로이 (Deploy Model) 모델 모니터 (Monitor model) Python (+R) 좀더 엄격한 코드 리뷰 요구사항은 Python Pseudocode로 Git 집중활용 (fork/pull model) 리서치 + 프로덕션 거리를 좁히려 노력
  • 25. 데이터 사이언스 툴채인 ● Powerful text editor (Sublime) ● Python ● R / RStudio ● Unix / bash ● Git ● RDBMS (SQL) ● Google App / Slack / JIRA / ...: 개방된 협업
  • 26. 데이터 사이언스 베스트 프랙티스 26 1. 툴 채인 통일 (OSX/Unix, Sublime Editor, RStudio, ...) 2. 스타일 가이드 (R, Python, Bash, Java) 3. 도큐먼트 탬플릿 4. 적극적인 문서 / 코드 공유 5. 코드 리뷰 / 피어 코딩 6. 준-애자일 워크플로우 (Semi-Agile process) 7. 재생가능 연구 (reproducible research) 조금은 심한 개방 / 협업
  • 27.
  • 29. 데이터 = 신호 + 잡음 y = μ + 𝜀 y = β x + 𝜀 사실 = 진실 + 우연 뉴스 = 역사 + 우연 주식주가 = 가치 + 우연 성공 = 실력 + 우연 통계적 세계관: 신호와 잡음
  • 30. 데이터 = 신호 + 잡음 오버피팅 오차한도 / 신뢰구간 샘플링 에러 ~ 1/sqrt(n) 한계효용 체감의 법칙 탐색적 자료분석 (EDA) 자료는 항상 오염되어 있다 베이지언 기법들 (데이터가 부족한 경우 / 초기화) 계층 모형 (변량이 많은 경우) 데이터 사이언스 필수 통계 개념들
  • 31. 데이터 사이언스의 사내 도입 데이터에 기반한 의사결정 문화가 선행되어야 "솔루션"은 상대적으로 덜 중요 데이터 사이언스 전문 인력 / 팀이 필요 애널리틱과 서비스를 만드는 팀은 보통 분리 통계 내공이 도움이 된다 "데이터 기업"은 데이터 사이언스 인력/팀에 충분한 독립성 부여 엔지니어 팀과의 긴밀한 협업과 소통이 중요 신뢰받는 테크 리더쉽 + 베스트 프랙티스 31
  • 32. 요약 1. 실리콘 벨리 데이터 기업들 2. 온라인 광고 사업 3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트 4. 실리콘 벨리 데이터 사이언티스트의 하루 5. 데이터 사이언스 툴채인 6. 데이터 사이언스 베스트 프랙티스 7. 데이터 사이언스 필수 통계 개념 8. 사내 데이터 사이언스 도입 32
  • 33. Q&A