SlideShare a Scribd company logo
1 of 54
HiPIC 
하둡 빅데이터 및 사례 소개 
Jongwook Woo 
CSULA 
(항공운송업 포함) 
대한항공 
Seoul, Korea 
Nov 8 2014 
우종욱 (Jongwook Woo, PhD) 
High-Performance Information Computing Center (HiPIC) 
Cloudera Academic Partner and Grants Awardee of Amazon AWS 
California State University Los Angeles
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Contents 
자기소개 
빅데이터? 
하둡 엔터프라이즈 배포판 
하둡 빅데이타 강의 소개 
결론
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Me 
이름: 우종욱 
경력: 
 2012년 - 
– Certified Cloudera Instructor: R&D, Consulting, Training 
 2012년 - : 클라우데라 CAP 파트너, 클라우데라 교육 
 1998년부터 헐리우드등지의 많은 회사 컨설팅 
– 주로 J2EE 미들웨어를 이용한 eBusiness applications 구축 
– FAST, Lucene/Solr, Sphinx 검색엔진을 이용한 정보추출, 정보통합 
– Warner Bros (Matrix online game), E!, citysearch.com, ARM 등 
 2008여년 부터 하둡 빅데이타에 관심 
 2001년 공학박사: USC 컴퓨터 사이언스, 컴퓨터 엔지니어링
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Me 
경력 (계속): 대한민국에 빅데이터 기술전도중 
2014년 서울: 
– Hadoop 및 그 Ecosystems 교육 
• 데이터분석가/과학자 교육 
• 하둡 개발자, 관리자, HBase 교육 
• 하둡 Spark 교육 
2013년 여름 이글루시큐리티 자문: 
– 하루에 30GB – 100GB씩 생성되는 보안관련 로그 파일들을 
빠르게 데이타 검색하는 시스템 R&D 
• Hadoop, Solr, Java, Cloudera 이용 
2013년 9월 중순: 삼성 첨단 기술 연수원 
– 3일간 Hadoop 및 그 Ecosystems 교육 
 2009년 이래 국내 대학교/연구소에 하둡소개 
– 세계적인 빅 데이타 이슈에 선도적인 선도적연구및 교육을 
위한 하둡 빅데이터 기술 소개
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Experience in Big Data 
 Grants 
 Received MicroSoft Windows Azure Educator Grant (Oct 2013 
- July 2014) 
 Received Amazon AWS in Education Research Grant (July 
2012 - July 2014) 
 Received Amazon AWS in Education Coursework Grants (July 
2012 - July 2013, Jan 2011 - Dec 2011 
 Partnership 
 Received Academic Education Partnership with Cloudera since 
June 2012
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Experience in Big Data 
 Certificate 
 Certified Cloudera Hadoop Instructor 
 Certified Cloudera Hadoop Developer / Administrator / Hbase / 
Spark 
 Certificate of Achievement in the Big Data University Training 
Course, “Hadoop Fundamentals I”, July 8 2012 
 Certificate of 10gen Training Course, “M101: MongoDB 
Development”, (Dec 24 2012) 
 Blog and Github for Hadoop and its ecosystems 
 http://dal-cloudcomputing.blogspot.com/ 
– Hadoop, AWS, Cloudera 
 https://github.com/hipic 
– Hadoop, Cloudera, Solr on Cloudera, Hadoop Streaming, 
RHadoop 
 https://github.com/dalgual
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Contents 
자기소개 
빅데이터? 
하둡 엔터프라이즈 배포판 
하둡 빅데이타 강의 소개 
결론
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
빅데이터의 시대 
Google 
“We don’t have a better algorithm 
than others but we have more data 
than others”
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
빅데이터의 시대 
빅데이타 시대 
소셜미디아, 스마트폰, 센서네트워크 등으로 인하여 
데이타의 증가 
– 각 회사마다 하루에 몇십 테라 바이트씩 데이타 생성 
– 생성된 데이타는 비구조화 또는 반구조화 데이타 
– 빅데이타라 불림 
빅데이타의 큰 두가지 문제점 
데이타 저장 
– 기존의 RDBMS, 데이터 웨어 하우스 를 이용시 너무 비쌈 
데이타 처리 
– 기존의 순차 연산 이용시 너무 느리거나 처리 불가
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
빅데이터의 시대 
빅데이타의 큰 두가지 문제점 해결? 
구글의 해법 
– 구글의 GFS (Google Distributed File Systems) 
– 구글 맵리듀스 병렬처리 시스템 
Apache Hadoop 
– 구글 시스템에 힌트를 얻은 아파치코뮤니티에서 
HDFS (Hadoop Distributed File Systems) 와 하둡 
맵리듀스 시스템 두개를 핵심으로 한 하둡 
프로젝트 
– Cloudera, Hortonworks, IBM등에서 하둡과 그 Eco 
시스템 관리 및 컨설팅 제공
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
What is Hadoop? 
11 
하둡의 창시자: 
Doug Cutting 
Chief Architect at Cloudera
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Definition: Big Data 
Inexpensive frameworks that can 
store a large scale data and 
process it faster in parallel 
Hadoop 
–Inexpensive Super Computer 
–You can build and run your applications
CM 
HDFS HDFS HDFS 
HDFS HDFS HDFS 
HIVE ZooKeeper Impala 
Agent CDH Agent CDH Agent CDH 
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Hadoop CDH: Logical Diagram 
Web Browser to control Cloudera Manager 
Server 
HTTP(S) 
Agent CDH Agent CDH Agent CDH 
Agent CDH Agent CDH Agent CDH 
... 
... 
...
Big Data Market Potential is BIG 
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
하둡이라는 새로운 툴 
14 
Source: BofA Merrill Lynch Global Research March 2012 
Hardware 
$21B Services 
$42B 
Software 
$34B 
Complementary 
Database 
$35B 
Hadoop 
$14B 
14
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
새로운 툴의 등장
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
새로운 툴의 등장
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
새로운 툴의 등장 
나가시노 전투
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
나가시노 전투
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Definition: Big Data 
다시한번 
빅데이터 
데이터를 가지고 미래 가치를 예측하는것 
– No! 
• 빅데이터의 한 응용사례, 우리가 늘 해오던 
일일뿐 
– 기존의 컴퓨터, DW, DB등으로 
빅데이터는 하둡이라는 수퍼컴퓨터를 
이용하려는 새로운 접근법
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Legacy Example 
In late 2007, the New York Times 
wanted to make available over the web 
its entire archive of articles, 
11 million in all, dating back to 1851. 
four-terabyte pile of images in TIFF format. 
needed to translate that four-terabyte pile of TIFFs 
into more web-friendly PDF files. 
– not a particularly complicated but large computing chore, 
• requiring a whole lot of computer processing time.
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Legacy Example (Cont’d) 
In late 2007, the New York Times 
wanted to make available over the web 
its entire archive of articles, 
a software programmer at the Times, Derek Gottfrid, 
– playing around with Amazon Web Services, Elastic 
Compute Cloud (EC2), 
• uploaded the four terabytes of TIFF data into Amazon's 
Simple Storage System (S3) 
• In less than 24 hours, 11 millions PDFs, all stored 
neatly in S3 and ready to be served up to visitors to the 
Times site. 
 The total cost for the computing job? $240 
– 10 cents per computer-hour times 100 computers times 24 hours
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
HuffPost | AOL 
Two Machine Learning Use Cases 
Comment Moderation 
 Evaluate All New HuffPost User Comments 
Every Day 
 Identify Abusive / Aggressive Comments 
 Auto Delete / Publish ~25% Comments Every 
Day 
Article Classification 
 Tag Articles for Advertising 
 E.g.: scary, salacious, …
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Major US Airlines 
 국제 항공 운송협회(IATA) 발표한 수치 
2014년 수익: 200억 달러 
– 2013년 이익에서 50% 증가 
10년전: 가장 큰 미국의 항공사들 절반 가량이 파산 
– 업계가 연간 100억 달러를 잃고 있었음 
 Why it is possible? 
대규모 합병으로 인한 항공사의 감소 
– 좌석에 대한 수요 증폭 
– 연료가격은 2008년 정점 이후 다소 완화 
– 대침체/공항(Great Recession)로 항공사의 근로자 임금 상승 
억제 
 However, Main Reason: Big Data 
데이터 저장 및 분석 기술의 새로운 방법인 하둡 이용 
판매 증진과 마진 증가
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Major US Airlines (계속) 
항공사들의 수익 개선 3가지 접근법 
 전통적 접근 
–센서 데이터를 확보하여 유지보수 최적화 
–날씨 예측을 이용한 연료 조절 
• 상업 비행 시대 초기부터 항공사들이 
기본적으로 개선해 왔었던 부분 
빅데이터 이용 
문제점 및 요구사항 
기존 웹 분석 툴은 너무 고가 
웹 클릭 성향 (Click Stream) 분석의 필요성 
보다 오래된 웹 클릭 데이터 저장 및 접근성 필요
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Major US Airlines (계속) 
빅데이터 저장 및 분석 
하둡으로 빅데이터 저장 
–비정형 데이터를 하둡에 저장 
• 고객의 감성 데이터 
–소셜 미디어 (페이스북, 트위터 등)와 
여행 웹사이트 (Kayak, Travelocity 
등)에서 수집 
• 전자 상거래 행위 데이터 
–웹 클릭 스트림 데이터
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
빅데이터 저장 및 분석 (계속) 
 하둡으로 빅데이터 분석 
온라인 예약 웹 분석 
– 하둡의 빅데이터 마이닝 알고리즘으로 빅데이터 분석 
고객요구사항을 식별하고 확보 
– 항공사 차별화 전략에 큰 기회 
하둡 맵리듀스로 다양한 변수간 상관관계 분석 
– 티켓가격, 
– 수화물 요금, 
– 기본 경로, 
– 장비 고장 및 지연, 
– 기내 식품 구매 및 엔터테이먼트 등 
 결국: 
데이터 분석으로 저비용 고효율 달성
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Major US Airlines (계속) 
사용 소프트웨어 및 접근 
 Cloudera의 CDH사용 
 저가로 데이터 분석 및 접근성 달성 
 2배 이상의 오랜 데이터 저장 가능 
– 4 년 vs 기존의 기술로는 2년 
–Tape나 RDB보다 데이터 접근성 향상 
참고: Web Click Stream 
어떤 페이지에 손님이 방문했는지, 
무엇을 클릭했는지, 
티켓을 구매하거나 
웹사이트를 떠나기 전 얼마나 머물렀는지 
추적하고 기록할 수 있음
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Contents 
자기소개 
빅데이터? 
하둡 엔터프라이즈 배포판 
하둡 빅데이타 강의 소개 
결론
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
하둡 설치 
http://hadoop.apache.org 
하둡 다운로드 받아서 설치 
노드별 설치 구성 
– 노드별 몇날 몇일 걸림 
노드 갯수 증가시 
– 설치 몇날 몇달 걸림 
노드 상태, 서비스 상태, 리소스 상태 확인 
– 너무 어려움 
에코시스템 설치? 
– 설치 몇날 몇달 걸림 
백업, 데이터 회복, 데이터 audit?
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
하둡 엔터프라이즈 배포판 
Linux 
Redhat, Ubuntu, SuSE 
Hadoop 
Cloudera 
–CDH 
• Hadoop에 대쉬보드, 시각화, 관리, 구성 등 
기능 제공 
Hortonworks 
–Yahoo에서 분사 
–HDP 
MapR 
– C 언어로 구성 
– 정통 Hadoop과 별개로 시작됨
예: 클라우데라 배포판 하둡 (CDH) 설치 
http://www.cloudera.com/downloads/ 
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
무료배포판 
– 클라우데라 매니저를 이용하여 30분내 하둡 
클러스터 설치 
– 노드 갯수 증가시 몇분만에 노드들 추가 
– 노드 상태, 서비스 상태, 리소스 상태 확인 
– 에코시스템 설치 
• 자동설치 
EDH: 유료판 
– 기술지원 
– 백업, 데이터 회복, 데이터 audit/lineage
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
클라우데라 하둡 및 CDH 소개 
상세 소개: Hadoop 역사, 하둡 코아, 
에코시스템, 클라우데라 매니저, 
내비게이터 등 설명 
http://www.slideshare.net/cloudera/cloude 
ra-sessions-afternoon-getting-started-1 
간략 소개: 하둡 코아 설명 
http://www.slideshare.net/bigdatasyd/intro 
duction-to-hadoop-12275253
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
클라우데라 하둡 및 CDH 소개 
클라우데라 주최 : 하둡 빅데이터 
스트라타 컨퍼런스 2014 
http://strataconf.com/stratany2014 
뉴욕: Oct 15-17 2014 
https://www.facebook.com/jongwook.woo/ 
media_set?set=a.4822613060696.107374 
1834.1757567060&type=1&pnref=story 
클라우데라는 하둡/빅데이터 세계에서 
선두
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Contents 
자기소개 
빅데이터? 
하둡 엔터프라이즈 배포판 
하둡 빅데이타 강의 소개 
결론
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
하둡 교육이 왜 필요한가 
R&D및 가치 창출을 위한 새로운 
수퍼컴퓨터 
새로운 알고리즘 응용분야 개발을 통한 
가치 창출 
–추천 시스템 
–상권 분석, 판매분석, 고객 분석 
–반도체 
• Semiconductor/Chip Design Data Analysis 
–영화, 게임, 보안 
• 로그데이터 분석 
–Image, Audio 처리 
• 머쉰러닝, 그래프 알고리즘
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
하둡 교육이 왜 필요한가 
새로운 가치 창조, R&D시 필요 
미국을 필두로 공학, 과학, 기업등에서 
하둡 빅데이터 교육의 중요성 인지 
–데이타 마이닝 및 분석 분야 뿐아니라 
대용량 데이터가 있는 모든 분야 
기업마다 Hadoop Cluster 소유해야 함 
–저렴한 수퍼 컴퓨터 
그러나, 
아무도 하둡을 가르쳐 주지 않는다 
누구에게 교육 받을 것인가?
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
하둡 교육 어떻게 시작할 것인가? 
기술자들의 Self-study 한계 
시간상의 한계: more than a year to be an expert 
Don’t know the detail 
Miss many important topics 
2014년 우리는 전문가, 국제경쟁 시대에 살고 있음 
– 80년대 대학 강의실이 아님 
교육비 절약? 
기업 생산성 감소
하둡 교육 어떻게 시작할 것인가? (계속) 
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
IT분야의 각자교육의 한계 인식 필요 
실리콘 밸리등 산업계에서 IT기술을 선도함 
교육비 절약으로 빅데이터 산업에 뒤쳐짐 
산업계 Training program 
Cloudera를 선두로 Hortonworks, MapR 
=> 이미 잘 만들어진 교재, 장비 및 실습재료 있음
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
하둡 교육 어떻게 시작할 것인가? 
교육 과목 및 개설시 요구사항 
하둡 관련 과목 
– About Hadoop, Hbase, Hive/Pig, Data Analysis, 
Spark, Data Mining etc 
• 하둡 개발자 
• 하둡 시스템관리자 
• 하둡 데이터 분석가/과학자 
• 하둡 HBase 
• 하둡 Spark 
Theory Guy양성이 아닌 실무자 양성을 위한 실습용 
장비/코드 예제 필요
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Big Data 교육 
클라우데라 빅데이터 교육 사례 
Cloudera 교육 파트너쉽을 바탕으로 
한 클라우데라의 교육재료로 빅데이타 
교육제공 
전세계에 실무에 바로 투입가능한 
하둡 전문가 양성
Cloudera Dominates Hadoop Training 
2% 1% 2% 0%1% 
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Worldwide 
Over 50,000 People Trained on Hadoop 
41 
• All scheduled classes 
• Jan-June 2014 
Cloudera is 84% 
(437/523) 
84% 
10% 
Cloudera 
Hortonworks 
MapR 
IBM 
Oracle 
Pivotal 
Intel 
41
Training Hadoop and Ecosystems 
Cloudera visits to interview Jongwook Woo 
High Performance Information Computing Center 
Jongwook Woo 
CSULA
Training Hadoop and Ecosystems 
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
클라우데라 빅데이터 교육을 위한 교육 
프로그램 디렉터 와 함께
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Contents 
자기소개 
빅데이터? 
하둡 엔터프라이즈 배포판 
하둡 빅데이타 강의 소개 
결론
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
광해군과 청
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
사르후 전투 
<만주실록의 사르후 전투 그림. 후금 vs 명군의 전투 장면
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
강홍립과 부차 (후챠) 전투 
<만주실록>: 조명연합군의 명 유정군 선봉을 공격하는 만주족 기병
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
조선군 편성 
조선측 사료 <충렬록 1770-1790> 정사4간본의 조선군 그림. 활을 든 
사수와 조총을 든 포수
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
강홍립과 부차 (후챠) 전투
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
결론 
아파치 하둡을 이용하여 빅데이타를 저장 
및 처리하는 새로운 접근법이 미국을 
필두로 하여 전세계에서 각광을 받고있음 
기존의 컴퓨터를 하둡시스템으로 
연결하여 저렴한 수퍼컴퓨터를 가질수 
있음 
빅데이터 접근법중 하둡이 가장 각광
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
결론 
빅데이타 분석및 처리하는 하둡 개발자, 
관리자, HBase, 데이타 분석/사이언스, 
Spark가 각광을 받고 있음 
그러나 산업계에서 필요로 하는 인력들을 
각자 또는 이론 교육하고 있음
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
결론 (계속) 
하둡은 현재및 미래의 가치 
기업실무에서의 Training 은 너무 중요함 
빅데이타 강의를 이수하면 산업계를 
통틀어 빅데이타 전문가될수 있음, 전세계 
선두가 될수있는 기회, 지금 시작해야 함 
엔터프라이즈 하둡 설치 및 교육으로 
실무에 바로 응용 
#1인 클라우데라 교육및 솔루션, Why 
Not?
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
Question?
High Performance Information Computing Center 
Jongwook Woo 
CSULA 
참고문헌 
 Big Data and Data Intensive Computing on 
Networks, Jongwook Woo, 
http://www.slideshare.net/dalgual/big-datakisti2013updated 
 하둡, http://hadoop.apache.org 
 클라우데라, http://www.cloudera.com 
 호톤웤스, http://www.hortonworks.com 
 맵알, http://www.mapr.com 
 나가시노 전투, 
http://blog.naver.com/banc1004/220036584826 
 사르후 전투, 
http://lyuen.egloos.com/viewer/5683795

More Related Content

What's hot

GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개Gruter
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Donghan Kim
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개Gruter
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGruter
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례Taehyeon Oh
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2Seong-Bok Lee
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사uEngine Solutions
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래Wooseung Kim
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)Steve Min
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석Saltlux Inc.
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Wooseung Kim
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념현주 유
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for HadoopSeungYong Baek
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Hyoungjun Kim
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter
 
줌인터넷 빅데이터 활용사례 김우승
줌인터넷 빅데이터 활용사례 김우승줌인터넷 빅데이터 활용사례 김우승
줌인터넷 빅데이터 활용사례 김우승Wooseung Kim
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵r-kor
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoMatthew (정재화)
 
Apache Hive: for business intelligence use and real-time I/O use (Korean)
Apache Hive: for business intelligence use and real-time I/O use (Korean)Apache Hive: for business intelligence use and real-time I/O use (Korean)
Apache Hive: for business intelligence use and real-time I/O use (Korean)Teddy Choi
 

What's hot (20)

GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
 
줌인터넷 빅데이터 활용사례 김우승
줌인터넷 빅데이터 활용사례 김우승줌인터넷 빅데이터 활용사례 김우승
줌인터넷 빅데이터 활용사례 김우승
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
Apache Hive: for business intelligence use and real-time I/O use (Korean)
Apache Hive: for business intelligence use and real-time I/O use (Korean)Apache Hive: for business intelligence use and real-time I/O use (Korean)
Apache Hive: for business intelligence use and real-time I/O use (Korean)
 

Viewers also liked

Hadoop Introduction (1.0)
Hadoop Introduction (1.0)Hadoop Introduction (1.0)
Hadoop Introduction (1.0)Keeyong Han
 
고해상도 위성영상을 이용한 smart주제도 생성
고해상도 위성영상을 이용한 smart주제도 생성고해상도 위성영상을 이용한 smart주제도 생성
고해상도 위성영상을 이용한 smart주제도 생성Hyun Jik LEE
 
QGIS 소개 및 ArcMap과의 비교
QGIS 소개 및 ArcMap과의 비교QGIS 소개 및 ArcMap과의 비교
QGIS 소개 및 ArcMap과의 비교BJ Jang
 
Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30
Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30
Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30Donghan Kim
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기iron han
 
[lgnite LG 2015 Fall] 존경받는아빠의세가지조건, 송경수
[lgnite LG 2015 Fall] 존경받는아빠의세가지조건, 송경수 [lgnite LG 2015 Fall] 존경받는아빠의세가지조건, 송경수
[lgnite LG 2015 Fall] 존경받는아빠의세가지조건, 송경수 Life's Good
 
[lgnite LG 2015 Fall] 엘지밴드의즐거움, 이형기
[lgnite LG 2015 Fall] 엘지밴드의즐거움, 이형기[lgnite LG 2015 Fall] 엘지밴드의즐거움, 이형기
[lgnite LG 2015 Fall] 엘지밴드의즐거움, 이형기Life's Good
 
[Ignite LG 2016 Spring] 불편탈출 No.1 ㅍㅎㅎㄹ, 서만수 책임
[Ignite LG 2016 Spring] 불편탈출 No.1 ㅍㅎㅎㄹ, 서만수 책임 [Ignite LG 2016 Spring] 불편탈출 No.1 ㅍㅎㅎㄹ, 서만수 책임
[Ignite LG 2016 Spring] 불편탈출 No.1 ㅍㅎㅎㄹ, 서만수 책임 Life's Good
 
[Ignite LG 2016 Spring] Cultural Observations, David Seperson 부장
[Ignite LG 2016 Spring] Cultural Observations, David Seperson 부장 [Ignite LG 2016 Spring] Cultural Observations, David Seperson 부장
[Ignite LG 2016 Spring] Cultural Observations, David Seperson 부장 Life's Good
 
[Ignite LG 2016 Spring] 10일 휴가로 히말라야 등반하기, 김밀한 연구원
[Ignite LG 2016 Spring] 10일 휴가로 히말라야 등반하기, 김밀한 연구원 [Ignite LG 2016 Spring] 10일 휴가로 히말라야 등반하기, 김밀한 연구원
[Ignite LG 2016 Spring] 10일 휴가로 히말라야 등반하기, 김밀한 연구원 Life's Good
 
[lgnite LG 2015 Fall] 외로우니까사람이다, 김병록
[lgnite LG 2015 Fall] 외로우니까사람이다, 김병록 [lgnite LG 2015 Fall] 외로우니까사람이다, 김병록
[lgnite LG 2015 Fall] 외로우니까사람이다, 김병록 Life's Good
 
[Ignite LG 2016 Spring] 오직 너, 신입사원만이 할 수 있는 일, 류가영 연구원
[Ignite LG 2016 Spring] 오직 너, 신입사원만이 할 수 있는 일, 류가영 연구원 [Ignite LG 2016 Spring] 오직 너, 신입사원만이 할 수 있는 일, 류가영 연구원
[Ignite LG 2016 Spring] 오직 너, 신입사원만이 할 수 있는 일, 류가영 연구원 Life's Good
 
[Ignite LG 2016 Spring] IMAX, 황홀한 세계로의 초대, 김정욱 대리
[Ignite LG 2016 Spring] IMAX, 황홀한 세계로의 초대, 김정욱 대리 [Ignite LG 2016 Spring] IMAX, 황홀한 세계로의 초대, 김정욱 대리
[Ignite LG 2016 Spring] IMAX, 황홀한 세계로의 초대, 김정욱 대리 Life's Good
 
Distributed Programming Framework, hadoop
Distributed Programming Framework, hadoopDistributed Programming Framework, hadoop
Distributed Programming Framework, hadoopLGU+
 
How to collect Big Data into Hadoop
How to collect Big Data into HadoopHow to collect Big Data into Hadoop
How to collect Big Data into HadoopSadayuki Furuhashi
 
[FOSS4G Korea 2016] GeoHash를 이용한 지형도 변화탐지와 시계열 관리
[FOSS4G Korea 2016] GeoHash를 이용한 지형도 변화탐지와 시계열 관리[FOSS4G Korea 2016] GeoHash를 이용한 지형도 변화탐지와 시계열 관리
[FOSS4G Korea 2016] GeoHash를 이용한 지형도 변화탐지와 시계열 관리BJ Jang
 
[Ignite LG 2016 Spring] 프리 다이빙으로 확장한 나의 일상, 정수경 대리
[Ignite LG 2016 Spring] 프리 다이빙으로 확장한 나의 일상, 정수경 대리 [Ignite LG 2016 Spring] 프리 다이빙으로 확장한 나의 일상, 정수경 대리
[Ignite LG 2016 Spring] 프리 다이빙으로 확장한 나의 일상, 정수경 대리 Life's Good
 
[Ignite LG 2016 Spring] 재능기부가 대세, ‘컴퓨터 샘’ 봉사단, 이재훈 대리
[Ignite LG 2016 Spring] 재능기부가 대세, ‘컴퓨터 샘’ 봉사단, 이재훈 대리 [Ignite LG 2016 Spring] 재능기부가 대세, ‘컴퓨터 샘’ 봉사단, 이재훈 대리
[Ignite LG 2016 Spring] 재능기부가 대세, ‘컴퓨터 샘’ 봉사단, 이재훈 대리 Life's Good
 
[Ignite LG 2016 Spring] G5로 고음질 오디오 시스템을 구축하는 법, 안효상 부장
[Ignite LG 2016 Spring] G5로 고음질 오디오 시스템을 구축하는 법, 안효상 부장 [Ignite LG 2016 Spring] G5로 고음질 오디오 시스템을 구축하는 법, 안효상 부장
[Ignite LG 2016 Spring] G5로 고음질 오디오 시스템을 구축하는 법, 안효상 부장 Life's Good
 

Viewers also liked (20)

Hadoop Introduction (1.0)
Hadoop Introduction (1.0)Hadoop Introduction (1.0)
Hadoop Introduction (1.0)
 
고해상도 위성영상을 이용한 smart주제도 생성
고해상도 위성영상을 이용한 smart주제도 생성고해상도 위성영상을 이용한 smart주제도 생성
고해상도 위성영상을 이용한 smart주제도 생성
 
QGIS 소개 및 ArcMap과의 비교
QGIS 소개 및 ArcMap과의 비교QGIS 소개 및 ArcMap과의 비교
QGIS 소개 및 ArcMap과의 비교
 
Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30
Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30
Hadoop 기반 빅 데이터 처리 플랫폼-NDAP소개-2012-5-30
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
[lgnite LG 2015 Fall] 존경받는아빠의세가지조건, 송경수
[lgnite LG 2015 Fall] 존경받는아빠의세가지조건, 송경수 [lgnite LG 2015 Fall] 존경받는아빠의세가지조건, 송경수
[lgnite LG 2015 Fall] 존경받는아빠의세가지조건, 송경수
 
[lgnite LG 2015 Fall] 엘지밴드의즐거움, 이형기
[lgnite LG 2015 Fall] 엘지밴드의즐거움, 이형기[lgnite LG 2015 Fall] 엘지밴드의즐거움, 이형기
[lgnite LG 2015 Fall] 엘지밴드의즐거움, 이형기
 
[Ignite LG 2016 Spring] 불편탈출 No.1 ㅍㅎㅎㄹ, 서만수 책임
[Ignite LG 2016 Spring] 불편탈출 No.1 ㅍㅎㅎㄹ, 서만수 책임 [Ignite LG 2016 Spring] 불편탈출 No.1 ㅍㅎㅎㄹ, 서만수 책임
[Ignite LG 2016 Spring] 불편탈출 No.1 ㅍㅎㅎㄹ, 서만수 책임
 
[Ignite LG 2016 Spring] Cultural Observations, David Seperson 부장
[Ignite LG 2016 Spring] Cultural Observations, David Seperson 부장 [Ignite LG 2016 Spring] Cultural Observations, David Seperson 부장
[Ignite LG 2016 Spring] Cultural Observations, David Seperson 부장
 
[Ignite LG 2016 Spring] 10일 휴가로 히말라야 등반하기, 김밀한 연구원
[Ignite LG 2016 Spring] 10일 휴가로 히말라야 등반하기, 김밀한 연구원 [Ignite LG 2016 Spring] 10일 휴가로 히말라야 등반하기, 김밀한 연구원
[Ignite LG 2016 Spring] 10일 휴가로 히말라야 등반하기, 김밀한 연구원
 
[lgnite LG 2015 Fall] 외로우니까사람이다, 김병록
[lgnite LG 2015 Fall] 외로우니까사람이다, 김병록 [lgnite LG 2015 Fall] 외로우니까사람이다, 김병록
[lgnite LG 2015 Fall] 외로우니까사람이다, 김병록
 
[Ignite LG 2016 Spring] 오직 너, 신입사원만이 할 수 있는 일, 류가영 연구원
[Ignite LG 2016 Spring] 오직 너, 신입사원만이 할 수 있는 일, 류가영 연구원 [Ignite LG 2016 Spring] 오직 너, 신입사원만이 할 수 있는 일, 류가영 연구원
[Ignite LG 2016 Spring] 오직 너, 신입사원만이 할 수 있는 일, 류가영 연구원
 
[Ignite LG 2016 Spring] IMAX, 황홀한 세계로의 초대, 김정욱 대리
[Ignite LG 2016 Spring] IMAX, 황홀한 세계로의 초대, 김정욱 대리 [Ignite LG 2016 Spring] IMAX, 황홀한 세계로의 초대, 김정욱 대리
[Ignite LG 2016 Spring] IMAX, 황홀한 세계로의 초대, 김정욱 대리
 
hadoop ch1
hadoop ch1hadoop ch1
hadoop ch1
 
Distributed Programming Framework, hadoop
Distributed Programming Framework, hadoopDistributed Programming Framework, hadoop
Distributed Programming Framework, hadoop
 
How to collect Big Data into Hadoop
How to collect Big Data into HadoopHow to collect Big Data into Hadoop
How to collect Big Data into Hadoop
 
[FOSS4G Korea 2016] GeoHash를 이용한 지형도 변화탐지와 시계열 관리
[FOSS4G Korea 2016] GeoHash를 이용한 지형도 변화탐지와 시계열 관리[FOSS4G Korea 2016] GeoHash를 이용한 지형도 변화탐지와 시계열 관리
[FOSS4G Korea 2016] GeoHash를 이용한 지형도 변화탐지와 시계열 관리
 
[Ignite LG 2016 Spring] 프리 다이빙으로 확장한 나의 일상, 정수경 대리
[Ignite LG 2016 Spring] 프리 다이빙으로 확장한 나의 일상, 정수경 대리 [Ignite LG 2016 Spring] 프리 다이빙으로 확장한 나의 일상, 정수경 대리
[Ignite LG 2016 Spring] 프리 다이빙으로 확장한 나의 일상, 정수경 대리
 
[Ignite LG 2016 Spring] 재능기부가 대세, ‘컴퓨터 샘’ 봉사단, 이재훈 대리
[Ignite LG 2016 Spring] 재능기부가 대세, ‘컴퓨터 샘’ 봉사단, 이재훈 대리 [Ignite LG 2016 Spring] 재능기부가 대세, ‘컴퓨터 샘’ 봉사단, 이재훈 대리
[Ignite LG 2016 Spring] 재능기부가 대세, ‘컴퓨터 샘’ 봉사단, 이재훈 대리
 
[Ignite LG 2016 Spring] G5로 고음질 오디오 시스템을 구축하는 법, 안효상 부장
[Ignite LG 2016 Spring] G5로 고음질 오디오 시스템을 구축하는 법, 안효상 부장 [Ignite LG 2016 Spring] G5로 고음질 오디오 시스템을 구축하는 법, 안효상 부장
[Ignite LG 2016 Spring] G5로 고음질 오디오 시스템을 구축하는 법, 안효상 부장
 

Similar to Introduction to Hadoop, Big Data, Training, Use Cases

Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 
Enterprise conference 2013 Microsoft BigData 사례발표자료
Enterprise conference 2013 Microsoft BigData 사례발표자료Enterprise conference 2013 Microsoft BigData 사례발표자료
Enterprise conference 2013 Microsoft BigData 사례발표자료환태 김
 
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기Amazon Web Services Korea
 
[웨비나] 교육, 클라우드로 혁신하다
[웨비나] 교육, 클라우드로 혁신하다[웨비나] 교육, 클라우드로 혁신하다
[웨비나] 교육, 클라우드로 혁신하다BESPIN GLOBAL
 
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) 클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) Channy Yun
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
Cloud Computing v1.0
Cloud Computing v1.0Cloud Computing v1.0
Cloud Computing v1.0Steve Min
 
Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)Teddy Choi
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)Treasure Data, Inc.
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWSKRUG - AWS한국사용자모임
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020Jinwoong Kim
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개I Goo Lee
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)Kee Hoon Lee
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa영진 박
 
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)Sang Don Kim
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoGruter
 
웹 2.0 기술 소개 (2006)
웹 2.0 기술 소개 (2006)웹 2.0 기술 소개 (2006)
웹 2.0 기술 소개 (2006)Channy Yun
 

Similar to Introduction to Hadoop, Big Data, Training, Use Cases (20)

Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
Enterprise conference 2013 Microsoft BigData 사례발표자료
Enterprise conference 2013 Microsoft BigData 사례발표자료Enterprise conference 2013 Microsoft BigData 사례발표자료
Enterprise conference 2013 Microsoft BigData 사례발표자료
 
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
 
[웨비나] 교육, 클라우드로 혁신하다
[웨비나] 교육, 클라우드로 혁신하다[웨비나] 교육, 클라우드로 혁신하다
[웨비나] 교육, 클라우드로 혁신하다
 
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) 클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
Cloud Computing v1.0
Cloud Computing v1.0Cloud Computing v1.0
Cloud Computing v1.0
 
Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
 
무한 확장 능력!!
무한 확장 능력!!무한 확장 능력!!
무한 확장 능력!!
 
무한 확장 능력!!
무한 확장 능력!!무한 확장 능력!!
무한 확장 능력!!
 
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
웹 2.0 기술 소개 (2006)
웹 2.0 기술 소개 (2006)웹 2.0 기술 소개 (2006)
웹 2.0 기술 소개 (2006)
 

More from Jongwook Woo

Machine Learning in Quantum Computing
Machine Learning in Quantum ComputingMachine Learning in Quantum Computing
Machine Learning in Quantum ComputingJongwook Woo
 
Comparing Scalable Predictive Analysis using Spark XGBoost Platforms
Comparing Scalable Predictive Analysis using Spark XGBoost PlatformsComparing Scalable Predictive Analysis using Spark XGBoost Platforms
Comparing Scalable Predictive Analysis using Spark XGBoost PlatformsJongwook Woo
 
Scalable Predictive Analysis and The Trend with Big Data & AI
Scalable Predictive Analysis and The Trend with Big Data & AIScalable Predictive Analysis and The Trend with Big Data & AI
Scalable Predictive Analysis and The Trend with Big Data & AIJongwook Woo
 
Introduction to Big Data and AI for Business Analytics and Prediction
Introduction to Big Data and AI for Business Analytics and PredictionIntroduction to Big Data and AI for Business Analytics and Prediction
Introduction to Big Data and AI for Business Analytics and PredictionJongwook Woo
 
Introduction to Big Data and its Trends
Introduction to Big Data and its TrendsIntroduction to Big Data and its Trends
Introduction to Big Data and its TrendsJongwook Woo
 
Rating Prediction using Deep Learning and Spark
Rating Prediction using Deep Learning and SparkRating Prediction using Deep Learning and Spark
Rating Prediction using Deep Learning and SparkJongwook Woo
 
History and Trend of Big Data and Deep Learning
History and Trend of Big Data and Deep LearningHistory and Trend of Big Data and Deep Learning
History and Trend of Big Data and Deep LearningJongwook Woo
 
The Importance of Open Innovation in AI era
The Importance of Open Innovation in AI eraThe Importance of Open Innovation in AI era
The Importance of Open Innovation in AI eraJongwook Woo
 
Traffic Data Analysis and Prediction using Big Data
Traffic Data Analysis and Prediction using Big DataTraffic Data Analysis and Prediction using Big Data
Traffic Data Analysis and Prediction using Big DataJongwook Woo
 
Big Data and Predictive Analysis
Big Data and Predictive AnalysisBig Data and Predictive Analysis
Big Data and Predictive AnalysisJongwook Woo
 
Predictive Analysis of Financial Fraud Detection using Azure and Spark ML
Predictive Analysis of Financial Fraud Detection using Azure and Spark MLPredictive Analysis of Financial Fraud Detection using Azure and Spark ML
Predictive Analysis of Financial Fraud Detection using Azure and Spark MLJongwook Woo
 
Introduction to Big Data: Smart Factory
Introduction to Big Data: Smart FactoryIntroduction to Big Data: Smart Factory
Introduction to Big Data: Smart FactoryJongwook Woo
 
Whose tombs are so called Nakrang tombs in Pyungyang? By Moon Sungjae
Whose tombs are so called Nakrang tombs in Pyungyang? By Moon SungjaeWhose tombs are so called Nakrang tombs in Pyungyang? By Moon Sungjae
Whose tombs are so called Nakrang tombs in Pyungyang? By Moon SungjaeJongwook Woo
 
President Election of Korea in 2017
President Election of Korea in 2017President Election of Korea in 2017
President Election of Korea in 2017Jongwook Woo
 
Big Data Trend with Open Platform
Big Data Trend with Open PlatformBig Data Trend with Open Platform
Big Data Trend with Open PlatformJongwook Woo
 
Big Data Trend and Open Data
Big Data Trend and Open DataBig Data Trend and Open Data
Big Data Trend and Open DataJongwook Woo
 
Big Data Platform adopting Spark and Use Cases with Open Data
Big Data  Platform adopting Spark and Use Cases with Open DataBig Data  Platform adopting Spark and Use Cases with Open Data
Big Data Platform adopting Spark and Use Cases with Open DataJongwook Woo
 
Big Data Analysis in Hydrogen Station using Spark and Azure ML
Big Data Analysis in Hydrogen Station using Spark and Azure MLBig Data Analysis in Hydrogen Station using Spark and Azure ML
Big Data Analysis in Hydrogen Station using Spark and Azure MLJongwook Woo
 
Alphago vs Lee Se-Dol : Tweeter Analysis using Hadoop and Spark
Alphago vs Lee Se-Dol: Tweeter Analysis using Hadoop and SparkAlphago vs Lee Se-Dol: Tweeter Analysis using Hadoop and Spark
Alphago vs Lee Se-Dol : Tweeter Analysis using Hadoop and SparkJongwook Woo
 

More from Jongwook Woo (20)

Machine Learning in Quantum Computing
Machine Learning in Quantum ComputingMachine Learning in Quantum Computing
Machine Learning in Quantum Computing
 
Comparing Scalable Predictive Analysis using Spark XGBoost Platforms
Comparing Scalable Predictive Analysis using Spark XGBoost PlatformsComparing Scalable Predictive Analysis using Spark XGBoost Platforms
Comparing Scalable Predictive Analysis using Spark XGBoost Platforms
 
Scalable Predictive Analysis and The Trend with Big Data & AI
Scalable Predictive Analysis and The Trend with Big Data & AIScalable Predictive Analysis and The Trend with Big Data & AI
Scalable Predictive Analysis and The Trend with Big Data & AI
 
Introduction to Big Data and AI for Business Analytics and Prediction
Introduction to Big Data and AI for Business Analytics and PredictionIntroduction to Big Data and AI for Business Analytics and Prediction
Introduction to Big Data and AI for Business Analytics and Prediction
 
Introduction to Big Data and its Trends
Introduction to Big Data and its TrendsIntroduction to Big Data and its Trends
Introduction to Big Data and its Trends
 
Rating Prediction using Deep Learning and Spark
Rating Prediction using Deep Learning and SparkRating Prediction using Deep Learning and Spark
Rating Prediction using Deep Learning and Spark
 
History and Trend of Big Data and Deep Learning
History and Trend of Big Data and Deep LearningHistory and Trend of Big Data and Deep Learning
History and Trend of Big Data and Deep Learning
 
The Importance of Open Innovation in AI era
The Importance of Open Innovation in AI eraThe Importance of Open Innovation in AI era
The Importance of Open Innovation in AI era
 
Traffic Data Analysis and Prediction using Big Data
Traffic Data Analysis and Prediction using Big DataTraffic Data Analysis and Prediction using Big Data
Traffic Data Analysis and Prediction using Big Data
 
Big Data and Predictive Analysis
Big Data and Predictive AnalysisBig Data and Predictive Analysis
Big Data and Predictive Analysis
 
Predictive Analysis of Financial Fraud Detection using Azure and Spark ML
Predictive Analysis of Financial Fraud Detection using Azure and Spark MLPredictive Analysis of Financial Fraud Detection using Azure and Spark ML
Predictive Analysis of Financial Fraud Detection using Azure and Spark ML
 
Introduction to Big Data: Smart Factory
Introduction to Big Data: Smart FactoryIntroduction to Big Data: Smart Factory
Introduction to Big Data: Smart Factory
 
AI on Big Data
AI on Big DataAI on Big Data
AI on Big Data
 
Whose tombs are so called Nakrang tombs in Pyungyang? By Moon Sungjae
Whose tombs are so called Nakrang tombs in Pyungyang? By Moon SungjaeWhose tombs are so called Nakrang tombs in Pyungyang? By Moon Sungjae
Whose tombs are so called Nakrang tombs in Pyungyang? By Moon Sungjae
 
President Election of Korea in 2017
President Election of Korea in 2017President Election of Korea in 2017
President Election of Korea in 2017
 
Big Data Trend with Open Platform
Big Data Trend with Open PlatformBig Data Trend with Open Platform
Big Data Trend with Open Platform
 
Big Data Trend and Open Data
Big Data Trend and Open DataBig Data Trend and Open Data
Big Data Trend and Open Data
 
Big Data Platform adopting Spark and Use Cases with Open Data
Big Data  Platform adopting Spark and Use Cases with Open DataBig Data  Platform adopting Spark and Use Cases with Open Data
Big Data Platform adopting Spark and Use Cases with Open Data
 
Big Data Analysis in Hydrogen Station using Spark and Azure ML
Big Data Analysis in Hydrogen Station using Spark and Azure MLBig Data Analysis in Hydrogen Station using Spark and Azure ML
Big Data Analysis in Hydrogen Station using Spark and Azure ML
 
Alphago vs Lee Se-Dol : Tweeter Analysis using Hadoop and Spark
Alphago vs Lee Se-Dol: Tweeter Analysis using Hadoop and SparkAlphago vs Lee Se-Dol: Tweeter Analysis using Hadoop and Spark
Alphago vs Lee Se-Dol : Tweeter Analysis using Hadoop and Spark
 

Introduction to Hadoop, Big Data, Training, Use Cases

  • 1. HiPIC 하둡 빅데이터 및 사례 소개 Jongwook Woo CSULA (항공운송업 포함) 대한항공 Seoul, Korea Nov 8 2014 우종욱 (Jongwook Woo, PhD) High-Performance Information Computing Center (HiPIC) Cloudera Academic Partner and Grants Awardee of Amazon AWS California State University Los Angeles
  • 2. High Performance Information Computing Center Jongwook Woo CSULA Contents 자기소개 빅데이터? 하둡 엔터프라이즈 배포판 하둡 빅데이타 강의 소개 결론
  • 3. High Performance Information Computing Center Jongwook Woo CSULA Me 이름: 우종욱 경력:  2012년 - – Certified Cloudera Instructor: R&D, Consulting, Training  2012년 - : 클라우데라 CAP 파트너, 클라우데라 교육  1998년부터 헐리우드등지의 많은 회사 컨설팅 – 주로 J2EE 미들웨어를 이용한 eBusiness applications 구축 – FAST, Lucene/Solr, Sphinx 검색엔진을 이용한 정보추출, 정보통합 – Warner Bros (Matrix online game), E!, citysearch.com, ARM 등  2008여년 부터 하둡 빅데이타에 관심  2001년 공학박사: USC 컴퓨터 사이언스, 컴퓨터 엔지니어링
  • 4. High Performance Information Computing Center Jongwook Woo CSULA Me 경력 (계속): 대한민국에 빅데이터 기술전도중 2014년 서울: – Hadoop 및 그 Ecosystems 교육 • 데이터분석가/과학자 교육 • 하둡 개발자, 관리자, HBase 교육 • 하둡 Spark 교육 2013년 여름 이글루시큐리티 자문: – 하루에 30GB – 100GB씩 생성되는 보안관련 로그 파일들을 빠르게 데이타 검색하는 시스템 R&D • Hadoop, Solr, Java, Cloudera 이용 2013년 9월 중순: 삼성 첨단 기술 연수원 – 3일간 Hadoop 및 그 Ecosystems 교육  2009년 이래 국내 대학교/연구소에 하둡소개 – 세계적인 빅 데이타 이슈에 선도적인 선도적연구및 교육을 위한 하둡 빅데이터 기술 소개
  • 5. High Performance Information Computing Center Jongwook Woo CSULA Experience in Big Data  Grants  Received MicroSoft Windows Azure Educator Grant (Oct 2013 - July 2014)  Received Amazon AWS in Education Research Grant (July 2012 - July 2014)  Received Amazon AWS in Education Coursework Grants (July 2012 - July 2013, Jan 2011 - Dec 2011  Partnership  Received Academic Education Partnership with Cloudera since June 2012
  • 6. High Performance Information Computing Center Jongwook Woo CSULA Experience in Big Data  Certificate  Certified Cloudera Hadoop Instructor  Certified Cloudera Hadoop Developer / Administrator / Hbase / Spark  Certificate of Achievement in the Big Data University Training Course, “Hadoop Fundamentals I”, July 8 2012  Certificate of 10gen Training Course, “M101: MongoDB Development”, (Dec 24 2012)  Blog and Github for Hadoop and its ecosystems  http://dal-cloudcomputing.blogspot.com/ – Hadoop, AWS, Cloudera  https://github.com/hipic – Hadoop, Cloudera, Solr on Cloudera, Hadoop Streaming, RHadoop  https://github.com/dalgual
  • 7. High Performance Information Computing Center Jongwook Woo CSULA Contents 자기소개 빅데이터? 하둡 엔터프라이즈 배포판 하둡 빅데이타 강의 소개 결론
  • 8. High Performance Information Computing Center Jongwook Woo CSULA 빅데이터의 시대 Google “We don’t have a better algorithm than others but we have more data than others”
  • 9. High Performance Information Computing Center Jongwook Woo CSULA 빅데이터의 시대 빅데이타 시대 소셜미디아, 스마트폰, 센서네트워크 등으로 인하여 데이타의 증가 – 각 회사마다 하루에 몇십 테라 바이트씩 데이타 생성 – 생성된 데이타는 비구조화 또는 반구조화 데이타 – 빅데이타라 불림 빅데이타의 큰 두가지 문제점 데이타 저장 – 기존의 RDBMS, 데이터 웨어 하우스 를 이용시 너무 비쌈 데이타 처리 – 기존의 순차 연산 이용시 너무 느리거나 처리 불가
  • 10. High Performance Information Computing Center Jongwook Woo CSULA 빅데이터의 시대 빅데이타의 큰 두가지 문제점 해결? 구글의 해법 – 구글의 GFS (Google Distributed File Systems) – 구글 맵리듀스 병렬처리 시스템 Apache Hadoop – 구글 시스템에 힌트를 얻은 아파치코뮤니티에서 HDFS (Hadoop Distributed File Systems) 와 하둡 맵리듀스 시스템 두개를 핵심으로 한 하둡 프로젝트 – Cloudera, Hortonworks, IBM등에서 하둡과 그 Eco 시스템 관리 및 컨설팅 제공
  • 11. High Performance Information Computing Center Jongwook Woo CSULA What is Hadoop? 11 하둡의 창시자: Doug Cutting Chief Architect at Cloudera
  • 12. High Performance Information Computing Center Jongwook Woo CSULA Definition: Big Data Inexpensive frameworks that can store a large scale data and process it faster in parallel Hadoop –Inexpensive Super Computer –You can build and run your applications
  • 13. CM HDFS HDFS HDFS HDFS HDFS HDFS HIVE ZooKeeper Impala Agent CDH Agent CDH Agent CDH High Performance Information Computing Center Jongwook Woo CSULA Hadoop CDH: Logical Diagram Web Browser to control Cloudera Manager Server HTTP(S) Agent CDH Agent CDH Agent CDH Agent CDH Agent CDH Agent CDH ... ... ...
  • 14. Big Data Market Potential is BIG High Performance Information Computing Center Jongwook Woo CSULA 하둡이라는 새로운 툴 14 Source: BofA Merrill Lynch Global Research March 2012 Hardware $21B Services $42B Software $34B Complementary Database $35B Hadoop $14B 14
  • 15. High Performance Information Computing Center Jongwook Woo CSULA 새로운 툴의 등장
  • 16. High Performance Information Computing Center Jongwook Woo CSULA 새로운 툴의 등장
  • 17. High Performance Information Computing Center Jongwook Woo CSULA 새로운 툴의 등장 나가시노 전투
  • 18. High Performance Information Computing Center Jongwook Woo CSULA 나가시노 전투
  • 19. High Performance Information Computing Center Jongwook Woo CSULA Definition: Big Data 다시한번 빅데이터 데이터를 가지고 미래 가치를 예측하는것 – No! • 빅데이터의 한 응용사례, 우리가 늘 해오던 일일뿐 – 기존의 컴퓨터, DW, DB등으로 빅데이터는 하둡이라는 수퍼컴퓨터를 이용하려는 새로운 접근법
  • 20. High Performance Information Computing Center Jongwook Woo CSULA Legacy Example In late 2007, the New York Times wanted to make available over the web its entire archive of articles, 11 million in all, dating back to 1851. four-terabyte pile of images in TIFF format. needed to translate that four-terabyte pile of TIFFs into more web-friendly PDF files. – not a particularly complicated but large computing chore, • requiring a whole lot of computer processing time.
  • 21. High Performance Information Computing Center Jongwook Woo CSULA Legacy Example (Cont’d) In late 2007, the New York Times wanted to make available over the web its entire archive of articles, a software programmer at the Times, Derek Gottfrid, – playing around with Amazon Web Services, Elastic Compute Cloud (EC2), • uploaded the four terabytes of TIFF data into Amazon's Simple Storage System (S3) • In less than 24 hours, 11 millions PDFs, all stored neatly in S3 and ready to be served up to visitors to the Times site.  The total cost for the computing job? $240 – 10 cents per computer-hour times 100 computers times 24 hours
  • 22. High Performance Information Computing Center Jongwook Woo CSULA HuffPost | AOL Two Machine Learning Use Cases Comment Moderation  Evaluate All New HuffPost User Comments Every Day  Identify Abusive / Aggressive Comments  Auto Delete / Publish ~25% Comments Every Day Article Classification  Tag Articles for Advertising  E.g.: scary, salacious, …
  • 23. High Performance Information Computing Center Jongwook Woo CSULA Major US Airlines  국제 항공 운송협회(IATA) 발표한 수치 2014년 수익: 200억 달러 – 2013년 이익에서 50% 증가 10년전: 가장 큰 미국의 항공사들 절반 가량이 파산 – 업계가 연간 100억 달러를 잃고 있었음  Why it is possible? 대규모 합병으로 인한 항공사의 감소 – 좌석에 대한 수요 증폭 – 연료가격은 2008년 정점 이후 다소 완화 – 대침체/공항(Great Recession)로 항공사의 근로자 임금 상승 억제  However, Main Reason: Big Data 데이터 저장 및 분석 기술의 새로운 방법인 하둡 이용 판매 증진과 마진 증가
  • 24. High Performance Information Computing Center Jongwook Woo CSULA Major US Airlines (계속) 항공사들의 수익 개선 3가지 접근법  전통적 접근 –센서 데이터를 확보하여 유지보수 최적화 –날씨 예측을 이용한 연료 조절 • 상업 비행 시대 초기부터 항공사들이 기본적으로 개선해 왔었던 부분 빅데이터 이용 문제점 및 요구사항 기존 웹 분석 툴은 너무 고가 웹 클릭 성향 (Click Stream) 분석의 필요성 보다 오래된 웹 클릭 데이터 저장 및 접근성 필요
  • 25. High Performance Information Computing Center Jongwook Woo CSULA Major US Airlines (계속) 빅데이터 저장 및 분석 하둡으로 빅데이터 저장 –비정형 데이터를 하둡에 저장 • 고객의 감성 데이터 –소셜 미디어 (페이스북, 트위터 등)와 여행 웹사이트 (Kayak, Travelocity 등)에서 수집 • 전자 상거래 행위 데이터 –웹 클릭 스트림 데이터
  • 26. High Performance Information Computing Center Jongwook Woo CSULA 빅데이터 저장 및 분석 (계속)  하둡으로 빅데이터 분석 온라인 예약 웹 분석 – 하둡의 빅데이터 마이닝 알고리즘으로 빅데이터 분석 고객요구사항을 식별하고 확보 – 항공사 차별화 전략에 큰 기회 하둡 맵리듀스로 다양한 변수간 상관관계 분석 – 티켓가격, – 수화물 요금, – 기본 경로, – 장비 고장 및 지연, – 기내 식품 구매 및 엔터테이먼트 등  결국: 데이터 분석으로 저비용 고효율 달성
  • 27. High Performance Information Computing Center Jongwook Woo CSULA Major US Airlines (계속) 사용 소프트웨어 및 접근  Cloudera의 CDH사용  저가로 데이터 분석 및 접근성 달성  2배 이상의 오랜 데이터 저장 가능 – 4 년 vs 기존의 기술로는 2년 –Tape나 RDB보다 데이터 접근성 향상 참고: Web Click Stream 어떤 페이지에 손님이 방문했는지, 무엇을 클릭했는지, 티켓을 구매하거나 웹사이트를 떠나기 전 얼마나 머물렀는지 추적하고 기록할 수 있음
  • 28. High Performance Information Computing Center Jongwook Woo CSULA Contents 자기소개 빅데이터? 하둡 엔터프라이즈 배포판 하둡 빅데이타 강의 소개 결론
  • 29. High Performance Information Computing Center Jongwook Woo CSULA 하둡 설치 http://hadoop.apache.org 하둡 다운로드 받아서 설치 노드별 설치 구성 – 노드별 몇날 몇일 걸림 노드 갯수 증가시 – 설치 몇날 몇달 걸림 노드 상태, 서비스 상태, 리소스 상태 확인 – 너무 어려움 에코시스템 설치? – 설치 몇날 몇달 걸림 백업, 데이터 회복, 데이터 audit?
  • 30. High Performance Information Computing Center Jongwook Woo CSULA 하둡 엔터프라이즈 배포판 Linux Redhat, Ubuntu, SuSE Hadoop Cloudera –CDH • Hadoop에 대쉬보드, 시각화, 관리, 구성 등 기능 제공 Hortonworks –Yahoo에서 분사 –HDP MapR – C 언어로 구성 – 정통 Hadoop과 별개로 시작됨
  • 31. 예: 클라우데라 배포판 하둡 (CDH) 설치 http://www.cloudera.com/downloads/ High Performance Information Computing Center Jongwook Woo CSULA 무료배포판 – 클라우데라 매니저를 이용하여 30분내 하둡 클러스터 설치 – 노드 갯수 증가시 몇분만에 노드들 추가 – 노드 상태, 서비스 상태, 리소스 상태 확인 – 에코시스템 설치 • 자동설치 EDH: 유료판 – 기술지원 – 백업, 데이터 회복, 데이터 audit/lineage
  • 32. High Performance Information Computing Center Jongwook Woo CSULA 클라우데라 하둡 및 CDH 소개 상세 소개: Hadoop 역사, 하둡 코아, 에코시스템, 클라우데라 매니저, 내비게이터 등 설명 http://www.slideshare.net/cloudera/cloude ra-sessions-afternoon-getting-started-1 간략 소개: 하둡 코아 설명 http://www.slideshare.net/bigdatasyd/intro duction-to-hadoop-12275253
  • 33. High Performance Information Computing Center Jongwook Woo CSULA 클라우데라 하둡 및 CDH 소개 클라우데라 주최 : 하둡 빅데이터 스트라타 컨퍼런스 2014 http://strataconf.com/stratany2014 뉴욕: Oct 15-17 2014 https://www.facebook.com/jongwook.woo/ media_set?set=a.4822613060696.107374 1834.1757567060&type=1&pnref=story 클라우데라는 하둡/빅데이터 세계에서 선두
  • 34. High Performance Information Computing Center Jongwook Woo CSULA Contents 자기소개 빅데이터? 하둡 엔터프라이즈 배포판 하둡 빅데이타 강의 소개 결론
  • 35. High Performance Information Computing Center Jongwook Woo CSULA 하둡 교육이 왜 필요한가 R&D및 가치 창출을 위한 새로운 수퍼컴퓨터 새로운 알고리즘 응용분야 개발을 통한 가치 창출 –추천 시스템 –상권 분석, 판매분석, 고객 분석 –반도체 • Semiconductor/Chip Design Data Analysis –영화, 게임, 보안 • 로그데이터 분석 –Image, Audio 처리 • 머쉰러닝, 그래프 알고리즘
  • 36. High Performance Information Computing Center Jongwook Woo CSULA 하둡 교육이 왜 필요한가 새로운 가치 창조, R&D시 필요 미국을 필두로 공학, 과학, 기업등에서 하둡 빅데이터 교육의 중요성 인지 –데이타 마이닝 및 분석 분야 뿐아니라 대용량 데이터가 있는 모든 분야 기업마다 Hadoop Cluster 소유해야 함 –저렴한 수퍼 컴퓨터 그러나, 아무도 하둡을 가르쳐 주지 않는다 누구에게 교육 받을 것인가?
  • 37. High Performance Information Computing Center Jongwook Woo CSULA 하둡 교육 어떻게 시작할 것인가? 기술자들의 Self-study 한계 시간상의 한계: more than a year to be an expert Don’t know the detail Miss many important topics 2014년 우리는 전문가, 국제경쟁 시대에 살고 있음 – 80년대 대학 강의실이 아님 교육비 절약? 기업 생산성 감소
  • 38. 하둡 교육 어떻게 시작할 것인가? (계속) High Performance Information Computing Center Jongwook Woo CSULA IT분야의 각자교육의 한계 인식 필요 실리콘 밸리등 산업계에서 IT기술을 선도함 교육비 절약으로 빅데이터 산업에 뒤쳐짐 산업계 Training program Cloudera를 선두로 Hortonworks, MapR => 이미 잘 만들어진 교재, 장비 및 실습재료 있음
  • 39. High Performance Information Computing Center Jongwook Woo CSULA 하둡 교육 어떻게 시작할 것인가? 교육 과목 및 개설시 요구사항 하둡 관련 과목 – About Hadoop, Hbase, Hive/Pig, Data Analysis, Spark, Data Mining etc • 하둡 개발자 • 하둡 시스템관리자 • 하둡 데이터 분석가/과학자 • 하둡 HBase • 하둡 Spark Theory Guy양성이 아닌 실무자 양성을 위한 실습용 장비/코드 예제 필요
  • 40. High Performance Information Computing Center Jongwook Woo CSULA Big Data 교육 클라우데라 빅데이터 교육 사례 Cloudera 교육 파트너쉽을 바탕으로 한 클라우데라의 교육재료로 빅데이타 교육제공 전세계에 실무에 바로 투입가능한 하둡 전문가 양성
  • 41. Cloudera Dominates Hadoop Training 2% 1% 2% 0%1% High Performance Information Computing Center Jongwook Woo CSULA Worldwide Over 50,000 People Trained on Hadoop 41 • All scheduled classes • Jan-June 2014 Cloudera is 84% (437/523) 84% 10% Cloudera Hortonworks MapR IBM Oracle Pivotal Intel 41
  • 42. Training Hadoop and Ecosystems Cloudera visits to interview Jongwook Woo High Performance Information Computing Center Jongwook Woo CSULA
  • 43. Training Hadoop and Ecosystems High Performance Information Computing Center Jongwook Woo CSULA 클라우데라 빅데이터 교육을 위한 교육 프로그램 디렉터 와 함께
  • 44. High Performance Information Computing Center Jongwook Woo CSULA Contents 자기소개 빅데이터? 하둡 엔터프라이즈 배포판 하둡 빅데이타 강의 소개 결론
  • 45. High Performance Information Computing Center Jongwook Woo CSULA 광해군과 청
  • 46. High Performance Information Computing Center Jongwook Woo CSULA 사르후 전투 <만주실록의 사르후 전투 그림. 후금 vs 명군의 전투 장면
  • 47. High Performance Information Computing Center Jongwook Woo CSULA 강홍립과 부차 (후챠) 전투 <만주실록>: 조명연합군의 명 유정군 선봉을 공격하는 만주족 기병
  • 48. High Performance Information Computing Center Jongwook Woo CSULA 조선군 편성 조선측 사료 <충렬록 1770-1790> 정사4간본의 조선군 그림. 활을 든 사수와 조총을 든 포수
  • 49. High Performance Information Computing Center Jongwook Woo CSULA 강홍립과 부차 (후챠) 전투
  • 50. High Performance Information Computing Center Jongwook Woo CSULA 결론 아파치 하둡을 이용하여 빅데이타를 저장 및 처리하는 새로운 접근법이 미국을 필두로 하여 전세계에서 각광을 받고있음 기존의 컴퓨터를 하둡시스템으로 연결하여 저렴한 수퍼컴퓨터를 가질수 있음 빅데이터 접근법중 하둡이 가장 각광
  • 51. High Performance Information Computing Center Jongwook Woo CSULA 결론 빅데이타 분석및 처리하는 하둡 개발자, 관리자, HBase, 데이타 분석/사이언스, Spark가 각광을 받고 있음 그러나 산업계에서 필요로 하는 인력들을 각자 또는 이론 교육하고 있음
  • 52. High Performance Information Computing Center Jongwook Woo CSULA 결론 (계속) 하둡은 현재및 미래의 가치 기업실무에서의 Training 은 너무 중요함 빅데이타 강의를 이수하면 산업계를 통틀어 빅데이타 전문가될수 있음, 전세계 선두가 될수있는 기회, 지금 시작해야 함 엔터프라이즈 하둡 설치 및 교육으로 실무에 바로 응용 #1인 클라우데라 교육및 솔루션, Why Not?
  • 53. High Performance Information Computing Center Jongwook Woo CSULA Question?
  • 54. High Performance Information Computing Center Jongwook Woo CSULA 참고문헌  Big Data and Data Intensive Computing on Networks, Jongwook Woo, http://www.slideshare.net/dalgual/big-datakisti2013updated  하둡, http://hadoop.apache.org  클라우데라, http://www.cloudera.com  호톤웤스, http://www.hortonworks.com  맵알, http://www.mapr.com  나가시노 전투, http://blog.naver.com/banc1004/220036584826  사르후 전투, http://lyuen.egloos.com/viewer/5683795