Introduction to Hadoop, Big Data, Training, Use Cases

HiPIC
하둡 빅데이터 및 사례 소개
Jongwook Woo
CSULA
(항공운송업 포함)
대한항공
Seoul, Korea
Nov 8 2014
우종욱 (Jongwook Woo, PhD)
High-Performance Information Computing Center (HiPIC)
Cloudera Academic Partner and Grants Awardee of Amazon AWS
California State University Los Angeles

High Performance Information Computing Center
Jongwook Woo
CSULA
Contents
자기소개
빅데이터?
하둡 엔터프라이즈 배포판
하둡 빅데이타 강의 소개
결론

Jongwook Woo
CSULA
Me
이름: 우종욱
경력:
 2012년 -
– Certified Cloudera Instructor: R&D, Consulting, Training
 2012년 - : 클라우데라 CAP 파트너, 클라우데라 교육
 1998년부터 헐리우드등지의 많은 회사 컨설팅
– 주로 J2EE 미들웨어를 이용한 eBusiness applications 구축
– FAST, Lucene/Solr, Sphinx 검색엔진을 이용한 정보추출, 정보통합
– Warner Bros (Matrix online game), E!, citysearch.com, ARM 등
 2008여년 부터 하둡 빅데이타에 관심
 2001년 공학박사: USC 컴퓨터 사이언스, 컴퓨터 엔지니어링

Jongwook Woo
CSULA
Me
경력 (계속): 대한민국에 빅데이터 기술전도중
2014년 서울:
– Hadoop 및 그 Ecosystems 교육
• 데이터분석가/과학자 교육
• 하둡 개발자, 관리자, HBase 교육
• 하둡 Spark 교육
2013년 여름 이글루시큐리티 자문:
– 하루에 30GB – 100GB씩 생성되는 보안관련 로그 파일들을
빠르게 데이타 검색하는 시스템 R&D
• Hadoop, Solr, Java, Cloudera 이용
2013년 9월 중순: 삼성 첨단 기술 연수원
– 3일간 Hadoop 및 그 Ecosystems 교육
 2009년 이래 국내 대학교/연구소에 하둡소개
– 세계적인 빅 데이타 이슈에 선도적인 선도적연구및 교육을
위한 하둡 빅데이터 기술 소개

Jongwook Woo
CSULA
Experience in Big Data
 Grants
 Received MicroSoft Windows Azure Educator Grant (Oct 2013
- July 2014)
 Received Amazon AWS in Education Research Grant (July
2012 - July 2014)
 Received Amazon AWS in Education Coursework Grants (July
2012 - July 2013, Jan 2011 - Dec 2011
 Partnership
 Received Academic Education Partnership with Cloudera since
June 2012

Jongwook Woo
CSULA
Experience in Big Data
 Certificate
 Certified Cloudera Hadoop Instructor
 Certified Cloudera Hadoop Developer / Administrator / Hbase /
Spark
 Certificate of Achievement in the Big Data University Training
Course, “Hadoop Fundamentals I”, July 8 2012
 Certificate of 10gen Training Course, “M101: MongoDB
Development”, (Dec 24 2012)
 Blog and Github for Hadoop and its ecosystems
 http://dal-cloudcomputing.blogspot.com/
– Hadoop, AWS, Cloudera
 https://github.com/hipic
– Hadoop, Cloudera, Solr on Cloudera, Hadoop Streaming,
RHadoop
 https://github.com/dalgual

Jongwook Woo
CSULA
빅데이터의 시대
Google
“We don’t have a better algorithm
than others but we have more data
than others”

Jongwook Woo
CSULA
빅데이타 시대
소셜미디아, 스마트폰, 센서네트워크 등으로 인하여
데이타의 증가
– 각 회사마다 하루에 몇십 테라 바이트씩 데이타 생성
– 생성된 데이타는 비구조화 또는 반구조화 데이타
– 빅데이타라 불림
빅데이타의 큰 두가지 문제점
데이타 저장
– 기존의 RDBMS, 데이터 웨어 하우스 를 이용시 너무 비쌈
데이타 처리
– 기존의 순차 연산 이용시 너무 느리거나 처리 불가

Jongwook Woo
CSULA
빅데이타의 큰 두가지 문제점 해결?
구글의 해법
– 구글의 GFS (Google Distributed File Systems)
– 구글 맵리듀스 병렬처리 시스템
Apache Hadoop
– 구글 시스템에 힌트를 얻은 아파치코뮤니티에서
HDFS (Hadoop Distributed File Systems) 와 하둡
맵리듀스 시스템 두개를 핵심으로 한 하둡
프로젝트
– Cloudera, Hortonworks, IBM등에서 하둡과 그 Eco
시스템 관리 및 컨설팅 제공

Jongwook Woo
CSULA
What is Hadoop?
11
하둡의 창시자:
Doug Cutting
Chief Architect at Cloudera

Jongwook Woo
CSULA
Definition: Big Data
Inexpensive frameworks that can
store a large scale data and
process it faster in parallel
Hadoop
–Inexpensive Super Computer
–You can build and run your applications

CM
HDFS HDFS HDFS
HDFS HDFS HDFS
HIVE ZooKeeper Impala
Agent CDH Agent CDH Agent CDH
Jongwook Woo
CSULA
Hadoop CDH: Logical Diagram
Web Browser to control Cloudera Manager
Server
HTTP(S)
...
...
...

Big Data Market Potential is BIG
Jongwook Woo
CSULA
하둡이라는 새로운 툴
14
Source: BofA Merrill Lynch Global Research March 2012
Hardware
$21B Services
$42B
Software
$34B
Complementary
Database
$35B
Hadoop
$14B
14

Jongwook Woo
CSULA
새로운 툴의 등장

Jongwook Woo
CSULA
새로운 툴의 등장
나가시노 전투

Jongwook Woo
CSULA
나가시노 전투

Jongwook Woo
CSULA
Definition: Big Data
다시한번
빅데이터
데이터를 가지고 미래 가치를 예측하는것
– No!
• 빅데이터의 한 응용사례, 우리가 늘 해오던
일일뿐
– 기존의 컴퓨터, DW, DB등으로
빅데이터는 하둡이라는 수퍼컴퓨터를
이용하려는 새로운 접근법

Jongwook Woo
CSULA
Legacy Example
In late 2007, the New York Times
wanted to make available over the web
its entire archive of articles,
11 million in all, dating back to 1851.
four-terabyte pile of images in TIFF format.
needed to translate that four-terabyte pile of TIFFs
into more web-friendly PDF files.
– not a particularly complicated but large computing chore,
• requiring a whole lot of computer processing time.

Jongwook Woo
CSULA
Legacy Example (Cont’d)
In late 2007, the New York Times
wanted to make available over the web
its entire archive of articles,
a software programmer at the Times, Derek Gottfrid,
– playing around with Amazon Web Services, Elastic
Compute Cloud (EC2),
• uploaded the four terabytes of TIFF data into Amazon's
Simple Storage System (S3)
• In less than 24 hours, 11 millions PDFs, all stored
neatly in S3 and ready to be served up to visitors to the
Times site.
 The total cost for the computing job? $240
– 10 cents per computer-hour times 100 computers times 24 hours

Jongwook Woo
CSULA
HuffPost | AOL
Two Machine Learning Use Cases
Comment Moderation
 Evaluate All New HuffPost User Comments
Every Day
 Identify Abusive / Aggressive Comments
 Auto Delete / Publish ~25% Comments Every
Day
Article Classification
 Tag Articles for Advertising
 E.g.: scary, salacious, …

Jongwook Woo
CSULA
Major US Airlines
 국제 항공 운송협회(IATA) 발표한 수치
2014년 수익: 200억 달러
– 2013년 이익에서 50% 증가
10년전: 가장 큰 미국의 항공사들 절반 가량이 파산
– 업계가 연간 100억 달러를 잃고 있었음
 Why it is possible?
대규모 합병으로 인한 항공사의 감소
– 좌석에 대한 수요 증폭
– 연료가격은 2008년 정점 이후 다소 완화
– 대침체/공항(Great Recession)로 항공사의 근로자 임금 상승
억제
 However, Main Reason: Big Data
데이터 저장 및 분석 기술의 새로운 방법인 하둡 이용
판매 증진과 마진 증가

Jongwook Woo
CSULA
Major US Airlines (계속)
항공사들의 수익 개선 3가지 접근법
 전통적 접근
–센서 데이터를 확보하여 유지보수 최적화
–날씨 예측을 이용한 연료 조절
• 상업 비행 시대 초기부터 항공사들이
기본적으로 개선해 왔었던 부분
빅데이터 이용
문제점 및 요구사항
기존 웹 분석 툴은 너무 고가
웹 클릭 성향 (Click Stream) 분석의 필요성
보다 오래된 웹 클릭 데이터 저장 및 접근성 필요

Jongwook Woo
CSULA
빅데이터 저장 및 분석
하둡으로 빅데이터 저장
–비정형 데이터를 하둡에 저장
• 고객의 감성 데이터
–소셜 미디어 (페이스북, 트위터 등)와
여행 웹사이트 (Kayak, Travelocity
등)에서 수집
• 전자 상거래 행위 데이터
–웹 클릭 스트림 데이터

Jongwook Woo
CSULA
빅데이터 저장 및 분석 (계속)
 하둡으로 빅데이터 분석
온라인 예약 웹 분석
– 하둡의 빅데이터 마이닝 알고리즘으로 빅데이터 분석
고객요구사항을 식별하고 확보
– 항공사 차별화 전략에 큰 기회
하둡 맵리듀스로 다양한 변수간 상관관계 분석
– 티켓가격,
– 수화물 요금,
– 기본 경로,
– 장비 고장 및 지연,
– 기내 식품 구매 및 엔터테이먼트 등
 결국:
데이터 분석으로 저비용 고효율 달성

Jongwook Woo
CSULA
사용 소프트웨어 및 접근
 Cloudera의 CDH사용
 저가로 데이터 분석 및 접근성 달성
 2배 이상의 오랜 데이터 저장 가능
– 4 년 vs 기존의 기술로는 2년
–Tape나 RDB보다 데이터 접근성 향상
참고: Web Click Stream
어떤 페이지에 손님이 방문했는지,
무엇을 클릭했는지,
티켓을 구매하거나
웹사이트를 떠나기 전 얼마나 머물렀는지
추적하고 기록할 수 있음

Jongwook Woo
CSULA
하둡 설치
http://hadoop.apache.org
하둡 다운로드 받아서 설치
노드별 설치 구성
– 노드별 몇날 몇일 걸림
노드 갯수 증가시
– 설치 몇날 몇달 걸림
노드 상태, 서비스 상태, 리소스 상태 확인
– 너무 어려움
에코시스템 설치?
– 설치 몇날 몇달 걸림
백업, 데이터 회복, 데이터 audit?

Jongwook Woo
CSULA
하둡 엔터프라이즈 배포판
Linux
Redhat, Ubuntu, SuSE
Hadoop
Cloudera
–CDH
• Hadoop에 대쉬보드, 시각화, 관리, 구성 등
기능 제공
Hortonworks
–Yahoo에서 분사
–HDP
MapR
– C 언어로 구성
– 정통 Hadoop과 별개로 시작됨

예: 클라우데라 배포판 하둡 (CDH) 설치
http://www.cloudera.com/downloads/
Jongwook Woo
CSULA
무료배포판
– 클라우데라 매니저를 이용하여 30분내 하둡
클러스터 설치
– 노드 갯수 증가시 몇분만에 노드들 추가
– 노드 상태, 서비스 상태, 리소스 상태 확인
– 에코시스템 설치
• 자동설치
EDH: 유료판
– 기술지원
– 백업, 데이터 회복, 데이터 audit/lineage

Jongwook Woo
CSULA
클라우데라 하둡 및 CDH 소개
상세 소개: Hadoop 역사, 하둡 코아,
에코시스템, 클라우데라 매니저,
내비게이터 등 설명
http://www.slideshare.net/cloudera/cloude
ra-sessions-afternoon-getting-started-1
간략 소개: 하둡 코아 설명
http://www.slideshare.net/bigdatasyd/intro
duction-to-hadoop-12275253

Jongwook Woo
CSULA
클라우데라 하둡 및 CDH 소개
클라우데라 주최 : 하둡 빅데이터
스트라타 컨퍼런스 2014
http://strataconf.com/stratany2014
뉴욕: Oct 15-17 2014
https://www.facebook.com/jongwook.woo/
media_set?set=a.4822613060696.107374
1834.1757567060&type=1&pnref=story
클라우데라는 하둡/빅데이터 세계에서
선두

Jongwook Woo
CSULA
하둡 교육이 왜 필요한가
R&D및 가치 창출을 위한 새로운
수퍼컴퓨터
새로운 알고리즘 응용분야 개발을 통한
가치 창출
–추천 시스템
–상권 분석, 판매분석, 고객 분석
–반도체
• Semiconductor/Chip Design Data Analysis
–영화, 게임, 보안
• 로그데이터 분석
–Image, Audio 처리
• 머쉰러닝, 그래프 알고리즘

Jongwook Woo
CSULA
하둡 교육이 왜 필요한가
새로운 가치 창조, R&D시 필요
미국을 필두로 공학, 과학, 기업등에서
하둡 빅데이터 교육의 중요성 인지
–데이타 마이닝 및 분석 분야 뿐아니라
대용량 데이터가 있는 모든 분야
기업마다 Hadoop Cluster 소유해야 함
–저렴한 수퍼 컴퓨터
그러나,
아무도 하둡을 가르쳐 주지 않는다
누구에게 교육 받을 것인가?

Jongwook Woo
CSULA
하둡 교육 어떻게 시작할 것인가?
기술자들의 Self-study 한계
시간상의 한계: more than a year to be an expert
Don’t know the detail
Miss many important topics
2014년 우리는 전문가, 국제경쟁 시대에 살고 있음
– 80년대 대학 강의실이 아님
교육비 절약?
기업 생산성 감소

하둡 교육 어떻게 시작할 것인가? (계속)
Jongwook Woo
CSULA
IT분야의 각자교육의 한계 인식 필요
실리콘 밸리등 산업계에서 IT기술을 선도함
교육비 절약으로 빅데이터 산업에 뒤쳐짐
산업계 Training program
Cloudera를 선두로 Hortonworks, MapR
=> 이미 잘 만들어진 교재, 장비 및 실습재료 있음

Jongwook Woo
CSULA
하둡 교육 어떻게 시작할 것인가?
교육 과목 및 개설시 요구사항
하둡 관련 과목
– About Hadoop, Hbase, Hive/Pig, Data Analysis,
Spark, Data Mining etc
• 하둡 개발자
• 하둡 시스템관리자
• 하둡 데이터 분석가/과학자
• 하둡 HBase
• 하둡 Spark
Theory Guy양성이 아닌 실무자 양성을 위한 실습용
장비/코드 예제 필요

Jongwook Woo
CSULA
Big Data 교육
클라우데라 빅데이터 교육 사례
Cloudera 교육 파트너쉽을 바탕으로
한 클라우데라의 교육재료로 빅데이타
교육제공
전세계에 실무에 바로 투입가능한
하둡 전문가 양성

Cloudera Dominates Hadoop Training
2% 1% 2% 0%1%
Jongwook Woo
CSULA
Worldwide
Over 50,000 People Trained on Hadoop
41
• All scheduled classes
• Jan-June 2014
Cloudera is 84%
(437/523)
84%
10%
Cloudera
Hortonworks
MapR
IBM
Oracle
Pivotal
Intel
41

Training Hadoop and Ecosystems
Cloudera visits to interview Jongwook Woo
Jongwook Woo
CSULA

Training Hadoop and Ecosystems
Jongwook Woo
CSULA
클라우데라 빅데이터 교육을 위한 교육
프로그램 디렉터 와 함께

Jongwook Woo
CSULA
광해군과 청

Jongwook Woo
CSULA
사르후 전투
<만주실록의 사르후 전투 그림. 후금 vs 명군의 전투 장면

Jongwook Woo
CSULA
강홍립과 부차 (후챠) 전투
<만주실록>: 조명연합군의 명 유정군 선봉을 공격하는 만주족 기병

Jongwook Woo
CSULA
조선군 편성
조선측 사료 <충렬록 1770-1790> 정사4간본의 조선군 그림. 활을 든
사수와 조총을 든 포수

Jongwook Woo
CSULA
강홍립과 부차 (후챠) 전투

Jongwook Woo
CSULA
결론
아파치 하둡을 이용하여 빅데이타를 저장
및 처리하는 새로운 접근법이 미국을
필두로 하여 전세계에서 각광을 받고있음
기존의 컴퓨터를 하둡시스템으로
연결하여 저렴한 수퍼컴퓨터를 가질수
있음
빅데이터 접근법중 하둡이 가장 각광

Jongwook Woo
CSULA
결론
빅데이타 분석및 처리하는 하둡 개발자,
관리자, HBase, 데이타 분석/사이언스,
Spark가 각광을 받고 있음
그러나 산업계에서 필요로 하는 인력들을
각자 또는 이론 교육하고 있음

Jongwook Woo
CSULA
결론 (계속)
하둡은 현재및 미래의 가치
기업실무에서의 Training 은 너무 중요함
빅데이타 강의를 이수하면 산업계를
통틀어 빅데이타 전문가될수 있음, 전세계
선두가 될수있는 기회, 지금 시작해야 함
엔터프라이즈 하둡 설치 및 교육으로
실무에 바로 응용
#1인 클라우데라 교육및 솔루션, Why
Not?

Jongwook Woo
CSULA
Question?

Jongwook Woo
CSULA
참고문헌
 Big Data and Data Intensive Computing on
Networks, Jongwook Woo,
http://www.slideshare.net/dalgual/big-datakisti2013updated
 하둡, http://hadoop.apache.org
 클라우데라, http://www.cloudera.com
 호톤웤스, http://www.hortonworks.com
 맵알, http://www.mapr.com
 나가시노 전투,
http://blog.naver.com/banc1004/220036584826
 사르후 전투,
http://lyuen.egloos.com/viewer/5683795

Introduction to Hadoop, Big Data, Training, Use Cases

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Introduction to Hadoop, Big Data, Training, Use Cases

Similar to Introduction to Hadoop, Big Data, Training, Use Cases (20)

More from Jongwook Woo

More from Jongwook Woo (20)

Introduction to Hadoop, Big Data, Training, Use Cases