SlideShare a Scribd company logo
1 of 35
Download to read offline
빅데이터 BIG DATA


줌인터넷(주)
김우승
소개
¨    http://zum.com
¨    줌인터넷(주) 연구소장
¨    김우승 (Wooseung Kim)


¨    http://kimws.wordpress.com
¨    @kimws
60년 전 …

1952.5.21
The first IBM   large-scale   electronic computer


                      IBM 701
지금은 …
¨    전세계 음악을 모두 저장할 수 있는 디스크 드라이브 가격 $600
¨    2010년 전세계 핸드폰 50억대 이상
¨    매달 페이스북에서 주고받는 컨텐츠 300억건
¨    매년 전세계 데이터 40% 씩 증가, IT 분야는 5% 씩 증가
¨    미국 의회 도서관이 수집한 데이터 235테라바이트 (2011.4 기준)




 Google Datacenter
 http://www.google.com/about/datacenters/locations/index.html

                                                                Facebook Datacenter
                                                                스웨덴 극지방 위치
출처: McKinsey&Company June 2011 Big Data
왜 빅데이터에 관심을 가지나?

¨    Google
¨    Facebook                   웹 서비스 사업의 성장
¨    Yahoo                    기술 공개 , 빠른 기술 진화
¨    LinkedIn               데이터 처리 비용 상대적으로 낮아짐

¨    Twitter
                                  Cost <   Value
¨    Connected Everything
      ¤  Smartphone
      ¤  LTE                   데이터의 폭발적인 증가
      ¤  Sensor Networks          멀티미디어
                                  실시간 데이터
      ¤  … …
구글과 아파치 하둡
구글이 자신들의 빅데이터 기술을 논문으로 발표 à 오픈소스로 개발,공개




¨  C/C++             ¨  Java
¨  GFS               ¨  HDFS

¨  Chubby            ¨  ZooKeeper

¨  BigTable          ¨  HBase

¨  MapReduce         ¨  MapReduce

¨  Swazall           ¨  Pig

¨  Tenzing           ¨  Hive
빅 데이터에서 다루는 문제들

   대용량 데이터            다양한 형태의 데이터        배치,실시간,스트리밍
(GB을 넘어서 TB,PB…) (DB,텍스트,XML,이미지,동영상…) (센서,상거래,주식거래…)
빅 데이터에서 다루는 문제들

대용량 데이터를 저장,처리하기 위해서 필요한
클러스터 컴퓨팅, 분산컴퓨팅 인프라에 대한 이해

                 •    수십-수천대의 서버를 구축,관리
                 •    효율적인 네트워크 구축
                 •    상태 모니터링 및 장애 대책
                 •    애플리케이션 배포
                 •    데이터의 저장, 백업
                 •    확장성, 가용성을 고려
빅 데이터에서 다루는 문제들

   빅 데이터를 위한 다양한 오픈 소스
빅 데이터에서 다루는 문제들

   레거시 시스템과의 연동, 마이그레이션 이슈




 Legacy Data Platform   Big Data Platform
빅 데이터에서 다루는 문제들

   데이터 마이닝 , 머신 러닝 알고리즘

   Single Machine è Multiple Machines
빅 데이터에서 다루는 문제들

 데이터 유출시 기업경영에 치명적인 영향을 준다
  어느 데이터나 활용할 수 있는 것이 아니다
       통합보다 분산이 더 안전

   데이터 보안       개인 정보 보호
빅데이터에서 다루는 문제들
대용량 데이터, 정형/비정형데이터, 이벤트/스트리밍 데이터


분산컴퓨팅, 클러스터 컴퓨팅


클라우드 컴퓨팅


오픈소스


데이터 마이닝/머신러닝


레거시 시스템 연동 / 데이터 수집


보안/개인정보 보호 이슈
Knowledge & Technology for Big Data

                                                    Real-time Processing
                  Statistics          R
                                          SAS          Complex Event Processing
      Linear Algebra
                         Data Mining                                 Stream Process
               Machine Learning OLAP Tools
                                                    Scribe
        Excel                                                      Flume
                      Algorithms                                           ETL
                                            RedisGraph DB
                                SQL                                       Pig
                        MSSQL             KeyValue DB
                                                    Column DB ZooKeeper
                            MySQL        Hive
                                                                          HDFS
       Protocolbuf   Oracle                     MongoDB HBase MapReduce
                             Entity Relation            Cassandra
          XML                                 NoSQL                    Hadoop
                 Avro                 Amazon
       JSON HTTP            RDBMS              C/C++ Python Batch Processing
                                              Java              Apache
         TCP/IP         Linux

          Distributed Computing             Cluster Computing         Cloud Computing
우승이의 블로그 http://kimws.wordpress.com
Big Data Platform 환경 비교

       기존 데이터 플랫폼 환경                        빅데이터 플랫폼 환경
¨    Single Machine                ¨    Multiple Machine
      ¤  Multi-core (> 16 cores)         ¤  Commodity H/W, N/W

      ¤  Scale-up                        ¤  Scale-out

      ¤  High Price H/W, S/W             ¤  Low Cost

      ¤  SAN Storage                     ¤  Distributed File System

¨    MS Windows, AIX, HP-UX        ¨    Linux
¨    Commercial Solutions          ¨    Open Source
¨    IBM, Oracle, Microsoft        ¨    Yahoo!,Facebook,Twitter
¨    RDBMS                         ¨    NoSQL
¨    TeraData, Exadata,Netizza     ¨    Hadoop, Hive, Pig
¨    SAS, SPSS                     ¨    R, Mahout
NoSQL (Not Only SQL) ?
   관계형 데이터 모델을 사용하지 않고 SQL 을 사용하
   지 않는 그 이외의 모든 데이터 베이스 시스템 또는
   데이터 스토어                                 ¨    CAP Theorem
                                                 ¤    Consistency
                                                 ¤    Availability
                                                 ¤    Partition Tolerance


                                           q    CA, CP, AP 의 특성에 따
                                                 라 상대적인 확장성과 성능
                                                 에 제약이 발생
                                           q    대부분 오픈소스



                                           요구사항에 대한 분명한 이해
                                           개발/운영 역량 반드시 확인


출처: http://blog.beany.co.kr/archives/275
NoSQL Ecosystem
•  각 도메인 또는 요구사항에 맞는 NoSQL 을 선택하는 것이 매우 중요
•  대부분의 NoSQL 이 오픈소스, 도입시 내부 검증 절차와 내재화 필요




                    출처: http://www.slideshare.net/mattaslett/mysql-vs-nosql-and-newsql-survey-results-13073043
Big Data Lifecycle



      데이터 수집                  데이터 처리           데이터 분석          데이터 제공



¨    데이터 연동            ¨    데이터 클리닝    ¨    모델 검증     ¨    보고서
¨    ftp, sftp, rcp,   ¨    데이터 요약     ¨    데이터 마이닝   ¨    데이터 시각화
      rsync             ¨    데이터 기초통계   ¨    텍스트 마이닝   ¨    서비스 데이터
¨    데이터 변환            ¨    데이터 탐색                           ¤    상품 추천
                                                               ¤    유사 아이템
Legacy Data Platform
   DBMS 을 기반으로하는 데이터 플로우 , Scale-up 구조의 아키텍처

고가의 하이엔드 싱글서버 서버, 네트워크장비                                        비용은 몇배로 발생
SAN 스토리지                             시스템 확장      시스템 아키텍쳐 & 데이터 구조 변경이 불가피
상용 데이터베이스, 마이닝 솔루션 매우 고가              Scale up     처리할 수 있는 데이터 처리에 한계가 발생



  데이터 수집               데이터 처리                데이터 분석                  데이터 제공

                   ETL Process
                                        데이터 마이닝     Data Warehouse    OLAP        Service
                   (IBM DataStage)
                                        (SAS)       (TeraData)        Tools       Server
                   SQL, PL/SQL
    FTP
    SFTP
    Rsync

                   RDBMS (Oracle, DB2, MSSQL …)


    Local FS   SAN Storage                                             Local FS
Migration ??? …
Legacy Data Platform   Big Data Platform
Hybrid !!!
Legacy Data Platform   Big Data Platform
Big Data Platform
 다양한 데이터 소스/데이터 프로세싱 프레임워크를 수용할 수 있는 워크플로우,통합 관리 시스템 필요

•  대용량 데이터 저장과 대용량 데이터 분석 시스템에는 Hadoop 및 오픈소스기반의 NoSQL, R을 적극 활용
•  최종 분석 결과 제공을 위한 OLTP 기반 리포트 시스템 / 서비스 데이터들은 기존의 기술을 적극 활용
•  Hadoop 및 오픈소스 기반의 시스템들은 저가의 범용서버 및 네트워크스위치를 활용해서 클러스터를 구성



     데이터 수집                  데이터 처리                  데이터 분석                   데이터 제공

        FTP              ETL Process             데이터 마이닝     Data Warehouse    OLAP       Service
        SFTP             Pig & Script Lanugage   Mahout, R   Hive, R           Tools      Server
        Rsync                                                                  (R)



                                                                                          NoSQL
                                                                       Data
        Log Aggregator   MapReduce Framework                           Warehouse
                                                                                          (Mong
        (Flume)                                                                           oDB)

        Real-time
        Stream & Event
                         NoSQL                                         RDBMS
        Processor        (Hbase, Cassandra)                            (Oracle, MySQL)

                                                                    SAN
        Local FS    Distributed File System                         Storage
                                                                                       Local FS
빅 데이터 수집
¨    데이터 포맷
      ¤    비정형 (log, csv,…)
      ¤    준정형 (XML,JSON)
      ¤    정형(데이터베이스)
                                   Extract / Transform / Load               Extract / Load / Transform
¨    데이터 변환
¨    연동 주기
                                       Agent
¨    데이터 크기
¨    전송 속도                                                     Collector

¨    손실 허용 기준 (100%?)
¨    장애시 재전송 정책                       Agent                                           DFS
¨    전송 방식                                                     Collector
      ¤    ftp/sftp
      ¤    rsync, rcp
                                       Agent
      ¤    nfs / fuse                                               Log Aggregator Framework
      ¤    Aggregator Framework
            n    Scribe (C++)
            n    Flume (Java)
빅 데이터 처리/분석의 특징
    Hadoop 기반 상용 제품들의 주요 솔루션 영역
                                     Apache Oozie
빅데이터 처리와 분석작업     Job Scheduler
은 하나 이상의 데이터 작
업들로 구성
                    Workflow
배치 프로세싱              Engine
(분단위,일단위,월단위)
                     Cluster
                   Management
클러스터 컴퓨팅 관리          System        Apache Amabari
(신규구축, 노드추가/삭제)
                      Cluster
                     Monoring                Cloudera
클러스터 모니터링이 필수         System



장애에 대한 대책           Notification
빅 데이터 마이닝
•     빅데이터 마이닝에 있어서 Training Set 을 만드는 것에 있어 많은 비용발생
•     Supervised Learning 보다는 Unsupervised Learning 적용이 유리
•     Mahout : MapReduce 기반의 scalable data mining algorithm 발굴 및 구현
•     C-MR, Giraph 와 같은 데이터 마이닝에 적합한 프레임워크이 등장



                                 Analyze & tune

                                                                            Analyze & tune

                  Training     Build
                    Set        Model
                                                                    Build
     Data                                                Data       Model
                                                                                             Validate

                  Validation
                                            Validate
                     Set

                                                                                             New
                               New
                                                                                             Data
                               Data



            Supervised Learning Workflow               Unsupervised Learning Workflow
빅 데이터 제공

¨    데이터 마이닝된 데이터                      Hive               Pig

      를 서비스 서버에서 이용          Batch             MapReduce
                                               Framework
      ¤    검색용 인덱스 DB       Process
      ¤    추천엔진 룰데이터                            DFS

¨    데이터 처리/분석된 자료
                                         Periodic Update
      를 다양한 포맷의 보고서
      나 차트를 생성할 수 있도
                                       RDBMS           NoSQL
      록 제공
      ¤    OLAP 도구 연동이 중요                             OLTP
è RDBMS 는 여전히 중요                       OLAP                Service
                                        Tools               Server
빅데이터 기술 도입시 고려 사항

          Q1. 꼭 Hadoop, NoSQL, DFS가 필요한가?

 도메인과     Q2. 기존의 기술로 해결할 수 없는 문제인가?
요구사항에
맞게 도입     Q3. 기존의 기술로는 비용이 많이 드는가?

          Q4. 상용/오픈소스 영역과 품질 수준을 정의했는가?


          도입전 요구 사항에 맞는지 사전 벤치마킹이 필수
내부 엔지니어
  확보 및    오픈소스에서 주장하는 성능/품질은 참고사항일 뿐
 기술 내재화
          개발비보다 운영비가 크게 증가할 수도 있음을 명심
빅데이터를 위한 역량
•  자신은 어느 분야의 전문가인가?
•  어느 방향으로 역량을 넓혀갈 것인가?                    도메인
                                            지식

    Data Scientist            데이터                                데이터
                              시각화          Data                  마이닝
                                                  Scie
                                                         ntist


  소프트웨어 프로그래머                         빅데이터
  들에게 좀더 많은 기회?      플랫폼기술
                          Hadoop                                  머신러닝
                          /NoSQL              s
                                       D evOp


       DevOps
                                    운영체제           소프트웨어
                                   분산컴퓨팅           프로그래밍
빅데이터를 위한 역할과 요구기술

            •    추천 로직 기획, 광고 플랫폼
            •    Financial & Stock Market
 도메인 전문가    •    Health Care                •    Visualization
            •    BioInfomatics              •    Infograph
            •    Power Management           •    IR & RecSys




                                                                   Data Scientist
            •    통계 & 데이터 탐색
            •    데이터 마이닝 & 기계학습             •    OLAP Tools
 데이터 분석가    •    데이터 분석                     •    SAS,
            •    리포팅                             SPSS,R,Weka
            •    데이터 시각화                    •    SQL
                                            •    RDBMS
                                            •    ETL
            •    데이터 수집                     •    Script Language
            •    마이닝 알고리즘 & ML 구현           •    Pig, Hive
소프트웨어 개발자   •    데이터 처리 엔진 구현               •    MapReduce




                                                                                    DevOps
            •    데이터 저장소 최적화
            •    분산 알고리즘 구현
                                            •    Log Aggregator
                                            •    NoSQL
                                            •    Hadoop
            •    운영 체계 최적화                  •    Linux
시스템 엔지니어    •    컴퓨팅 H/W, N/W 최적화           •    X86
                                            •    Network
Multi-Player .vs. Team
•  중장기적으로 조직내에 빅데이터 기술의 내재화가 필수
•  관련 역량을 갖춘 팀을 갖추고 개인 역량을 높이는 내재화 전략 필요
         Data Team
                                         Data Scientst

              Domai
                n
              Expert
       DBA
                       Data
                       Miner

 서비스
                                  알고리즘                   DevOps
                                   개발
 기획자     통계학자

                       Machine
                       Learning

        S/W                        S/W
       아키텍트                       개발자
                  System
                 Engineer
향후 빅데이터 발전 방향




       ¨  Real-time Analytics
       ¨  Advanced & Predictive

           Analytics
       ¨  Advanced Data Visualization

                      출처: TDWI Research 4thQ 2011 on Big Data Analytics
빅데이터 솔루션과 하둡




               출처: http://kimws.wordpress.com
Big Data in Cloud
                             Amazon                    Google              Microsoft
Product                Amazon Web Service    Google Cloud Platform   Microsoft Azure

Big Data Storage       S3                    Cloud Storage           HDFS on Azure

Working Storage        Elastic Block Store   Datastore , Blobstore   Blog, table, queues

NoSQL database         DynamoDB              AppEngine Datastore     Table Storage

Relational database    MySQL , Oracle        CloudSQL (MySQL         SQL Azure
                                             compatible)
Application hosting    EC2                   AppEngine               Azure Compute

Map/Reduce service     Elastic MapReduce     Compute Engine          Hadoop on Azure
(Hadoop Partner)       (Cloudera)            (MapR)                  (Hortonworks)
Big data anlytics      Pig, Hive             BigQuery                Pig, Hive
                                             Pig, Hive
Machine Learning       Mahout (on Hadoop)    Prediction API          Mahout (on Hadoop)
                                             Mahout (Hadoop)
Streaming Processing   N/A                   N/A                     StreamInsight

Data Import            Network               Network                 Network
                       Storage Device
Beyond the Yottabyte

          "the data volumes are increasing with a projection
          that sensor data volume could potentially increase to
          the level of Yottabytes by 2015."




                                       Googol = 10100
감사합니다.

More Related Content

What's hot

Big Data Overview
Big Data OverviewBig Data Overview
Big Data OverviewKeeyong Han
 
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesJongwook Woo
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Channy Yun
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimGruter
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2Seong-Bok Lee
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판Hyoungjun Kim
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개Gruter
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석Saltlux Inc.
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개Gruter
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사uEngine Solutions
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해수보 김
 
Best practice instagram
Best practice   instagramBest practice   instagram
Best practice instagramWooseung Kim
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)동학 노
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...Chanjin Park
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향atelier t*h
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGruter
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵r-kor
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Channy Yun
 

What's hot (20)

Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use Cases
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
Big data application architecture 요약2
Big data application architecture 요약2Big data application architecture 요약2
Big data application architecture 요약2
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
Best practice instagram
Best practice   instagramBest practice   instagram
Best practice instagram
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
 

Similar to 2012 빅데이터 big data 발표자료

AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기BESPIN GLOBAL
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoGruter
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoMatthew (정재화)
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)SeungYong Baek
 
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)Amazon Web Services Korea
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Hyoungjun Kim
 
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)Sang Don Kim
 
Real-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataReal-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataTed Won
 
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) 클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) Channy Yun
 
나에게 맞는 AWS 데이터베이스 서비스 선택하기 :: 양승도 :: AWS Summit Seoul 2016
나에게 맞는 AWS 데이터베이스 서비스 선택하기 :: 양승도 :: AWS Summit Seoul 2016나에게 맞는 AWS 데이터베이스 서비스 선택하기 :: 양승도 :: AWS Summit Seoul 2016
나에게 맞는 AWS 데이터베이스 서비스 선택하기 :: 양승도 :: AWS Summit Seoul 2016Amazon Web Services Korea
 
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016Amazon Web Services Korea
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬Channy Yun
 
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략Amazon Web Services Korea
 
클라우드 이야기1 2 20160823-신인철_slideshare
클라우드 이야기1 2 20160823-신인철_slideshare클라우드 이야기1 2 20160823-신인철_slideshare
클라우드 이야기1 2 20160823-신인철_slideshareIn Chul Shin
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa영진 박
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례Taehyeon Oh
 
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017Amazon Web Services Korea
 
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017Amazon Web Services Korea
 
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석Amazon Web Services Korea
 

Similar to 2012 빅데이터 big data 발표자료 (20)

AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기AWS BigData 전략과 관련 AWS 서비스 이해하기
AWS BigData 전략과 관련 AWS 서비스 이해하기
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
 
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
NoSQL
NoSQLNoSQL
NoSQL
 
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
 
Real-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataReal-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured Data
 
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) 클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
 
나에게 맞는 AWS 데이터베이스 서비스 선택하기 :: 양승도 :: AWS Summit Seoul 2016
나에게 맞는 AWS 데이터베이스 서비스 선택하기 :: 양승도 :: AWS Summit Seoul 2016나에게 맞는 AWS 데이터베이스 서비스 선택하기 :: 양승도 :: AWS Summit Seoul 2016
나에게 맞는 AWS 데이터베이스 서비스 선택하기 :: 양승도 :: AWS Summit Seoul 2016
 
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
 
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
 
클라우드 이야기1 2 20160823-신인철_slideshare
클라우드 이야기1 2 20160823-신인철_slideshare클라우드 이야기1 2 20160823-신인철_slideshare
클라우드 이야기1 2 20160823-신인철_slideshare
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례
 
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
 
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
 
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
 

Recently uploaded

Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Wonjun Hwang
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionKim Daeun
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Wonjun Hwang
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Kim Daeun
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)Tae Young Lee
 

Recently uploaded (6)

Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 

2012 빅데이터 big data 발표자료

  • 2. 소개 ¨  http://zum.com ¨  줌인터넷(주) 연구소장 ¨  김우승 (Wooseung Kim) ¨  http://kimws.wordpress.com ¨  @kimws
  • 3. 60년 전 … 1952.5.21 The first IBM large-scale electronic computer IBM 701
  • 4. 지금은 … ¨  전세계 음악을 모두 저장할 수 있는 디스크 드라이브 가격 $600 ¨  2010년 전세계 핸드폰 50억대 이상 ¨  매달 페이스북에서 주고받는 컨텐츠 300억건 ¨  매년 전세계 데이터 40% 씩 증가, IT 분야는 5% 씩 증가 ¨  미국 의회 도서관이 수집한 데이터 235테라바이트 (2011.4 기준) Google Datacenter http://www.google.com/about/datacenters/locations/index.html Facebook Datacenter 스웨덴 극지방 위치 출처: McKinsey&Company June 2011 Big Data
  • 5. 왜 빅데이터에 관심을 가지나? ¨  Google ¨  Facebook 웹 서비스 사업의 성장 ¨  Yahoo 기술 공개 , 빠른 기술 진화 ¨  LinkedIn 데이터 처리 비용 상대적으로 낮아짐 ¨  Twitter Cost < Value ¨  Connected Everything ¤  Smartphone ¤  LTE 데이터의 폭발적인 증가 ¤  Sensor Networks 멀티미디어 실시간 데이터 ¤  … …
  • 6. 구글과 아파치 하둡 구글이 자신들의 빅데이터 기술을 논문으로 발표 à 오픈소스로 개발,공개 ¨  C/C++ ¨  Java ¨  GFS ¨  HDFS ¨  Chubby ¨  ZooKeeper ¨  BigTable ¨  HBase ¨  MapReduce ¨  MapReduce ¨  Swazall ¨  Pig ¨  Tenzing ¨  Hive
  • 7. 빅 데이터에서 다루는 문제들 대용량 데이터 다양한 형태의 데이터 배치,실시간,스트리밍 (GB을 넘어서 TB,PB…) (DB,텍스트,XML,이미지,동영상…) (센서,상거래,주식거래…)
  • 8. 빅 데이터에서 다루는 문제들 대용량 데이터를 저장,처리하기 위해서 필요한 클러스터 컴퓨팅, 분산컴퓨팅 인프라에 대한 이해 •  수십-수천대의 서버를 구축,관리 •  효율적인 네트워크 구축 •  상태 모니터링 및 장애 대책 •  애플리케이션 배포 •  데이터의 저장, 백업 •  확장성, 가용성을 고려
  • 9. 빅 데이터에서 다루는 문제들 빅 데이터를 위한 다양한 오픈 소스
  • 10. 빅 데이터에서 다루는 문제들 레거시 시스템과의 연동, 마이그레이션 이슈 Legacy Data Platform Big Data Platform
  • 11. 빅 데이터에서 다루는 문제들 데이터 마이닝 , 머신 러닝 알고리즘 Single Machine è Multiple Machines
  • 12. 빅 데이터에서 다루는 문제들 데이터 유출시 기업경영에 치명적인 영향을 준다 어느 데이터나 활용할 수 있는 것이 아니다 통합보다 분산이 더 안전 데이터 보안 개인 정보 보호
  • 13. 빅데이터에서 다루는 문제들 대용량 데이터, 정형/비정형데이터, 이벤트/스트리밍 데이터 분산컴퓨팅, 클러스터 컴퓨팅 클라우드 컴퓨팅 오픈소스 데이터 마이닝/머신러닝 레거시 시스템 연동 / 데이터 수집 보안/개인정보 보호 이슈
  • 14. Knowledge & Technology for Big Data Real-time Processing Statistics R SAS Complex Event Processing Linear Algebra Data Mining Stream Process Machine Learning OLAP Tools Scribe Excel Flume Algorithms ETL RedisGraph DB SQL Pig MSSQL KeyValue DB Column DB ZooKeeper MySQL Hive HDFS Protocolbuf Oracle MongoDB HBase MapReduce Entity Relation Cassandra XML NoSQL Hadoop Avro Amazon JSON HTTP RDBMS C/C++ Python Batch Processing Java Apache TCP/IP Linux Distributed Computing Cluster Computing Cloud Computing 우승이의 블로그 http://kimws.wordpress.com
  • 15. Big Data Platform 환경 비교 기존 데이터 플랫폼 환경 빅데이터 플랫폼 환경 ¨  Single Machine ¨  Multiple Machine ¤  Multi-core (> 16 cores) ¤  Commodity H/W, N/W ¤  Scale-up ¤  Scale-out ¤  High Price H/W, S/W ¤  Low Cost ¤  SAN Storage ¤  Distributed File System ¨  MS Windows, AIX, HP-UX ¨  Linux ¨  Commercial Solutions ¨  Open Source ¨  IBM, Oracle, Microsoft ¨  Yahoo!,Facebook,Twitter ¨  RDBMS ¨  NoSQL ¨  TeraData, Exadata,Netizza ¨  Hadoop, Hive, Pig ¨  SAS, SPSS ¨  R, Mahout
  • 16. NoSQL (Not Only SQL) ? 관계형 데이터 모델을 사용하지 않고 SQL 을 사용하 지 않는 그 이외의 모든 데이터 베이스 시스템 또는 데이터 스토어 ¨  CAP Theorem ¤  Consistency ¤  Availability ¤  Partition Tolerance q  CA, CP, AP 의 특성에 따 라 상대적인 확장성과 성능 에 제약이 발생 q  대부분 오픈소스 요구사항에 대한 분명한 이해 개발/운영 역량 반드시 확인 출처: http://blog.beany.co.kr/archives/275
  • 17. NoSQL Ecosystem •  각 도메인 또는 요구사항에 맞는 NoSQL 을 선택하는 것이 매우 중요 •  대부분의 NoSQL 이 오픈소스, 도입시 내부 검증 절차와 내재화 필요 출처: http://www.slideshare.net/mattaslett/mysql-vs-nosql-and-newsql-survey-results-13073043
  • 18. Big Data Lifecycle 데이터 수집 데이터 처리 데이터 분석 데이터 제공 ¨  데이터 연동 ¨  데이터 클리닝 ¨  모델 검증 ¨  보고서 ¨  ftp, sftp, rcp, ¨  데이터 요약 ¨  데이터 마이닝 ¨  데이터 시각화 rsync ¨  데이터 기초통계 ¨  텍스트 마이닝 ¨  서비스 데이터 ¨  데이터 변환 ¨  데이터 탐색 ¤  상품 추천 ¤  유사 아이템
  • 19. Legacy Data Platform DBMS 을 기반으로하는 데이터 플로우 , Scale-up 구조의 아키텍처 고가의 하이엔드 싱글서버 서버, 네트워크장비 비용은 몇배로 발생 SAN 스토리지 시스템 확장 시스템 아키텍쳐 & 데이터 구조 변경이 불가피 상용 데이터베이스, 마이닝 솔루션 매우 고가 Scale up 처리할 수 있는 데이터 처리에 한계가 발생 데이터 수집 데이터 처리 데이터 분석 데이터 제공 ETL Process 데이터 마이닝 Data Warehouse OLAP Service (IBM DataStage) (SAS) (TeraData) Tools Server SQL, PL/SQL FTP SFTP Rsync RDBMS (Oracle, DB2, MSSQL …) Local FS SAN Storage Local FS
  • 20. Migration ??? … Legacy Data Platform Big Data Platform
  • 21. Hybrid !!! Legacy Data Platform Big Data Platform
  • 22. Big Data Platform 다양한 데이터 소스/데이터 프로세싱 프레임워크를 수용할 수 있는 워크플로우,통합 관리 시스템 필요 •  대용량 데이터 저장과 대용량 데이터 분석 시스템에는 Hadoop 및 오픈소스기반의 NoSQL, R을 적극 활용 •  최종 분석 결과 제공을 위한 OLTP 기반 리포트 시스템 / 서비스 데이터들은 기존의 기술을 적극 활용 •  Hadoop 및 오픈소스 기반의 시스템들은 저가의 범용서버 및 네트워크스위치를 활용해서 클러스터를 구성 데이터 수집 데이터 처리 데이터 분석 데이터 제공 FTP ETL Process 데이터 마이닝 Data Warehouse OLAP Service SFTP Pig & Script Lanugage Mahout, R Hive, R Tools Server Rsync (R) NoSQL Data Log Aggregator MapReduce Framework Warehouse (Mong (Flume) oDB) Real-time Stream & Event NoSQL RDBMS Processor (Hbase, Cassandra) (Oracle, MySQL) SAN Local FS Distributed File System Storage Local FS
  • 23. 빅 데이터 수집 ¨  데이터 포맷 ¤  비정형 (log, csv,…) ¤  준정형 (XML,JSON) ¤  정형(데이터베이스) Extract / Transform / Load Extract / Load / Transform ¨  데이터 변환 ¨  연동 주기 Agent ¨  데이터 크기 ¨  전송 속도 Collector ¨  손실 허용 기준 (100%?) ¨  장애시 재전송 정책 Agent DFS ¨  전송 방식 Collector ¤  ftp/sftp ¤  rsync, rcp Agent ¤  nfs / fuse Log Aggregator Framework ¤  Aggregator Framework n  Scribe (C++) n  Flume (Java)
  • 24. 빅 데이터 처리/분석의 특징 Hadoop 기반 상용 제품들의 주요 솔루션 영역 Apache Oozie 빅데이터 처리와 분석작업 Job Scheduler 은 하나 이상의 데이터 작 업들로 구성 Workflow 배치 프로세싱 Engine (분단위,일단위,월단위) Cluster Management 클러스터 컴퓨팅 관리 System Apache Amabari (신규구축, 노드추가/삭제) Cluster Monoring Cloudera 클러스터 모니터링이 필수 System 장애에 대한 대책 Notification
  • 25. 빅 데이터 마이닝 •  빅데이터 마이닝에 있어서 Training Set 을 만드는 것에 있어 많은 비용발생 •  Supervised Learning 보다는 Unsupervised Learning 적용이 유리 •  Mahout : MapReduce 기반의 scalable data mining algorithm 발굴 및 구현 •  C-MR, Giraph 와 같은 데이터 마이닝에 적합한 프레임워크이 등장 Analyze & tune Analyze & tune Training Build Set Model Build Data Data Model Validate Validation Validate Set New New Data Data Supervised Learning Workflow Unsupervised Learning Workflow
  • 26. 빅 데이터 제공 ¨  데이터 마이닝된 데이터 Hive Pig 를 서비스 서버에서 이용 Batch MapReduce Framework ¤  검색용 인덱스 DB Process ¤  추천엔진 룰데이터 DFS ¨  데이터 처리/분석된 자료 Periodic Update 를 다양한 포맷의 보고서 나 차트를 생성할 수 있도 RDBMS NoSQL 록 제공 ¤  OLAP 도구 연동이 중요 OLTP è RDBMS 는 여전히 중요 OLAP Service Tools Server
  • 27. 빅데이터 기술 도입시 고려 사항 Q1. 꼭 Hadoop, NoSQL, DFS가 필요한가? 도메인과 Q2. 기존의 기술로 해결할 수 없는 문제인가? 요구사항에 맞게 도입 Q3. 기존의 기술로는 비용이 많이 드는가? Q4. 상용/오픈소스 영역과 품질 수준을 정의했는가? 도입전 요구 사항에 맞는지 사전 벤치마킹이 필수 내부 엔지니어 확보 및 오픈소스에서 주장하는 성능/품질은 참고사항일 뿐 기술 내재화 개발비보다 운영비가 크게 증가할 수도 있음을 명심
  • 28. 빅데이터를 위한 역량 •  자신은 어느 분야의 전문가인가? •  어느 방향으로 역량을 넓혀갈 것인가? 도메인 지식 Data Scientist 데이터 데이터 시각화 Data 마이닝 Scie ntist 소프트웨어 프로그래머 빅데이터 들에게 좀더 많은 기회? 플랫폼기술 Hadoop 머신러닝 /NoSQL s D evOp DevOps 운영체제 소프트웨어 분산컴퓨팅 프로그래밍
  • 29. 빅데이터를 위한 역할과 요구기술 •  추천 로직 기획, 광고 플랫폼 •  Financial & Stock Market 도메인 전문가 •  Health Care •  Visualization •  BioInfomatics •  Infograph •  Power Management •  IR & RecSys Data Scientist •  통계 & 데이터 탐색 •  데이터 마이닝 & 기계학습 •  OLAP Tools 데이터 분석가 •  데이터 분석 •  SAS, •  리포팅 SPSS,R,Weka •  데이터 시각화 •  SQL •  RDBMS •  ETL •  데이터 수집 •  Script Language •  마이닝 알고리즘 & ML 구현 •  Pig, Hive 소프트웨어 개발자 •  데이터 처리 엔진 구현 •  MapReduce DevOps •  데이터 저장소 최적화 •  분산 알고리즘 구현 •  Log Aggregator •  NoSQL •  Hadoop •  운영 체계 최적화 •  Linux 시스템 엔지니어 •  컴퓨팅 H/W, N/W 최적화 •  X86 •  Network
  • 30. Multi-Player .vs. Team •  중장기적으로 조직내에 빅데이터 기술의 내재화가 필수 •  관련 역량을 갖춘 팀을 갖추고 개인 역량을 높이는 내재화 전략 필요 Data Team Data Scientst Domai n Expert DBA Data Miner 서비스 알고리즘 DevOps 개발 기획자 통계학자 Machine Learning S/W S/W 아키텍트 개발자 System Engineer
  • 31. 향후 빅데이터 발전 방향 ¨  Real-time Analytics ¨  Advanced & Predictive Analytics ¨  Advanced Data Visualization 출처: TDWI Research 4thQ 2011 on Big Data Analytics
  • 32. 빅데이터 솔루션과 하둡 출처: http://kimws.wordpress.com
  • 33. Big Data in Cloud Amazon Google Microsoft Product Amazon Web Service Google Cloud Platform Microsoft Azure Big Data Storage S3 Cloud Storage HDFS on Azure Working Storage Elastic Block Store Datastore , Blobstore Blog, table, queues NoSQL database DynamoDB AppEngine Datastore Table Storage Relational database MySQL , Oracle CloudSQL (MySQL SQL Azure compatible) Application hosting EC2 AppEngine Azure Compute Map/Reduce service Elastic MapReduce Compute Engine Hadoop on Azure (Hadoop Partner) (Cloudera) (MapR) (Hortonworks) Big data anlytics Pig, Hive BigQuery Pig, Hive Pig, Hive Machine Learning Mahout (on Hadoop) Prediction API Mahout (on Hadoop) Mahout (Hadoop) Streaming Processing N/A N/A StreamInsight Data Import Network Network Network Storage Device
  • 34. Beyond the Yottabyte "the data volumes are increasing with a projection that sensor data volume could potentially increase to the level of Yottabytes by 2015." Googol = 10100