3. 제 4차 산업혁명 인공지능/머신러닝/딥러닝
시장 분석
시장의 혁명적인 변화
다양한 IT기술이 나타면서 산업이 변화하고 있음
4. 모바일 트래픽 추이 글로벌 DCIM매출 추이
시장 분석
인프라 수요가 급증
글로벌 IT인프라의 수요가 급증
모바일 기기 사용량 증가
인공지능/머시러닝 리소스 증가
동영상등의 대용량 트래픽 증가
IDC수요 증가
DCIM : Datacenter Infrastructure Management
5. 데이터센터 구인 NHN 전용 데이터센터 ‘각’
시장 분석
인력난
IT인프라 증가에 따른 비용효율화를 위해 지방에 IDC를 건설.
인프라 운영 인력 모집은 급증하나 운영 인력 부족현상
6. 시장 분석
• 24시간, 365일 대기
• 장애 책임 부담
• 단순 작업으로 직업상 비전이 없음
인스톨
배포
감시
장애대응
점검 장애분석
튜닝
보고
인력부족의 원인
7. 시장 분석
• 대부분의 솔루션은 한 가지에만 포커싱되어 SE의 업무는 여전히 줄어들지 않음
인스톨
배포
감시
장애대응
점검 장애분석
튜닝
보고
솔루션의 한계
9. 개요
A.I(인공지능, Artificial Intelligence) = SE ?
인공지능이 SE의 업무를 줄일 수 있다면?
• 클라우드, 레거시의 모든 환경 대응
• SE의 입장에서의 시스템 정보 수집
• 단순 모니터링이 아닌 시나리오 모니
터링
• SE가 하는 모든 업무 파악
• SE의 관점에서의 업무 처리
• 지식 축적으로 퀄리티 유지
• 시스템 증가를 줄이는 튜닝
• 단순업무를 줄여 OPEX절감
11. Concept
Just follow virtual system advisor
주기적으로 Virtual system advisor가 해주는 어드바이스를 참고로
원클릭으로 모니터링, 튜닝, 관리, 장애대응이 가능!
Mail from virtual system advisor
Server
Monitoring Advise
Tuning Advise
Maintenance Advise
One-click
Implementation
Gather system information
Knowledge
Base
12. Workflow overview
giip = A.I(Artificial Intelligence) SE(System Engineer)
SE의 모든 업무를 자동화
Web
Server
Service
WAS
DB
MQE
• Login Test
• Page Response Check
• Payment Test
• Community Text Crawling
• Process
• Latency
• Connections
• Network
• IO
• Memory
• DB Lock
• Wait_Time
• Thread Count
• IO Latch
CQE
Command
Repository
Web
Server
Service
WAS
DB
Fault
Report Form
Repository
Scenario monitoring
Automatic Incident
Processing
Report &
Machine Learning
Machine
Learning
MQE
Update exp. Knowledge
Base
Trigger
Repository
13. Funtions
All works of SE
서버를 등록하면 giip AI가 제안하고 유저의 판단에
따라 운영 작업을 진행
운영자동화
설치 배포 감시
장애
대응
튜닝
수시
체크
관리자
자동화
· ·Cloud
Server
Oversea
Servers
Virtual
Server
Legacy
Server
백업운영
PA NSA API
ML CQE MQE
비정형로그 통계 KB
A.I. 스스로 생각하는 자동 운영
• 설치,배포,감시,운영,백업,장애대응,
튜닝,수시체크 등 운영업무를 스크립트
기반으로 자동화함
• 서버를 연결하면 PA(Process Analyzer)와
NSA(Network Status Analyzer)가 프로세스
및 통신을 분석하여 자동으로 용도 파악 및
사용량 파악, 튜닝 제안
• ML(Machine Learning)을 이용하여 장애
패턴 학습 및 서버 튜닝 학습
• CQE(Command Queue Engine)으로
관리자의 운영작업/장애 대응 자동화 및
작업 이력, 작업 내역 자동저장, 이상시
Rollback가능
• MQE(Message Queue Engine)으로 서버
상태 이상 및 장애 대응 내역, ML로 학습한
장애 예휴 판단시 알람 제공
• Couchbase NoSQL을 이용한 비정형 데이터
저장(미국 CIA채용, AWS채용, IBM
Cloudant기반기술)
• ML로 학습된 KB를 기반으로 주기적인
리스크 권고 및 대응안 제시
• 16000대 서버로 온라인 게임 서비스 중인
일본 G게임사의 2000대의 서버 포함 누적
4000대 이상, 동시 2500대 이상의 자동 운영
경험.
14. giip Architecture
System
Engineer
14
SP own Service
Custom Dashboard
OpenAPI
CQE
(Command Queue
Engine)
MQE
(Message Queue Engine)
OpenAPI
TMF
(Trigger Management
Function)
MSF
(Message Sender
Function)
ASR
(Automation Script
Repository)
SCHD
(Scheduler)
RDB LogDB DCUBE
DSF
AMF
(Authentication Mapper
Function)
SMTP
RMF
(Resource Management
Function)
LGF
(Log Gathering Function)
ServiceMarketPlace
GLB Service
CDN Service
Forensic Service
Infra. Service
BasicGUI
MLE
(Machine Learning
Engine)
3rd Party Solution
15. 15
giip H/W Architecture
Internet
Auth01~02 WAS01~02
…
API 01~N
…
Collector 01~N
RDBMS 01~02
…
NoSQL 01~N
GLB01 GLB02
All works of SE
글로벌 서비스를 위한 지역 분산 및 Scale out형 확장 구조
16. Competition
Many solutions vs. outsourcing vs. giip
giip는 기존 인력으로 더욱 많은 업무를 처리할 수 있도록 도와줍니다.
서비스 구분 서비스 내역 자체 SE사용
저가형
운영지원
고급형
운영지원
비고
고정비용 기본 가격(천원/대) * 20대 기준 3,500 2,000 5,000 1,000
이력관리 기술지원이력관리 417 - 0 0 ITSM
모니터링 기본 모니터링(CPU/Memory/Disk/Process) 583 0 0 0 NMS 솔루션
URL모니터링 250 - 0 0 URL모니터링 솔루션
로그, 이벤트모니터링 4,167 - 0 0 로그분석솔루션
24시간 감시 40,000 - 0 0 SE 8명 24시간
OS운영 OS 기본 운영(설치, 패치) 0 0 0 0 SE
파일 백업 및 리스토어 관리 417 - 0 0 backup solution
웹서버운영 웹서버 기본 운영(구축 및 설정 변경등) 0 0 0 0 SE
웹서버이중화 600 - 600 100 LB 임대, giip는 GLB
웹서버튜닝 2,000 - 0 0 SE 전문가 비용
DB서버운영 DB 기본 운영(설치, 백업, 리스토어, 패치등) 0 0 0 0 SE
DB 최적화 튜닝 6,000 - 0 0 DB 전문가 비용
DB 이중화 0 - 0 0 DB 전문가 비용 포함
웹방화벽 웹방화벽 설치 및 운영 500 - 0 0 웹방화벽 솔루션
합계 58,433 2,000 5,600 1,100
단위 : 천원, - : 미지원, 0또는 숫자 : 지원 및 금액(0인 경우 다른 금액에 포함된 것임)
18. Roadmap
Our goal is platform for SE
• ITAM Function expand
• Domain management expand
• Dashboard
• Xen auto install
• CDN Automation (3rd party)
• GLB Automation (3rd party)
• Server forensic service(3rd party)
• Openstack API Support
• Public Cloud Service API Support
• Docker Management
• CHEF Management
• Big-data System Log Analytics (3rd party)
• Script Market Place
• Chinese Version
• giip Log Analytics (Machine Learning)
• giip Advertisement Platform
• Global Support Center
• IT Service Market Place
• Global Infra. Market Place
• Solution Market Place
• Expand Global Channel
Analysis Prediction Ecosystem
2016 2017 2018 2019
19. On-premise & SaaS reference
시스템 관리 및 네트워크 기기 관리를 메인으로 운영 자동화를 제공
Reference
전 세계 120개국에 판매된 도어폰 및 기타 제품들의 글로벌 IoT연동 플랫폼의
설계 및 컨설팅, 자동화 솔루션 도입, GLB로 모듈 서버의 로드 밸런싱
4개의 인프라 관리 툴을 통합한 통합 관리 툴의 제공 및 기존 툴로 감지 불가
능한 상황의 감지 서비스 제공
다양한 환경의 온라인 게임 인프라 관리용으로 서비스 제공
21. Basic Feature
기능
엔지니어가 필요로 하는 모든 정보 취득
엔지니어의 업무에 필요한 모든 액션 및 리포팅 자동화
Key
Findings
IT Asset Management Action
Basic server information
IP usage
Disk usage
Domain
Resource usage
Custom server information
Send command
Send Script
Triggering
Monitoring
Gather system message
Gather custom message
Messaging
Send Notification
Using Mail, MMS
Support send to RESTful
API
Send custom message
Send log message
22. 뛰어난 접근성
기능
No security changes
보안 설정 변경 없이 쉽게 구축 가능
- 필요한 포트는 OS update용 outbound 80포트만 있으면 모든 처리 가능
23. 통합 UI의 중앙 시스템 관리
기능
Gather all system information for bigdata analyze
서버 접속없이 대규모 서버의 감시, 운영 가능
모든 서버 액션을 중앙에서 처리
중앙 로깅으로 전체적인 장애원인 분석 가능
24. 하이브리드 클라우드 관리
기능
Manage hybrid infrastructure
클라우드 뿐만 아니라 물리 서버까지 포괄적인 운영
하이브리드 클라우드 아키텍쳐를 기반으로 한 통합 솔루션 관리
25. See and go as human
기능
사람의 액션을 최소화
모니터링 데이터로 인사이트 획득 및 예측
Key
Findings
시나리오 모니터링 액션 로그 모니터링
웹 서비스 로그인 테스트
결제 테스트
앱 기동/액션 테스트
유저와 같은 환경
액션 결과 스크린샷
액션 결과에 따른 반응
RESTful API를 이용한 로그
고객 니즈에 따라 가변필드
지원 (JSON)
로깅 데이터 그래프 지원
로깅 데이터의 이벤트 감지
비정형 데이터 저장
빅데이터 분석
로깅 데이터의 통계 분석
NoSQL을 이용한 방대한
데이터 처리
비정형 데이터 분석 처리
27. 페이지 로딩이 느린 이슈가 있는 W고객은 자체적으로 찾으려 했으나 찾지 못하여 giip의 MQE에 Bottle neck
을 찾는 요소를 걸어 DBMS의 Dead lock을 찾아 해결
DBMS Tuning
운영 사례
MQE
• WEB 서버 Connection
Status 확인
• WAS Thread count 확인
• DBMS Lock, slow query
확인
WEB
WEB
DBMS
MQE 메시지를 보고
고객이 직접 소스 수정
평균 반응속도 1초, 최대 11초 평균 반응속도 0.14초, 최대 4초
Mail로
병목 Query
전달
28. 머신러닝, 비트코인, 고속 렌더링등의 수요가 늘고 있는 GPU Farm을 만들어 고객에게 서비스하는데 인프라의
관리에서부터 JOB관리까지 giip에서 제공
GPU 렌더링 팜 서비스
운영 사례
MQE
• 시스템 자원 정보 수집
• JOB 프로세스 감시
• Server Farm 단위 JOB LB
• 시스템 로그 모니터링
• 데이터 표준화(JSON)
GPU
Server
Radeon rx 480
Radeon rx 480
GPU
Server
Radeon rx 480
Radeon rx 480
GPU
Server
Radeon rx 480
Radeon rx 480
CQE
• Server Farm 단위 JOB LB
• 장애시 자동 복구
• 신규 시스템 자동 설정
• 백업 스케쥴링
• 자동 운영
Service
Provider
Control UI
Billing UI
Statistics UI
• 고객은 UI만 개발함으로서 GPU Cloud Service를 제공할 수 있어 빠른 최신 기술의 서비스 런칭이 가능
• 서비스에 필요한 모든 Measuring data 및 Control 을 giip엔진에서 제공으로 개발 공수 절감
• JOB 제어 및 분산, 서버당 GPU 상태정보 취득등 giip만의 고유한 기능 제공으로 타사대비 경쟁력 확보
개선 효과
29. 시스템 구입시 번들로 딸려오거나 시스템 증설시 라이선스 이슈로 구매하지 못하는 등 인프라 증설에 따른 관
리툴 및 관리 포인트가 늘고 복잡해지는 상황을 개선
시스템 통합 감시
운영 사례
MQE
• 시스템 자원 정보 수집
• 상이한 관리툴의 통합 모니터링
• 마우스액션등 시나리오 모니터링
• 시스템 로그 모니터링
• 데이터 표준화(JSON)
Server
Server
Server
CQE
• 통합 명령
• 장애시 자동 대응
• 다른 환경의 신규 서버 통합 설정
• 백업 스케쥴링
• 자동 운영
End User
Dashboard
Control UI
Statistics UI
• 고객은 UI만 개발함으로서 다양한 환경의 인프라 관리 시스템 탄생
• 기존 관리툴에서 취하는 액션의 자동화 처리
• 서버 접속 시간 절감 및 운영 작업 시간 절감으로 TCO 절감효과
개선 효과
Server
30. 날로 늘어나는 전 세계 서비스를 위해 소스의 배포 및 데이터의 싱크에 표준 CDN기술을 활용하여 배포 자동
화 및 배포 관리를 giip에서 제공하여 간단히 배포 시스템을 구축
배포자동화
운영 사례
MQE
• 전세계 클라우드/레거시 서버 상태
통합 관리
• 유저 환경에서 배포 자동 확인
• 시스템 로그 모니터링
• 데이터 표준화(JSON)
Origin
Server
Edge
Server
CQE
• CDN기술을 활용한 파일 전송
• 전세계 클라우드/레거시 서버 지원
• 전송실패 알림 및 재전송 지원
• 스케쥴 전송 및 수동 전송 지원
• 고객은 UI만 개발함으로서 배포 시스템 구축
• 배포에 필요한 파일 업로드 및 배포 자동화, 스케쥴 관리 및 재배포등 필요한 기능을 쉽게 적용
• 전 세계의 다양한 환경의 서버를 통합 관리 및 배포 관리
개선 효과
Edge
Server
Edge
Server
End User
Dashboard
Control UI
Statistics UI
31. 글로벌 IoT 통합 관리
운영 사례
전세계 120개국에 있는 수 만대의 다양한
물리/클라우드 환경의 IoT 장비 및 관리 서버를
중앙에서 제어하고, 하드웨어 폴트시 자동으로 그 나라의 A/S담당자에게 통지
국내 IoT 서버
해외 IoT 서버
클라우드 IoT 서버
국내 관리 서버
지역 담당 엔지니어 중앙 관리자
32. NMS 자동화
다양한 서비스를 하고 있는 D사에서는
각 서비스별 다른 NMS를 사용하고 있고, 특정 NMS는 장비 추가시 설정 비용이 별도로 들어
운영 비용 이슈 및 여러 화면으로 관리를 해야하는 문제가 있었음.
운영사례
giip 도입으로 NMS에서 제공하는 정보를 API로 취득하거나 직접 SNMP를 통해 정보를 취득
하고 장비 추가시 간단한 설정 추가만으로 쉽게 통합관리가 가능하게 됨
34. DR(Disaster Recovery) 구성
타 센터가 단순 DR을 위한 스탠바이가 아닌 DR의 자원을 부하분산 및 재난 관리까지 가능한 구성
으로 제공이 가능하며, Bittorrent Sync 와 연동하여 서비스를 구성하거나 고객이 보유하고 있는
BCP 솔루션의 검증 및 이중 감시용으로 활용할 수 있습니다.
giip의 활용
S5000(Active)
Active-Active 구성
자사서버 클라우드 서버자사서버 클라우드 서버
S5000(Stand-by)
Active-Active 구성
동기화된 파일의 더블 체크
서버의 상태 체크 및 관리
다양한 환경에서의
파일 동기화
Internet
35. VDI(Virtual Desktop Interface) 구성
외부/내부에서 시간과 공간의 제약없이 업무가 쉽게 가능하도록 VDI환경의 Smart work를 구축하여
업무 효율을 높이고 보안 강화를 통해 외부에서의 접속에서도 보안 및 관리가 원할하도록 구성
giip의 활용
VDI Solution
Internet
보안관리(인증 로그 추적)
시스템 확장 자동화 관리
모니터링
직원들의 업무환경을 제공
하는 VDI 솔루션
(인증 + 업무환경)
S5000(Active)
사용자
사용자
인증(보안) 시스템
데스크탑 가상화
스토리지 가상화
어플리케이션 가상화
인증로그 관리
어플리케이션 배포관리
인프라 자동 확장 관리
데스크탑 가상화
스토리지 가상화
어플리케이션 가상화
지사
데스크탑 가상화
스토리지 가상화
어플리케이션 가상화
지사
본사
36. RC(Root Cause) 분석
다양한 고객 환경에서 장애 등 이슈가 발생했을 때 시스템, 네트워크, 어플리케이션 전반에 걸친
시간축 기반의 데이터 수집을 이용하여 문제 발생 원인 파악에 도움을 주는 용도로 활용할 수
있습니다.
giip의 활용
Analytics
모든 레이어의 값을 상황별
시간값을 수집
고객의 모든 상황 분석 자료를
취합 후, 빅데이터 분석으로
문제 원인 분석
Internet
Server
OS
Network
Exchange + Domino
Server
OS
Network
Verse + Domino
37. giip 서비스 이용으로 수집되는 시스템 운영 정보를 기반으로 시스템 이슈를 예측하여
빅데이터 분석으로 장해 예측 서비스(SFPS, System Fault Prediction Service)를 제공 합니다.
giip의 활용
시스템 장해 예측 서비스 (2017.1Q 예정)
• 다양한 장해 패턴 정보 KB 공유
• 벤더의 공식 대응 KB를 장해 발생시
실시간 공유
• 사용자의 상황에 알맞은 벤더 매칭
• ML로 장해 이전 시점의 공통점
학습 및 예측
ML 처리
(Machine Learning)
• 서버의 장해 패턴 데이터 수집
• 서버간 데이터 상관 관계 수집
• 어플리케이션 정보 수집
• 다양한 시스템 외의 정보 수집