SlideShare a Scribd company logo
1 of 67
Download to read offline
© 2018 NHN FORWARD. All rights reserved.
NHN 모니터링의 현재와 미래
for 인프라 엔지니어
이대형
IT시스템운영팀
CONTENTS
1. NHN 모니터링의 현재
2. 모니터링의 변화
3. 모니터링의 절차
4. NHN 모니터링의 미래
NHN 모니터링의 현재
4 / 66
NHN 모니터링 시스템
Nsight NeTAISEE
HAWK
Saisei
Icinga2 Zabbix
Syslog NMSlogESXmon
CatsEye
GTM
InfraBoard SIS
DNSMon
*설명하기 쉽도록 돕기 위한 중요 모니터링만 포함됨
Watchdog
5 / 66
인프라 관점의 모니터링 시스템 커버리지
System Engineer
Network Engineer
Developer
Application
Middleware
OS
Hypervisor
Server(HW)
Storage
Network
HAWK
ZABBIX NETA
Syslog
NMSlog
Logging Liveness
Check
Informative
Dashboard
Nsight
Watchdog
*설명하기 쉽도록 돕기 위한 중요 모니터링만 포함됨
...
6 / 66
• 별도 개발된 Beat 이용 필요한 항목 수집
토스트 클라우드 모니터링 시스템
System Engineer
Application
Middleware
OS/
Hypervisor
OSBeat
Logstash
+
Apache
Kafka
+
Elasticsearch
Grafana
Ingest Aggregation Informative
Dashboard
Developer
모니터링의 변화
8 / 66
인프라의 변화
20182006~ 2005
web001.svr.example.com
web002.svr.example.com
web003.svr.example.com
 web.example.com
mighty-web.example.com
9 / 66
1997 2002
솔루션의 변화
Network Monitoring System(NMS)
현재2011
Cloud Ready
Pub/Sub, AI
Monitoring as a Service
Whitebox Monitoring
10 / 66
Application
Middleware
OS
Hypervisor
Server
Storage
Network
Monitor A
Monitor B
Monitor C
Developer
System Engineer
Network Engineer
포괄적 적용 범위
11 / 66
자동 인지
• Service Scaling Up & Down
확장성(Scalability)
모니터링
시스템 삭제해제
신규
신규
등록
등록
12 / 66
Long-term trend threshold
21:00 22.00 23.00 00.00 01.00 02.00
Fixed threshold
EMAIL
SMS
Sophisticated Alerting
13 / 66
협업
문제의 조기 발견 및 수정
 그래프, 대시보드, 이벤트 및 작업 공유를 통한 빠른 장애 대응
 팀 협업 채널을 통한 얼럿(Alert) 전파
잘 알려진 서비스 예
 Google Cloud Status Dashboard https://status.cloud.google.com/
 Cloudflare System Status https://www.cloudflarestatus.com/
 New Relic https://newrelic.com/
 PagerDuty https://www.pagerduty.com/
14 / 66
협업
모니터링의 절차
Collecting, processing, aggregating, and displaying real-time quantitative data about a system, such as query
counts and types, processing times, and server lifetimes.
Site Reliability Engineering – O’Reilly 2016
16 / 66
cube by DaanDirk from the Noun Project
Gears by Pedro Santos from the Noun Project
collecting by Takao Umehara from the Noun Project
Warning by Melissa Holterman from the Noun Project
Search by Mas Bro Mellow from the Noun Project
timer by 8ties® from the Noun Project
Collect
Metrics & Events
Stream
Processor Pipeline
Data Processing
OLAP
Database
(Timeseries)
Search Index
(Events)
Live Reports
Predict &
Automate
SLA
Alerting
Real-Time
Topology
Network topology by Vectors Market from the Noun Project
chart by shashank singh from the Noun Project
Light by Numero Uno from the Noun Project
모니터링 플로우
불필요 데이터 필터링
(Noise reduction)
데이터 저장 &
가공
리포팅 & 예측
(유용한 데이터)
수집
17 / 66
메트릭 (Metrics)
어떤 일이 일어나는가? , Not 왜 일어나고 있는가?(분석)
특정 시점에서 시스템과 관련된 값을 캡처
정의된 주기로 수집하여 시계열 데이터베이스(TSDB)에 저장
[bucket 1234, response:OK, method: read] {(Wed 2:00pm, 3), (Wed 2:05pm, 2), (Wed 2:10pm, 8), ...}
[bucket 1234, response:OK, method: write] {(Wed 2:01pm, 1), (Wed 2:04pm, 2), (Wed 2:09pm, 7), ...}
[bucket 1234, response:FAIL, method: write] {(Wed 2:01pm, 1), (Wed 2:04pm, 0), (Wed 2:09pm, 0), ...}
[bucket 9876, response:OK, method: read] {(Wed 1:59pm, 2), (Wed 2:05pm, 4), (Wed 2:10pm, 3), ...}
18 / 66
메트릭 (Metrics)
어떤 일이 일어나는가? , Not 왜 일어나고 있는가? (분석)
특정 시점에서 시스템과 관련된 값을 캡처
정의된 주기로 수집하여 시계열 데이터베이스(TSDB)에 저장
19 / 66
자원 메트릭 (Resource metrics)
 다른 시스템이나 서비스에게 제공되는
자원의 상태
 예, 하드웨어 자원 메트릭
 CPUs
 Main Memory
 Network Interfaces
 Storage Devices
 Controllers
 Interconnects (bus)
메트릭의 종류
작업 메트릭 (Work metrics)
 시스템의 최상위 레이어인 응용 프로그램의 상태
 예, 웹 서버 작업 메트릭
 Throughput: Request per second
 Success: 2XX 응답률(%)
 Error: 5XX 응답률(%)
 Performance: 90% response time in 1s.
20 / 66
시스템 및 서비스에 간접적 영향
 패키지 설치 및 업데이트
 하드웨어 변경 및 폴트
 응용 프로그램 배포
이벤트의 상당 부분은 로그에 존재
 문제의 상당 부분을 미리 파악 가능
 이벤트 처리를 통한 알람 발생
이벤트(Event)
NHN 인프라 모니터링의 미래
22 / 66
우리도 이제 Multi Region
 클라우드 환경에 적합한 구조의 운영도구가 절실
문제 발생 시, 분석을 위한 다양한 정보 필요
 고객보다 문제를 먼저 확인 할 수 있는 시스템 필요
 자산 및 기반 시스템과의 연계를 통한 빠른 확인
빠른 변화에 대한 대처 필요
 쉽게 만들고 쉽게 버리자
 오픈 소스 도구 활용
지금 우리에게 필요한 것은 무엇인가?
23 / 66
NE 모니터링 커버리지
System Engineer
Network Engineer
Developer
Application
Middleware
OS
Hypervisor
Server(HW)
Storage
Network
HAWK
ZABBIX NETA
Syslog
NMSlog
Logging Liveness
Check
Informative
Dashboard
Nsight
Watchdog
*설명하기 쉽도록 돕기 위한 중요 모니터링만 포함됨
...
24 / 66
포괄적 커버리지 구현
Engineer / Developer
Application
Middleware
OS
Hypervisor
Server(HW)
Storage
Network
Logging Liveness
Check
Informative
Dashboard
Nsight
ZABBIX NETA
Syslog
NMSlog
HAWK
25 / 66
포괄적 커버리지 구현
Engineer / Developer
Application
Middleware
OS
Hypervisor
Server(HW)
Storage
Network
Logging Liveness
Check
Informative
Dashboard
Nsight
ZABBIX NETA
Dashboard
Syslog
NMSlog
Syslog
&
Event
HAWK
Checker
or
Collector
26 / 66
우리가 바라보는 첫 번째 목표
Engineer / Developer
Application
Middleware
OS
Hypervisor
Server(HW)
Storage
Network
Logging Liveness
Check
Informative
Dashboard
Nsight
ZABBIX NETA
Syslog
NMSlog
Syslog
&
Event
HAWK
Event
Dashboard
27 / 66
Ingest 관리의 어려움
 폴트 시 로그 유실
 로그 형태 변경 시 Grok 패턴 재작성 및 재시작 필요
운영 시스템 변경의 어려움
 교체 시 수집 중단에 따른 신규 버전 적용의 어려움 발생
로그 수집 시스템의 변화 필요성 증가
LOG File by AdbA Icons ❤️ from the Noun Project
Host machine
28 / 66
로그 수집 시스템의 변화 필요성 증가(계속)
Ingest 관리 로그 처리
로그 검색
로그 저장소 관리
29 / 66
if [type] == "proxy_log" {
grok {
add_tag => ["swift", "proxy"]
patterns_dir => ["/etc/logstash/patterns"]
match => { 'message' => '%{SYSLOGTIMESTAMP:node_tz} %{HOSTNAME:hostname} %{NOTSPACE:swift_service}: %{NOTSPACE:client_ip} %
{NOTSPACE:remote_addr} %{SWIFT_PROXY_DATETIME:datetime} %{WORD:request_method} %{URIPATHPARAM:request_path} HTTP/%{NUMBER:httpversion}
%{NUMBER:status_int:int} %{NOTSPACE:referer} %{NOTSPACE:user_agent} %{NOTSPACE:auth_token} %{NOTSPACE:bytes_recvd:int} %{NOTSPACE:byte
s_sent:int} %{NOTSPACE:client_etag} %{NOTSPACE:transaction_id} %{NOTSPACE:headers} %{NUMBER:request_time:float} %{NOTSPACE:api_source}
%{NOTSPACE:log_info} %{NUMBER:request_start_time} %{NUMBER:request_end_time} %{NOTSPACE:policy_index:int}' }
}
로그 처리 - 복잡도 증가
 로그 필드 추출을 위한 GROK 구문 예
로그 수집 시스템의 변화 필요성 증가(계속)
30 / 66
로그 수집 시스템의 변화 필요성 증가(계속)
로그 검색 - 검색 위주의 이벤트 확인
31 / 66
로그 검색 - 단순 로그 구분별 나열
로그 수집 시스템의 변화 필요성 증가(계속)
32 / 66
로그 처리 방식 변화
 처리 방식 단순화
 트리거에 의한 이벤트 알림
Docker swarm 기반 운영
 자가 치유(Self Healing)
 롤링 업데이트(Rolling Update)
 업데이트 성공 후 교체 시도
Infrastructure as Code
신규 로그 수집 시스템
33 / 66
Ingress - Rsyslog v8.x
메시지 버퍼 – Logstash + Kafka
로그(스트림) 처리 및 알람 발생 - Graylog2
로그 인덱싱 - Elasticsearch
로그 수집 시스템 - 구성 컴포넌트
LOG File by AdbA Icons ❤️ from the Noun Project
Graylog2
RSYSLOG v8
ElasticsearchLogstash Apache
Kafka
Host Manchine
34 / 66
Step 1
 스풀링 & 디스크에 임시 저장
 버퍼 프로세스 준비
Step 2
 디스크에서 추출한 메시지 입력 버퍼로 이동
 필터, 메시지들의 구조화(Classify)
Step 3
 출력 버퍼로 메시지 이동
 Elasticsearch 혹은 사용자 정의된 출력으로 이동
로그 수집 시스템 - 로그 처리 흐름
Input
Log Message
Ring Network Topology by ProSymbols from the Noun Project
Process
Buffer
Processor
Filter
Filter
Output
Buffer
Processor
Output
…
Output
Buffer
Input
Buffer
35 / 66
Extractor API
로그 수집 시스템 - 로그 필드 추출
Extractor 설정 GUI
36 / 66
로그 수집 시스템 - 스트림
관심 항목별 로그 스트림 분리
37 / 66
로그 수집 시스템 – 스트림 흐름
관심 항목 별 로그 스트림 분리
 Stream rules
All messages
User/Group
Operation
Package Operation
UG
Index
All in One
Index
로그 유입 rules
rules
인덱싱
인덱싱
스트림
38 / 66
스트림 API
로그 수집 시스템 – 스트림 설정
스트림 설정 GUI
39 / 66
rule “Combine src and dst field”
when
has_field(“src_ip”) && has_field(“dst_ip”)
then
let src_ip_comma = concat(to_string($message.src_ip), “-”);
let src_dst = concat(src_ip_comma,to_string($message.dst_ip));
set_field(field:“src_dst_ip”, value: src_dst);
end
스트림 간 라우팅, 메시지 블랙리스팅, 메시지 변경 시 유리
 Rule(s) > Stage(s) > Pipeline
로그 수집 시스템 - 파이프라인(Pipeline)
40 / 66
로그 수집 시스템 - 인덱싱 설정
Index Set을 통하여 로그 중요도에 따른 인덱싱 설정
약 3개월
약 1개월
샤드, 복제
41 / 66
로그 수집 시스템 – 인덱싱 흐름
Index Set을 통하여 로그 중요도에 따른 인덱싱 설정
All messages
User/Group
Operation
Package
Operation
UG
Index
All in One
Index
로그 유입
복제 / 샤드
보관 주기인덱싱 설정
Index
Set
Index
Set
스트림
42 / 66
로그 수집 시스템 – 스트림 사용 예제
패키지 설치, 삭제 및 업데이트 감시
43 / 66
로그 수집 시스템 – 스트림 사용 예제
패키지 설치, 삭제 및 업데이트 감시
44 / 66
로그 수집 시스템 – 스트림 사용 예제
패키지 설치, 삭제 및 업데이트 감시
45 / 66
로그 수집 시스템 – 대시보드
패키지 설치, 삭제 및 업데이트 감시
46 / 66
하드웨어 이벤트 확인 및 알람 발생
 OS 커널 혹은 벤더 제공 소프트웨어를 통한 폴트 확인  이벤트 데이터
 대부분 하드웨어는 폴트 감지시 SNMPTrap에게 해당 이벤트 통보 가능
 Logstash + SNMPTrap Input 기능을 통하여 이벤트 처리 및 통보 가능  별도 관심 로그 스트림 구현
로그 수집 시스템 – 기타 활용 영역
Hardware
SNMP
Trap
Logstash
JSONEvent
Graylog2
Alert
OOB Network Service Network
47 / 66
로그 수집 시스템 모니터링 구현
Prometheus
Email by i cons from the Noun Project
Prometheus
Server
cAdvisor
Docker exporter
Grafana
Web U/I
Dashboard
HTTP
AlertManager
PromQL
* exporter
Node exporter
System Engineer
Docker Swarm
48 / 66
로그 수집 시스템 - 모니터링
Graylog2
RSYSLOG v8
ElasticsearchLogstash Apache
Kafka
Host Manchine
JVM exporter
Graylog
exporter
Elasticsearch
exporter
Logstash
exporter
Node exporter
Prometheus
Cerebro
Kafka
Manager
49 / 66
로그 수집 시스템 – 모니터링 대시보드
50 / 66
점진적 적용 필요
 로그 유입량 점진적 증가 필요
 로그 처리는 결국 문자열 처리  힙(Heap) 메모리 확인 필수
각 컴포넌트는 결국 관리 포인트
 부하에 따른 컴포넌트 확장 및 축소 가능 설계 필요
 각 컴포넌트 별 메트릭 수집 및 시각화 필요
컨테이너에 대한 이해
설정 관리의 자동화
 수집 항목에 대한 설정 동기화  Salt/Puppet/Chef/Ansible 도구 활용
적용 시 어려운 점
51 / 66
모니터링 대시보드 개선
또다른 이중화 고려
 Multi Data Center
 장애 대응 훈련
기반 연계 시스템 연동
 기반 시스템 연계
CI/CD 반영
그 외 기타 사항들
 접근 및 권한 제어
남은 과제와 목표는?
52 / 66
우리가 바라보는 두번째 목표
Engineer / Developer
Application
Middleware
OS
Hypervisor
Server(HW)
Storage
Network
Logging Liveness
Check
Informative
Dashboard
Nsight
ZABBIX NETA
Dashboard
Syslog
NMSlog
Syslog
&
Event
HAWK
Checker
or
Collector
53 / 66
인프라 모니터링 시스템 개선
기회가 된다면 다음에…
© 2018 NHN FORWARD. All rights reserved.
Q&A
© 2018 NHN FORWARD. All rights reserved.
THANK YOU
56 / 66
APPENDIX
모니터링 방법론
 Problem Statement Method
 Workload Characterization Method
 The Use Method
 4 Golden Signals
Prometheus
 블랙박스 vs 화이트박스
 Prometheus vs General NMS
인프라 서비스 대시보드 – Staytus
로그 수집 시스템 – 테스트 플랫폼 코드
57 / 66
모니터링 방법론 - Problem Statement Method
성능 문제가 있다고 생각하는 이유는 무엇입니까?
본 시스템이 기존에도 잘 수행되었는가?
최근에 변경된 사항은 무엇이었나? (소프트웨어? 하드웨어? 로드?)
성능 저하가 대기 시간(Latency) 또는 수행 시간으로 표현될 수 있습니까?
문제가 다른 사람이나 응용프로그램에 영향을 미칩니까?
환경(Environment)은 어땠나요?
 Software, Hardware, Instance types? Versions? Configuration?
58 / 66
모니터링 방법론 – Workload Characterization Method
누가 부하(load)를 발생시키는가?
 PID, UID, IP address, …
왜 부하가 생기는가?
 Code path, stack trace
부하란?
 IOPS, throughput, type(e.g., Database Query), R/W data
시간에 따른 부하의 변화는?
59 / 66
모니터링 방법론 - The Use Method
The Use Method by Brendan Gregg
http://www.brendangregg.com/usemethod.html
 사용률(Utilization)
 포화(Saturation)
 에러(Error)
Resource
Utilization (%)
Saturation
Errors
✓✗✓✓
60 / 66
모니터링 방법론 - The Use Method(계속)
The Use Method by Brendan Gregg
 사용률(Utilization)
 100%는 병목 현상의 징후
 70% 일 경우도 오랜 기간 측정시, 짧은 주기에 발생된 100%
를 감출 수 있음
 포화(Saturation)
 대기 큐(Wait Queue)의 길이 또는 큐(Queue)에서 소비되는
시간으로 측정될 수 있음
 에러(Error)
61 / 66
Request-based system metrics
 지연시간(latency)
 트래픽(traffic)
 에러(error)
 포화(saturation)
https://landing.google.com/sre/book/chapters/monitoring-distributed-systems.html
모니터링 방법론 - 4 Golden Signals
4 Golden Signals by Google
62 / 66
Agent
HTTP Server
200 OKHTTP GET /
Blackbox Monitoring
Agent
HTTP Server
GET /metrics
error_total
req_total
req_latency
Whitebox Monitoring
Prometheus
블랙박스 vs 화이트박스
63 / 66
Nagios/Icinga/Zabbix
• Disk Used : 92.00% (/home1)
Prometheus vs General NMS
Prometheus
• Disk would be usable for the next 12 hours
- name: node.rules
rules:
- alert: DiskWillFillIn12Hours
expr: predict_linear(node_filesystem_free_bytes{mountpoint="/rootfs"}[1h], 12*3600) < 0
for: 5m
labels: severity: page
64 / 66
인프라 서비스 대시보드 - Staytus
http://staytus.co
65 / 66
인프라 서비스 대시보드 – Staytus(계속)
작업(Maintenance) 등록과 추적
66 / 66
인프라 서비스 대시보드 - Staytus(계속)
이슈의 등록, 추적, 변경 관리
67 / 66
로그 수집 시스템 – 테스트 플랫폼 코드
Docker Stack / Service 코드로 구성
 https://github.com/netman2k/graylog2-demo

More Related Content

What's hot

Container, Container, Container -유재석 (AWS 솔루션즈 아키텍트)
Container, Container, Container -유재석 (AWS 솔루션즈 아키텍트)Container, Container, Container -유재석 (AWS 솔루션즈 아키텍트)
Container, Container, Container -유재석 (AWS 솔루션즈 아키텍트)Amazon Web Services Korea
 
AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017
AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017
AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017AWSKRUG - AWS한국사용자모임
 
카카오 광고 플랫폼 MSA 적용 사례 및 API Gateway와 인증 구현에 대한 소개
카카오 광고 플랫폼 MSA 적용 사례 및 API Gateway와 인증 구현에 대한 소개카카오 광고 플랫폼 MSA 적용 사례 및 API Gateway와 인증 구현에 대한 소개
카카오 광고 플랫폼 MSA 적용 사례 및 API Gateway와 인증 구현에 대한 소개if kakao
 
AWS 네트워크 보안을 위한 계층별 보안 구성 모범 사례 – 조이정, AWS 솔루션즈 아키텍트:: AWS 온라인 이벤트 – 클라우드 보안 특집
AWS 네트워크 보안을 위한 계층별 보안 구성 모범 사례 – 조이정, AWS 솔루션즈 아키텍트:: AWS 온라인 이벤트 – 클라우드 보안 특집AWS 네트워크 보안을 위한 계층별 보안 구성 모범 사례 – 조이정, AWS 솔루션즈 아키텍트:: AWS 온라인 이벤트 – 클라우드 보안 특집
AWS 네트워크 보안을 위한 계층별 보안 구성 모범 사례 – 조이정, AWS 솔루션즈 아키텍트:: AWS 온라인 이벤트 – 클라우드 보안 특집Amazon Web Services Korea
 
게임서비스를 위한 ElastiCache 활용 전략 :: 구승모 솔루션즈 아키텍트 :: Gaming on AWS 2016
게임서비스를 위한 ElastiCache 활용 전략 :: 구승모 솔루션즈 아키텍트 :: Gaming on AWS 2016게임서비스를 위한 ElastiCache 활용 전략 :: 구승모 솔루션즈 아키텍트 :: Gaming on AWS 2016
게임서비스를 위한 ElastiCache 활용 전략 :: 구승모 솔루션즈 아키텍트 :: Gaming on AWS 2016Amazon Web Services Korea
 
MySQL Monitoring using Prometheus & Grafana
MySQL Monitoring using Prometheus & GrafanaMySQL Monitoring using Prometheus & Grafana
MySQL Monitoring using Prometheus & GrafanaYoungHeon (Roy) Kim
 
[OpenStack Days Korea 2016] Track1 - Monasca를 이용한 Cloud 모니터링
[OpenStack Days Korea 2016] Track1 - Monasca를 이용한 Cloud 모니터링[OpenStack Days Korea 2016] Track1 - Monasca를 이용한 Cloud 모니터링
[OpenStack Days Korea 2016] Track1 - Monasca를 이용한 Cloud 모니터링OpenStack Korea Community
 
[NDC17] Kubernetes로 개발서버 간단히 찍어내기
[NDC17] Kubernetes로 개발서버 간단히 찍어내기[NDC17] Kubernetes로 개발서버 간단히 찍어내기
[NDC17] Kubernetes로 개발서버 간단히 찍어내기SeungYong Oh
 
마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017
마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017
마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017Amazon Web Services Korea
 
게임의 성공을 위한 Scalable 한 데이터 플랫폼 사례 공유 - 오승용, 데이터 플랫폼 리더, 데브시스터즈 ::: Games on AW...
게임의 성공을 위한 Scalable 한 데이터 플랫폼 사례 공유 - 오승용, 데이터 플랫폼 리더, 데브시스터즈 ::: Games on AW...게임의 성공을 위한 Scalable 한 데이터 플랫폼 사례 공유 - 오승용, 데이터 플랫폼 리더, 데브시스터즈 ::: Games on AW...
게임의 성공을 위한 Scalable 한 데이터 플랫폼 사례 공유 - 오승용, 데이터 플랫폼 리더, 데브시스터즈 ::: Games on AW...Amazon Web Services Korea
 
[수정본] 우아한 객체지향
[수정본] 우아한 객체지향[수정본] 우아한 객체지향
[수정본] 우아한 객체지향Young-Ho Cho
 
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive [2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive Amazon Web Services Korea
 
AWS Backup을 이용한 데이터베이스의 백업 자동화와 편리한 복구방법
AWS Backup을 이용한 데이터베이스의 백업 자동화와 편리한 복구방법AWS Backup을 이용한 데이터베이스의 백업 자동화와 편리한 복구방법
AWS Backup을 이용한 데이터베이스의 백업 자동화와 편리한 복구방법Amazon Web Services Korea
 
쿠키런: 킹덤 대규모 인프라 및 서버 운영 사례 공유 [데브시스터즈 - 레벨 200] - 발표자: 용찬호, R&D 엔지니어, 데브시스터즈 ...
쿠키런: 킹덤 대규모 인프라 및 서버 운영 사례 공유 [데브시스터즈 - 레벨 200] - 발표자: 용찬호, R&D 엔지니어, 데브시스터즈 ...쿠키런: 킹덤 대규모 인프라 및 서버 운영 사례 공유 [데브시스터즈 - 레벨 200] - 발표자: 용찬호, R&D 엔지니어, 데브시스터즈 ...
쿠키런: 킹덤 대규모 인프라 및 서버 운영 사례 공유 [데브시스터즈 - 레벨 200] - 발표자: 용찬호, R&D 엔지니어, 데브시스터즈 ...Amazon Web Services Korea
 
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링Amazon Web Services Korea
 
Prometheus design and philosophy
Prometheus design and philosophy   Prometheus design and philosophy
Prometheus design and philosophy Docker, Inc.
 
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안SANG WON PARK
 
잘 키운 모노리스 하나 열 마이크로서비스 안 부럽다
잘 키운 모노리스 하나 열 마이크로서비스 안 부럽다잘 키운 모노리스 하나 열 마이크로서비스 안 부럽다
잘 키운 모노리스 하나 열 마이크로서비스 안 부럽다Arawn Park
 
마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트)
마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트) 마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트)
마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트) Amazon Web Services Korea
 
오딘: 발할라 라이징 MMORPG의 성능 최적화 사례 공유 [카카오게임즈 - 레벨 300] - 발표자: 김문권, 팀장, 라이온하트 스튜디오...
오딘: 발할라 라이징 MMORPG의 성능 최적화 사례 공유 [카카오게임즈 - 레벨 300] - 발표자: 김문권, 팀장, 라이온하트 스튜디오...오딘: 발할라 라이징 MMORPG의 성능 최적화 사례 공유 [카카오게임즈 - 레벨 300] - 발표자: 김문권, 팀장, 라이온하트 스튜디오...
오딘: 발할라 라이징 MMORPG의 성능 최적화 사례 공유 [카카오게임즈 - 레벨 300] - 발표자: 김문권, 팀장, 라이온하트 스튜디오...Amazon Web Services Korea
 

What's hot (20)

Container, Container, Container -유재석 (AWS 솔루션즈 아키텍트)
Container, Container, Container -유재석 (AWS 솔루션즈 아키텍트)Container, Container, Container -유재석 (AWS 솔루션즈 아키텍트)
Container, Container, Container -유재석 (AWS 솔루션즈 아키텍트)
 
AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017
AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017
AWS 기반 대규모 트래픽 견디기 - 장준엽 (구로디지털 모임) :: AWS Community Day 2017
 
카카오 광고 플랫폼 MSA 적용 사례 및 API Gateway와 인증 구현에 대한 소개
카카오 광고 플랫폼 MSA 적용 사례 및 API Gateway와 인증 구현에 대한 소개카카오 광고 플랫폼 MSA 적용 사례 및 API Gateway와 인증 구현에 대한 소개
카카오 광고 플랫폼 MSA 적용 사례 및 API Gateway와 인증 구현에 대한 소개
 
AWS 네트워크 보안을 위한 계층별 보안 구성 모범 사례 – 조이정, AWS 솔루션즈 아키텍트:: AWS 온라인 이벤트 – 클라우드 보안 특집
AWS 네트워크 보안을 위한 계층별 보안 구성 모범 사례 – 조이정, AWS 솔루션즈 아키텍트:: AWS 온라인 이벤트 – 클라우드 보안 특집AWS 네트워크 보안을 위한 계층별 보안 구성 모범 사례 – 조이정, AWS 솔루션즈 아키텍트:: AWS 온라인 이벤트 – 클라우드 보안 특집
AWS 네트워크 보안을 위한 계층별 보안 구성 모범 사례 – 조이정, AWS 솔루션즈 아키텍트:: AWS 온라인 이벤트 – 클라우드 보안 특집
 
게임서비스를 위한 ElastiCache 활용 전략 :: 구승모 솔루션즈 아키텍트 :: Gaming on AWS 2016
게임서비스를 위한 ElastiCache 활용 전략 :: 구승모 솔루션즈 아키텍트 :: Gaming on AWS 2016게임서비스를 위한 ElastiCache 활용 전략 :: 구승모 솔루션즈 아키텍트 :: Gaming on AWS 2016
게임서비스를 위한 ElastiCache 활용 전략 :: 구승모 솔루션즈 아키텍트 :: Gaming on AWS 2016
 
MySQL Monitoring using Prometheus & Grafana
MySQL Monitoring using Prometheus & GrafanaMySQL Monitoring using Prometheus & Grafana
MySQL Monitoring using Prometheus & Grafana
 
[OpenStack Days Korea 2016] Track1 - Monasca를 이용한 Cloud 모니터링
[OpenStack Days Korea 2016] Track1 - Monasca를 이용한 Cloud 모니터링[OpenStack Days Korea 2016] Track1 - Monasca를 이용한 Cloud 모니터링
[OpenStack Days Korea 2016] Track1 - Monasca를 이용한 Cloud 모니터링
 
[NDC17] Kubernetes로 개발서버 간단히 찍어내기
[NDC17] Kubernetes로 개발서버 간단히 찍어내기[NDC17] Kubernetes로 개발서버 간단히 찍어내기
[NDC17] Kubernetes로 개발서버 간단히 찍어내기
 
마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017
마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017
마이크로서비스를 위한 AWS 아키텍처 패턴 및 모범 사례 - AWS Summit Seoul 2017
 
게임의 성공을 위한 Scalable 한 데이터 플랫폼 사례 공유 - 오승용, 데이터 플랫폼 리더, 데브시스터즈 ::: Games on AW...
게임의 성공을 위한 Scalable 한 데이터 플랫폼 사례 공유 - 오승용, 데이터 플랫폼 리더, 데브시스터즈 ::: Games on AW...게임의 성공을 위한 Scalable 한 데이터 플랫폼 사례 공유 - 오승용, 데이터 플랫폼 리더, 데브시스터즈 ::: Games on AW...
게임의 성공을 위한 Scalable 한 데이터 플랫폼 사례 공유 - 오승용, 데이터 플랫폼 리더, 데브시스터즈 ::: Games on AW...
 
[수정본] 우아한 객체지향
[수정본] 우아한 객체지향[수정본] 우아한 객체지향
[수정본] 우아한 객체지향
 
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive [2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive
[2017 AWS Startup Day] AWS 비용 최대 90% 절감하기: 스팟 인스턴스 Deep-Dive
 
AWS Backup을 이용한 데이터베이스의 백업 자동화와 편리한 복구방법
AWS Backup을 이용한 데이터베이스의 백업 자동화와 편리한 복구방법AWS Backup을 이용한 데이터베이스의 백업 자동화와 편리한 복구방법
AWS Backup을 이용한 데이터베이스의 백업 자동화와 편리한 복구방법
 
쿠키런: 킹덤 대규모 인프라 및 서버 운영 사례 공유 [데브시스터즈 - 레벨 200] - 발표자: 용찬호, R&D 엔지니어, 데브시스터즈 ...
쿠키런: 킹덤 대규모 인프라 및 서버 운영 사례 공유 [데브시스터즈 - 레벨 200] - 발표자: 용찬호, R&D 엔지니어, 데브시스터즈 ...쿠키런: 킹덤 대규모 인프라 및 서버 운영 사례 공유 [데브시스터즈 - 레벨 200] - 발표자: 용찬호, R&D 엔지니어, 데브시스터즈 ...
쿠키런: 킹덤 대규모 인프라 및 서버 운영 사례 공유 [데브시스터즈 - 레벨 200] - 발표자: 용찬호, R&D 엔지니어, 데브시스터즈 ...
 
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
 
Prometheus design and philosophy
Prometheus design and philosophy   Prometheus design and philosophy
Prometheus design and philosophy
 
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
 
잘 키운 모노리스 하나 열 마이크로서비스 안 부럽다
잘 키운 모노리스 하나 열 마이크로서비스 안 부럽다잘 키운 모노리스 하나 열 마이크로서비스 안 부럽다
잘 키운 모노리스 하나 열 마이크로서비스 안 부럽다
 
마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트)
마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트) 마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트)
마이크로서비스 기반 클라우드 아키텍처 구성 모범 사례 - 윤석찬 (AWS 테크에반젤리스트)
 
오딘: 발할라 라이징 MMORPG의 성능 최적화 사례 공유 [카카오게임즈 - 레벨 300] - 발표자: 김문권, 팀장, 라이온하트 스튜디오...
오딘: 발할라 라이징 MMORPG의 성능 최적화 사례 공유 [카카오게임즈 - 레벨 300] - 발표자: 김문권, 팀장, 라이온하트 스튜디오...오딘: 발할라 라이징 MMORPG의 성능 최적화 사례 공유 [카카오게임즈 - 레벨 300] - 발표자: 김문권, 팀장, 라이온하트 스튜디오...
오딘: 발할라 라이징 MMORPG의 성능 최적화 사례 공유 [카카오게임즈 - 레벨 300] - 발표자: 김문권, 팀장, 라이온하트 스튜디오...
 

Similar to [2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어

Open source apm scouter를 통한 관제 관리 jadecross 정환열 수석
Open source apm scouter를 통한 관제  관리 jadecross 정환열 수석Open source apm scouter를 통한 관제  관리 jadecross 정환열 수석
Open source apm scouter를 통한 관제 관리 jadecross 정환열 수석uEngine Solutions
 
JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링
JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링
JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링Ted Won
 
도커(Docker) 메트릭스 & 로그 수집
도커(Docker) 메트릭스 & 로그 수집도커(Docker) 메트릭스 & 로그 수집
도커(Docker) 메트릭스 & 로그 수집Daegwon Kim
 
SDDC(software defined data center)에서 NFV의 역할과 관리도구 (세미나 발표 자료)
SDDC(software defined data center)에서 NFV의 역할과 관리도구 (세미나 발표 자료)SDDC(software defined data center)에서 NFV의 역할과 관리도구 (세미나 발표 자료)
SDDC(software defined data center)에서 NFV의 역할과 관리도구 (세미나 발표 자료)정명훈 Jerry Jeong
 
20170908 tech day-9th-재미없는 java runtime process 디버그-김성중
20170908 tech day-9th-재미없는 java runtime process 디버그-김성중20170908 tech day-9th-재미없는 java runtime process 디버그-김성중
20170908 tech day-9th-재미없는 java runtime process 디버그-김성중ymtech
 
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...Jemin Huh
 
Prometheus Project Journey
Prometheus Project JourneyPrometheus Project Journey
Prometheus Project JourneyJinwoong Kim
 
주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기Yeonhee Kim
 
[오픈소스컨설팅]openstack_monitoring_session
[오픈소스컨설팅]openstack_monitoring_session[오픈소스컨설팅]openstack_monitoring_session
[오픈소스컨설팅]openstack_monitoring_sessionChanyeol yoon
 
Windows 성능모니터를 이용한 SQL Server 성능 분석
Windows 성능모니터를 이용한 SQL Server 성능 분석Windows 성능모니터를 이용한 SQL Server 성능 분석
Windows 성능모니터를 이용한 SQL Server 성능 분석Sung wook Kang
 
[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance TuningJi-Woong Choi
 
클라우드 환경에서 알아야할 성능 이야기
클라우드 환경에서 알아야할 성능 이야기클라우드 환경에서 알아야할 성능 이야기
클라우드 환경에서 알아야할 성능 이야기YoungSu Son
 
3.[d2 오픈세미나]분산시스템 개발 및 교훈 n base arc
3.[d2 오픈세미나]분산시스템 개발 및 교훈 n base arc3.[d2 오픈세미나]분산시스템 개발 및 교훈 n base arc
3.[d2 오픈세미나]분산시스템 개발 및 교훈 n base arcNAVER D2
 
Private cloud network architecture (2018)
Private cloud network architecture (2018)Private cloud network architecture (2018)
Private cloud network architecture (2018)Gasida Seo
 
ACI Netflow 구성 가이드
ACI Netflow 구성 가이드ACI Netflow 구성 가이드
ACI Netflow 구성 가이드Woo Hyung Choi
 
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...Cloud-Barista Community
 
[오픈소스컨설팅] 스카우터 사용자 가이드 2020
[오픈소스컨설팅] 스카우터 사용자 가이드 2020[오픈소스컨설팅] 스카우터 사용자 가이드 2020
[오픈소스컨설팅] 스카우터 사용자 가이드 2020Ji-Woong Choi
 
클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기
클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기
클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기YoungSu Son
 
Service operation
Service operationService operation
Service operationTerry Cho
 

Similar to [2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어 (20)

Open source apm scouter를 통한 관제 관리 jadecross 정환열 수석
Open source apm scouter를 통한 관제  관리 jadecross 정환열 수석Open source apm scouter를 통한 관제  관리 jadecross 정환열 수석
Open source apm scouter를 통한 관제 관리 jadecross 정환열 수석
 
JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링
JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링
JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링
 
도커(Docker) 메트릭스 & 로그 수집
도커(Docker) 메트릭스 & 로그 수집도커(Docker) 메트릭스 & 로그 수집
도커(Docker) 메트릭스 & 로그 수집
 
SDDC(software defined data center)에서 NFV의 역할과 관리도구 (세미나 발표 자료)
SDDC(software defined data center)에서 NFV의 역할과 관리도구 (세미나 발표 자료)SDDC(software defined data center)에서 NFV의 역할과 관리도구 (세미나 발표 자료)
SDDC(software defined data center)에서 NFV의 역할과 관리도구 (세미나 발표 자료)
 
20170908 tech day-9th-재미없는 java runtime process 디버그-김성중
20170908 tech day-9th-재미없는 java runtime process 디버그-김성중20170908 tech day-9th-재미없는 java runtime process 디버그-김성중
20170908 tech day-9th-재미없는 java runtime process 디버그-김성중
 
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
 
Prometheus Project Journey
Prometheus Project JourneyPrometheus Project Journey
Prometheus Project Journey
 
주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기
 
[오픈소스컨설팅]openstack_monitoring_session
[오픈소스컨설팅]openstack_monitoring_session[오픈소스컨설팅]openstack_monitoring_session
[오픈소스컨설팅]openstack_monitoring_session
 
Windows 성능모니터를 이용한 SQL Server 성능 분석
Windows 성능모니터를 이용한 SQL Server 성능 분석Windows 성능모니터를 이용한 SQL Server 성능 분석
Windows 성능모니터를 이용한 SQL Server 성능 분석
 
[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning[오픈소스컨설팅]Java Performance Tuning
[오픈소스컨설팅]Java Performance Tuning
 
클라우드 환경에서 알아야할 성능 이야기
클라우드 환경에서 알아야할 성능 이야기클라우드 환경에서 알아야할 성능 이야기
클라우드 환경에서 알아야할 성능 이야기
 
3.[d2 오픈세미나]분산시스템 개발 및 교훈 n base arc
3.[d2 오픈세미나]분산시스템 개발 및 교훈 n base arc3.[d2 오픈세미나]분산시스템 개발 및 교훈 n base arc
3.[d2 오픈세미나]분산시스템 개발 및 교훈 n base arc
 
Private cloud network architecture (2018)
Private cloud network architecture (2018)Private cloud network architecture (2018)
Private cloud network architecture (2018)
 
ACI Netflow 구성 가이드
ACI Netflow 구성 가이드ACI Netflow 구성 가이드
ACI Netflow 구성 가이드
 
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
Cloud-Barista 제1차 오픈세미나 : CB-Dragonfly-멀티 클라우드 통합 모니터링 프레임워크(1st Open Seminar...
 
[오픈소스컨설팅] 스카우터 사용자 가이드 2020
[오픈소스컨설팅] 스카우터 사용자 가이드 2020[오픈소스컨설팅] 스카우터 사용자 가이드 2020
[오픈소스컨설팅] 스카우터 사용자 가이드 2020
 
INFRASTRUCTURE
INFRASTRUCTUREINFRASTRUCTURE
INFRASTRUCTURE
 
클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기
클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기
클라우드 & 모바일 환경에서 알아야 할 성능 품질 이야기
 
Service operation
Service operationService operation
Service operation
 

More from NHN FORWARD

[2019] 패션 시소러스 기반 상품 특징 분석 시스템
[2019] 패션 시소러스 기반 상품 특징 분석 시스템[2019] 패션 시소러스 기반 상품 특징 분석 시스템
[2019] 패션 시소러스 기반 상품 특징 분석 시스템NHN FORWARD
 
[2019] 스몰 스텝: Android 렛츠기릿!
[2019] 스몰 스텝: Android 렛츠기릿![2019] 스몰 스텝: Android 렛츠기릿!
[2019] 스몰 스텝: Android 렛츠기릿!NHN FORWARD
 
딥러닝, 야 너도 할 수 있어(feat. PyTorch)
딥러닝, 야 너도 할 수 있어(feat. PyTorch)딥러닝, 야 너도 할 수 있어(feat. PyTorch)
딥러닝, 야 너도 할 수 있어(feat. PyTorch)NHN FORWARD
 
NHN 베이스캠프: 신입사원들은 무엇을 배우나요?
NHN 베이스캠프: 신입사원들은 무엇을 배우나요?NHN 베이스캠프: 신입사원들은 무엇을 배우나요?
NHN 베이스캠프: 신입사원들은 무엇을 배우나요?NHN FORWARD
 
[2019] GIF 스티커 만들기: 스파인 2D를 이용한 움직이는 스티커 만들기
[2019] GIF 스티커 만들기: 스파인 2D를 이용한 움직이는 스티커 만들기[2019] GIF 스티커 만들기: 스파인 2D를 이용한 움직이는 스티커 만들기
[2019] GIF 스티커 만들기: 스파인 2D를 이용한 움직이는 스티커 만들기NHN FORWARD
 
[2019] 전기 먹는 하마의 다이어트 성공기 클라우드 데이터 센터의 에너지 절감 노력과 사례
[2019] 전기 먹는 하마의 다이어트 성공기   클라우드 데이터 센터의 에너지 절감 노력과 사례[2019] 전기 먹는 하마의 다이어트 성공기   클라우드 데이터 센터의 에너지 절감 노력과 사례
[2019] 전기 먹는 하마의 다이어트 성공기 클라우드 데이터 센터의 에너지 절감 노력과 사례NHN FORWARD
 
[2019] 스몰 스텝: Dooray!를 이용한 업무 효율화/자동화(고객문의 시스템 구축)
[2019] 스몰 스텝: Dooray!를 이용한 업무 효율화/자동화(고객문의 시스템 구축)[2019] 스몰 스텝: Dooray!를 이용한 업무 효율화/자동화(고객문의 시스템 구축)
[2019] 스몰 스텝: Dooray!를 이용한 업무 효율화/자동화(고객문의 시스템 구축)NHN FORWARD
 
[2019] 아직도 돈 주고 DB 쓰나요? for Developer
[2019] 아직도 돈 주고 DB 쓰나요? for Developer[2019] 아직도 돈 주고 DB 쓰나요? for Developer
[2019] 아직도 돈 주고 DB 쓰나요? for DeveloperNHN FORWARD
 
[2019] 아직도 돈 주고 DB 쓰나요 for DBA
[2019] 아직도 돈 주고 DB 쓰나요 for DBA[2019] 아직도 돈 주고 DB 쓰나요 for DBA
[2019] 아직도 돈 주고 DB 쓰나요 for DBANHN FORWARD
 
[2019] 비주얼 브랜딩: Basic system
[2019] 비주얼 브랜딩: Basic system[2019] 비주얼 브랜딩: Basic system
[2019] 비주얼 브랜딩: Basic systemNHN FORWARD
 
[2019] PAYCO 매거진 서버 Kotlin 적용기
[2019] PAYCO 매거진 서버 Kotlin 적용기[2019] PAYCO 매거진 서버 Kotlin 적용기
[2019] PAYCO 매거진 서버 Kotlin 적용기NHN FORWARD
 
[2019] 벅스 5.0 (feat. Kotlin, Jetpack)
[2019] 벅스 5.0 (feat. Kotlin, Jetpack)[2019] 벅스 5.0 (feat. Kotlin, Jetpack)
[2019] 벅스 5.0 (feat. Kotlin, Jetpack)NHN FORWARD
 
[2019] Java에서 Fiber를 이용하여 동시성concurrency 프로그래밍 쉽게 하기
[2019] Java에서 Fiber를 이용하여 동시성concurrency 프로그래밍 쉽게 하기[2019] Java에서 Fiber를 이용하여 동시성concurrency 프로그래밍 쉽게 하기
[2019] Java에서 Fiber를 이용하여 동시성concurrency 프로그래밍 쉽게 하기NHN FORWARD
 
[2019] PAYCO 쇼핑 마이크로서비스 아키텍처(MSA) 전환기
[2019] PAYCO 쇼핑 마이크로서비스 아키텍처(MSA) 전환기[2019] PAYCO 쇼핑 마이크로서비스 아키텍처(MSA) 전환기
[2019] PAYCO 쇼핑 마이크로서비스 아키텍처(MSA) 전환기NHN FORWARD
 
[2019] 비식별 데이터로부터의 가치 창출과 수익화 사례
[2019] 비식별 데이터로부터의 가치 창출과 수익화 사례[2019] 비식별 데이터로부터의 가치 창출과 수익화 사례
[2019] 비식별 데이터로부터의 가치 창출과 수익화 사례NHN FORWARD
 
[2019] 게임 서버 대규모 부하 테스트와 모니터링 이렇게 해보자
[2019] 게임 서버 대규모 부하 테스트와 모니터링 이렇게 해보자[2019] 게임 서버 대규모 부하 테스트와 모니터링 이렇게 해보자
[2019] 게임 서버 대규모 부하 테스트와 모니터링 이렇게 해보자NHN FORWARD
 
[2019] 200만 동접 게임을 위한 MySQL 샤딩
[2019] 200만 동접 게임을 위한 MySQL 샤딩[2019] 200만 동접 게임을 위한 MySQL 샤딩
[2019] 200만 동접 게임을 위한 MySQL 샤딩NHN FORWARD
 
[2019] 언리얼 엔진을 통해 살펴보는 리플렉션과 가비지 컬렉션
[2019] 언리얼 엔진을 통해 살펴보는 리플렉션과 가비지 컬렉션[2019] 언리얼 엔진을 통해 살펴보는 리플렉션과 가비지 컬렉션
[2019] 언리얼 엔진을 통해 살펴보는 리플렉션과 가비지 컬렉션NHN FORWARD
 
[2019] 글로벌 게임 서비스 노하우
[2019] 글로벌 게임 서비스 노하우[2019] 글로벌 게임 서비스 노하우
[2019] 글로벌 게임 서비스 노하우NHN FORWARD
 
[2019] 배틀로얄 전장(map) 제작으로 알아보는 슈팅 게임 레벨 디자인
[2019] 배틀로얄 전장(map) 제작으로 알아보는 슈팅 게임 레벨 디자인[2019] 배틀로얄 전장(map) 제작으로 알아보는 슈팅 게임 레벨 디자인
[2019] 배틀로얄 전장(map) 제작으로 알아보는 슈팅 게임 레벨 디자인NHN FORWARD
 

More from NHN FORWARD (20)

[2019] 패션 시소러스 기반 상품 특징 분석 시스템
[2019] 패션 시소러스 기반 상품 특징 분석 시스템[2019] 패션 시소러스 기반 상품 특징 분석 시스템
[2019] 패션 시소러스 기반 상품 특징 분석 시스템
 
[2019] 스몰 스텝: Android 렛츠기릿!
[2019] 스몰 스텝: Android 렛츠기릿![2019] 스몰 스텝: Android 렛츠기릿!
[2019] 스몰 스텝: Android 렛츠기릿!
 
딥러닝, 야 너도 할 수 있어(feat. PyTorch)
딥러닝, 야 너도 할 수 있어(feat. PyTorch)딥러닝, 야 너도 할 수 있어(feat. PyTorch)
딥러닝, 야 너도 할 수 있어(feat. PyTorch)
 
NHN 베이스캠프: 신입사원들은 무엇을 배우나요?
NHN 베이스캠프: 신입사원들은 무엇을 배우나요?NHN 베이스캠프: 신입사원들은 무엇을 배우나요?
NHN 베이스캠프: 신입사원들은 무엇을 배우나요?
 
[2019] GIF 스티커 만들기: 스파인 2D를 이용한 움직이는 스티커 만들기
[2019] GIF 스티커 만들기: 스파인 2D를 이용한 움직이는 스티커 만들기[2019] GIF 스티커 만들기: 스파인 2D를 이용한 움직이는 스티커 만들기
[2019] GIF 스티커 만들기: 스파인 2D를 이용한 움직이는 스티커 만들기
 
[2019] 전기 먹는 하마의 다이어트 성공기 클라우드 데이터 센터의 에너지 절감 노력과 사례
[2019] 전기 먹는 하마의 다이어트 성공기   클라우드 데이터 센터의 에너지 절감 노력과 사례[2019] 전기 먹는 하마의 다이어트 성공기   클라우드 데이터 센터의 에너지 절감 노력과 사례
[2019] 전기 먹는 하마의 다이어트 성공기 클라우드 데이터 센터의 에너지 절감 노력과 사례
 
[2019] 스몰 스텝: Dooray!를 이용한 업무 효율화/자동화(고객문의 시스템 구축)
[2019] 스몰 스텝: Dooray!를 이용한 업무 효율화/자동화(고객문의 시스템 구축)[2019] 스몰 스텝: Dooray!를 이용한 업무 효율화/자동화(고객문의 시스템 구축)
[2019] 스몰 스텝: Dooray!를 이용한 업무 효율화/자동화(고객문의 시스템 구축)
 
[2019] 아직도 돈 주고 DB 쓰나요? for Developer
[2019] 아직도 돈 주고 DB 쓰나요? for Developer[2019] 아직도 돈 주고 DB 쓰나요? for Developer
[2019] 아직도 돈 주고 DB 쓰나요? for Developer
 
[2019] 아직도 돈 주고 DB 쓰나요 for DBA
[2019] 아직도 돈 주고 DB 쓰나요 for DBA[2019] 아직도 돈 주고 DB 쓰나요 for DBA
[2019] 아직도 돈 주고 DB 쓰나요 for DBA
 
[2019] 비주얼 브랜딩: Basic system
[2019] 비주얼 브랜딩: Basic system[2019] 비주얼 브랜딩: Basic system
[2019] 비주얼 브랜딩: Basic system
 
[2019] PAYCO 매거진 서버 Kotlin 적용기
[2019] PAYCO 매거진 서버 Kotlin 적용기[2019] PAYCO 매거진 서버 Kotlin 적용기
[2019] PAYCO 매거진 서버 Kotlin 적용기
 
[2019] 벅스 5.0 (feat. Kotlin, Jetpack)
[2019] 벅스 5.0 (feat. Kotlin, Jetpack)[2019] 벅스 5.0 (feat. Kotlin, Jetpack)
[2019] 벅스 5.0 (feat. Kotlin, Jetpack)
 
[2019] Java에서 Fiber를 이용하여 동시성concurrency 프로그래밍 쉽게 하기
[2019] Java에서 Fiber를 이용하여 동시성concurrency 프로그래밍 쉽게 하기[2019] Java에서 Fiber를 이용하여 동시성concurrency 프로그래밍 쉽게 하기
[2019] Java에서 Fiber를 이용하여 동시성concurrency 프로그래밍 쉽게 하기
 
[2019] PAYCO 쇼핑 마이크로서비스 아키텍처(MSA) 전환기
[2019] PAYCO 쇼핑 마이크로서비스 아키텍처(MSA) 전환기[2019] PAYCO 쇼핑 마이크로서비스 아키텍처(MSA) 전환기
[2019] PAYCO 쇼핑 마이크로서비스 아키텍처(MSA) 전환기
 
[2019] 비식별 데이터로부터의 가치 창출과 수익화 사례
[2019] 비식별 데이터로부터의 가치 창출과 수익화 사례[2019] 비식별 데이터로부터의 가치 창출과 수익화 사례
[2019] 비식별 데이터로부터의 가치 창출과 수익화 사례
 
[2019] 게임 서버 대규모 부하 테스트와 모니터링 이렇게 해보자
[2019] 게임 서버 대규모 부하 테스트와 모니터링 이렇게 해보자[2019] 게임 서버 대규모 부하 테스트와 모니터링 이렇게 해보자
[2019] 게임 서버 대규모 부하 테스트와 모니터링 이렇게 해보자
 
[2019] 200만 동접 게임을 위한 MySQL 샤딩
[2019] 200만 동접 게임을 위한 MySQL 샤딩[2019] 200만 동접 게임을 위한 MySQL 샤딩
[2019] 200만 동접 게임을 위한 MySQL 샤딩
 
[2019] 언리얼 엔진을 통해 살펴보는 리플렉션과 가비지 컬렉션
[2019] 언리얼 엔진을 통해 살펴보는 리플렉션과 가비지 컬렉션[2019] 언리얼 엔진을 통해 살펴보는 리플렉션과 가비지 컬렉션
[2019] 언리얼 엔진을 통해 살펴보는 리플렉션과 가비지 컬렉션
 
[2019] 글로벌 게임 서비스 노하우
[2019] 글로벌 게임 서비스 노하우[2019] 글로벌 게임 서비스 노하우
[2019] 글로벌 게임 서비스 노하우
 
[2019] 배틀로얄 전장(map) 제작으로 알아보는 슈팅 게임 레벨 디자인
[2019] 배틀로얄 전장(map) 제작으로 알아보는 슈팅 게임 레벨 디자인[2019] 배틀로얄 전장(map) 제작으로 알아보는 슈팅 게임 레벨 디자인
[2019] 배틀로얄 전장(map) 제작으로 알아보는 슈팅 게임 레벨 디자인
 

Recently uploaded

MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionKim Daeun
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Wonjun Hwang
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Kim Daeun
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Wonjun Hwang
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)Tae Young Lee
 

Recently uploaded (6)

MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 
캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 

[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어

  • 1. © 2018 NHN FORWARD. All rights reserved. NHN 모니터링의 현재와 미래 for 인프라 엔지니어 이대형 IT시스템운영팀
  • 2. CONTENTS 1. NHN 모니터링의 현재 2. 모니터링의 변화 3. 모니터링의 절차 4. NHN 모니터링의 미래
  • 4. 4 / 66 NHN 모니터링 시스템 Nsight NeTAISEE HAWK Saisei Icinga2 Zabbix Syslog NMSlogESXmon CatsEye GTM InfraBoard SIS DNSMon *설명하기 쉽도록 돕기 위한 중요 모니터링만 포함됨 Watchdog
  • 5. 5 / 66 인프라 관점의 모니터링 시스템 커버리지 System Engineer Network Engineer Developer Application Middleware OS Hypervisor Server(HW) Storage Network HAWK ZABBIX NETA Syslog NMSlog Logging Liveness Check Informative Dashboard Nsight Watchdog *설명하기 쉽도록 돕기 위한 중요 모니터링만 포함됨 ...
  • 6. 6 / 66 • 별도 개발된 Beat 이용 필요한 항목 수집 토스트 클라우드 모니터링 시스템 System Engineer Application Middleware OS/ Hypervisor OSBeat Logstash + Apache Kafka + Elasticsearch Grafana Ingest Aggregation Informative Dashboard Developer
  • 8. 8 / 66 인프라의 변화 20182006~ 2005 web001.svr.example.com web002.svr.example.com web003.svr.example.com  web.example.com mighty-web.example.com
  • 9. 9 / 66 1997 2002 솔루션의 변화 Network Monitoring System(NMS) 현재2011 Cloud Ready Pub/Sub, AI Monitoring as a Service Whitebox Monitoring
  • 10. 10 / 66 Application Middleware OS Hypervisor Server Storage Network Monitor A Monitor B Monitor C Developer System Engineer Network Engineer 포괄적 적용 범위
  • 11. 11 / 66 자동 인지 • Service Scaling Up & Down 확장성(Scalability) 모니터링 시스템 삭제해제 신규 신규 등록 등록
  • 12. 12 / 66 Long-term trend threshold 21:00 22.00 23.00 00.00 01.00 02.00 Fixed threshold EMAIL SMS Sophisticated Alerting
  • 13. 13 / 66 협업 문제의 조기 발견 및 수정  그래프, 대시보드, 이벤트 및 작업 공유를 통한 빠른 장애 대응  팀 협업 채널을 통한 얼럿(Alert) 전파 잘 알려진 서비스 예  Google Cloud Status Dashboard https://status.cloud.google.com/  Cloudflare System Status https://www.cloudflarestatus.com/  New Relic https://newrelic.com/  PagerDuty https://www.pagerduty.com/
  • 15. 모니터링의 절차 Collecting, processing, aggregating, and displaying real-time quantitative data about a system, such as query counts and types, processing times, and server lifetimes. Site Reliability Engineering – O’Reilly 2016
  • 16. 16 / 66 cube by DaanDirk from the Noun Project Gears by Pedro Santos from the Noun Project collecting by Takao Umehara from the Noun Project Warning by Melissa Holterman from the Noun Project Search by Mas Bro Mellow from the Noun Project timer by 8ties® from the Noun Project Collect Metrics & Events Stream Processor Pipeline Data Processing OLAP Database (Timeseries) Search Index (Events) Live Reports Predict & Automate SLA Alerting Real-Time Topology Network topology by Vectors Market from the Noun Project chart by shashank singh from the Noun Project Light by Numero Uno from the Noun Project 모니터링 플로우 불필요 데이터 필터링 (Noise reduction) 데이터 저장 & 가공 리포팅 & 예측 (유용한 데이터) 수집
  • 17. 17 / 66 메트릭 (Metrics) 어떤 일이 일어나는가? , Not 왜 일어나고 있는가?(분석) 특정 시점에서 시스템과 관련된 값을 캡처 정의된 주기로 수집하여 시계열 데이터베이스(TSDB)에 저장 [bucket 1234, response:OK, method: read] {(Wed 2:00pm, 3), (Wed 2:05pm, 2), (Wed 2:10pm, 8), ...} [bucket 1234, response:OK, method: write] {(Wed 2:01pm, 1), (Wed 2:04pm, 2), (Wed 2:09pm, 7), ...} [bucket 1234, response:FAIL, method: write] {(Wed 2:01pm, 1), (Wed 2:04pm, 0), (Wed 2:09pm, 0), ...} [bucket 9876, response:OK, method: read] {(Wed 1:59pm, 2), (Wed 2:05pm, 4), (Wed 2:10pm, 3), ...}
  • 18. 18 / 66 메트릭 (Metrics) 어떤 일이 일어나는가? , Not 왜 일어나고 있는가? (분석) 특정 시점에서 시스템과 관련된 값을 캡처 정의된 주기로 수집하여 시계열 데이터베이스(TSDB)에 저장
  • 19. 19 / 66 자원 메트릭 (Resource metrics)  다른 시스템이나 서비스에게 제공되는 자원의 상태  예, 하드웨어 자원 메트릭  CPUs  Main Memory  Network Interfaces  Storage Devices  Controllers  Interconnects (bus) 메트릭의 종류 작업 메트릭 (Work metrics)  시스템의 최상위 레이어인 응용 프로그램의 상태  예, 웹 서버 작업 메트릭  Throughput: Request per second  Success: 2XX 응답률(%)  Error: 5XX 응답률(%)  Performance: 90% response time in 1s.
  • 20. 20 / 66 시스템 및 서비스에 간접적 영향  패키지 설치 및 업데이트  하드웨어 변경 및 폴트  응용 프로그램 배포 이벤트의 상당 부분은 로그에 존재  문제의 상당 부분을 미리 파악 가능  이벤트 처리를 통한 알람 발생 이벤트(Event)
  • 22. 22 / 66 우리도 이제 Multi Region  클라우드 환경에 적합한 구조의 운영도구가 절실 문제 발생 시, 분석을 위한 다양한 정보 필요  고객보다 문제를 먼저 확인 할 수 있는 시스템 필요  자산 및 기반 시스템과의 연계를 통한 빠른 확인 빠른 변화에 대한 대처 필요  쉽게 만들고 쉽게 버리자  오픈 소스 도구 활용 지금 우리에게 필요한 것은 무엇인가?
  • 23. 23 / 66 NE 모니터링 커버리지 System Engineer Network Engineer Developer Application Middleware OS Hypervisor Server(HW) Storage Network HAWK ZABBIX NETA Syslog NMSlog Logging Liveness Check Informative Dashboard Nsight Watchdog *설명하기 쉽도록 돕기 위한 중요 모니터링만 포함됨 ...
  • 24. 24 / 66 포괄적 커버리지 구현 Engineer / Developer Application Middleware OS Hypervisor Server(HW) Storage Network Logging Liveness Check Informative Dashboard Nsight ZABBIX NETA Syslog NMSlog HAWK
  • 25. 25 / 66 포괄적 커버리지 구현 Engineer / Developer Application Middleware OS Hypervisor Server(HW) Storage Network Logging Liveness Check Informative Dashboard Nsight ZABBIX NETA Dashboard Syslog NMSlog Syslog & Event HAWK Checker or Collector
  • 26. 26 / 66 우리가 바라보는 첫 번째 목표 Engineer / Developer Application Middleware OS Hypervisor Server(HW) Storage Network Logging Liveness Check Informative Dashboard Nsight ZABBIX NETA Syslog NMSlog Syslog & Event HAWK Event Dashboard
  • 27. 27 / 66 Ingest 관리의 어려움  폴트 시 로그 유실  로그 형태 변경 시 Grok 패턴 재작성 및 재시작 필요 운영 시스템 변경의 어려움  교체 시 수집 중단에 따른 신규 버전 적용의 어려움 발생 로그 수집 시스템의 변화 필요성 증가 LOG File by AdbA Icons ❤️ from the Noun Project Host machine
  • 28. 28 / 66 로그 수집 시스템의 변화 필요성 증가(계속) Ingest 관리 로그 처리 로그 검색 로그 저장소 관리
  • 29. 29 / 66 if [type] == "proxy_log" { grok { add_tag => ["swift", "proxy"] patterns_dir => ["/etc/logstash/patterns"] match => { 'message' => '%{SYSLOGTIMESTAMP:node_tz} %{HOSTNAME:hostname} %{NOTSPACE:swift_service}: %{NOTSPACE:client_ip} % {NOTSPACE:remote_addr} %{SWIFT_PROXY_DATETIME:datetime} %{WORD:request_method} %{URIPATHPARAM:request_path} HTTP/%{NUMBER:httpversion} %{NUMBER:status_int:int} %{NOTSPACE:referer} %{NOTSPACE:user_agent} %{NOTSPACE:auth_token} %{NOTSPACE:bytes_recvd:int} %{NOTSPACE:byte s_sent:int} %{NOTSPACE:client_etag} %{NOTSPACE:transaction_id} %{NOTSPACE:headers} %{NUMBER:request_time:float} %{NOTSPACE:api_source} %{NOTSPACE:log_info} %{NUMBER:request_start_time} %{NUMBER:request_end_time} %{NOTSPACE:policy_index:int}' } } 로그 처리 - 복잡도 증가  로그 필드 추출을 위한 GROK 구문 예 로그 수집 시스템의 변화 필요성 증가(계속)
  • 30. 30 / 66 로그 수집 시스템의 변화 필요성 증가(계속) 로그 검색 - 검색 위주의 이벤트 확인
  • 31. 31 / 66 로그 검색 - 단순 로그 구분별 나열 로그 수집 시스템의 변화 필요성 증가(계속)
  • 32. 32 / 66 로그 처리 방식 변화  처리 방식 단순화  트리거에 의한 이벤트 알림 Docker swarm 기반 운영  자가 치유(Self Healing)  롤링 업데이트(Rolling Update)  업데이트 성공 후 교체 시도 Infrastructure as Code 신규 로그 수집 시스템
  • 33. 33 / 66 Ingress - Rsyslog v8.x 메시지 버퍼 – Logstash + Kafka 로그(스트림) 처리 및 알람 발생 - Graylog2 로그 인덱싱 - Elasticsearch 로그 수집 시스템 - 구성 컴포넌트 LOG File by AdbA Icons ❤️ from the Noun Project Graylog2 RSYSLOG v8 ElasticsearchLogstash Apache Kafka Host Manchine
  • 34. 34 / 66 Step 1  스풀링 & 디스크에 임시 저장  버퍼 프로세스 준비 Step 2  디스크에서 추출한 메시지 입력 버퍼로 이동  필터, 메시지들의 구조화(Classify) Step 3  출력 버퍼로 메시지 이동  Elasticsearch 혹은 사용자 정의된 출력으로 이동 로그 수집 시스템 - 로그 처리 흐름 Input Log Message Ring Network Topology by ProSymbols from the Noun Project Process Buffer Processor Filter Filter Output Buffer Processor Output … Output Buffer Input Buffer
  • 35. 35 / 66 Extractor API 로그 수집 시스템 - 로그 필드 추출 Extractor 설정 GUI
  • 36. 36 / 66 로그 수집 시스템 - 스트림 관심 항목별 로그 스트림 분리
  • 37. 37 / 66 로그 수집 시스템 – 스트림 흐름 관심 항목 별 로그 스트림 분리  Stream rules All messages User/Group Operation Package Operation UG Index All in One Index 로그 유입 rules rules 인덱싱 인덱싱 스트림
  • 38. 38 / 66 스트림 API 로그 수집 시스템 – 스트림 설정 스트림 설정 GUI
  • 39. 39 / 66 rule “Combine src and dst field” when has_field(“src_ip”) && has_field(“dst_ip”) then let src_ip_comma = concat(to_string($message.src_ip), “-”); let src_dst = concat(src_ip_comma,to_string($message.dst_ip)); set_field(field:“src_dst_ip”, value: src_dst); end 스트림 간 라우팅, 메시지 블랙리스팅, 메시지 변경 시 유리  Rule(s) > Stage(s) > Pipeline 로그 수집 시스템 - 파이프라인(Pipeline)
  • 40. 40 / 66 로그 수집 시스템 - 인덱싱 설정 Index Set을 통하여 로그 중요도에 따른 인덱싱 설정 약 3개월 약 1개월 샤드, 복제
  • 41. 41 / 66 로그 수집 시스템 – 인덱싱 흐름 Index Set을 통하여 로그 중요도에 따른 인덱싱 설정 All messages User/Group Operation Package Operation UG Index All in One Index 로그 유입 복제 / 샤드 보관 주기인덱싱 설정 Index Set Index Set 스트림
  • 42. 42 / 66 로그 수집 시스템 – 스트림 사용 예제 패키지 설치, 삭제 및 업데이트 감시
  • 43. 43 / 66 로그 수집 시스템 – 스트림 사용 예제 패키지 설치, 삭제 및 업데이트 감시
  • 44. 44 / 66 로그 수집 시스템 – 스트림 사용 예제 패키지 설치, 삭제 및 업데이트 감시
  • 45. 45 / 66 로그 수집 시스템 – 대시보드 패키지 설치, 삭제 및 업데이트 감시
  • 46. 46 / 66 하드웨어 이벤트 확인 및 알람 발생  OS 커널 혹은 벤더 제공 소프트웨어를 통한 폴트 확인  이벤트 데이터  대부분 하드웨어는 폴트 감지시 SNMPTrap에게 해당 이벤트 통보 가능  Logstash + SNMPTrap Input 기능을 통하여 이벤트 처리 및 통보 가능  별도 관심 로그 스트림 구현 로그 수집 시스템 – 기타 활용 영역 Hardware SNMP Trap Logstash JSONEvent Graylog2 Alert OOB Network Service Network
  • 47. 47 / 66 로그 수집 시스템 모니터링 구현 Prometheus Email by i cons from the Noun Project Prometheus Server cAdvisor Docker exporter Grafana Web U/I Dashboard HTTP AlertManager PromQL * exporter Node exporter System Engineer Docker Swarm
  • 48. 48 / 66 로그 수집 시스템 - 모니터링 Graylog2 RSYSLOG v8 ElasticsearchLogstash Apache Kafka Host Manchine JVM exporter Graylog exporter Elasticsearch exporter Logstash exporter Node exporter Prometheus Cerebro Kafka Manager
  • 49. 49 / 66 로그 수집 시스템 – 모니터링 대시보드
  • 50. 50 / 66 점진적 적용 필요  로그 유입량 점진적 증가 필요  로그 처리는 결국 문자열 처리  힙(Heap) 메모리 확인 필수 각 컴포넌트는 결국 관리 포인트  부하에 따른 컴포넌트 확장 및 축소 가능 설계 필요  각 컴포넌트 별 메트릭 수집 및 시각화 필요 컨테이너에 대한 이해 설정 관리의 자동화  수집 항목에 대한 설정 동기화  Salt/Puppet/Chef/Ansible 도구 활용 적용 시 어려운 점
  • 51. 51 / 66 모니터링 대시보드 개선 또다른 이중화 고려  Multi Data Center  장애 대응 훈련 기반 연계 시스템 연동  기반 시스템 연계 CI/CD 반영 그 외 기타 사항들  접근 및 권한 제어 남은 과제와 목표는?
  • 52. 52 / 66 우리가 바라보는 두번째 목표 Engineer / Developer Application Middleware OS Hypervisor Server(HW) Storage Network Logging Liveness Check Informative Dashboard Nsight ZABBIX NETA Dashboard Syslog NMSlog Syslog & Event HAWK Checker or Collector
  • 53. 53 / 66 인프라 모니터링 시스템 개선 기회가 된다면 다음에…
  • 54. © 2018 NHN FORWARD. All rights reserved. Q&A
  • 55. © 2018 NHN FORWARD. All rights reserved. THANK YOU
  • 56. 56 / 66 APPENDIX 모니터링 방법론  Problem Statement Method  Workload Characterization Method  The Use Method  4 Golden Signals Prometheus  블랙박스 vs 화이트박스  Prometheus vs General NMS 인프라 서비스 대시보드 – Staytus 로그 수집 시스템 – 테스트 플랫폼 코드
  • 57. 57 / 66 모니터링 방법론 - Problem Statement Method 성능 문제가 있다고 생각하는 이유는 무엇입니까? 본 시스템이 기존에도 잘 수행되었는가? 최근에 변경된 사항은 무엇이었나? (소프트웨어? 하드웨어? 로드?) 성능 저하가 대기 시간(Latency) 또는 수행 시간으로 표현될 수 있습니까? 문제가 다른 사람이나 응용프로그램에 영향을 미칩니까? 환경(Environment)은 어땠나요?  Software, Hardware, Instance types? Versions? Configuration?
  • 58. 58 / 66 모니터링 방법론 – Workload Characterization Method 누가 부하(load)를 발생시키는가?  PID, UID, IP address, … 왜 부하가 생기는가?  Code path, stack trace 부하란?  IOPS, throughput, type(e.g., Database Query), R/W data 시간에 따른 부하의 변화는?
  • 59. 59 / 66 모니터링 방법론 - The Use Method The Use Method by Brendan Gregg http://www.brendangregg.com/usemethod.html  사용률(Utilization)  포화(Saturation)  에러(Error) Resource Utilization (%) Saturation Errors ✓✗✓✓
  • 60. 60 / 66 모니터링 방법론 - The Use Method(계속) The Use Method by Brendan Gregg  사용률(Utilization)  100%는 병목 현상의 징후  70% 일 경우도 오랜 기간 측정시, 짧은 주기에 발생된 100% 를 감출 수 있음  포화(Saturation)  대기 큐(Wait Queue)의 길이 또는 큐(Queue)에서 소비되는 시간으로 측정될 수 있음  에러(Error)
  • 61. 61 / 66 Request-based system metrics  지연시간(latency)  트래픽(traffic)  에러(error)  포화(saturation) https://landing.google.com/sre/book/chapters/monitoring-distributed-systems.html 모니터링 방법론 - 4 Golden Signals 4 Golden Signals by Google
  • 62. 62 / 66 Agent HTTP Server 200 OKHTTP GET / Blackbox Monitoring Agent HTTP Server GET /metrics error_total req_total req_latency Whitebox Monitoring Prometheus 블랙박스 vs 화이트박스
  • 63. 63 / 66 Nagios/Icinga/Zabbix • Disk Used : 92.00% (/home1) Prometheus vs General NMS Prometheus • Disk would be usable for the next 12 hours - name: node.rules rules: - alert: DiskWillFillIn12Hours expr: predict_linear(node_filesystem_free_bytes{mountpoint="/rootfs"}[1h], 12*3600) < 0 for: 5m labels: severity: page
  • 64. 64 / 66 인프라 서비스 대시보드 - Staytus http://staytus.co
  • 65. 65 / 66 인프라 서비스 대시보드 – Staytus(계속) 작업(Maintenance) 등록과 추적
  • 66. 66 / 66 인프라 서비스 대시보드 - Staytus(계속) 이슈의 등록, 추적, 변경 관리
  • 67. 67 / 66 로그 수집 시스템 – 테스트 플랫폼 코드 Docker Stack / Service 코드로 구성  https://github.com/netman2k/graylog2-demo