000001871277_1425351249536_0.35266743797617006

저작자표시-비영리-변경금지 2.0 대한민국
이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게
l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다.
다음과 같은 조건을 따라야 합니다:
l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건
을 명확하게 나타내어야 합니다.
l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다.
저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다.
이것은 이용허락규약(Legal Code)을 이해하기 쉽게 요약한 것입니다.
Disclaimer
저작자표시. 귀하는 원저작자를 표시하여야 합니다.
비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다.
변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.

빅
데
이
터
환
경
을
고
려
한
데
이
터
마
이
닝
기
법
을
이
용
한
서
버
장
애
예
측
모
델
임
복
출
박사 학위 논문
빅 데이터 환경을 고려한 데이터마이닝
기법을 이용한 서버 장애 예측 모델
APredictionModelofServerFailure
usingDatamininginBigDataEnvironment
2015년 02월
중 부 대 학 교 대 학 원
정 보 과 학 과
임 복 출

박 사 학 위 논 문
2015년 02월
정 보 과 학 과
임 복 출

지도교수 김 순 곤
이 논문을 박사학위 논문으로 제출함.
2015년 02월
정 보 과 학 과
임 복 출

임복출의 박사학위 논문을 인준함.
심사위원장 고 응 남 인
심 사 위 원 이 강 수 인
심 사 위 원 박 인 규 인
심 사 위 원 박 종 훈 인
심 사 위 원 김 순 곤 인
2014년 12월 일

-i-
목 차
목 차 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ ⅰ
표 목 차 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ ⅳ
그림목차 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ ⅵ
제 1장 서론 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 1
제 1절 연구의 필요성 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 1
제 2절 논문의 구성 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 3
제 2장 관련 연구 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 5
제 1절 빅 데이터 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 5
1.빅 데이터 연관 기술 동향 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 5
2.빅 데이터 개요 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 8
3.빅 데이터 활용 단계별 특징 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 13
제 2절 서버 성능 모니터링 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 21
1.서버 성능 모니터링 개요 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 21
2.모니터링 분야별 구성요소 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 24
3.서버 모니터링 솔루션 비교 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 28

-ii-
제 3절 데이터마이닝 기법 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 33
1.데이터마이닝 기법 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 33
2.예측과 시계열 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 35
제 3장 서버 장애 모니터링 감시항목 도출 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 40
제 1절 서버 장애 모니터링 지표 도출 절차 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 42
제 2절 서버 모니터링 데이터 수집 및 감시항목 검증 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 46
1.장애 이력 데이터 수집 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 47
2.장애 이력 데이터 빈도 분석 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 48
3.장애 요인별 교차 분석 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 53
4.서버 모니터링 상세 데이터 수집 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 56
제 3절 감시항목 도출 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 58
제 4장 빅 데이터 환경을 고려한 서버 장애 예측 모형 설계 ‧‧‧‧‧‧‧‧‧‧‧ 59
제 1절 서버 장애 모니터링 요구사항 분류 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 59
1.서버 장애에 영향을 주는 항목 검증을 위한 가설 수립 ‧‧‧‧‧‧‧‧‧‧‧ 59
2.가설 검증을 위한 요구사항 도출 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 61
제 2절 시계열 예측 모형 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 77
1.예측 모형 구조 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 77
2.시계열 분석 및 예측 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 79

-iii-
제 5장 예측 모형 적용 실험 및 결과 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 84
제 1절 구축 환경 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 84
1.HadoopPlatform,모니터링 환경 구축 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 84
2.데이터 수집 환경 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 87
3.데이터 분석 환경 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 88
제 2절 예측 모형 분석 및 검증 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 92
1.예측 모형 검증을 위한 데이터 수집 및 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 92
2.예측 모형 검증 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 96
제 6장 결론 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 101
참고문헌 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 104
ABSTRACT ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 112
감사의 글 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 117

-iv-
표 목 차
[표 1]주요기관 IT 10대 전망 비교 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 5
[표 2]빅 데이터의 다양한 정의 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 9
[표 3]빅 데이터 요소 기술 분류 및 해당기술 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 14
[표 4]빅 데이터 저장 기술 관련 용어 정리 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 16
[표 5]성능을 나타내는 일반적인 지표 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 22
[표 6]서버의 주요 모니터링 구성요소 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 25
[표 7]네트워크의 주요 모니터링 구성요소 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 26
[표 8]스토리지의 주요 모니터링 구성요소 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 26
[표 9]응용 프로그램의 주요 모니터링 구성요소 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 27
[표 10]데이터 마이닝 기법의 종류 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 34
[표 11]데이터 마이닝 활용분야 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 35
[표 12]예측기법 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 36
[표 13]정보시스템 운영·관리 지침 감시항목 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 42
[표 14]상용 및 오픈소스 기반 솔루션 감시항목 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 43
[표 15]1차 도출 감시항목 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 45
[표 16]실제 A사의 분석결과 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 46
[표 17]2차 도출 감시항목 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 58
[표 18]CPU,Memory,Disk등에 관한 가설 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 59
[표 19]Process,Queue등에 관한 가설 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 60
[표 20]네트워크 Node,Port등에 관한 가설 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 60

-v-
[표 21]Web,WAS 등에 관한 가설 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 61
[표 22]CPU 사용량 가설 수정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 63
[표 23]활성 프로세스의 CPU 사용량 가설 수정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 67
[표 24]활성 프로세스의 Memory사용량 가설 수정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 68
[표 25]특정 프로세스의 Thread개수 가설 대체 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 71
[표 26]네트워크 관련 가설 수정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 73
[표 27]3차(최종)도출 감시항목 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 76
[표 28]감시항목별 임계치 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 78
[표 29]구축 환경 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 86
[표 30]Esper를 위한 Synapse설정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 87
[표 31]로그 데이터 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 93
[표 32]R console내용 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 97

-vi-
그 림 목 차
[그림 1]기술 트렌드의 빅 데이터 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 6
[그림 2]2013년도 가트너 하이프 사이클 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 7
[그림 3]빅 데이터 정의에 대한 설문 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 8
[그림 4]빅 데이터의 4가지 차원 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 11
[그림 5]빅 데이터로부터 지식 활용 단계 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 13
[그림 6]주요 빅 데이터 요소 기술 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 14
[그림 7]빅 데이터 아키텍처와 프로세싱 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 17
[그림 8]고도화된 분석 기법 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 18
[그림 9]PredictionModels ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 19
[그림 10]Esper구성도 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 20
[그림 11]제니퍼에서 제공하는 실시간 모니터링 화면 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 29
[그림 12]시스매니저원에서 제공하는 통합 모니터링 화면 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 30
[그림 13]Nagios에서 제공하는 화면 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 30
[그림 14]Ganglia에서 제공하는 화면 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 31
[그림 15]Zabbix에서 제공하는 화면 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 32
[그림 16]시계열의 구성요소 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 37
[그림 17]시계열의 패턴 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 38
[그림 18]추세분석법 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 39
[그림 19]연구 방법 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 41
[그림 20]감시항목 도출 과정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 44

-vii-
[그림 21]A사 운영서비스 개념도 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 47
[그림 22]서버별 장애 발생 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 48
[그림 23]감시 영역별 장애 발생 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 49
[그림 24]감시 부분별 장애 발생 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 50
[그림 25]감시 상세별 장애 발생 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 51
[그림 26]일자별(상),일자/시간별(하)장애 발생 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 52
[그림 27]서버별 감시 영역 교차 분석 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 53
[그림 28]서버별 감시 부분 교차 분석 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 54
[그림 29]서버별 감시 상세 교차 분석 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 54
[그림 30]장애 발생 일자별 서버 교차 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 55
[그림 31]시스템 모니터링 데이터 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 56
[그림 32]응용 소프트웨어 모니터링 데이터 요약 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 57
[그림 33]CPU 사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 62
[그림 34]Memory사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 64
[그림 35]Disk사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 65
[그림 36]활성화 프로세스의 CPU 사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 66
[그림 37]활성화 프로세스의 Memory사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 68
[그림 38]프로세스 개수 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 69
[그림 39]프로세스 사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 70
[그림 40]네트워크 사용량 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 72
[그림 41]웹 로그 응답유형별 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 74

-viii-
[그림 42]웹 로그 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 75
[그림 43]빅 데이터 환경을 고려한 서버 장애 모니터링 예측 모형 ‧‧‧‧‧‧‧‧‧ 79
[그림 44]정상 운영시 1번(좌),2번(우)서버의 시계열 분석 및 예측 ‧‧‧‧‧‧‧ 80
[그림 45]장애 기점 1번(좌),2번(우)서버의 시계열 분석 및 예측 ‧‧‧‧‧‧‧‧‧ 81
[그림 46]예측 모형의 비교 검증 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 82
[그림 47]시계열 예측값과 실제 측정값 비교 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 83
[그림 48]시스템 구성도 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 84
[그림 49]모듈 구성도 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 85
[그림 50]HadoopPlatform Architecture‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 86
[그림 51]Ganglia와 Synapse연동 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 87
[그림 52]HadoopPlatform ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 88
[그림 53]Hadoop- Namenode ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 89
[그림 54]Ganglia구축 화면 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 90
[그림 55]Map/Reduce과정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 91
[그림 56]부하 시나리오 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 92
[그림 57]JMeter시험용 부하 데이타 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 94
[그림 58]측정 데이타 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 95
[그림 59]부하량과 CPU사용량 기준 시계열 예측 데이타 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 95
[그림 60]부하량과 CPU사용량 시계열 예측 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 96
[그림 61]RStudio데이터 로딩 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 98

-ix-
[그림 62]RStudio를 통한 시계열 분석 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 99
[그림 63]RStudio를 통한 시계열 예측 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧ 100

-1-
제 1장 서론
제 1절 연구의 필요성
정보통신기술의 발달과 가속화된 디지털 혁신으로 현대 사회는 무수히 많은 데
이터가 실시간으로 발생하고 있다.데이터량의 급속한 증가는 2007년 아이폰 도입
을 시작으로 확산된 스마트폰(Device)과 모바일 플랫폼(Platform)을 통해 다양한 콘
텐츠(Contents)와 애플리케이션(Application)에 접근하게 되면서 더더욱 빨라졌다.
IDC 디지털 유니버스(IDC DigitalUniverse)의 보고서에 따르면 2012년에 생산되고
복제된 정보의 양이 2.8제타바이트(ZettaBytes)에 달하고 있으며,매 2년마다 그 양
이 2배씩 증가한다고 하였다.세계적으로 생성과 복제 및 유통되는 데이터량이
2020년에는 40제타바이트에 달할 것으로 전망하였다[1,2].
서버 성능 모니터링 분야에서는 에이전트 기반의 클라이언트가 모니터링 데이터
를 중앙 서버에 전송하여 집적하고 있는 구조가 현재 운영되는 서버 구성의 기본
구조로 통용되고 있다.이런 구조로 인하여 제한적인 서버 성능 모니터링만 제공하
고 있다.예를 들어 부하 균등화를 해결하거나 시스템의 성능 및 정상 여부를 확인
한다.또한 시스템에 문제나 오류가 있는 경우 안정된 서버에 우회하도록 하여 정
상적인 서비스를 제공하는 정도이다.
빅 데이터(Big Data)의 영향력이 증대되는 환경에서 시대적 상황에 맞춰 정보시
스템 모니터링 시스템도 변화가 필요하다.실시간으로 발생되는 대량의 데이터 기
반의 성능 관리가 가능해야 한다.실시간 대처를 위하여 ①시스템 복잡도 및 규모
의 확대에 따라 확장성 있는 서버 성능 모니터링 시스템의 설계를 어떻게 할 것인
가,②이질적 환경에 이식성 있는 시스템을 어떻게 설계할 것인가,③서버 성능 모
니터링을 위하여 발생되는 수많은 데이터를 수집,분석하여 어떻게 실시간으로 대
처할 수 있는가가 중요한 고려사항이다.

-2-
빅 데이터에 관한 연구들은 다양한 부분에서 진행되었다.관련 연구를 살펴보면,
국가별 공공·행정 분야의 활용뿐만 아니라 국·내외 기업들도 다양한 부분에 활용하
고 있다[3-8].단순 활용분야 외에 빅 데이터 기반의 예측 정보를 제공하기 위한 다
양한 연구도 진행되었다.교통량 분석을 통한 사고율 예측,주가지수 예측을 위한
뉴스 데이터의 활용 연구,SNS 빅 데이터를 활용한 연구,또한 빅 데이터의 3가지
특징(규모,다양성,속도)과 속성을 통한 재난 대응의 의사결정 영향도 연구 등이
있다.빅 데이터 자체를 활용하는 연구뿐만 아니라 빅 데이터 기반 기술인 하둡과
관련된 다양한 연구도 진행되었다[9-15].하지만 정보시스템 모니터링 분야에서의
빅 데이터 활용 연구는 미흡한 실정이다.
서버 성능 모니터링 분야에서는 오픈소스 기반의 솔루션에서 빅 데이터 세부 기
술을 감시하는 정도의 빅 데이터 연계가 진행되고 있다.서버 성능 모니터링 분야
에서는 데이터 마이닝 기법을 활용한 연구가 진행되었다.회귀 알고리즘을 통한 서
버관리나 우선순위 모니터링,인공신경망을 통한 차량 고장 예측 등이다.또한 서버
성능의 분류나 예측에 관한 연구도 진행되었다[16-24].하지만 무수히 많은 데이터
가 실시간으로 발생하는 빅 데이터 시대에 맞춘 서버 성능 감시 및 수집,처리 연
구는 미흡하다.장애 대응 및 예측을 위하여 데이터 마이닝 기법 중 시계열 예측
연구 분야를 살펴보면,항공수요 예측이나 시스템 오류나 이상 징후에 대한 예측과
HTTP에서 발생되는 공격 탐지,시계열 예측 모델을 이용한 TCP 성능 분석 등의
연구가 진행되었다[25-27].시계열 예측을 이용하면 서버 성능 모니터링을 통하여
장애발생 이전의 예측 및 대응이 가능한 시스템 제안이 가능할 것이다.
본 논문에서는 빅 데이터 환경을 고려한 서버 장애 예측 모델을 제시하고자 하
였다.서버 성능 모니터링시 장애발생 후 대응이나 조치가 아닌 사전 예측 대응을
위한 방안을 제시하고자 하였다.이를 위하여 빅 데이터,정보시스템 운영·관리 지
침을 비롯한 서버 모니터링과 데이터 마이닝과 시계열 분석 및 예측에 대하여 개념
부터 활용사례에 관하여 과거 국내·외 논문들을 분석하였다.

-3-
빅 데이터 환경을 고려한 서버 장애 예측을 위한 감시항목을 도출하기 위하여
정보시스템 운영·관리 지침 중 장애와 관련한 지침(이하 장애 모니터링을 위한 운
영·관리 지침)과 상용 및 오픈소스 기반 모니터링 솔루션에서 제시하는 감시항목을
분석,비교,검토하여 1차로 감시항목을 도출하였다.도출 감시항목의 적정성을 판
단하기 위하여 실제 A사 운영서비스의 모니터링 데이터를 수집하였다.수집된 장애
이력 데이터의 빈도 및 교차 분석을 통하여 1차 도출 감시항목과 추가된 감시항목
을 2차로 도출하였다.2차 도출 감시항목을 기준으로 모니터링을 위한 가설을 수립
하였다.수립된 가설의 적정성을 검증하고자 실제 A사의 감시 상세 데이터를 분석
하였다.분석을 통하여 유의한 영향을 미친다고 판단되는 가설을 수정 및 대체하였
다.사전 예측 및 대응을 위하여 기존의 데이터 분석과 추가적인 감시 데이터를 수
집하였다.수집 데이터를 기준으로 시계열 분석 및 예측을 진행하여 도식화된 모델
을 비교 분석하였다.
도출된 감시항목과 수립된 가설의 적용 및 적정성을 분석하고자 빅 데이터 관련
기술을 이용하여 실시간 모니터링 실험 환경을 구축하였다.빅 데이터 환경은
Hadoop등과 같은 빅 데이터 기반 기술을 적용하였다.실시간 수집 처리를 위하여
CEP 기술의 오픈소스 Esper를 적용하였다.분석 결과의 시계열 예측 모형을 시각
화하기 위하여 상용 분석툴(SPSS)과 오픈 소스 R에서 시각화를 진행하였다.비교
진행은 빅 데이터 환경을 고려한 모니터링 환경 구축시 오픈 소스를 이용한 시각화
가 가능하기 때문이다.구축한 실험 환경을 빅 데이터 환경을 고려한 서버 모니터
링 시스템 아키텍처로 제안하였다.
제 2절 논문의 구성
2011년 이후 빅 데이터 관련 산업이 이슈화되었다.개념적으로 빅 데이터란 기
존의 데이터 수집,저장,관리 분석하는 역량을 넘어서서 대량의 데이터를 고속으로

-4-
수집,검색분석을 하는 차세대 기술과 관련한 서버,스토리지,소프트웨어 서비스
산업이라고 할 수 있다.물론 예전부터 대용량 데이터 처리 분야가 이미 존재하고
있었다.하지만 최근에 더욱 크게 각광받고 그 활용성에 대한 기대가 높은 것은 불
확실한 미래에 대한 보다 정확한 예측이 가능하기 때문이다.
본 논문에서는 빅 데이터 환경을 고려한 서버 장애 예측을 위하여 빅 데이터 수
집,저장,분석하는 기술에 대하여 분석하였다.서버 성능 모니터링을 분석하기 위
하여 기존의 장애 모니터링을 위한 운영·관리 지침의 감시 항목의 연구와 솔루션을
비교 분석하였다.분석한 결과를 토대로 빅 데이터 환경을 고려한 서버 장애 모니
터링 감시항목을 도출하였다.도출된 요소들이 실제 서비스 운영과 어떤 연관이 있
는지 검증하기 위하여 기존의 모니터링 데이터를 수집,가공,처리,분석하였다.기
존 모니터링은 실제 상용 서비스로 운영되는 A사의 서비스 감시 데이터를 기반으
로 진행하였다.수집한 데이터는 운영서비스의 데이터 저장 공간의 제약으로 인하
여 2013년부터 2014년까지의 약 6개월간의 데이터를 기준으로 진행하였다.가설 검
증을 통하여 서버 장애 예측 모형을 제안하고 빅 데이터 환경을 고려한 실험 환경
을 구축하였다.구축한 실험 환경을 빅 데이터 환경을 고려한 서버 장애 모니터링
시스템 아키텍처로 제안하였다.
본 논문에서는 제 1장은 서론으로 연구의 필요성과 논문의 구성을 기술하였다.
제 2장은 관련 연구로서 빅 데이터,서버 성능 모니터링,데이터마이닝 기법을 기
술하였다.제 3장은 서버 장애 모니터링 감시항목을 도출하였다.제 4장은 빅 데
이터 환경을 고려한 서버 장애 예측 모형 설계를 진행하였다.제 5장은 예측 모형
적용 실험 및 결과 분석을 진행하였다.마지막으로 제 6장은 결론에 관하여 언급
하였다.

-5-
제 2장 관련연구
본 장에서는 빅 데이터와 관련하여 빅 데이터의 개요와 빅 데이터 처리 단계별
특징,빅 데이터 환경과 관련 기술,빅 데이터 솔루션 등의 내용을 소개하였다.서
버 성능 모니터링과 관련하여 정보시스템 운영 및 관리에 대하여 소개하고 상용 및
오픈소스 기반 솔루션을 비교하였다.그리고 서버 장애의 분석과 예측을 위하여 데
이터마이닝과 시계열 분석 및 예측 기법에 대하여 기술하였다.
제 1절 빅 데이터 관련 기술
1.빅 데이터 연관 기술 동향
최근 몇 년간 빅 데이터는 ICT 시장의 가장 큰 화두였다.매년 여러 기관에서
발표하는 주요 IT 기술 부분에서도 몇 년째 언급되고 있다.가트너,IDC,IEEE,주
니퍼 리서치에서 조사한 2014년 IT 주요기술을 살펴보면 다음 [표 1]과 같다[28].
가트더 2014년
10대 전략 기술 트렌드
IDC 2014년
10대 전망
IEEE 컴퓨터학회 2014년
10대 기술 트렌드
주니퍼 리서치 2014년
10대 기술 트렌드
1.모바일 기기 다양화 및
관리
1.전 세계 IT 지출 5% 성
장(국내 시장은 3.7% 감소)
1.모바일 클라우드의 출현 1.스마트 도시
2.모바일 웹과 애플리케이
션
2.중국을 중심으로 한 신흥
시장의 부활
2.사물인터넷에서 사물 웹
으로
2.모바일 기술이 가져올 개
도국 농업 혁신
3.만물인터넷(IoE)
3.제3의 플랫폼,AWS 주
도 속 벤더 지출 가속화
3. 빅데이터에서 익스트림
데이터까지
3.웨어러블 분수령의 해
4.하이브리드 클라우드 및
서비스 브로커로서의 IT
4.모바일 기기 맹공 지속
4.3D 프린팅이 가져올 혁
명
4.아이패드와 태블릿이 가
져올 교육 환경의 변화
5.클라우드/클라이언트 아
키텍처
5.클라우드 글로벌 경쟁 치
열
5.새로운 교육 시스템과 관
련 기술
5.모바일 피트니스 확산으
로 모바일 헬스 시장 꿈툴
6.개인 클라우드 시대 6.빅데이터 분석 수요 급증 6.차세대 모바일 네트워크
6.전 세계 LTE 가입자 2
배 확대,LTE-A 시작
[표 1]주요기관 IT 10대 전망 비교

-6-
7. SDx(Software Defined
Anything)
7.소셜 기술,기업 애플리
케이션으로 통합
7.프라이버시와 아이덴티티
의 균형
7.모바일 맥락 인식 가속화
8.웹 스케일 IT
8.IT 하드웨어 벤더 ‘클라
우드 퍼스트’직면
8.스마트 헬스케어 8.가정용 게임 시장 분열
9.스마트 머신
9.산업별 혁신 플랫폼 대거
등장
9.전자정부
9.더욱 개인화되는 클라우
드
10.3D 프린팅
10.IoT,새로운 형태의 산
업 파트너십 요구
10.클라우드 컴퓨팅의 과학
적 활용
10.3D 프린터 출하 쇄도
2011년부터 3년 연속 주요기관의 기술 트렌드 리스트에 오른 빅 데이터는 2014
년에도 관련 기술의 수요가 계속해서 증가할 것으로 전망된다.IDC에 따르면 2014
년 빅 데이터 기술과 서비스에 대한 지출이 140억 달러를 돌파하며 30%가량 성장
할 것이라 한다.여러 기관에서 발표한 기술 트렌드의 빅 데이터 위치를 도식화하
면 다음 [그림 1]과 같다.
[그림 1]기술 트렌드의 빅 데이터
빅 데이터 분석 기술에 대한 수요가 공급을 앞지르는 가운데,대용량 데이터와
실시간 데이터 스트림을 다루는 ‘데이터에 최적화된 클라우드 플랫폼’의 개발 레이
스가 본격화될 것이다.그리고 이에 대한 부가가치를 제공하는 콘텐츠 업체와 데이
터 브로커들도 급증할 것이다.
한편,가트너는 빅 데이터를 2014년 10대 전략 기술에 포함하지 않았다.지난
2012년부터 줄곧 전략 기술에 포함하며 중요성을 강조했던 것과는 다른 양상이다.
이와 관련해 가트너 데이비드 설리 부사장은 ‘향후 빅 데이터는 좀 더 넓은 범위의
정보 관리 전략 안에 포함하는 전략적인 접근의 형태로 변해 가고 있는 중’이라며

-7-
‘이번에 발표한 10대 전략 기술에도 이미 빅 데이터가 포함되거나 관련 기술이 복
합적으로 작용하고 있다’고 설명했다.
2013년도에 가트너에서 발표한 하이프 사이클을 통해 빅 데이터 기술의 성숙도
를 살펴보면 다음 [그림 2]와 같다.
[그림 2]2013년도 가트너 하이프 사이클
하이프 사이클은 기술의 성숙도를 표현하기 위한 시각적 도구이다.하이프 사이
클은 5단계로 구성된다.단계는 기술 촉발(Technology Trigger),부풀려진 기대의
정점(Peak ofInflated Expectations),환멸 단계(Trough ofDisillusionment),계몽
단계(Slope ofEnlightenment),생산성 안정 단계(Plateau ofProductivity)이다.빅
데이터는 2013년도에 ‘Peak ofInflatedExpectations'단계에 있는 것을 볼 수 있으

-8-
며,해당 단계는 일부의 성공적 사례와 다수의 실패 사례가 있다는 것을 의미한다.
그 만큼 빅 데이터 기술에 대하여 많은 기업들이 도입 의지와 필요성을 가지고 있
다고 예측할 수 있다.또한 더 많은 빅 데이터 관련 기술 응용 분야가 나올 수 있
다고도 예측할 수 있다[29].
2.빅 데이터 개요
빅 데이터는 기술 분야뿐 아니라 다양한 분야에서 여러 가지 의미로 사용되고
있다.빅 데이터 정의에 대해서 ‘Said BusinessSchool’에서 설문 조사를 진행하였
다.설문에서 응답자들은 응답자들이 생각하는 빅 데이터의 정의를 보기 중에서 최
대한 두 가지씩 선택하도록 하였다.설문에 응답한 총 응답자 수는 1,144명 정도이
며,조사결과는 다음 [그림 3]과 같다[30].
[그림 3]빅 데이터 정의에 대한 설문 결과

-9-
조사 결과를 요약하면 데이터의 발생지가 제한적이지 않고 다양한 매체(미디어)
로 증가했다.이를 통하여 발생되는 데이터가 대량이며 실시간 정보성 데이터가 증
가하고 이를 분석하는 것이 필요하다는 것이다.다양하게 발표되고 정의되고 있는
빅 데이터의 정의를 살펴보면,‘기존 데이터베이스 관리 방식의 데이터 수집,저장,
검색,관리,분석,시각화 등이 어려운 거대 데이터세트(HugeDataset)규모’로,그
정의는 주관적이며 앞으로도 계속 변화될 것이다.또한 ‘데이터량 기준에 대해 산업
분야에 따라 상대적이며 몇 십 테라바이트에서 수 페타 바이트까지 그 범위로 본
다’라는 단위의 관점에서 빅 데이터를 다음과 같이 정의한다.대용량 데이터를 처리
하는 기술,운영체제,기반 아키텍처,프로세스 등을 일괄로 포함해서 설명하기도
한다[12].
- 맥킨지(McKinsey)에서 DB의 규모에 초점을 맞추어,‘일반적인 데이터베이스
소프트웨어가 저장,관리,분석할 수 있는 범위를 초과하는 규모의 데이터’라고 정
의하였다.
- IDC에서 DB가 아니라 업무 수행에 초점을 맞추어,‘Big Data는 다양한 종류
의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집,
발굴,분석을 지원하도록 고안된 차세대 기술 및 아키텍처’라고 정의하였다.이외에
여러 기관에서 정의한 빅 데이터의 정의를 정리하면 다음 [표 2]와 같다[13].
구분 정의
McKinsey
-일반적인 데이터베이스 소프트웨어가 저장,관리,분석할 수 있는 범위를 초과
하는 규모의 데이터
-수십 테라바이트에서 향후 페타(Peta:1015
)바이트,엑사(Exa:1018
)바이트,제
타(Zeta:1021
)바이트 크기의 대용량 데이터
TDWIResearch
-빅 데이터는 단지 그 크기가 방대하다기 보다는 종류와 형식이 다양하고,데이
터의 생성과 소비가 매우 빨라 기존의 데이터 처리 방식으로는 관리 및 분석이 어
려운 데이터
[표 2]빅 데이터의 다양한 정의

-10-
O'Reilly -전통적인 데이터베이스 시스템 처리 용량을 넘어서는 데이터
채승병 -기존의 관리 및 분석체계로는 감당할 수 없을 정도의 거대한 데이터의 집합
IDC
-다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고,데이터
의 초고속 수집,발굴,분석을 지원하도록 고안된 차세대 기술 및 아키텍처
김형준
-빅 데이터란 시스템,서비스,조직(회사)등에서 주어진 비용,시간 내에 처리
가능한 데이터 범위를 넘어서는 데이터
영목양개(鈴木良介)
-사업에 도움이 되는 지식을 이끌어 내기 위한 고해상(高解像),고빈도생성(高頻
度生成),다양(多樣)한 특성을 지니는 데이터
실제 지난 10년 간 인터넷과 컴퓨팅의 발전과 모바일 기기와 센서들의 진화,페
이스북이나 트위터와 같은 소셜 네트워크의 출현 등으로 기업 내·외부에 데이터 량
의 폭증을 이끌었다.여기서 발생되는 데이터나 텍스트 및 문서,통화 기록,대규모
의 전자상거래 목록 등이 빅 데이터에 해당된다.예를 들어 웹 로그,RFID,센서 네
트워크,SNS 데이터,인터넷 텍스트 및 문서,인터넷 검색 인덱싱,음성 통화 기록,
각 종 학문적 연구 기록,군사 경계 기록,게놈 데이터를 포함한 의료 정보,사진이
나 동영상 자료,전자 상거래의 정보 등이 빅 데이터인 것이다[12].
빅 데이터의 특징은 3가지 차원, 즉 규모(Volume), 다양성(Variety), 속도
(Velocity)를 의미하며 3V라 한다[13].근래에 들어 추가적으로 정확성(Veracity)이
라는 네 번째 중요한 차원을 하나 더 고려해야 한다.정확성을 빅 데이터의 네 번
째 특징으로 추가한 것은 특정 유형의 데이터에 내재되어 있는 불확실성을 인식하
고 관리하는 일의 중요성을 강조하기 위해서이다.빅 데이터의 4가지 차원에 대해
도식화하면 다음 [그림 4]와 같다[15,30].

-11-
[그림 4]빅 데이터의 4가지 차원
2.1규모(Volume):데이터 양
빅 데이터 하면 가장 먼저 연상되는 규모는 기업들이 전반적인 의사 결정 능력
을 향상시키기 위하여 활용하려 노력하는 데이터의 양을 의미한다.데이터의 규모
는 전례 없는 속도로 급증하고 있다.정말 ‘대규모’가 어느 정도의 규모인지는 산업
별,지역별로 차이가 많지만,일반적인 수준은 PT(Peta Bytes)나 ZT(Zeta Bytes)
수준의 데이터 규모이다.
2.2다양성(Variety):데이터의 다양한 형태와 소스
다양성은 정형,반정형,비정형 데이터를 전부 포함하는 복잡하고 다양한 형태의
데이터를 관리하는 것과 관련이 있다.기업들은 기업 내·외부의 전통적 또는 비전통

-12-
적 소스에서 유입되는 복잡한 데이터를 취합하고 분석하여야 한다.센서와 스마트
기기,소셜 협업(SocialCollaboration)기술의 폭발적 발전으로 인해 텍스트,웹 데
이터,트위터 메시지,센서 데이터,오디오,비디오,클릭 스트림,로그 파일 등 수많
은 형태의 데이터가 생산되고 있다.
2.3속도(Velocity):데이터의 이동
데이터의 생산,처리,분석되는 속도도 지속적으로 증가하고 있다.데이터가 실
시간으로 생성된다는 점과 스트리밍 데이터를 비즈니스 프로세스와 의사 결정 과정
에 도입하여야 한다는 점이 속도를 높이는 데 기여하고 있다.속도는 반응시간,즉
데이터가 생산 혹은 수집되는 시간과 그 데이터에 접근할 수 있는 시간 사이의 격
차에도 영향을 미친다.오늘날 데이터는 전통적인 시스템이 수집하고 저장,분석하
기가 불가능한 속도로 끊임없이 생산되고 있다.실시간 사기 적발(FraudDetection)
이나 다채널 ‘실시간’마케팅 같이 시간에 민감한 프로세스들은 특정 유형의 데이터
들을 실시간으로 분석할 수 있어야 효과적인 비즈니스 도구가 된다.
2.4정확성(Veracity):데이터의 불확실성
정확성은 일정 유형의 데이터에 부여할 수 있는 신뢰 수준을 의미한다.높은 데
이터 품질을 유지하는 것은 빅 데이터의 중요한 요구사항이다.실로 어려운 과제이
며 최상의 데이터 정제(DataCleansing)기법을 사용해도 날씨나 경제,고객의 미래
구매 결정 같은 일부 데이터의 본질적인 불확실성은 제거할 수 없다.불확실한 주
변 상황을 더 잘 이해하고자 하는 경영진은 반드시 빅 데이터의 불확실성을 인식하
여 데이터의 정확성을 고려하여야 한다.

-13-
3.빅 데이터 활용 단계별 특징
빅 데이터로부터 지식을 발굴해 활용하기 까지는 여러 단계를 거친다.먼저 발
굴하고자 하는 지식과 관련된 다양한 데이터 소스로부터 데이터를 수집한다.수집
한 데이터에서 필요없는 데이터를 필터링하거나 적절한 형태로 가공하는 등 전처리
단계를 거친다.그 후에 정보를 체계적으로 저장하고 관리하면서 유용한 지식이나
내재된 지식을 얻기 위한 정보 처리 분석 과정을 통해 의미 있는 지식을 발굴,가
시화 하게 된다[31,32].
빅 데이터 활용 과정은 데이터 소스,지식을 활용하는 서비스 분야가 무엇인지
에 따라 일부 단계를 건너뛰거나 반복 수행된다.그 과정을 일반적으로 도식화하면
다음 [그림 5]와 같다[31].
[그림 5]빅 데이터로부터 지식 활용 단계
데이터 수집,데이터 전처리,정보 저장 관리,정보 처리·분석 및 지식 가시화를
통하여 지식을 활용하기까지 각 단계를 지원하는 데 필요한 공통 소프트웨어를 빅
데이터 처리 플랫폼이라고 한다.
빅 데이터의 활용 단계를 토대로 빅 데이터 요소 기술을 분류 및 요약하면 다음
[그림 6]과 같다[31].

-14-
[그림 6]주요 빅 데이터 요소 기술
빅 데이터의 요소 기술 및 해당 기술을 분류 및 정리하면 다음 [표 3]과 같다
[31].
요소 기술 설명 해당기술
빅데이터
수집
조직내부와 외부의 분산된 여러 데이터 소스로부터 필요로하는
데이터를 검색하여 수동 또는 자동으로 수집하는 과정과 관련된
기술로 단순 데이터 확보가 아닌 검색,수집,변환을 통해 정제된
데이터를 확보하는 기술
-ETL
-크롤링 엔진
-로그 수집기
-센싱
-RSS,OpenAPI등
빅데이터
공유
서로 다른 시스템간의 데이터 공유
-멀티 테넌트 데이터 공유
-협업 필터링 등
빅데이터
저장
작은 데이터라도 모두 저장하여 실시간으로 저렴하게 데이터를
처리하고,처리된 데이터를 더 빠르고 쉽게 분석하도록 하여,이를
비즈니스 의사 결정에 바로 이용하는 기술
-병렬 DBMS
-하둡(Hadoop)
-NoSQL등
빅데이터
처리
엄청난 양의 데이터의 저장,수집,관리,유통,분석을 처리하는
일련의 기술
-실시간 처리
-분산 병렬 처리
-인-메모리 처리
-인-데이터베이스 처리
빅데이터
분석
데이터를 효율적으로 정확하게 분석하여 비즈니스 등의 영역에
적용하기 위한 기술로 이미 여러 영역에서 활용해온 기술임
-통계 분석
-데이터 마이닝
-텍스트 마이닝
-예측 분석
-최적화
-평판 분석
-소셜 네트워크 분석 등
[표 3]빅 데이터 요소 기술 분류 및 해당기술

-15-
빅데이터
시각화
자료를 시각적으로 묘사하는 학문으로 빅데이터는 기존의 단순
선형적 구조의 방식으로 표현하기 힘들기 때문에 빅데이터 시각화
기술이 필수적임
-편집 기술
-정보 시각화 기술
-시각화 도구
정보시스템 내·외부 데이터를 수집하여 정제되지 않은 데이터를 확보할 수 있다.
이를 통하여 지식과 지혜를 추출하여 활용하기 위하여 빅 데이터를 효과적으로 저
장·관리해야 한다.데이터 저장·관리란 추후 데이터를 사용할 목적으로 원본 데이터
를 안전하게 영구히 보관해 두는 것을 의미한다.데이터 저장·관리는 원하는 데이터
에 접근하여 그 내용을 읽어올 뿐 아니라 데이터의 수정,삭제도 제공하여야 한다.
이렇게 저장된 대량의 데이터를 처리하는 기술인 빅 데이터 처리 기술이 필요하
다.과거와는 달리 현재는 모바일 기기와 다양한 IT 기기를 이용하여 누구나 데이
터를 생성하고 접근할 수 있다.생성되는 데이터의 양이 가히 엄청나기 때문에 빅
데이터를 제때 가공하고 분석하는 처리 기술은 빅 데이터 산업에 매우 중요한 역할
을 차지한다.처리된 데이터를 분석해 시각화하면 수많은 데이터 속에서 인간의 삶
과 사회에 의미 있는 정보와 가치들을 쉽게 얻어내고 인식할 수 있게 된다.
3.1빅 데이터 저장기술
다양한 파일로 구성되어 있는 빅 데이터 기술의 바른 활용 방법은 작은 데이터
라도 모두 저장하여 실시간으로 저렴하게 데이터를 처리하는 것이다.처리된 데이
터를 더 빠르고 쉽게 분석하여 이를 비즈니스 의사 결정에 바로 이용하는 것이다.
이러한 빅 데이터들을 저장하기 위해 많은 요소기술 및 솔루션이 존재하고 개발 중
에 있다.빅 데이터 저장 기술과 관련한 용어를 정리하면 다음 [표 4]와 같다[31].

-16-
용어 뜻
하둡(Hadoop)
대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용
프로그램을 지원하는 자유 자바 소프트웨어 프레임워크
맵리듀스
(MapRedece)
구글에서 분산 컴퓨팅을 지원하기 위해 제작했으며,대용량 데이터를 병렬처
리로 지원하는 분산처리 프로그래밍 모델
하둡 분산 파일 시스템
(HadoopDistrubutedFileSystem)
이기종간의 하드웨어로 구성된 클러스터에서 대용량 데이터 처리를 위하여
개발된 분산 파일 시스템
NoSQL
(NotonlySQL)
클라우드 환경에서 발생하는 빅 데이터를 효과적으로 저장,관리하는 데이터
저장기술
[표 4]빅 데이터 저장 기술 관련 용어 정리
3.2빅 데이터 처리 기술
빅 데이터에서 유용한 정보 및 숨어있는 지식을 찾아내기 위한 데이터 가공 및
분석 과정을 지원하는 것이 빅 데이터 처리 기술이다.대규모 데이터 처리를 위한
확장성,데이터 생성 및 처리 속도를 해결하기 위한 처리 시간 단축 및 실시간 처
리 지원,비정형 데이터 처리 지원 등이 필요하다.
빅 데이터 아키텍처와 프로세싱은 실시간 데이터를 처리하면서 통합 분석하는
데이터 프로세싱이 필요하다.이벤트를 관리하면서 데이터 쿼리와 분석,트랜잭션을
통합적으로 처리하여야 한다.실시간으로 데이터를 중간에 캡처하고 분석 데이터와
함께 다시 데이터를 병행해서 처리가 가능하여야 한다.‘ForresterResearch’에서 발
표한 빅 데이터 아키텍처와 프로세싱의 개념도는 다음 [그림 7]과 같다[31].

-17-
[그림 7]빅 데이터 아키텍처와 프로세싱
3.3빅 데이터 분석 기술
빅 데이터 분석은 대량의 데이터로부터 숨겨진 패턴과 알려지지 않은 정보간의
관계를 찾아내기 위한 과정이다.비즈니스 영역에서 주로 수행되는 빅 데이터 분석
의 목적은 데이터 과학자들에 의하여 분석된 정보를 토대로 기업의 의사결정을 수
행하는 것이다.주로 빅 데이터 분석을 위하여 크게 데이터 마이닝과 예측 분석 등
이 고려되며,NoSQL 데이터베이스,하둡과 맵리듀스 등의 관련 기술이 있다.따라
서 빅 데이터 분석은 더 짧은 시간 안에 보다 더 많은 정보를 빅 데이터로부터 추
출하는 것을 목표로 한다.
빅 데이터 분석은 예측 분석(Predictive Analytics), 컨텍스트 분석(Context
Analytics),실시간 분석(Real-TimeAnalytics),고급 분석(AdvancedAnalytics),감
성 분석(SentimentalAnalytics),소셜 분석(SocialAnalytics)등의 분석 기법과 탐색
모델(Explanatory Models),예측 모델(PrecdictiveModels),의사결정 모델(Dicision

-18-
Models)과 세그멘테이션 & 클러스터링(Segmentation& Clustering),분류(Decision
Trees,LogisticRegression,NeuralNetworks),예측(TimeSeries,Regression)등의
데이터 마이닝 기법 등이 이용된다[33].
빅 데이터 분석 기법을 전통적인 분석 기법과 고도화된 분석 기법으로 분류할
수 있다.전통적인 분석 기법은 전통적인 BI및 데이터 마이닝을 통한 분석을 수행
하는 것이다.BI(Business Intelligence)분야에서는 사전에 미리 정의된 질문들에
해당하는 답변,데이터의 구조나 값을 필요한 형태에 맞게 사전 처리하는 방식으로
이용된다.통계(Statistics) 분야에서는 명확함,확실함보다는 가능성,확률에 대한
개념,수치데이터에 대한 수집,분석,표현에 이용된다.
고도화된 분석 기법은 주제,방식,대상에 따라 다양한 유형으로 분석을 수행하
는 것이며 그 영역을 나누어 살펴보면 다음 [그림 8]과 같다[33].
[그림 8]고도화된 분석 기법

-19-
예측 모델은 미리 알고 있는 특성,패턴,변수 등을 활용하여 미래의 가치나 상
황을 예측하고자 하는 것이다.캠페인 오퍼에 대한 고객 반응 예측,사건이 발생할
가능성 등을 예측하는데 사용된다.선형 회귀(Linear Regression),인공 신경망
(NeuralNetworks),의사 결정 분석(DecisionTrees),회귀 분석(Regression Trees)
등을 예로 들 수 있다.
실시간 서버 성능 모니터링을 위한 예측 모델은 다음 [그림 9]와 같다.
[그림 9]PredictionModels
데이터를 분석하고 표현하기에 앞서 수집되어 저장된 데이터의 예측(Prediction),
관찰(Observation),배포(Dissemination),능동적 진단(ActiveDiagnostic)이 필요하
다.이를 위하여 다양한 실시간 이벤트를 분석할 수 있는 기술인 CEP(Complex
EventProcessing)가 활용된다.여기서 이벤트란 실제로 발생한 사건이나 일,메시
지 혹은 어떤 상태의 변경과 같이 특정한 행위 또는 상태의 변화를 통해 발생하고
변경이 불가능한 과거의 기록 즉,의미가 있는 데이터를 말한다.일정한 시간의 순
서에 따라 연속적으로 이벤트가 계속 흐르는 것을 이벤트 스트림이라고 한다.낮은
수준의 지연과 일정한 응답속도를 갖는 실시간성의 특징을 갖는다.

-20-
CEP 솔루션들은 다양한 데이터 소스와 연결되는 어뎁터를 제공한다.커스텀 어
뎁터를 만들 수 있는 개발도구를 제공한다.특히 EPL(EventProcessingLanguage)
또는 EQL(EventQueryLanguage)이라는 Script언어를 통해서 SQL에 익숙한 개
발자나 데이터 관리자가 직관적으로 데이터(이벤트)모델링과 프로세스를 설계해서
적용할 수 있는 장점이 있다.
오픈소스 솔루션으로는 야후에서 공개한 ApacheS4,트위터가 Backtype을 인수
하면서 공개한 Storm 및 Hadoop pig를 확장해서 실시간 처리 기능이 있는
HStreaming등이 있다.
개발자들이 선호하는 대표적인 GPL 솔루션으로서 Esper가 있다.Esper는 Event
Stream 및 ComplexEventProcessing Platform라고 한다.Java기반의 ESP(Event
Stream Processing)나 CEP(Complex EventProcessing)컨테이너를 갖는 경량의
CEPI(Complex Event Processing Implementation)이 가능한 솔루션이다. Esper
Engine은 Time,Thread,Stream 들을 실시간 분석하여 독립된 단위로 처리한다.
EPL지원으로 SQL처럼 데이터를 프로세싱 할 수 있다.
Esper의 구성도는 다음 [그림 10]과 같다[12,34].
[그림 10]Esper구성도

-21-
제 2절 서버 성능 모니터링
오늘날의 정보시스템 업무 환경에서 관리자는 컴퓨터 시스템을 효율적이고 안정
적으로 유지하여야 한다.시스템이 효율적이고 안정적이라는 것은 사용자 또는 고
객이 서비스를 원활하게 받는 것을 의미한다.이를 위하여 서버 성능 모니터링은
필수적이다.
1.서버 성능 모니터링 개요
서버 성능 모니터링은 통합된 정보시스템의 모든 구성요소 즉,서버,네트워크,
DBMS,응용 소프트웨어 등의 효율적인 활동능력을 부여한다.성능에 관계된 모든
상태를 감시하여,최적의 서비스 품질과 정보시스템 자원의 효율성을 유지 및 제고
시키는 것이다.서버 성능 모니터링은 최적의 용량을 적시에 확보하기 위한 용량계
획의 시점도 제공한다.성능 관련 문제를 사전에 적극적으로 예방함으로써,사용자
의 시스템 활용도 및 만족도를 향상시킬 수 있다.서버 성능 모니터링에 대하여 시
스템 성능 관점,운영 관점,장애 대응 관점으로 분류하여 기술한다[35].
1.1성능 관리 :시스템 성능 관점
오늘날과 같이 급변하는 비즈니스 환경에서 고객에게 제공 되어지는 정보 서비
스의 양과 질 및 시점이 비즈니스의 성패를 좌우한다 해도 과언이 아닐 것이다.그
러나 이제는 모든 조직이 서비스의 질을 통해서만 고객을 만족시킬 수 있다는 점과
그것을 결정하는 핵심 부분이 바로 성능(Performance)임을 깊이 인식하여야 한다.
정보시스템의 성능관리는 전반적으로 다음과 같은 프로세스를 필요로 한다.첫
째는 정보시스템 각각의 구성요소(서버,네트워크,DBMS,응용 소프트웨어 등)에
대한 성능 및 상태를 측정(Monitoring)하는 과정이다.이 과정에서는 정보시스템 성

-22-
능의 최적화를 위하여 다음 단계에서 이용될 성능 데이터를 수집한다.둘째는 수집
된 자료를 기초로 정보시스템의 성능과 상태를 분석하는 과정이다.이 과정에서는
구성요소에 대한 개별적인 분석과 전체적인 통합 성능 분석 환경이 마련되어야 한
다.셋째는 위의 두 과정에서 얻어진 자료를 기초로 성능 제고를 위하여 시스템 구
성요소를 조정(Tuning)및 검증(Feedback)하는 과정이다.이것은 정보시스템 전체
의 성능 향상을 위한 작업이므로 각 구성요소별 연계분야와의 상호관련성을 고려하
여 진행하여야 한다.
일반적으로 성능관리를 위한 성능지표는 다음 [표 5]와 같다[35].
성능 지표 정의 단위(예시) 목표
응답 시간
(ResponseTime)
작업 처리를 요청한 시간으로부터 이를 시스템이 처리
하여 결과를 보여줄 때까지 소요된 시간
초 낮춤
시간당 처리량
(Throughput)
시스템이 성공적으로 처리한 단위 시간당 요청(트랜잭
션)처리 건수
TPS,OPS 높임
자원 사용량
(Utilization)
자원(CPU,메모리 등)들의 용량 중 실제 사용하고 있는
값의 비율
% 높임
효율성
(Efficiency)
시간당 처리량을 자원사용량 또는 비용으로 나눈 값 %,tpmC 높임
[표 5]성능을 나타내는 일반적인 지표
TPS(TransactionsperSecond:초당 트랜잭션 처리건수)
OPS(OperationsperSecond:초당 요청 처리건수)
tpmC(TransactionsperMinuteperCost:단위 비용당 분당 처리건수)
1.2운영 상태 관리 :운영 관점
정보시스템 구성요소에 대한 운영상태를 관리하는 것이다.정보시스템의 이상
징후를 모니터링,발견,기록,분류,분석,통지하여 신속한 조치가 이루어질 수 있
도록 함으로써 정보시스템의 가용성을 향상시키기 위함이다.
정보시스템을 가용성 있게 운영하기 위하여 현재의 운영 상태를 철저히 모니터
링하고,모니터링 수집 데이터를 누적해야 한다.그 결과를 가지고 향후 정보시스템
운영을 더욱 개선,발전시켜 정보시스템에 대한 성능 향상 계획,장애 예방 대책,

-23-
용량 계획 등을 체계적으로 수립할 수 있기 때문이다.운영 상태 관리를 통하여 협
의된 서비스 수준에 따라 지속적인 운영 시스템 감시 활동을 수행하게 된다.서비
스에 영향을 줄 수 있는 징후들을 포착하여 관련 프로세스 또는 해당 업무 담당자
에게 통지하는 감시 활동도 병행하게 된다.
정보시스템을 구성하는 서버,네트워크,스토리지,DBMS,미들웨어,응용 프로
그램,PC 등에 대한 운영 상태를 체계적으로 수집하고 누적한다.이를 통하여 정보
시스템 장애예방 및 전산자원의 효율적 투자,성능관리를 수행하여 더욱 가용성이
극대화된 정보시스템 운영이 가능하다.
1.3장애 관리 :장애 대응 관점
정보시스템 도입의 양적 증대가 기본 수준 이상 이루어짐에 따라,과거 시스템
구축 및 도입에 강조되었던 정보화의 영역은 도입된 정보시스템의 운영관리 측면으
로 새롭게 확장되고 있다.정보시스템 장애관리는 정보시스템 운영관리를 위한 세
부 요소 중의 하나로서,최근 다양한 위험요소들이 존재하고 있는 시스템 운영환경
에서 그 필요성이 증대되고 있다.
정보시스템 장애가 미치는 영향은 경우에 따라서는 매우 심각할 수 있다.시스
템이 제공하고 있는 서비스가 다수의 인원에 의해 사용되는 경우,시스템이 보안상
매우 민감한 데이터를 다루고 있는 경우,단시간 동안 서비스 제공이 되지 않으면
업무상 혹은 재정상 치명적인 손상을 입게 되는 경우가 그 예이다.
정보시스템 장애를 유발하는 위험요소들은 다양한 원인을 통하여 제공되고 있으
며,그 발생시점 또한 예측하기 어려운 특성이 있다.이런 이유로,장애가 절대로
발생하지 않는 무장애 시스템의 운영은 사실상 불가능하다.따라서 장애관리의 주
목적은 발생된 장애에 대하여 신속한 복구 작업을 수행하여 정상적으로 서비스를
제공하는 것이다.그리고 장애복구 결과에 대한 지속적인 관리를 통하여 자주 반복
되는 장애에 대한 예방조치를 사전에 취하는 것이다.이를 통하여 발생 가능한 장

-24-
애를 미연에 방지하는 것이다.
2.모니터링 분야별 구성요소
정보시스템 모니터링 분야는 서버,네트워크,스토리지,DBMS,미들웨어,응용
소프트웨어의 6개 분야로 정하였다.이를 주기적으로 모니터링하여 정보시스템의
이상 징후를 발견,기록,분류,통지한다.이상 징후 발견시,적절한 조치가 가능하
도록 지속적인 감시활동을 수행하여야 한다.이를 통하여 정보시스템의 가용성을
향상시킬 수 있다.6개 분야 중 특정 역할을 하는 DBMS와 미들웨어를 제외한 4개
분야 서버,네트워크,스토리지,응용 프로그램에 대하여 기술한다[18,19,35-39].
2.1서버
서버 관점에서의 성능 모니터링은 ①시스템 자원의 사용량 및 응답속도에 대한
기준(BaselineMeasurement)을 설정해 놓고,②이러한 자원의 사용과 관련된 정보
들을 주기적으로 수집하여 ③서비스 수준의 위반사항 및 병목현상을 분석하고,④
이를 개선하는 절차를 지속적으로 수행하는 것을 말한다.⑤또한 자원의 부족 또는
자원의 비효율적인 사용으로 인해 야기되는 문제들에 대해서 즉각적으로 대응하고,
⑥자원사용의 효율성을 제고하기 위하여 균형적인 자원의 재배치와 ⑦시스템 환경
및 처리량 변화에 의한 사전 발생가능한 성능 문제점을 예측하여 ⑧장애 상황이 발
생하기 이전에 사전 조치가 가능하도록 하는 활동을 수행한다.
서버의 주요 모니터링 구성요소는 다음 [표 6]와 같다[35].

-25-
구성요소 내용
CPU
-총 CPU사용율,시스템 모드 사용율,사용자 모드 사용율,RunQueue,PriQueue,사용
자수 등
메모리 -총 메모리 사용율,시스템 및 버퍼 캐쉬,PageIn/Out,Swap공간 사용율 등
디스크 -Disk사용율,DiskI/O Busy,DiskQueue
프로세스 -CPU를 집중적으로 사용하는 프로세스,Zombie프로세스
-커널 파라미터 설정을 통한 자원의 적절한 분배커널
-파일시스템 IO Rate,파일시스템 공간 사용율파일시스템
-In패킷율,Out패킷율,Collision율,Error율네트워크 I/O
[표 6]서버의 주요 모니터링 구성요소
2.2네트워크
오늘날의 네트워크 환경은 다기능,멀티 벤더(Multi-Vendor)의 분산 환경으로
장비 및 프로토콜의 다양성,네트워크 구조의 복잡성,지역적 분산 등 광대하고 복
잡한 네트워크로 구성되어 있다.따라서 복잡한 네트워크 구성에 부합하는 신속한
성능,장애 파악이 어려운 실정이며 사용자들이 요구하는 효율적인 관리의 필요성
은 더욱 증가되어 가고 있다.
네트워크 관리란 ①전산 네트워크가 지속적이고 효율적으로 광범위한 지역에서
의 정보 교환,자원 공유,치명적인 고장의 대체 기능,유연성 있는 작업 환경 제공
과 같은 목적했던 기능을 수행하고 ②보다 향상된 서비스를 제공할 수 있도록 전산
네트워크에 연결된 장비와 호스트간의 트래픽에 대한 모니터링을 통하여 ③서비스
의 중단 없이 효율적으로 통신 네트워크를 운용할 수 있도록 네트워크 자원의 감시
및 보고와 필요한 경우 제어를 수행하는 제반 활동을 의미한다.
네트워크의 주요 모니터링 구성요소는 다음 [표 7]과 같다[35].

-26-
관리항목 설명
네트워크 장비
연결 상태
-서버간의 커뮤니케이션 정상 여부
서버의 네트워크
포트 상태
-서버간의 네트워크 포트 정상 여부
네트워크 대역폭
(bandwidth)사용율
-시스템 자원이 네트워크 트래픽을 처리하는 비율(%)
네트워크 Collision율 -네트워크 Collision이 시스템 성능에 저하를 주는 비율(%)
네트워크 I/O Error율 -네트워크 패킷 오류가 발생하는 비율(%)
구간별 네트워크
응답시간
-네트워크 구간의 응답시간(msec)
초당 네트워크 패킷율
-초당 발생하는 모든 인터페이스에 대한 성공적인 패킷(에러나 Collision 없이 처리된
inbound와 outbound패킷)의 수
-얼마만큼의 네트워크 트래픽이 발생하는지를 확인,초당 네트워크 구간 회선 사용율
(%)
[표 7]네트워크의 주요 모니터링 구성요소
2.3.스토리지
정보시스템이 사용하는 데이터 및 정보는 모두 스토리지에 저장되어 운영된다.
이러한 스토리지가 장애 없이 제 성능을 발휘하면서 정보 제공 가능여부를 관리하
기 위한 스토리지의 주요 모니터링 구성항목은 다음 [표 8]과 같다[35].
관리항목 설명
총스토리지 사용율
및 가용율
-총 스토리지 사용율(%)
평균 디스크 응답시간 -디스크 응답시간(msec)
CacheHitRatio -Cache적중률(%)
초당 디스크 I/O -초당 발생하는 디스크 I/O 수
[표 8]스토리지의 주요 모니터링 구성요소

-27-
2.4응용 프로그램
최근의 정보시스템들은 조직의 핵심 업무 처리를 담당하고 있을 뿐만 아니라 경
쟁 우위 확보를 가능하게 하는 전략적 도구로서 자리 잡아 가고 있다.이러한 시스
템들의 성능이 저하되거나 장애가 발생하게 되면 적절한 업무 처리가 불가능하게
되고 경우에 따라 상당한 금전적 손실을 가져오게 된다.
정보시스템을 효율적으로 운영하기 위하여 사용자 관점에서 응용 프로그램의 응
답시간이 지연되거나 트랜잭션 처리가 실패하는 경우 그 원인을 정확히 찾아내어
신속히 조치하는 것이 필수적이다.이를 효과적으로 수행하는 것이 응용 프로그램
성능관리의 목표이다.과거에는 정보시스템이 단순하여 하드웨어 또는 프로그램의
작동 여부를 감시하는 것만으로도 충분한 성능관리가 이루어졌다.현재와 같이 복
잡한 시스템 구조 하에서는 작동 여부 감시 외에 서비스의 처리 과정에 직접적으로
관련되어 있는 스레드 및 컴포넌트에 대한 응답 시간 측정,시간당 처리량 측정,각
종 이벤트 및 대기 큐들의 상태감시도 중요한 부분이 되었다.
응용 프로그램의 주요 모니터링 구성요소는 다음 [표 9]와 같다[35].
관리항목 설명
각종 응용 프로그램
엔진 상태
-응용 프로그램 데몬 등의 정상 여부
응답시간 -해당 어플리케이션의 응답시간(msec)
CPU 점유율 -해당 어플리케이션의 CPU 점유율(%)
초당 처리 건수 -해당 어플리케이션의 초당 트랜잭션 처리건수
[표 9]응용 프로그램의 주요 모니터링 구성요소

-28-
3.서버 모니터링 솔루션 비교
서버 모니터링 솔루션은 운영 시스템에 대하여 위험성과 불확실성을 감소시키는
데 직접적인 역할을 한다.운영 시스템의 서버 모니터링을 수행함으로써 그동안 제
시되지 못하였던 정확하고 객관적인 모니터링 데이터를 시각적으로 제시한다.
서버 모니터링 솔루션은 시스템 안정성과 가용성 측면에서 가장 큰 비중을 차지
하는 중요한 요소이다.테스트와 운영 단계에서 직접적이고 지속적인 피드백이 필
요하다.이러한 피드백을 통하여 시스템 안정성과 가용성에 대한 종합적인 접근이
가능하여야 한다.복잡한 시스템 구조 속에서도 정확한 원인 진단이 가능하여야 한
다.서버 모니터링 솔루션을 통한 운영 유관 팀 간의 협업이 가능하도록 직관적인
데이터 표현이 가능하여야 한다.반드시 성능 및 장애 발생에 대하여 객관적인 검
증이 이루어졌다.이후 시스템 운영이 되어야 하며 이러한 객관적 검증을 위한 솔
루션이 필요하다.
서버 모니터링 솔루션 중 오픈매니저,제니퍼,시스매니저원의 상용 솔루션과 오
픈 소스 기반의 Nagios,Ganglia,Zabbix를 비교하였다.
3.1오픈 매니저
오픈 매니저는 제반 설비를 포함한 통합관제 서비스와 IT자원을 모니터링 하는
통합 모니터링 서비스이다.단일 화면에 정보를 표현하는 통합 대시보드 서비스까
지 정보의 흐름을 일괄적으로 관리해주는 통합관제 솔루션이다[36].
3.2제니퍼
제니퍼는 J2EE 기반의 분산 애플리케이션에서 발생되는 성능적 이슈와 장애의
원인을 탐지하고 진단하는 데 도움을 준다.제니퍼에서 제공되는 기능과 애플리케
이션에 대한 정보는 시스템의 성능,확장성,신뢰성을 높일 수 있는 근거가 된다.
제니퍼는 실시간 모니터링을 위한 솔루션으로서 다년간 국내 100여 곳 이상의 웹

-29-
시스템 장애 진단 경험을 토대로 핵심적으로 필요한 기능이 무엇인지 도출하고 그
동안 연구한 성능이론(PerformanceTheory)을 바탕으로 구현된 제품이다.간편하면
서도 필요로 하는 핵심적인 데이터를 효과적으로 보여주며 가벼운 환경을 제공한다
[37].
제니퍼에서 제공하는 실시간 모니터링 화면은 다음 [그림 11]과 같다.
[그림 11]제니퍼에서 제공하는 실시간 모니터링 화면
3.3시스매니저원
시스매니저원은 40여 년의 풍부한 시스템 통합 및 관제 서비스 구축 경험을 바
탕으로 개발되었다.고객 서비스 향상을 위하여 기업의 IT 기술과 전산자원이 급격
히 증가함에 따라,이를 지원하는 서버와 네트워크 장비,어플리케이션들을 효과적
으로 관리한다.총체적인 업무현황 파악이나 체계적 관리가 안 되어 장애감지가 곤
란한 것은 물론이고 늦장 대응으로 이어져 서비스 품질을 떨어뜨리는 이런 문제점
을 해결한다.다양하게 분산된 각종 IT 자원을 효과적으로 관리할 수 있는 최상의
솔루션이다.시스매니저원에서 제공하는 통합 모니터링 화면은 다음 [그림 12]와 같
다[38].

-30-
[그림 12]시스매니저원에서 제공하는 통합 모니터링 화면
3.4Nagios
Nagios는 오픈소스 기반의 모니터링 통합 관제 솔루션이다.클라우드 또는 서비
스 환경을 구성하고 있는 물리적 또는 가상화된 서버 플랫폼에 대한 전반적인 관제
정보를 제공한다[39,40,41].시스템의 장애 발생시 관리자에게 자동으로 알림 메시지
를 전달한다.또한 사용자 요구사항에 맞게 커스터마이징이 가능하다.Nagios에서
제공하는 화면은 다음 [그림 13]과 같다[41].
[그림 13]Nagios에서 제공하는 화면

-31-
3.5Ganglia
Ganglia는 클러스터 및 고성능 컴퓨팅 시스템(HPC)을 위한 확장 가능한 분산
모니터링 도구이다.BSD licenses를 따르는 오픈 소스 프로그램이며,sourceforge에
서 무료 배포하고 있다.메모리,CPU,디스크,네트워크 자원 사용율 뿐만이 아닌,
Hadoop dfs,mapred와 관련된 200여개 이상의 Hadoop 성능 지표를 나타낼 수 있
다[40,41].Ganglia에서 제공하는 화면은 다음 [그림 14]와 같다[41].
[그림 14]Ganglia에서 제공하는 화면
3.6Zabbix
중앙 집중형 모니터링 방식의 Zabbix는 서버로 전송된 모니터링 데이터를 그룹
별로 구분하여 중앙에서 대쉬보드 형태로 통합적인 모니터링 현황을 제공한다.대
쉬보드에 대한 커스터 마이징은 Minimized커스터 마이징 형태로 구성하여 모니터
링도 가능하다.Zabbix에서 제공하는 데이터 그래프,장애 시스템 공지,관리자 공
지,사용자 관리 화면은 다음 [그림 15]와 같다[41,43].

-32-
[그림 15]Zabbix에서 제공하는 화면

-33-
제 3절 데이터마이닝 기법
현대 사회에 발생되는 데이터량이 아무리 방대해도 어떤 계산이든 할 수 있는
ICT 환경이 되었다.막대한 정보를 단순히 기록하고 보관만 해서는 아무런 도움이
되지 않는다.의미 있는 분석을 위하여 많은 데이터 가운데 숨겨져 있는 유용한 상
관관계를 발견해 미래에 실행 가능 정보를 추출해 내기 위하여 데이터마이닝 기법
이 사용된다.
1.데이터마이닝 기법
컴퓨터와 네트워크 기술의 발전과 더불어 정보화 사회가 급진전하면서 개인,정
부기관 그리고 대기업 같은 조직들은 매일 대량의 데이터(MassiveData)를 만들고
이를 축적하고 있다.대량의 데이터는 관측 데이터의 수가 많다는 의미와 더불어,
데이터의 속성 변수도 많다는 의미도 포함하고 있다.이처럼 대용량의 데이터로부
터 이들 내에 존재하는 관계,패턴,규칙 등을 탐색하고 모형화 함으로써 유용한 지
식을 추출하는 일련의 과정들을 데이터 마이닝이라 한다[24,44].
데이터 마이닝은 가설 발견 중식의 방법으로 탐색적 데이터 분석(Exploratory
DataAnalysis)은 사람이 최소한으로 개입하여 컴퓨터 도구를 활용하는 것을 의미
한다.과거의 데이터를 기반으로 예측 모형(Predictive Model)을 만들어서 미래의
데이터를 적용하고 적용된 모델을 토대로 통계 기법을 통해 미래 데이터를 예측한
다[44].
데이터 마이닝의 기능은 분류(Classification),추정(Estimation),예측(Prediction),
유사 집단화(Affinity grouping),군집화(Clustering),서술(Description)등과 같은 6
개의 업무 영역으로 구분될 수 있다[45].
분류는 개체의 새로운 특성들을 관찰하고,이것을 미리 정의된 집단에 소속시키
는 단계로 구성되어 있다.분류가 ‘예,아니오’등의 이산형 결과를 다루는 반면,추

-34-
정은 연속적인 결과를 다룬다.추정을 통하여 수입,키,신용잔고와 같은 알려지지
않은 연속적인 값들을 찾는다.예측은 미래의 행위나 가치를 다룬다는 것을 제외하
면,분류나 추정과 거의 동일하다.측정될 변수를 알고 이에 대한 과거의 자료가 있
다면,분류와 추정을 위한 모든 기법들이 예측에 사용될 수 있다.유사 집단화는 어
떤 것들이 함께 움직이는가를 결정하는 작업이다.군집화는 이질적인 집단을 몇 개
의 동질적인 소집단으로 세분화하는 작업이다.군집화가 분류와 구분되는 가장 큰
특징은 사전에 정의된 집단을 가지고 있지 않다는 것이다.군집화에서는 자료들을
그 자체의 유사성에 따라 나눈다.이는 결국 분석가에게 군집의 의미를 부여하는
문제를 던지게 된다.때때로 데이터 마이닝은 복잡한 데이터베이스를 통해 사람,제
품,공정 등에 대한 이해를 돕기 위한 서술을 그 목적으로 할 때도 있다.충분한 서
술은 그 자체만으로도 행동에 대한 설명을 제공하며,최소한 어디에서부터 설명을
시작할지를 제시한다.
데이터 마이닝의 기법은 분류 분석,군집 분석,연관규칙 탐사,개인화 추천으로
다음 [표 10]과 같다[44].
데이터 마이닝 기법 설명 및 알고리즘
분류 분석
(Classfication)
레코드를 부류나 등급으로 나누는 작업
-DecisionTree:ID3,C4.5Algorithm
-NeuralNetwork,Bayesian,...
군집 분석
(Clustering)
레코드들을 유사한 성격을 가지는 소그룹으로 구분하는 작업
-K-meansAlgorithm
-EM Algorithm
-CobwebAlgorithm
연관규칙 탐사
(AssociationRule
Discovery)
구매 데이터에서 상품간의 판매 연관성을 파악하는 작업
-AprioriAlgorithm
개인화 추천
(Personalized
Recommendation)
각 고객별로 선호정보를 파악하여 그 고객에게 적합한 상품을 추천해 주는 작업
-CollaborativeFilteringAlgorithm
-ContentbasedMethod
[표 10]데이터 마이닝 기법의 종류

-35-
대용량의 데이터가 발생되는 모든 분야에는 데이터 마이닝 적용이 가능하다.데
이터 마이닝 활용분야를 살펴보면 다음 [표 11]과 같다[45,46].
활용분야 설명
데이터베이스 마케팅
(DatabaseMarketing)
-데이터를 분석하여 획득한 정보를 이용하여 마케팅 전략 구축
- 목표 마케팅(TargetMarketing),고객 세분화(Segmentation),고객성향변동분석
(Churn Analysis),교차 판매(Cross Selling),시장바구니 분석(Basket Market
Analysis)등
신용평가
(CreditScoring)
-특정인의 신용상태를 점수화하는 과정
-신용거래 대출한도를 결정하는 것이 주요 목표
-이를 통하여 불량채권과 대손을 추정하여 최소화함
-신용카드,주택할부금융,소비자 대출,상업 대출 등
통계적 품질관리
(SPC,StatisticalProcess
Control)
-불량품을 찾고 그 원인을 밝혀서 궁극적으로 이를 예방하는 것을 목적으로 함
- 의료보험조합에서는 불필요한 장기입원이나 보험료 과다청구를 탐지하려 SPC를
사용함,제조업체에서는 불량품 감소를 통한 이윤 증가 추가함
부정행위 적발
(FraudDetection)
-고도의 사기행위를 발견할 수 있는 패턴을 자료로부터 획득
-신용카드 거래사기 탐지,부정수표 적발,전화카드거래사기,부당 또는 과다 보험
료 청구 탐지 등
텍스트 마이닝
(TextMining)
-디지털화된 자료(예 :전자우편,신문기사 등)로부터 유용한 정보를 획득
-자동응답시스템,전자도서관,Websurfing등
생물정보학
(Bioinformatics)
-지놈(Genom)프로젝트로부터 얻은 방대한 양의 유전자 정보로부터 가치 있는 정
보의 추출(예 :간암을 유발하는 유전자의 발견)
-신약개발,조기진단,유전자 치료 등
[표 11]데이터 마이닝 활용분야
2.예측과 시계열 분석
시간에 종속적으로 측정된 모든 데이터들을 시계열로 볼 수 있다.시계열 데이
터가 일정 시간 간격으로 주어진 것이 아닐 수도 있다.종합 주가 지수,일별 유가
변동사항,환율 등 모든 데이터들을 시계열 데이터로 볼 수 있다.시계열 분석은 미
래를 예측하는 데에 중요한 도구가 된다.

-36-
2.1예측(ForecastingorPrediction)
예측이란 특정한 미래의 알려져 있지 않은 사상(State)에 대한 진술(Statement)
이라 할 수 있다.보다 정확한 예측을 하고자 하는 이유는 미래에 발생한 사상의
결과가 현재의 의사결정에 매우 중요한 역할을 하기 때문이다.즉,앞으로의 계획을
합리적으로 설계하고 이에 따른 손실을 가능한 축소하기 위하여 미래에 대한 정확
한 예측이 필요하다.예측 대상에 따라 제품이나 서비스에 대한 수요를 예측하는
수요예측,기업의 정치,경제,사회적 환경을 예측하는 환경예측,새로운 기술의 출
현이나 기존 기술의 개량,발전의 경향을 예측하는 기술예측으로 나눌 수 있다.기
간에 따라 예측을 나누면 6개월 이하의 단기예측,6개월 이상 2년 이하의 중기예측,
2년 이상의 장기예측으로 나눌 수 있다.예측기법을 분류하면 다음 [표 12]와 같다
[47].
기법 설명
정성적 예측법
예측자의 주관적 판단에 의하여 예측하는 기법
-델파이법,시장조사,판매원 종합예측법,중역의견법,전문가예측,사적 유추법
-장기예측을 하거나 데이터가 부족한 경우에 이용
정량적 예측법
계량적인 모형과 객관적인 데이터를 이용하여 예측하는 기법
-시계열예측법 :시계열분석법,이동평균법,지수평활법,박스젠킨즈법
-인과형예측법 :회귀분석,계량경제모형,투입산출모형,시뮬레이션 모형
[표 12]예측기법
2.2시계열 분석(TimeSeriesAnalysis)
시계열(Time Series)은 일정 시간 간격으로 배치된 데이터들의 수열을 말한다.
시계열 분석은 이런 시계열을 해석하고 이해하는 데 쓰이는 여러 가지 방법을 연구
하는 분야이다.예컨대,이런 시계열이 어떤 법칙에서 생성되어서 나오느냐는 기본
적인 질문을 이해하는 궁극적인 목표라고 할 수 있다.시계열 예측(Time Series
Prediction)은 주어진 시계열을 보고 수학적인 모델을 만들어서 미래에 일어날 것들

-37-
을 예측하는 것을 뜻한다.일반적으로 이런 방법들은 공학이나 과학계산,혹은 금융
시장에서의 주가 예측 등에서 많이 쓰인다[48].
2.2.1시계열의 구성요소
시계열의 구성요소는 다음 [그림 16]과 같다[49].
[그림 16]시계열의 구성요소
시계열은 대개 어떤 패턴을 가지며,이러한 패턴은 추세(T :Trend),계절적 변
동(S :SeasonalVariation),순환요인(C :CyclicalElement)및 불규칙변동 혹은 우
연변동(R :IrregularorRandom Variation)으로 구성된다.
-추세(T)란 수요가 일정한 율로 증가 또는 감소하는 경향을 나타낸다.
-계절적 변동(S)은 추세선 上下로의 변동을 나타내며 1년 단위로 반복된다.
- 순환요인(C)이란 1년 이상의 장기간에 걸쳐 수요가 上下로 순환적으로 변하는
것을 나타내며,주로 경기변동에서 비롯된다.

-38-
- 불규칙변동 혹은 우연변동(R)이란 수요변동을 추세,계절적 변동 및 순환요인
에 의해 규명하였을 때 나머지 설명할 수 없는 변동으로서 예측이나 통제가 불가능
하다.
시계열의 패턴을 정리하면 다음 [그림 17]과 같다[49].
[그림 17]시계열의 패턴
2.2.2단순(Simple)/가중(Weighted)이동평균법(MovingAverage)
단순이동평균법은 시계열에 계절적 변동이나 급속한 증가 또는 감소의 추세가
없고 우연변동만이 크게 작용하는 경우의 수요예측에 유용하다.가중이동평균법에
서는 직전 N기간의 자료치에 합이 1이 되는 가중치를 부여한 다음,가중 합계치를
예측치로 한다.
2.2.3지수평활법(ExponentialSmoothing)
지수평활법은 지수적으로 감소하는 가중치를 이용하여 최근의 자료일수록 더 큰
비중을,오래된 자료일수록 더 작은 비중을 두어 미래수요를 예측한다.지수평활법

-39-
에는 단순지수평활법과 추세나 계절적 변동을 보정해 나가는 고차적인 지수평활법
이 있다.단순 지수평활법은 이동평균법과 마찬가지로 시계열에 계절적 변동,추세
및 순환요인이 크게 작용하지 않을 때 유용하다.
2.2.4추세분석법(TrendAnalysis)
추세분석법이란 시계열을 잘 관통하는 추세선을 구한 다음,그 추세선상에서 미
래수요를 예측하는 방법이다.
과거자료와 직선추세선을 도표로 나타내면 다음 [그림 18]과 같다[49].
[그림 18]추세분석법

-40-
제 3장 서버 장애 모니터링 감시항목 도출
본 논문의 연구과정은 관련연구 조사,감시항목 도출,예측 모형 설계,예측 모
형 실험,예측 모형 검증의 5단계로 수행되었다.먼저 빅 데이터 환경을 고려한 서
버 장애 예측을 위하여 빅 데이터,정보시스템 모니터링,데이터 수집 및 분석을 위
한 데이터마이닝 기법에 관한 국내·외 논문과 관련도서 등을 분석하였다.
장애 모니터링을 위한 운영·관리 지침과 상용 및 오픈 소스 기반의 서버 모니터
링 솔루션을 기준으로 성능 감시항목을 1차로 도출하였다.도출된 감시항목을 기준
으로 실제 운영중인 서비스의 장애 이력 데이터와 감시항목별 데이터의 빈도 및 교
차 분석을 통하여 2차 감시항목을 도출하였다.
감시항목을 빅 데이터 환경의 실시간 대처를 위하여 운영되는 정보시스템 모니
터링을 위한 초기 가설을 수립하였다.실제 운영중인 서비스에서 서버 모니터링의
수립된 가설을 검증하기 위하여 데이터를 수집하였다.CPU,Memory,Network,
Service감시 등에 대한 감시 결과 데이터를 수집하였다.빅 데이터 환경을 위하여
실시간성을 요구하는 감시 항목에 대하여 가설을 수정 및 대체하였다.
빅 데이터 환경을 고려한 데이터 수집은 연속적이고 대용량의 모든 모니터링 데
이터를 수집하여야 한다.하지만 현재 운영되는 상용 서비스에서 수집할 수 있는
데이터의 한계가 있었다.이로 인하여 빅 데이터 개념에 롱 데이터(Long Data,오
랜 시간동안 수집된 데이터)의 개념을 이용하여 모니터링 데이터를 수집하고자 하
였다.
또한 실제 운영중인 서비스의 감시 결과 데이터를 통하여 장애시와 정상 서비스
운영시의 시계열 분석을 진행하였다.이는 과거의 데이터를 기준으로 장애 감지에
대한 사전 예측이 가능한지를 검증하기 위함이다.기초적인 예측 모형에 대한 분석
및 예측을 진행하였고,이를 검증하고자 실험 환경을 구축하였다.
빅 데이터 환경을 고려한 서버 장애 모니터링 환경을 시험하고자 빅 데이터 수

-41-
집 및 가공,처리,분석을 위한 플랫폼 구축과 서버 모니터링 환경을 반영하여 실험
환경을 구축하였다.구축된 환경에서 수정 및 대체된 가설을 검증하여 빅 데이터
환경을 고려한 서버 장애 모니터링 시스템 아키텍처로 제안하였다.
본 논문에서의 연구 방법은 다음 [그림 19]와 같다.
[그림 19]연구 방법

-42-
제 1절 서버 장애 모니터링 지표 도출 절차
본 절에서는 정보시스템 운영·관리 지침과 상용 및 오픈소스 기반의 솔루션 기
준으로 모니터링 지표를 도출하였다.정보시스템 운영·관리를 위한 지침은 개요서를
포함하여 총 12종으로 구성되어 있다.이중,‘정보시스템 운영관리 지침 개요서’와
‘정보시스템 운영관리 지침’은 전체 지침을 포괄하는 상위수준의 지침이며,나머지
‘정보시스템 구성 및 변경관리 지침’등 10종의 지침은 ‘정보시스템 운영관리 지침’에
서 정의한 10대 관리요소에 대한 내역 및 절차에 대하여 기술한 세부 지침이다[35].
본 논문에서는 서버 장애 대응 예측을 위하여,정보시스템 운영·관리 지침 중 운
영상태,성능관리,장애관리 지침을 기준(이하 장애 모니터링을 위한 운영·관리 지
침)으로 감시항목을 도출하였다.서버,네트워크,스토리지,DBMS,미들웨어,응용
프로그램 분야 6개에서 89개의 감시항목을 도출하였다.도출된 감시항목을 요약하
면 다음 [표 13]과 같다[35].
분야 감시항목
서버 -총 CPU사용율,사용자 모드 사용율,총 메모리 사용율,Disk사용율 등의 34개 항목
네트워크 -장비,세션,회선,응답시간 처리 등의 22개 항목
스토리지 -총 스토리지 사용율,디스크 응답시간,Cache적중률 등의 4개 항목
DBMS -데이터베이스 스키마,DB 응용 프로그램,공유 메모리 등의 7개 항목
미들웨어 -미들웨어 엔진,온라인 트랜잭션 대기상태,Thread개수 등의 5개 항목
응용 프로그램 -응용 프로그램,응용 플랫폼,응용 솔루션 등의 종합적 판단이 가능한 17개 항목
[표 13]정보시스템 운영·관리 지침 감시항목 요약
단,측정주기에 따라 보다 상세화할 수 있지만,본 연구범위에서는 대항목 기준으로 하였음

-43-
서버 장애 예측을 위하여 상용 및 오픈소스 기반의 솔루션을 비교하였다.솔루
션에서 제공하는 감시항목은 오픈매니저 26개항목을 비롯하여 Zabbix까지 분석하였
다.상세한 항목은 200여개 이상의 감시항목을 제공하지만,정보시스템 운영·관리
지침과 비교하기 위하여 대·중분류 수준의 감시항목만을 도출하였다.상용 및 오픈
소스 기반 솔루션에서 지원하는 감시항목을 요약하면 다음 [표 14]와 같다[36-43].
솔루션 감시항목
오픈매니저
-System & Network,Web& WAS,Database,Application& Service의 관리분야
로 나누어 26개 이상(상세하게는 200여개 이상)
제니퍼
-실시간 모니터링,장애감시,서비스 폭주시 부하량 제어,시스템 확장시 용량산정
의 관리분야로 나누어 16개 이상(상세하게는 200여개 이상)
시스매니저원
-통합 모니터링,성능 분석,웹서비스 분석,트래픽 분석,리포팅 기능의 관리분야로
나누어 26개 이상(상세하게는 200여개 이상)
Nagios,Ganglia,Zabbix등
-오픈소스 기반의 모니터링 솔루션으로 CPU,Memory,Network,Disk분야로 정
보시스템 관리 지침의 서버분야에서 제시하는 항목 위주로 22개 이상(상세하게는
200여개 이상이며 Ganglia는 Hadoop dfs,mapred등의 감시까지 포함하여 400여개
이상)
[표 14]상용 및 오픈소스 기반 솔루션 감시항목 요약
단,솔루션 매뉴얼과 홈페이지 등에서 구분이 가능한 수준의 감시항목(대·중분류 수준)을 기준으로 하였고,실제 측
정주기에 따른 상세 감시항목은 보다 많음

-44-
[표 13]장애 모니터링을 위한 운영·관리 지침 감시항목과 [표 14]상용 및 오픈
소스 기반 솔루션 감시항목의 비교 결과를 종합하였다.6개 분야 중 특정 역할을
하는 DBMS와 미들웨어의 감시항목은 비교 대상이 부적합하여 제외하였다.항목별
비교를 도식화하면 다음 [그림 20]과 같다.
[그림 20]감시항목 도출 과정

-45-
CPU,Memory,디스크,프로세스,네트워크,응용 프로그램 부분에 대해 25개 감
시항목으로 수집이 가능하고 활용 가능한 항목으로 도출하였다.서버 장애 예측을
위한 1차 도출 감시항목을 요약하면 다음 [표 15]와 같다.
감시 Category 감시항목 항목개수
CPU -CPU Min,Max,Average사용량 3
Memory -MemoryMin,Max,Average사용량 3
디스크 -Device별 DiskMin,Max,Average사용량 3
프로세스 -Instance별 CPU(Max,Min)사용량,Memory(Max,Min)사용량 4
네트워크 -InterfaceCard별 Send,SendError,Receive,ReceiveError,Collision 5
응용 프로그램
-서비스별 시도호,성공호,성공률,성공 및 오류 코드 횟수
-평균 응답 시간,응답 시간별 성공호의 수
7
[표 15]1차 도출 감시항목

-46-
제 2절 서버 모니터링 데이터 수집 및 감시항목 검증
서버 모니터링 데이터는 실제 A사의 모니터링 솔루션(예 :오픈매니저)에서 운
영되는 서비스에서 2013년 11월부터 2014년 04월까지의 약 6개월의 장애 이력과 감
시 항목별 데이터를 이용하였다.실제 운영되는 서비스를 통하여 서버 모니터링 감
시 항목이 유용하거나 적절한 감시 수준임을 검증하고자 하였다.장애 이력을 중심
으로 감시 항목간의 연관성을 파악하여 실제 장애가 발생한 시점에 어떤 특징이 있
는지 분석하였다.분석결과를 요약하면 다음 [표 16]과 같다.
분석결과에 대한 요약
빈도분석
-서버별 장애 발생 요약
-장애가 주로 발생한 서버는 Interface#1,#2이다.해당 서버는 외부 서버에 OpenAPI형
태로 연동하거나 요청에 따라 결과를 응답하는 서버이다.
-감시 영역(CPU,Memory등)요약
-접속 로그,CPU/Memory사용량 등의 시스템 자원에 대해서 장애가 주로 발생하였다.
-감시 부분(프로세스 실행여부,포트 여부 등)요약
-시스템 감시,접속 로그 등의 시스템 자원에 대해서 장애가 주로 발생하였다.
-감시 상세(ConcurrentUser수,메모리 사용량 등)요약
-Agent,CPU,시스템 자원 감시에 대해서 장애가 주로 발생하였다.
-일자별 장애 발생 요약
-계속적으로 장애가 발생한 것이 아닌 전체 건수 대비 몇몇 일자에 집중적으로 장애가 발
생하였다.
교차분석
-서버별 감시 영역(CPU,Memory등)요약
-서버별 감시 부분(프로세스 실행여부,포트 여부 등)요약
-서버별 감시 상세(ConcurrentUser수,메모리 사용량 등)요약
-서버별 일자별 장애 발생 요약
[표 16]실제 A사의 분석결과 요약
서버별,감시 영역,감시 부분,감시 상세는 수집되는 데이터군에 따라 가칭으로 변경한 것임
교차 분석 결과는 Interface#1,#2의 빈도 분석과 유사한 결과를 보였음

-47-
1.장애 이력 데이터 수집
본 논문의 사용된 실제 A사에서 운용되는 서비스(이하 A사 사례)의 개념도를
도식화하였으며,실제 서비스보다 간략화하여 도식화하면 다음 [그림 21]과 같다.
[그림 21]A사 운영서비스 개념도
장애 이력 데이터는 약 6개월여 동안 발생한 크고 작은 장애 알람 1,000건을 기
준으로 하였다.수집된 데이터는 서비스에 필요한 Front/Back End서버,Database
등의 모든 장애 이력 데이터이다.6개월 동안 평균 6회 정도의 장애 알람이 발생한
것으로 분석이 되었고,장애가 발생된 일자에 대해서만 평균 17회 정도의 장애 알
람이 발생하였다.또한 실제로 일별 장애 알람 건수가 10건 이상인 31일에 대한 장
애 알람 발생 건수를 추출하였더니 641건 이였다.이는 장애가 집중적으로 발생하
였음을 의미한다.

-48-
2.장애 이력 데이터 빈도 분석 결과
약 6개월간 수집된 장애 알람 발생 이력 데이터중 상위 10위를 기준으로 장애
알람 건수가 30건 이상인 일자에 대하여 추가 분석을 진행하였다.이는 장애 알람
이 집중적으로 발생하였을 경우를 기준으로 실제 서버 성능 모니터링 감시항목과의
연관성을 검증하기 위함이다.
장애 알람 발생 이력과 모니터링 데이터를 분석하고자 SPSS를 이용하였다.서
버별,감시 영역별,감시 부분별,감시 상세별,일자별로 분석하였다.분석 결과 중
빈도라 함은 각 영역별 장애 알람이 몇 번 발생했나를 의미한다.퍼센트는 전체
100%중에 빈도가 차지하는 백분율,유효퍼센트는 퍼센트와 동일하다.누적퍼센트는
전체 100%에 대해서 퍼센트 결과치를 누적한 결과 값이다.
A사에서 운영되는 서버별 장애 알람 발생 빈도를 분석하였다.내부 연동 서버,
데이터베이스,파일서버 마지막으로 Interface서버로 분석을 하였다.Interface서버
즉,서비스 연동이 되는 외부 서버에 OpenAPI형태로 데이터를 제공하거나 요청에
따른 응답을 전달하는 서버가 장애 알람이 가장 많이 발생하였다.해당 분석결과는
다음 [그림 22]와 같다.
[그림 22]서버별 장애 발생 요약

-49-
감시 영역별 장애 알람 발생은 웹(WAS,WebApplication Server가 아님)에 대
한 Request,Response의 로그 데이터와 CPU/Memory,Database접속,디스크 사용
율,네트워크 감시,웹 서버 KeepAlive체크 등으로 분류할 수 있다.주로 장애 알
람이 웹 로그상 정상 코드나 응답 시간 등의 범위가 임계치를 넘었을 경우와
CPU/Memory 사용율에 대한 임계치를 넘었을 경우에 가장 많이 발생하였다.해당
분석결과는 다음 [그림 23]과 같다.
[그림 23]감시 영역별 장애 발생 요약

000001871277_1425351249536_0.35266743797617006

000001871277_1425351249536_0.35266743797617006

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (16)

Similar to 000001871277_1425351249536_0.35266743797617006

Similar to 000001871277_1425351249536_0.35266743797617006 (17)

000001871277_1425351249536_0.35266743797617006