[오픈소스컨설팅]RHEL7/CentOS7 Pacemaker기반-HA시스템구성-v1.0

Copyright 2015 osci.kr. All Rights Reserved / Confidential
RHEL/CentOS 7
Pacemaker 기반 High Availability
운영자 가이드
(주)오픈소스컨설팅
2015. 12. 15
문경윤 차장

2
Pacemaker 기반 Linux High Availability OverviewI
II
III
클러스터 운영 기본
클러스터 운영 실무
IV 부록
Agenda
본 문서는 특정 고객사의 특수한 환경을 고려하여 작성된 내용이 일부 포함된 운영
메뉴얼이므로 Pacemaker 기반 Linux High Availability 입문용으로는 적합하지 않을 수
있습니다. Pacemaker 기반 Linux High Availability를 한 번도 설치 및 구성을 하지
않은 리눅스 관리자라면 설치 문서를 먼저 참고하십시오.
RHEL7 및 CentOS 7을 중심으로 레드햇 계열의 리눅스에 적합한 내용으로
작성되었습니다.

3
1. Pacemaker 기반
Linux High Availability
Overview
1.1. Pacemaker Overview

4
1.1. Pacemaker Overview 1. Pacemaker 기반 Linux High Availability Overview
1.1.1. Pacemaker Architecture
High Level에서 Pacemaker 기반 클러스터는 3개 요소로 구성되어 있습니다.
Non-cluster aware
components :
이 요소들은 리소스 start,
stop, 모니터링 용도의
스크립트 뿐만 아니라
스크립트들이 구현한
다양한 표준들 사이의
차이점을 보완하는 local
daemon을 포함합니다.
Core cluster infrastructure는
messaging과 membership
기능을 제공합니다.
클러스터 이벤트(노드 leaving과 join)와 리소스
이벤트(장애 모니터링) 뿐만 아니라 관리자의 구성
변경에 대해 프로세스하고 반응하는 중심부.
이 모든 이벤트의 반응에서 Pacemaker는
이상적인 클러스터 상태를 산정하고 최적의 경로를
마련합니다.
▲ Conceptual Stack Overview

5
Corosync가 결합되면 Pacamaker는
클러스터 파일시스템 커뮤니티의 최근의
표준화 작업에 힘입어 널리 알려진
오픈소스 클러스터 파일시스템들을
지원합니다.
이 커뮤니티들은 메시징 기능을 위한
Corosync와, 멤버쉽(노드 up/down)과
fencing 서비스를 위한 Pacemaker를
활용하는 일반적인 분산 lock manager를
활용합니다.
▲ The Pacemaker Stack
1. Pacemaker 기반 Linux High Availability Overview

6

7
Cluster Information Base (CIB)
The Pacemaker information daemon으로, DC(Designated Co-ordinator; Pacemaker에 의해 할당된
노드로서, CIB를 통해 클러스터 상태와 액션을 저장하고 분산)로부터 현재의 구성과 상태 정보를
내부적으로 배포하고 동기화하기 위해 XML을 사용합니다.

8
Cluster Resource Management Daemon (CRMd)
Pacemaker 클러스터 리소스 동작은 이 데몬을 통해 라우트됩니다. CRMd에 의해 관리되는 리소스는
필요할 때 이동되고 인스턴스화되고 바뀌는 클라이언트 시스템에 의해 쿼리될 수 있습니다.
각 클러스터 노드는 또한 CRMd와 리소스 간 인터페이스로써 동작하는 local resource manager
daemon(LRMd)을 포함합니다. LRMd는 CRMd에서 agent를 향해 커맨드를 전달합니다. 이 커맨드는 상태
정보를 시작하고 중지하고 릴레이하는 것과 같은 것입니다.

9
Shoot the Other Node in the Head (STONITH)
종종 power switch와 함께 연결되는, STONITH는 Pacemaker에서 fence 요청을 처리하고 노드의 전원을
강제로 down시키고 데이터 무결성을 보장하기 위해 클러스터로부터 해당 노드를 remove 처리하는
클러스터 리소스로써 동작합니다. STONITH는 CIB에서 구성되고 일반적인 클러스터 리소스로써
모니터링될 수 있습니다.

10
1.2.2. Pacemaker Configuration and Management Tools
Pacemaker는 클러스터의 배포, 모니터링, 관리를 위해 두 가지의 구성 도구로 특징을 이루고 있습니다.
pcs
pcs는 Pacemaker의 모든 측면과 Corosync hearbeat daemon을 제어합니다. 커맨드라인 기반 프로그램인
pcs는 아래의 관리 태스크들을 발휘합니다:
- Pacemaker/Corosync cluster를 생성하고 구성
- 실행 상태에서 클러스터의 구성을 수정
- 클러스터 시작, 중지, 상태 정보 출력 등을 비롯하여 Pacemaker와 Corosync를 원격으로 구성

11
1.2.2. Pacemaker Configuration and Management Tools
pcs-gui
Pacemaker/Corosync 클러스터 생성 및 구성을 위한 그래피컬한 사용자 인터페이스.
커맨드 기반 pcs 유틸리티와 동등한 기능성을 가짐 ▼ RHEL7의 pcs-gui 화면

12
2. Cluster 운영 기본
2.1. Topology
2.2. Cluster Infrastructure 점검
2.3. Cluster 시작 및 검증
2.4. The pcs Command Line Interface 기본
2.5. 자주 사용되는 pcs Command

13
2.1. Topology
hostname : node1 hostname : node2
service network
heartbeat network
fencing device network
111.111.111.10192.168.0.1010.0.0.110
10.0.0.10
111.111.111.20 192.168.0.20 10.0.0.120
10.0.0.20
Storage
1G Ethernet Switch
10G Ethernet Switch
San Switch

14
클러스터 서비스를 정상적으로 구동하기 위해서는 클러스터 인프라가 정상적으로 준비되어 있어야 합니다.
아래 요소들을 필히 체크한 뒤 클러스터를 구동해야 합니다. 클러스터 구동 뿐만 아니라 운영 중에도 아래
요소들 중 하나라도 문제가 생기면 노드 장애 시 올바른 failover가 이루어지는 것이 보증되지 않습니다.
FQDN or hostname – 클러스터는 노드들을 FQDN or hostname으로 식별합니다.
Network – 클러스터 노드 간 통신은 TCP/IP 기반으로 이루어집니다.
Shared volume – 모든 클러스터 노드들에 물리적으로 연결되는 볼륨으로, 실시간으로 변경되는
데이터는 이 볼륨에 위치시켜야 합니다.
NTP – 클러스터와 같은 멀티 노드 아키텍처에서 노드 간 시각 동기화는 필수적입니다.
Firewall – 클러스터 통신에 사용되는 TCP/UDP 포트가 노드 간 open되어 있어야 합니다.
STONITH(fencing device) – 클러스터 노드에 장애 발생 시 장애 노드에 의한 shared volume의 data
corruption을 방지하기 위해 전원을 차단하는 방법 등으로 장애 노드의 shared volume 액세스를
차단하는 장치입니다.

15
2.2.1. FQDN or hostname
/etc/hosts 구성 및 확인
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
111.111.111.10 node1
111.111.111.30 cluster-svc
111.111.111.20 node2
# HA heartbeat
192.168.0.10 node1-HB
192.168.0.20 node2-HB
# HP iLO
10.0.0.10 node1-CO
10.0.0.20 node2-CO
2.2. Cluster Infrastructure 점검 2. Cluster 운영 기본

16
2.2.2. Network
네트워크 인터페이스 link status 및 ip address 확인 – node1
[root@node1 ~]# ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
2: eno1: <BROADCAST,MULTICAST,SLAVE,UP,LOWER_UP> mtu 1500 qdisc mq master
bond2 state UP qlen 1000
link/ether 3c:a8:2a:14:03:c0 brd ff:ff:ff:ff:ff:ff
4: eno2: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN qlen 1000
5: ens1f0: <BROADCAST,MULTICAST,SLAVE,UP,LOWER_UP> mtu 1500 qdisc mq master
link/ether 00:11:0a:68:92:38 brd ff:ff:ff:ff:ff:ff
link/ether 5c:b9:01:89:5d:6d brd ff:ff:ff:ff:ff:ff
link/ether 5c:b9:01:89:5d:6e brd ff:ff:ff:ff:ff:ff
10: eno52: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP qlen
1000
link/ether 5c:b9:01:89:5d:6f brd ff:ff:ff:ff:ff:ff
inet 10.0.0.110/24 brd 10.146.31.255 scope global eno52
inet6 fe80::5eb9:1ff:fe89:5d6f/64 scope link
14: bond0: <BROADCAST,MULTICAST,MASTER,UP,LOWER_UP> mtu 1500 qdisc noqueue
state UP
inet 111.111.111.10/24 brd 45.112.1.255 scope global bond0
inet6 fe80::211:aff:fe68:9238/64 scope link
state UP
state UP
inet6 fe80::3ea8:2aff:fe14:3c0/64 scope link
[root@node1 ~]#

17
2.2.2. Network
네트워크 인터페이스 link status 및 ip address 확인 – node2
link/ether 3c:a8:2a:13:49:34 brd ff:ff:ff:ff:ff:ff
4: ens1f0: <NO-CARRIER,BROADCAST,MULTICAST,SLAVE,UP> mtu 1500 qdisc mq master
bond0 state DOWN qlen 1000
link/ether 00:11:0a:68:8a:a0 brd ff:ff:ff:ff:ff:ff
link/ether 5c:b9:01:89:62:8d brd ff:ff:ff:ff:ff:ff
link/ether 5c:b9:01:89:62:8e brd ff:ff:ff:ff:ff:ff
10: eno52: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP qlen
1000
link/ether 5c:b9:01:89:62:8f brd ff:ff:ff:ff:ff:ff
inet 10.0.0.120/24 brd 10.146.31.255 scope global eno52
inet6 fe80::5eb9:1ff:fe89:628f/64 scope link
state UP
inet6 fe80::211:aff:fe68:8aa0/64 scope link
state UP
inet6 fe80::211:aff:fe68:8aa1/64 scope link
state UP
inet6 fe80::3ea8:2aff:fe13:4934/64 scope link
[root@node2 ~]#

18
2.2.2. Network
routing table 확인
[root@node1 ~]# route -n
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
0.0.0.0 111.111.111.1 0.0.0.0 UG 0 0 0 bond0
10.0.0.0 0.0.0.0 255.255.255.0 U 0 0 0 eno52
111.111.111.0 0.0.0.0 255.255.255.0 U 0 0 0 bond0
172.16.88.0 0.0.0.0 255.255.255.0 U 0 0 0 bond1
192.168.0.0 0.0.0.0 255.255.255.0 U 0 0 0 bond2
[root@node1 ~]#
[root@node2 ~]# route -n
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
0.0.0.0 111.111.111.1 0.0.0.0 UG 0 0 0 bond0
10.0.0.0 0.0.0.0 255.255.255.0 U 0 0 0 eno52
111.111.111.0 0.0.0.0 255.255.255.0 U 0 0 0 bond0
172.16.88.0 0.0.0.0 255.255.255.0 U 0 0 0 bond1
192.168.0..0 0.0.0.0 255.255.255.0 U 0 0 0 bond2
[root@node2 ~]#

19
2.2.3. Shared volume
device-mapper multipath 구성 및 확인 – node1
[root@node1 ~]# multipath -ll
360060e8005bd75000000bd750000005f dm-12 HITACHI ,OPEN-V
size=14G features='0' hwhandler='0' wp=rw
`-+- policy='service-time 0' prio=1 status=active
|- 6:0:0:8 sdl 8:176 active ready running
`- 10:0:0:8 sdw 65:96 active ready running
360060e8005bd75000000bd750000005e dm-11 HITACHI ,OPEN-V
|- 6:0:0:7 sdk 8:160 active ready running
`- 10:0:0:7 sdv 65:80 active ready running
360060e8005bd75000000bd750000005d dm-8 HITACHI ,OPEN-V
|- 6:0:0:6 sdj 8:144 active ready running
`- 10:0:0:6 sdu 65:64 active ready running
360060e8005bd75000000bd750000005c dm-5 HITACHI ,OPEN-V
|- 6:0:0:5 sdi 8:128 active ready running
`- 10:0:0:5 sdt 65:48 active ready running
360060e8005bd75000000bd750000005b dm-2 HITACHI ,OPEN-V
|- 6:0:0:4 sdh 8:112 active ready running
`- 10:0:0:4 sds 65:32 active ready running
360060e8005bd75000000bd750000005a dm-10 HITACHI ,OPEN-V
|- 6:0:0:3 sdg 8:96 active ready running
`- 10:0:0:3 sdr 65:16 active ready running
360060e8005bd75000000bd7500000059 dm-3 HITACHI ,OPEN-V
|- 6:0:0:2 sdf 8:80 active ready running
`- 10:0:0:2 sdq 65:0 active ready running
|- 6:0:0:10 sdn 8:208 active ready running
`- 10:0:0:10 sdy 65:128 active ready running
|- 6:0:0:1 sde 8:64 active ready running
`- 10:0:0:1 sdp 8:240 active ready running
|- 6:0:0:9 sdm 8:192 active ready running
`- 10:0:0:9 sdx 65:112 active ready running
|- 6:0:0:0 sdd 8:48 active ready running
`- 10:0:0:0 sdo 8:224 active ready running
[root@node1 ~]#

20
device-mapper multipath 구성 및 확인 – node2
[root@node2 ~]# multipath -ll
360060e8005bd75000000bd750000005f dm-12 HITACHI ,OPEN-V
|- 6:0:0:8 sdl 8:176 active ready running
`- 10:0:0:8 sdw 65:96 active ready running
360060e8005bd75000000bd750000005e dm-11 HITACHI ,OPEN-V
|- 6:0:0:7 sdk 8:160 active ready running
`- 10:0:0:7 sdv 65:80 active ready running
360060e8005bd75000000bd750000005d dm-8 HITACHI ,OPEN-V
|- 6:0:0:6 sdj 8:144 active ready running
`- 10:0:0:6 sdu 65:64 active ready running
360060e8005bd75000000bd750000005c dm-5 HITACHI ,OPEN-V
|- 6:0:0:5 sdi 8:128 active ready running
`- 10:0:0:5 sdt 65:48 active ready running
360060e8005bd75000000bd750000005b dm-2 HITACHI ,OPEN-V
|- 6:0:0:4 sdh 8:112 active ready running
`- 10:0:0:4 sds 65:32 active ready running
360060e8005bd75000000bd750000005a dm-10 HITACHI ,OPEN-V
|- 6:0:0:3 sdg 8:96 active ready running
`- 10:0:0:3 sdr 65:16 active ready running
|- 6:0:0:2 sdf 8:80 active ready running
`- 10:0:0:2 sdq 65:0 active ready running
|- 6:0:0:10 sdn 8:208 active ready running
`- 10:0:0:10 sdy 65:128 active ready running
|- 6:0:0:1 sde 8:64 active ready running
`- 10:0:0:1 sdp 8:240 active ready running
|- 6:0:0:9 sdm 8:192 active ready running
`- 10:0:0:9 sdx 65:112 active ready running
|- 6:0:0:0 sdd 8:48 active ready running
`- 10:0:0:0 sdo 8:224 active ready running
[root@node2 ~]#

21
[root@node1 ~]# egrep -v '^$|^#' /etc/multipath.conf
defaults {
user_friendly_names no
find_multipaths yes
}
devices {
device {
vendor "HITACHI "
product "OPEN-V "
path_grouping_policy multibus
path_checker readsector0
path_selector "round-robin 0"
hardware_handler "0"
failback 15
rr_weight priorities
no_path_retry queue
}
}
[root@node1 ~]#
[root@node2 ~]# egrep -v '^$|^#' /etc/multipath.conf
defaults {
user_friendly_names no
find_multipaths yes
}
devices {
device {
vendor "HITACHI "
product "OPEN-V "
path_grouping_policy multibus
path_checker readsector0
path_selector "round-robin 0"
hardware_handler "0"
failback 15
rr_weight priorities
no_path_retry queue
}
}
[root@node2 ~]#
[root@node1 ~]# systemctl list-unit-files | grep multipathd
multipathd.service enabled
[root@node1 ~]#
[root@node2-HB ~]# systemctl list-unit-files | grep multipathd
multipathd.service enabled
[root@node2 ~]#
device-mapper multipath 구성 및 확인

22
LVM 확인
[root@node1 ~]# lvs
LV VG Attr LSize Pool Origin
Data% Meta% Move Log Cpy%Sync Convert
home vg00 -wi-ao---- 20.00g
root vg00 -wi-ao---- 30.00g
swap vg00 -wi-ao---- 16.00g
tmp vg00 -wi-ao---- 5.00g
var vg00 -wi-ao---- 20.00g
var_crash vg00 -wi-ao---- 149.86g
data4 vgha01 -wi-a----- 10.00g
data1 vgha01 -wi-a----- 100.00g
[root@node1 ~]#
[root@node2 ~]# lvs
LV VG Attr LSize Pool Origin
Data% Meta% Move Log Cpy%Sync Convert
home vg00 -wi-ao---- 20.00g
root vg00 -wi-ao---- 30.00g
swap vg00 -wi-ao---- 16.00g
tmp vg00 -wi-ao---- 5.00g
var vg00 -wi-ao---- 20.00g
var_crash vg00 -wi-ao---- 149.86g
data1 vgha01 -wi-a----- 100.00g
[root@node2 ~]#
lvs 커맨드 출력내용 중 클러스터 리소스로 사용되는 논리볼륨의 Attr 필드에 “a(activate)” tag가
존재하는지 확인합니다. 이 tag가 존재하여야 논리볼륨에 액세스 가능합니다.

23
2.2.4. NTP
시각 동기화 상태 확인
[root@node1 ~]# ntpq -p
remote refid st t when poll reach delay offset jitter
==============================================================================
*send.mx.cdnetwo 133.100.8.2 2 u 686 1024 377 4.666 -0.279 1.777
+dadns.cdnetwork 133.100.8.2 2 u 529 1024 377 3.465 0.770 2.449
[root@node1 ~]#
[root@node2 ~]# ntpq -p
remote refid st t when poll reach delay offset jitter
==============================================================================
*send.mx.cdnetwo 133.100.8.2 2 u 686 1024 377 4.666 -0.279 1.777
+dadns.cdnetwork 133.100.8.2 2 u 529 1024 377 3.465 0.770 2.449
[root@node2 ~]#

24
2.2.5. Firewall
방화벽 비활성화 여부 확인
[root@node1 ~]# iptables -nL
Chain INPUT (policy ACCEPT)
target prot opt source destination
Chain FORWARD (policy ACCEPT)
Chain OUTPUT (policy ACCEPT)
[root@node1 ~]# systemctl list-unit-files | grep firewalld
firewalld.service disabled
[root@node1 ~]#
[root@node2 ~]# iptables -nL
Chain INPUT (policy ACCEPT)
Chain FORWARD (policy ACCEPT)
Chain OUTPUT (policy ACCEPT)
[root@node2 ~]# systemctl list-unit-files | grep firewalld
firewalld.service disabled
[root@node2 ~]#

25
2.2.6. STONITH(fencing device)
node1에서 fence_ipmilan 도구로 fencing device(HP iLO4)에 인증 테스트
[root@node1 ~]# fence_ipmilan -P -a 10.0.0.10 -o status -v -l admin -p passwd
Executing: /usr/bin/ipmitool -I lanplus -H 10.0.0.10 -U admin -P passwd -p 623 -L ADMINISTRATOR chassis power status
0 Chassis Power is on
Status: ON
[root@node1 ~]#
Status: ON
[root@node1 ~]#
ipmilan auth requestipmilan auth request

26
2.2.6. STONITH(fencing device)
node2에서 fence_ipmilan 도구로 fencing device(HP iLO4)에 인증 테스트
Status: ON
[root@node2 ~]#
Status: ON
[root@node2 ~]#
ipmilan auth requestipmilan auth request

27
2.3.1. pcsd 서비스 시작 및 검증
[root@node1 ~]# systemctl start pcsd
[root@node1 ~]# systemctl status pcsd
pcsd.service - PCS GUI and remote configuration interface
Loaded: loaded (/usr/lib/systemd/system/pcsd.service; enabled)
Active: active (running) since Fri 2015-11-20 23:34:22 KST; 49s ago
Main PID: 638 (pcsd)
CGroup: /system.slice/pcsd.service
???€638 /bin/sh /usr/lib/pcsd/pcsd start
???€662 /bin/bash -c ulimit -S -c 0 >/dev/null 2>&1 ; /usr/bin/ruby -I/usr/lib/pcsd /usr/lib/pcsd/ssl.rb
???€663 /usr/bin/ruby -I/usr/lib/pcsd /usr/lib/pcsd/ssl.rb
Nov 20 23:34:22 node2.cluster.com systemd[1]: Started PCS GUI and remote configuration interface.
[root@node1 ~]#
Pacemaker를 컨트롤하기 위해 사용되는 pcs 커맨드라인 인터페이스를 사용하기 위해서는 클러스터
노드에 pcsd 서비스가 active상태여야 합니다.
[root@node1 ~]# systemctl list-unit-files | grep pcsd
pcsd.service enabled
[root@node1 ~]#
편의를 위해 시스템 시작 시 pcsd를 자동으로 activate하는 설정이 되어 있는지 확인합니다. Pacemaker
패키지 설치 당시 default로 enable 세팅되어 있습니다.
2.3. Cluster 시작 및 검증 2. Cluster 운영 기본

28
pcsd 서비스가 active 상태라면 이제 pcs 커맨드라인 인터페이스를 사용할 수 있습니다.
클러스터 노드가 모두 reboot된 상태에서 Pacemaker 클러스터 구동을 위한 명령어는 아래와 같습니다.
아무 노드에서 1회 실행합니다.
2.3.2. cluster 시작 및 검증
# pcs cluster start --all
특정 클러스터 노드만 reboot된 상태에서 해당 노드를 Pacemaker 클러스터에 join 시키기 위한
명령어는 아래와 같습니다. 아무 노드에서 1회 실행합니다.
# pcs cluster start <node>
2.3. Cluster 시작 및 검증 2. Cluster 운영 기본

29
[root@node1 ~]# pcs status
Cluster name: cluster
Last updated: Mon Nov 23 16:33:37 2015 Last change: Mon Nov 23 16:25:01 2015 by root via crm_resource on node1-HB
Stack: corosync
Current DC: node2-HB (version 1.1.13-a14efad) - partition with quorum
2 nodes and 8 resources configured
Online: [ node1-HB node2-HB ]
Full list of resources:
Resource Group: clustergroup
data1 (ocf::heartbeat:Filesystem): Started node1-HB
VirtualIP (ocf::heartbeat:IPaddr2): Started node1-HB
APP_SCRIPT (lsb:APP_SCRIPT.sh): Started node1-HB
node1-CO (stonith:fence_ilo4): Started node2-HB
PCSD Status:
node1-HB: Online
node2-HB: Online
Daemon Status:
corosync: active/disabled
pacemaker: active/disabled
pcsd: active/enabled
[root@node1 ~]#
2.3.3. cluster 및 resource 구동 상태 확인
cluster를 구동하였으면 cluster의 상태를 확인합니다.
# pcs status
2. Cluster 운영 기본2.3. Cluster 시작 및 검증
두 노드의 corosync, pacemaker
daemon이 모두 active 상태임을 의미하며
이 daemon들이 active되지 않으면
클러스터를 운영할 수 없습니다.
PCSD Status:
node1-HB: Online
node2-HB: Online
pcsd daemon이 active
상태임을 의미하며 pcs
command-line
인터페이스를 사용
가능합니다. Pacemaker
클러스터를 제어하기 위해
가장 먼저 선행되어야 할
조건입니다.

30
Stack: corosync
PCSD Status:
node1-HB: Online
node2-HB: Online
Daemon Status:
[root@node1 ~]#
cluster를 구동하였으면 cluster의 상태를 확인합니다.
# pcs status
Daemon Status:
① : daemon이 현재 active
② : 시스템 시작 시 disabled
(# systemctl disable <service name>)
① ②

31
active node에서 shared volume의 마운트 상태 및 VIP(Virtual IP), 어플리케이션 프로세스의 구동
상태를 확인합니다.
[root@node1 ~]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/vg00-root 30G 8.8G 22G 30% /
devtmpfs 63G 0 63G 0% /dev
tmpfs 63G 39M 63G 1% /dev/shm
tmpfs 63G 66M 63G 1% /run
tmpfs 63G 0 63G 0% /sys/fs/cgroup
(중략)
/dev/mapper/vg00-var_crash 150G 33M 150G 1% /var/crash
/dev/mapper/vgha01-data1 100G 5.8G 95G 6% /data1
/dev/mapper/vgha01-data2 10G 33M 10G 1% /data2
[root@node1 ~]#
(중략)
14: bond0: <BROADCAST,MULTICAST,MASTER,UP,LOWER_UP> mtu 1500
qdisc noqueue state UP
inet 111.111.111.30/24 brd 45.112.1.255 scope global secondary bond0
inet6 fe80::3ea8:2aff:fe14:3c0/64 scope link
[root@node1 ~]#
[root@node1 ~]# ps auxww

32
RRP(Redundant Ring Protocol)의 상태를 확인합니다. bond0 인터페이스에 할당된 111.111.111.0/24
네트워크를 Redundant Ring Protocol용 네트워크로 구성하였습니다.
# corosync-cfgtool -s
[root@node1 ~]# corosync-cfgtool -s
Printing ring status.
Local node ID 1
RING ID 0
id = 192.168.0.10
status = ring 0 active with no faults
RING ID 1
id = 111.111.111.10
status = ring 1 active with no faults
[root@node1 ~]#
RING ID 0 : heartbeat network
192.168.0.0/24
RING ID 1 : service network
111.111.111.0/24
node1 node2

33
2.4.1. Syntax
pcs 커맨드라인 syntax는 아래와 같습니다.
pcs <parameters>
pcs 커맨드와 함께 사용되는 parameter는 많은 level을 갖고 있습니다. 아래의 syntax를 적용할 수
있습니다.
pcs <parameter1> <parameter2>
pcs 커맨드라인 help는 문서화가 잘 되어 있고 매우 유용합니다. depth에 관해서는 모든 level에서 pcs
커맨드 사용에 관한 도움을 받을 수 있습니다.
pcs <parameter1> <parameter2> --help
# pcs resource –h
Usage: pcs resource [commands]...
Manage pacemaker resources
Commands:
show [resource id] [--all]
Show all currently configured resources or if a resource is specified
show the options for the configured resource. If --all is specified
resource options will be displayed
start <resource id>
Start resource specified by resource_id

34
2.4.2. Parameters
pcs 커맨드라인 도구는 아래의 액션들이 이루어지도록 합니다.
cluster
cluster 파라미터는 클러스터에서 사용을 원하는 노드를 인증하는 것을 허용합니다. 또한 클러스터 timeout,
redundant ring protocols, Quorum 옵션 구성을 허용합니다.
resource
resource 파라미터는 신규 클러스터 리소스를 추가하는 것을 허용합니다. 또한 클러스터 리소스를 클러스터
범위 내에서 enabling, disabling, moving하는 것을 허용합니다.
stonith
stonith 파라미터는 클러스터에서 사용되기 위한 fencing 장치 구성을 가능하게 하고 fence 장치와 함께
클러스터 노드를 관리합니다.
constraints
constraints 파라미터는 클러스터 리소스를 그룹화하는 것을 가능하게 합니다; 클러스터 리소스, start와
stop 순서, 선호되는 리소스 위치(노드)를 구성할 수 있습니다.

35
2.4.2. Parameters
property
property 파라미터는 Quorum 손실, STONITH가 없는 등의 특수한 상황에서의 클러스터 동작을 구성하도록
허용합니다.
status
status 파라미터는 현재의 클러스터와 리소스 상태를 보여 줍니다.
config
config 파라미터는 사용자 친화적인 형태로 완전한 클러스터 구성을 출력합니다.

36
Stack: corosync
PCSD Status:
node1-HB: Online
node2-HB: Online
Daemon Status:
[root@node1 ~]#
2. Cluster 운영 기본2.5. 자주 사용되는 pcs Command
# pcs status

37
2.5.2. cluster 구성 정보 상세 확인
2. Cluster 운영 기본2.5. 자주 사용되는 pcs Command
[root@node1 ~]# cat /var/lib/pacemaker/cib/cib.xml
<cib crm_feature_set="3.0.10" validate-with="pacemaker-2.3" epoch="212" num_updates="0" admin_epoch="0" cib-last-written="Mon Dec 7
15:43:37 2015" update-origin="node1-HB" update-client="cibadmin" update-user="root" have-quorum="1" dc-uuid="2">
<configuration>
<crm_config>
<cluster_property_set id="cib-bootstrap-options">
<nvpair id="cib-bootstrap-options-have-watchdog" name="have-watchdog" value="false"/>
<nvpair id="cib-bootstrap-options-dc-version" name="dc-version" value="1.1.13-a14efad"/>
<nvpair id="cib-bootstrap-options-cluster-infrastructure" name="cluster-infrastructure" value="corosync"/>
<nvpair id="cib-bootstrap-options-cluster-name" name="cluster-name" value="cluster"/>
<nvpair id="cib-bootstrap-options-stonith-enabled" name="stonith-enabled" value="true"/>
<nvpair id="cib-bootstrap-options-default-resource-stickiness" name="default-resource-stickiness" value="1000"/>
</cluster_property_set>
</crm_config>
<nodes>
<node id="1" uname="node1-HB"/>
<node id="2" uname="node2-HB">
<instance_attributes id="nodes-2"/>
</node>
</nodes>
<resources>
(이하 생략)
# cat /var/lib/pacemaker/cib/cib.xml
클러스터 구성 변경 시 /var/lib/pacemaker/cib/cib.xml 파일을
직접 편집하지 마십시오. 오직 pcs 커맨드라인 인터페이스를
통해서 클러스터 구성을 변경해야 합니다.

38
2.5.3. 모든 resource를 다른 node로 수동 move하기
# pcs cluster standby <active node>
standby mode는 모든 resource를 다른 node로 move하는 데에 사용될 수 있습니다. 현재 모든
resource들이 active 중인 node는 standby mode로 전환 시 모든 resource들이 다른 node로 move되며
standby mode로 전환됩니다.
standby mode 상태인 original active node는 unstandby mode로 설정하여 원상 복구합니다.
# pcs cluster unstandby <original active node>

39
2.5.4. 단일 resource를 다른 node로 수동 move하기
Rgmanager 기반 RHEL6 Cluster와는 달리 Pacemaker 기반 RHEL7 클러스터는 단일 resource를 다른
노드로 move 시 약간의 주의가 필요합니다. pcs의 파라미터 중 resource constraints에 대한 이해가
필요합니다.
# pcs resource move <resource id> [destination node]
resource move 시엔 주로 location constraints만을 주의하면 됩니다.
move 대상으로 resource group 내 아무 resource id를 명시합니다. resource group id를 명시할 수
있는 방법은 제공되지 않습니다. 하나의 resource id만을 명시하여 move하면 resource group의
모든 resource가 move됩니다.
location constraints – resource를 실행할 수 있는 node를 결정
order constraints - resource를 실행할 곳에 실행 순서를 결정
colocation constraints – 다른 resource와 연계하여 어디에 위치시킬 것인지 결정
constraints 종류
resource를 move 시 주의사항

40
2.5. 자주 사용되는 pcs Command 2. Cluster 운영 기본
resource를 다른 클러스터 노드로 move하면 새로운 location constraints가 해당 resource에 자동
생성되며 이는 이후의 manual move 및 node fail로 인한 failover/failback에 영향을 주므로 삭제할
필요가 있습니다.
move 시 destination node 명시 유무에 따라 location constraints score 변화에 차이가 있습니다.
☞ Step 1. move 대상 resource에 “INFINITY”또는 “-INFINITY” score를 갖는 location
constraints가 있는지 확인하여 있다면 해당 location constraints 삭제

41
[root@node1 ~]# pcs resource move data1 node2-HB
[root@node1 ~]# pcs constraint --full
Location Constraints:
Resource: APP_SCRIPT
Enabled on: node1-HB (score:100) (id:location-APP_SCRIPT-on-node1-HB)
Resource: VirtualIP
Enabled on: node1-HB (score:100) (id:location-VirtualIP-on-node1-HB)
Resource: data1
Enabled on: node1-HB (score:100) (id:location-data1-on-node1-HB)
Enabled on: node1-HB (score:INFINITY) (role: Started) (id:cli-prefer-data1)
Resource: data2
Resource: data3
Resource: data4
Ordering Constraints:
Colocation Constraints:
[root@node1 ~]#
▼ 2노드 클러스터에서 destination node를 명시하고 move 시 추가되는 location constraints
node1-HB -> node2-HB 로 manual move 후 role:Started가 INFINITY 스코어로 node2-HB 노드에
Enabled 되었다는 의미로 이 constraint를 그대로 두면 다음에 해당 resource를 같은 방법으로 다른
노드에 manual move하기는 자유로우나 resource group 내 다른 resource를 manual move 시 이
constraint의 영향 때문에 manual move가 지속적으로 방지됩니다. resource를 manual move하는 데에
영향을 주는 constraint이므로 삭제를 권장합니다.

42
[root@node1 ~]# pcs resource move data1
Resource: VirtualIP
Resource: data1
Disabled on: node1-HB (score:-INFINITY) (role: Started) (id:cli-ban-data1-on-node1-HB)
Resource: data2
Resource: data3
Resource: data4
[root@node1 ~]#
▼ 2노드 클러스터에서 destination node를 명시하지 않고 move 시 추가되는 location constraints
node1-HB -> node2-HB 로 manual move 후 role:Started가 -INFINITY 스코어로 node1-HB 노드에
Disabled 되었다는 의미로 이 constraint를 그대로 두면 다음에 해당 resource를 같은 방법으로 이전의
active 노드(node1-HB)에 manual move 및 failback이 방지되며 resource group 내 다른 resource를
manual move 시 이 constraint의 score 영향 때문에 manual move가 지속적으로 방지됩니다.
resource를 manual move하는 데에 영향을 주는 constraint이므로 삭제를 권장합니다.

43
Resource: VirtualIP
Resource: data1
Disabled on: node1-HB (score:-INFINITY) (role: Started) (id:cli-ban-data1-on-node1-HB)
Resource: data2
Resource: data3
Resource: data4
[root@node1 ~]#
resource를 manual move하기 전 삭제하고자 하는 location constraints id를 확인합니다.
해당 location constraints id를 삭제합니다.
[root@node1 ~]# pcs constraint remove cli-ban-data1-on-node1-HB
이제 resource를 다른 노드로 자유롭게 move할 수 있습니다.
또는 pcs resource clear 커맨드를 사용합니다(권장).
[root@node1 ~]# pcs resource clear data1

44
☞ Step 2. 원하는 노드에 resource를 manual move
☞ Step 3. original active node에 resource를 다시 manual move하고 싶다면 해당 resource의
constraint를 확인(1의 과정 반복)하고 clear
[root@node1 ~]# pcs resource move <resource id> [destination node]
[root@node1 ~]# pcs resource clear <resource id>
☞ Step 4. original active node에 resource를 manual move
[root@node1 ~]# pcs resource move <resource id> [destination node]
단일 resource가 아닌 모든 resource를 move 시 pcs cluster standby 커맨드 사용을 권장합니다.
pcs resource move 커맨드에 의해 생성된 constraints 제거 시 pcs resource clear 를 사용
권장합니다.

45
3. Cluster 운영 실무
3.1. 모니터링 및 유지보수
3.2. 장애처리

46
3.1.1. 기본 모니터링
3. Cluster 운영 실무3.1. 모니터링 및 유지보수
# pcs status
형식)
목적 RHEL7 클러스터 인프라 구성 상태를 정확히 확인하고 주기적으로 체크해야 할 사항을 리스트
대상 RHEL7 클러스터 인프라 전체
조치 개요 리소스 정보, Stonith 정보 등을 주기적으로 확인
조치 상세 클러스터 정보 확인에는 pcs status 를 이용합니다.

47
Stack: corosync
PCSD Status:
node1-HB: Online
node2-HB: Online
Daemon Status:
[root@node1 ~]#
3. Cluster 운영 실무3.1. 모니터링 및 유지보수
3.1.1. 기본 모니터링

48
3.1.2. HA 노드 하드웨어 유지보수
3.1. 모니터링 및 유지보수 3. Cluster 운영 실무
목적
클러스터 노드의 하드웨어 펌웨어나 커널/보안 업데이트 시 필요한 노드 reboot 시 서비스 downtime 최
소화
대상 RHEL7 클러스터의 모든 노드
조치 개요 pcs 커맨드라인의 standby/unstandby mode를 이용
조치 상세
Pacemaker는 중요 클러스터 노드를 standby mode로 전환하는 것을 허용합니다. 클러스터 노드가
standby mode가 되면 그 노드는 클러스터 리소스와 서비스를 더 이상 제공할 수 없습니다. standby
mode는 클러스터 노드의 유지보수 동작에 유용합니다.
# pcs cluster standby [<node>] | --all
형식)
# pcs cluster unstandby [<node>] | --all

49
Active node Standby node Active node Standby node
Active node
Active nodeStandby node
Active node Standby node
Active node
# pcs cluster standby node2-HB
# pcs cluster start node2-HB
# pcs cluster unstandby node2-HB
# shutdown -r now
# shutdown -r now # pcs cluster start node1-HB
standby mode
resources movement
범
례

50
Active nodeStandby nodeActive node Standby node
Active nodeStandby node Active nodeStandby node
standby mode
resources movement
범
례

51
목적
active node가 fail되어 모든 resource가 original standby node로 failover되어 운영 중인 상태에서
current active node fail 시 resource가 failback되지 않도록 함, original active node로는 오직 manual
failback만이 가능하도록 함
대상 failover되었을 때의 original active node에 설정
조치 개요
original standby node에 resource가 failover되어 있는 상태에서 pcs constraint 커맨드로 original active
node에 –INFINITY 스코어의 location constraint를 설정합니다.
조치 상세
original standby node에 resource가 failover되어 있는 상태에서 original active node를 클러스터에 re-
join 시킨 후 모든 resource에 대해 original active node에 resource move를 방지하는 constraint 설정을
합니다.
# pcs constraint location add <id> <resource id> <original active node> -INFINITY
이제 original standby node를 fail시키면 모든 resource는 failback되지 않고 Stopped status를 유지합니
다. fail시킨 original standby node를 클러스터에 re-join시키면 모든 resource가 auto start됩니다.
※ resource-stickiness value가 INFINITY가 아니되, location constraints score보다 높도록 사전 설정되
어 있는 시스템에만 위 조치 방법이 유효합니다.
https://access.redhat.com/solutions/739813
# pcs constraint location add <id> <resource id> <original active node> -INFINITY
형식)
3.1. 모니터링 및 유지보수
3.1.3. never fallback 설정 및 운영

52
Active node Standby node Active node
# pcs constraint location add location-data1-on-node1-HB data1 node1-HB -INFINITY
# pcs constraint location add location-VirtualIP-on-node1-HB VirtualIP node1-HB -INFINITY
Active nodeStandby nodeStandby node
Stopped
3.1.3. never fallback 설정 및 운영 standby mode
resources movement
범
례
node failure

53
Standby node
Stopped
Active node Standby node# pcs cluster unstandby node2-HB
# pcs constraint location remove location-data1-on-node1-HB
# pcs constraint location remove location-VirtualIP-on-node1-HB
3.1.3. never fallback 설정 및 운영
원복 완료
standby mode
resources movement
범
례
node failure

54
3. Cluster 운영 실무3.2. 장애 처리
3.2.1. on-fail=ignore 옵션과 함께 생성한 resource가 fail되었을 시 복구
목적
on-fail=ignore 옵션과 함께 생성한 resource가 fail되었을 시 해당 resource를 복구한 후 클러스터에 올바
르게 enable시키기
대상 RHEL7 클러스터의 모든 resource (파일시스템, VIP, 어플리케이션)
조치 개요 resource 복구 후 crm_resource –C(clear) 커맨드 이용하여 error message를 clear
조치 상세
파일시스템 / VIP / 어플리케이션이 fail되었을 시 해당 resource의 fail을 ignore하도록 설정한
Pacemaker 클러스터에서는 pcs status로 확인 시 “Failed actions:” 섹션에 fail 사유가 출력됩니다. 해
당 resource를 복구한 뒤 crm_resource –C(clear) 커맨드 이용하여 error messages를 clear합니다.
파일시스템 복구 : mount <device name> <mount point>
VIP 복구 : ip addr add <ip address/netmask> dev <interface>
어플리케이션(LSB Compliant Script) 복구 : /etc/init.d/<script name> start
이후 아래 커맨드로 error messages를 clear
# crm_resource –C
# crm_resource –C
형식)
# vi /var/lib/pacemaker/cib/cib.xml
※ resource의 on-fail="ignore" 옵션 설정 유무 확인 시 /var/lib/pacemaker/cib/cib.xml 참고

55
Last updated: Mon Nov 23 16:33:37 2015
Last change: Mon Nov 23 16:25:01 2015 by root via crm_resource on node1-HB
Stack: corosync
data1 (ocf::heartbeat:Filesystem): Started node1-HB (failure ignored)
PCSD Status:
node1-HB: Online
node2-HB: Online
Daemon Status:
[root@node1 ~]#
문제 해결 : fail된 파일시스템의 문제를 해결하였으면 정상적으로 mount되어 있는
상태에서 위의 에러메시지를 clear합니다.
# crm_resource –C
만약 fail된 파일시스템 resource 문제를 해결하지 않은 상태에서 위 커맨드를 실행하면
해당 resource는 물론 resource group 내 다른 리소스들까지 모두 fail되므로 주의합니다.
3.2. 장애 처리
3.2.1. 리소스가 fail되었을 경우
문제 설명 : “data1_monitor_60000”의 의미는 resource id가 data1인 파일시스템
리소스가 fail(여기서는 강제 umount하여 임의로 fail 유발)되어 나타난 에러메시지로
60000은 “interval 60 seconds(default)”를 의미합니다.
“failure ignored”는 “ on-fail=ignore (resource fail이 발생하더라도 failover를
일으키지 않고 무시하도록 하는 설정)”옵션을 주어 생성한 리소스에 실제 fail이
발생했을 경우 나타나는 메시지입니다.

56
3. Cluster 운영 실무3.2. 장애 처리
목적 offline status로 확인되는 노드를 클러스터에 re-join시켜 서비스 고가용성을 확보
대상 RHEL7 클러스터의 모든 노드
조치 개요
클러스터 노드가 fail되어 fencing된 후 pcs status 커맨드로 offline status 확인될 시 해당 노드의 (물리적)
문제를 해결하고 클러스터에 re-join시킨다
조치 상세
resource level의 장애가 아닌 cluster level의 장애가 노드에 발생하면 해당 노드는 STONITH 장치에 의
해 fencing(default: reboot)됩니다. 해당 노드의 (물리적) 문제를 해결한 뒤 클러스터에 re-join시키기 위해
pcs 커맨드라인의 cluster 파라미터를 이용합니다.
# pcs cluster start <node> | --all
형식)
3.2.2. offline 상태의 node를 클러스터에 re-join

57
Stack: corosync
Node node2-HB (2): OFFLINE
Online: [ node1-HB ]
data1 (ocf::heartbeat:Filesystem): Started node1-HB (failure ignored)
PCSD Status:
node1-HB: Online
node2-HB: Online
Daemon Status:
[root@node1 ~]#
node2가 어떤 원인으로 인해 fail되어 OFFLINE 상태로 있습니다.
원인 분석 및 조치 후 클러스터 노드에 re-join 시키기 위해서 아래와 같이
조치합니다.
3.2. 장애 처리
3.2.2. offline 상태의 node를 클러스터에 re-join

58
4. 부록
4.1. rgmanager 클러스터 vs pacemaker 클러스터
4.2. 구축용 커맨드 모음
4.3. 운영용 커맨드 모음
4.4. Bug Errata

59
4.1. rgmanager 클러스터 vs pacemaker 클러스터 4. 부록
Configuration
Component
rgmanager Pacemaker
Cluster
configuration file
각 노드의 클러스터 구성 파일은
/etc/cluster/cluster.conf이며 이는 필요 시 직접
편집될 수 있습니다. 다른 방법을 원하면 클러
스터 구성을 정의하기 위해 luci 또는 ccs 인터
페이스를 사용하십시오.
Cluster와 Pacemaker 구성 파일은
/etc/corosync/corosync.conf 와
/var/lib/pacemaker/cib/cib.xml 입니다. 이 파일을
직접 편집하지 마십시오; 대신 pcs 또는 pcsd 인
터페이스를 사용하십시오.
Network setup 클러스터를 구성하기 전에 IP 주소와 SSH를 구
성하십시오.
클러스터를 구성하기 전에 IP 주소와 SSH를 구성
하십시오.
Cluster
Configuration
Tools
luci, ccs 커맨드, cluster.conf 파일 manual 편
집
pcs 또는 pcsd
Installation rgmanager 설치(ricci, luci, resource, fencing
agents에 의존성을 가짐). 필요 시 lvm2-cluster
와 gfs2-utils 설치
pcs와 fencing agents 설치. 필요 시 lvm2-cluster
와 gfs2-utils 설치
출처
https://access.redhat.com/documentation/en-US/Red_Hat_Enterprise_Linux/7/html/High_Availability_Add-On_Reference/ap-ha-rhel6-rhel7-HAAR.html

60
4. 부록
Configuration
Component
rgmanager Pacemaker
Starting cluster
services
아래의 과정대로 클러스터 서비스 시작과 활성
화
1. cman, rgmanager 시작. 필요 시 clvmd와
gfs2 시작합니다.
2. luci 인터페이스 사용 시 ricci 시작하고 luci
시작합니다.
3. chkconfig on 실행하여 각 노드 실행 시에 시
작되도록 합니다.
선택사항으로 cluster service를 시작하고 활성
화를 위해 ccs --start를 실행할 수 있습니다
아래의 과정대로 클러스터 서비스 시작과 활성화
1. 모든 노드에서 systemctl start pcsd.service 실
행한 뒤 각 노드 실행 시에 시작되도록 하기 위해
systemctl enable pcsd.service 실행합니다.
2. corosync와 pacamaker를 시작하기 위해 클러
스터의 한 노드에서 pcs cluster start --all 실행합
니다.
Controlling
access to
configuration
tools
luci를 위해, root 사용자나 luci 퍼미션을 가진
사용자는 luci에 액세스할 수 있습니다. 모든 액
세스는 노드를 위한 ricci 패스워드를 필요로 합
니다.
pcsd gui는 hacluster 사용자의 인증을 요구합니
다. hacluster는 공통 시스템 사용자입니다. root
사용자는 hacluster의 패스워드를 세팅할 수 있습
니다.

61
4. 부록
Configuration
Component
rgmanager Pacemaker
Cluster creation luci나 ccs 또는 cluster.conf를 직접 수정하는
방법을 써서 클러스터의 이름을 짓고 어떤 노드
를 클러스터에 포함시킬지 정의하십시오.
pcs cluster setup 커맨드나 pcsd Web UI를 써서
클러스터의 이름을 짓고 노드를 포함시키십시오.
pcs cluster node add 커맨드나 pcsd Web UI를
사용하여 여러분은 존재하는 클러스터에 노드를
추가할 수 있습니다.
Propagating
cluster
configuration to
all nodes
luci를 써서 cluser 구성 시, propagation은 자동
으로 이루어집니다. ccs를 쓸 시, --sync 옵션을
사용하십시오. 여러분은 또한 cman_tool
version –r 커맨드를 사용할 수 있습니다.
클러스터와 Pacemaker 구성 파일인
corosync.conf와 cib.xml의 propagation은 cluster
setup 또는 노드나 resource 추가 시 자동으로 이
루어집니다.

62
[root@node1 ~]# yum install pcs fence-agents-all
[root@node2 ~]# yum install pcs fence-agents-all
4.2. 구축용 커맨드 모음 4. 부록
클러스터용 패키지 설치
[root@node1 ~]# firewall-cmd --permanent --add-service=high-availability
[root@node1 ~]# firewall-cmd --add-service=high-availability
[root@node1 ~]# firerewall-cmd --list-services --zone=public
[root@node2 ~]# firewall-cmd --permanent --add-service=high-availability
[root@node2 ~]# firewall-cmd --add-service=high-availability
[root@node2 ~]# firerewall-cmd --list-services --zone=public
firewalld 설정 – firewalld를 사용할 경우
[root@node1 ~]# systemctl stop firewalld ; systemctl firewalld ; systemctl status firewalld
[root@node2 ~]# systemctl stop firewalld ; systemctl firewalld ; systemctl status firewalld
firewalld 설정 – firewalld를 사용하지 않을 경우
For TCP: Ports 2224, 3121, 21064
For UDP: Ports 5405
For DLM (if using the DLM lock manager with clvm/GFS2): Port 21064

63
4.2. 구축용 커맨드 모음 4. 부록
[root@node1 ~]# passwd hacluster
[root@node2 ~]# passwd hacluster
hacluster(pcs 관리자 계정) 계정의 패스워드를 모든 노드에 설정
[root@node1 ~]# systemctl start pcsd.service ; systemctl enable pcsd.service
[root@node2 ~]# systemctl start pcsd.service ; systemctl enable pcsd.service
모든 노드의 pcsd daemon 시작 및 enable

64
111.111.111.10 node1
111.111.111.30 cluster-svc
111.111.111.20 node2
# HA heartbeat
192.168.0.10 node1-HB
192.168.0.20 node2-HB
# HP iLO
10.0.0.10 node1-CO
10.0.0.20 node2-CO
4. 부록
모든 노드에 클러스터용 네트워크 정보를 /etc/hosts에 동일하게 설정
[root@node1 ~]# pcs cluster auth node1-HB node2-HB
클러스터 각 노드의 hacluster 계정 인증
[root@node1 ~]# pcs cluster setup --start --name cluster node1-HB,node1 node2-HB,node2
RRP(Redundant Ring Protocol)를 사용하도록 cluster setup

65
4. 부록
STONITH 설정 - HP iLO4를 사용할 경우
[root@node1 ~]# pcs stonith create node1-CO fence_ilo4 ipaddr="10.0.0.10" login="admin"
passwd="passwd" pcmk_host_list="node1-CO" action=reboot op monitor interval=30s
[root@node1 ~]# pcs stonith create node2-CO fence_ilo4 ipaddr="10.0.0.20" login="admin"
passwd="passwd" pcmk_host_list="node2-CO" action=reboot op monitor interval=30s
STONITH 설정 - Red Hat Enterprise Virtualization Manger 3.4 Fencing을 사용할 경우
[root@node1 ~]# pcs stonith create rhevfence fence_rhevm pcmk_host_list="node1,node2"
pcmk_host_map="node1:osc-RHEL7.1_HA_node1;node2:osc-RHEL7.1_HA_node2"
ipaddr=192.168.0.250 login=admin@internal passwd=passwd ssl=1 ssl_insecure=1
action=reboot op monitor interval=30s
※ How to configure stonith agent 'fence_rhevm' in RHEL cluster with pacemaker.
※ fence_rhevm fails to fence a node with error "Peer's certificate issuer has been marked as not
trusted by the user" or "No route to host" in RHEL 7

66
4. 부록
resource 추가 – FileSystem (on-fail=ignore 옵션 추가)
[root@node1 ~]# pcs resource create data1 Filesystem
device=/dev/vgha01/data1 directory=/data1 fstype=xfs --group clustergroup op monitor on-fail=ignore
[root@node1 ~]# pcs resource create VirtualIP IPaddr2 ip=111.111.111.30 cidr_netmask=24
nic=bond0 --group clustergroup op minitor interval=30s
resource 추가 – VIP
[root@node1 ~]# pcs resource create APP_SCRIPT lsb:APP_SCRIPT.sh --group clustergroup
op monitor on-fail=ignore
resource 추가 – LSB-compliant custom script (on-fail=ignore 옵션 추가)
※ 스크립트를 /etc/init.d/ 에 위치시킨 뒤 실행해야 한다

67
4. 부록
[root@node1 ~]# pcs stonith update node1-CO delay=5
heartbeat network와 fence network가 분리된 환경에서 Fence Races 또는 Fence Death 예방하기 위해
Delaying Fencing 적용
※ Delaying Fencing in a Two Node Cluster to Prevent Fence Races or "Fence Death" Scenarios
[root@node1 ~]# pcs property set default-resource-stickiness=1000
[root@node1 ~]# pcs constraint location add location-data1-on-node1-HB data1 node1-HB 100
[root@node1 ~]# pcs constraint location add location-VirtualIP-on-node1-HB VirtualIP node1-HB 100
[root@node1 ~]# pcs constraint location add location-APP_SCRIPT-on-node1-HB APP_SCRIPT node1-HB 100
auto failback 방지 설정(location constraints 설정)
※ 'pcs resource move' does not have any effect when using resource-stickiness=infinity on a
resource or resource group with pacemaker in RHEL 6 or 7

68
4. 부록
# pcs status
클러스터 동작 상태 확인
# cat /var/lib/pacemaker/cib/cib.xml
클러스터 구성 정보 확인
# pcs cluster standby <current active node>
resource를 move하기
# pcs cluster unstandby <current standby node>
# pcs cluster start <current offline node> | --all
offline 상태의 노드를 cluster에 re-join

69
4. 부록
# pcs constraint --full
resource constraints 정보 확인
# pcs constraint –full
# pcs constraint remove <id>
resource constraints 중 원하는 constraints 삭제
# systemctl start pcsd
pcsd 서비스 시작
※ constraints 정보는 임의로 변경하지 마십시오. 필요 시 전문가의 가이드를 받거나 constraints에 대해
충분히 이해한 뒤에 적용하십시오.
# pcs resource update <resource id> <options>
resource 옵션 변경

70
4. 부록4.4. Bug Errata
증상
RHEL 7.1 High Availability Add On의 default 패키지 설치된 환경에서 fencing 실패
# fence_ipmilan -P -a 10.0.0.10 -o status -v -l admin -p passwd
Executing: /usr/bin/ipmitool -I lanplus -H 10.0.0.10 -U admin -P passwd -C 0 -p 623 -L
ADMINISTRATOR chassis power status
1 Error in open session response message : no matching cipher suite
Error: Unable to establish IPMI v2 / RMCP+ session Unable to get Chassis Power Status
Failed: Unable to obtain correct plug status or plug is not available
환경
하드웨어 :
HP ProLiant DL380 Gen9
운영체제 및 패키지:
Red Hat Enterprise Linux 7.1 with the High Availability Add On or before
fence-agents-ipmilan-4.0.11-10.el7.x86_64 or before
원인
RHEL 7 Update 1에서, ipmitools가 새로운 기본 cipher를 사용하도록 업데이트되었습니다. 업데이트된
이번 cipher는 특정 하드웨어와 호환되지 않을 수 있어 fence_ipmilan은 관리자나 사용자가 cipher 값을
지정하여 ipmitools을 사용하는 방법을 더 이상 필요로 하지 않습니다.
bug fix 전 cipher의 default 값은 0이며 fix 후 cipher의 default 값이 3으로 변경되었습니다.
4.4.1. Fencing with fence_ipmilan fails in RHEL7

71
진단
1) BEFORE fix - fence_ipmilan default cipher was set to 0
# rpm -q fence-agents-ipmilan
fence-agents-ipmilan-4.0.11-10.el7.x86_64
Executing: /usr/bin/ipmitool -I lanplus -H 10.0.0.10 -U admin -P passwd -C 0 -p 623 -L ADMINISTRATOR chassis power status
Error: Unable to establish IPMI v2 / RMCP+ session Unable to get Chassis Power Status

72
진단
2) AFTER fix - default cipher not set, ipmitool default version used (-C 3)
# rpm -q fence-agents-ipmilan
fence-agents-ipmilan-4.0.11-11.el7_1.x86_64
Status: ON
# fence_ipmilan -P -a 10.0.0.10 -o status -v -l admin -p passwd -C 0
Error: Unable to establish IPMI v2 / RMCP+ session
Unable to get Chassis Power Status
# fence_ipmilan -P -a 10.0.0.10 -o status -v -l admin -p passwd -C 3
Status: ON

73
조치
아래의 패키지들로 업데이트(서로 의존성 가짐)
fence-agents-ipmilan-4.0.11-11.el7_1 or later
fence-agents-common-4.0.11-11.el7_1 or later
fence-agents-scsi-4.0.11-11.el7_1 or later
fence-agents-all-4.0.11-11.el7_1 or later
참고 https://access.redhat.com/solutions/1410613

74
감사합니다
문의 : support@osci.kr

75
OPEN
SHARE
CONTRIBUTE
ADOPT
REUSE

[오픈소스컨설팅]RHEL7/CentOS7 Pacemaker기반-HA시스템구성-v1.0

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (14)

Similar to [오픈소스컨설팅]RHEL7/CentOS7 Pacemaker기반-HA시스템구성-v1.0

Similar to [오픈소스컨설팅]RHEL7/CentOS7 Pacemaker기반-HA시스템구성-v1.0 (20)

More from Ji-Woong Choi

More from Ji-Woong Choi (20)

[오픈소스컨설팅]RHEL7/CentOS7 Pacemaker기반-HA시스템구성-v1.0