<div dir="ltr">Hello,<div><br></div><div>I have 3 CentOS7 guests running on 3 CentOS7 hypervisors and I can't get stonith operations to work.</div><div><br></div><div>Config:</div><div><br></div><div><div>Cluster Name: nfs</div><div>Corosync Nodes:</div><div> node1 node2 node3 </div><div>Pacemaker Nodes:</div><div> node1 node2 node3 </div><div><br></div><div>Resources: </div><div> Group: group_rbd_fs_nfs_vip</div><div>  Resource: rbd_nfs-ha (class=ocf provider=ceph type=<a href="http://rbd.in">rbd.in</a>)</div><div>   Attributes: user=admin pool=rbd name=nfs-ha cephconf=/etc/ceph/ceph.conf </div><div>   Operations: start interval=0s timeout=20 (rbd_nfs-ha-start-timeout-20)</div><div>               stop interval=0s timeout=20 (rbd_nfs-ha-stop-timeout-20)</div><div>               monitor interval=10s timeout=20s (rbd_nfs-ha-monitor-interval-10s)</div><div>  Resource: rbd_home (class=ocf provider=ceph type=<a href="http://rbd.in">rbd.in</a>)</div><div>   Attributes: user=admin pool=rbd name=home cephconf=/etc/ceph/ceph.conf </div><div>   Operations: start interval=0s timeout=20 (rbd_home-start-timeout-20)</div><div>               stop interval=0s timeout=20 (rbd_home-stop-timeout-20)</div><div>               monitor interval=10s timeout=20s (rbd_home-monitor-interval-10s)</div><div>  Resource: fs_nfs-ha (class=ocf provider=heartbeat type=Filesystem)</div><div>   Attributes: directory=/mnt/nfs-ha fstype=btrfs device=/dev/rbd/rbd/nfs-ha fast_stop=no </div><div>   Operations: monitor interval=20s timeout=40s (fs_nfs-ha-monitor-interval-20s)</div><div>               start interval=0 timeout=60s (fs_nfs-ha-start-interval-0)</div><div>               stop interval=0 timeout=60s (fs_nfs-ha-stop-interval-0)</div><div>  Resource: FS_home (class=ocf provider=heartbeat type=Filesystem)</div><div>   Attributes: directory=/mnt/home fstype=btrfs device=/dev/rbd/rbd/home options=rw,compress-force=lzo fast_stop=no </div><div>   Operations: monitor interval=20s timeout=40s (FS_home-monitor-interval-20s)</div><div>               start interval=0 timeout=60s (FS_home-start-interval-0)</div><div>               stop interval=0 timeout=60s (FS_home-stop-interval-0)</div><div>  Resource: nfsserver (class=ocf provider=heartbeat type=nfsserver)</div><div>   Attributes: nfs_shared_infodir=/mnt/nfs-ha </div><div>   Operations: stop interval=0s timeout=20s (nfsserver-stop-timeout-20s)</div><div>               monitor interval=10s timeout=20s (nfsserver-monitor-interval-10s)</div><div>               start interval=0 timeout=40s (nfsserver-start-interval-0)</div><div>  Resource: vip_nfs_private (class=ocf provider=heartbeat type=IPaddr)</div><div>   Attributes: ip=10.0.231.49 cidr_netmask=24 </div><div>   Operations: start interval=0s timeout=20s (vip_nfs_private-start-timeout-20s)</div><div>               stop interval=0s timeout=20s (vip_nfs_private-stop-timeout-20s)</div><div>               monitor interval=5 (vip_nfs_private-monitor-interval-5)</div><div><br></div><div>Stonith Devices: </div><div> Resource: NFS1 (class=stonith type=fence_xvm)</div><div>  Attributes: pcmk_host_list=10.0.231.50 key_file=/etc/cluster/fence_xvm_ceph1.key multicast_address=225.0.0.12 port=NFS1 </div><div>  Operations: monitor interval=20s (NFS1-monitor-interval-20s)</div><div> Resource: NFS2 (class=stonith type=fence_xvm)</div><div>  Attributes: pcmk_host_list=10.0.231.51 key_file=/etc/cluster/fence_xvm_ceph2.key multicast_address=225.0.1.12 port=NFS2 </div><div>  Operations: monitor interval=20s (NFS2-monitor-interval-20s)</div><div> Resource: NFS3 (class=stonith type=fence_xvm)</div><div>  Attributes: pcmk_host_list=10.0.231.52 key_file=/etc/cluster/fence_xvm_ceph3.key multicast_address=225.0.2.12 port=NFS3 </div><div>  Operations: monitor interval=20s (NFS3-monitor-interval-20s)</div><div>Fencing Levels: </div><div><br></div><div>Location Constraints:</div><div>  Resource: NFS1</div><div>    Enabled on: node1 (score:1) (id:location-NFS1-node1-1)</div><div>    Enabled on: node2 (score:1000) (id:location-NFS1-node2-1000)</div><div>    Enabled on: node3 (score:500) (id:location-NFS1-node3-500)</div><div>  Resource: NFS2</div><div>    Enabled on: node2 (score:1) (id:location-NFS2-node2-1)</div><div>    Enabled on: node3 (score:1000) (id:location-NFS2-node3-1000)</div><div>    Enabled on: node1 (score:500) (id:location-NFS2-node1-500)</div><div>  Resource: NFS3</div><div>    Enabled on: node3 (score:1) (id:location-NFS3-node3-1)</div><div>    Enabled on: node1 (score:1000) (id:location-NFS3-node1-1000)</div><div>    Enabled on: node2 (score:500) (id:location-NFS3-node2-500)</div><div>Ordering Constraints:</div><div>Colocation Constraints:</div><div><br></div><div>Cluster Properties:</div><div> cluster-infrastructure: corosync</div><div> cluster-name: nfs</div><div> dc-version: 1.1.12-a14efad</div><div> have-watchdog: false</div><div> stonith-enabled: true</div></div><div><br></div><div>When I stop networking services on node1 (stonith resource NFS1) I see logs on the other two cluster nodes attempting to reboot the vm NFS1 without success.</div><div><br></div><div>Logs:</div><div><br></div><div><div>Jun 01 15:38:17 [2130] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>    pengine:   notice: LogActions:      Move    rbd_nfs-ha      (Started node1 -> node2)</div><div>Jun 01 15:38:17 [2130] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>    pengine:   notice: LogActions:      Move    rbd_home        (Started node1 -> node2)</div><div>Jun 01 15:38:17 [2130] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>    pengine:   notice: LogActions:      Move    fs_nfs-ha       (Started node1 -> node2)</div><div>Jun 01 15:38:17 [2130] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>    pengine:   notice: LogActions:      Move    FS_home (Started node1 -> node2)</div><div>Jun 01 15:38:17 [2130] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>    pengine:   notice: LogActions:      Move    nfsserver       (Started node1 -> node2)</div><div>Jun 01 15:38:17 [2130] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>    pengine:   notice: LogActions:      Move    vip_nfs_private (Started node1 -> node2)</div><div>Jun 01 15:38:17 [2130] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>    pengine:     info: LogActions:      Leave   NFS1    (Started node2)</div><div>Jun 01 15:38:17 [2130] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>    pengine:     info: LogActions:      Leave   NFS2    (Started node3)</div><div>Jun 01 15:38:17 [2130] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>    pengine:   notice: LogActions:      Move    NFS3    (Started node1 -> node2)</div><div>Jun 01 15:38:17 [2130] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>    pengine:  warning: process_pe_message:      Calculated Transition 8: /var/lib/pacemaker/pengine/pe-warn-0.bz2</div><div>Jun 01 15:38:17 [2131] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>       crmd:     info: do_state_transition:     State transition S_POLICY_ENGINE -> S_TRANSITION_ENGINE [ input=I_PE_SUCCESS cause=C_IPC_MESSAGE origin=handle_response ]</div><div>Jun 01 15:38:17 [2131] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>       crmd:     info: do_te_invoke:    Processing graph 8 (ref=pe_calc-dc-1433198297-78) derived from /var/lib/pacemaker/pengine/pe-warn-0.bz2</div><div>Jun 01 15:38:17 [2131] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>       crmd:   notice: te_fence_node:   Executing reboot fencing operation (37) on node1 (timeout=60000)</div><div>Jun 01 15:38:17 [2127] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a> stonith-ng:   notice: handle_request:  Client crmd.2131.f7e79b61 wants to fence (reboot) 'node1' with device '(any)'</div><div>Jun 01 15:38:17 [2127] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a> stonith-ng:   notice: initiate_remote_stonith_op:      Initiating remote operation reboot for node1: a22a16f3-b699-453e-a090-43a640dd0e3f (0)</div><div>Jun 01 15:38:17 [2127] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a> stonith-ng:   notice: can_fence_host_with_device:      NFS1 can not fence (reboot) node1: static-list</div><div>Jun 01 15:38:17 [2127] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a> stonith-ng:   notice: can_fence_host_with_device:      NFS2 can not fence (reboot) node1: static-list</div><div>Jun 01 15:38:17 [2127] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a> stonith-ng:   notice: can_fence_host_with_device:      NFS3 can not fence (reboot) node1: static-list</div><div>Jun 01 15:38:17 [2127] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a> stonith-ng:     info: process_remote_stonith_query:    All queries have arrived, continuing (2, 2, 2, a22a16f3-b699-453e-a090-43a640dd0e3f)</div><div>Jun 01 15:38:17 [2127] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a> stonith-ng:   notice: stonith_choose_peer:     Couldn't find anyone to fence node1 with <any></div><div>Jun 01 15:38:17 [2127] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a> stonith-ng:     info: call_remote_stonith:     Total remote op timeout set to 60 for fencing of node node1 for crmd.2131.a22a16f3</div><div>Jun 01 15:38:17 [2127] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a> stonith-ng:     info: call_remote_stonith:     None of the 2 peers have devices capable of terminating node1 for crmd.2131 (0)</div><div>Jun 01 15:38:17 [2127] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a> stonith-ng:    error: remote_op_done:  Operation reboot of node1 by <no-one> for crmd.2131@node3.a22a16f3: No such device</div><div>Jun 01 15:38:17 [2131] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>       crmd:   notice: tengine_stonith_callback:        Stonith operation 2/37:8:0:241ee032-f3a1-4c2b-8427-63af83b54343: No such device (-19)</div><div>Jun 01 15:38:17 [2131] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>       crmd:   notice: tengine_stonith_callback:        Stonith operation 2 for node1 failed (No such device): aborting transition.</div><div>Jun 01 15:38:17 [2131] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>       crmd:   notice: abort_transition_graph:  Transition aborted: Stonith failed (source=tengine_stonith_callback:697, 0)</div><div>Jun 01 15:38:17 [2131] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>       crmd:   notice: tengine_stonith_notify:  Peer node1 was not terminated (reboot) by <anyone> for node3: No such device (ref=a22a16f3-b699-453e-a090-43a640dd0e3f) by client crmd.2131</div><div>Jun 01 15:38:17 [2131] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>       crmd:   notice: run_graph:       Transition 8 (Complete=1, Pending=0, Fired=0, Skipped=27, Incomplete=0, Source=/var/lib/pacemaker/pengine/pe-warn-0.bz2): Stopped</div><div>Jun 01 15:38:17 [2131] <a href="http://nfs3.pcic.uvic.ca">nfs3.pcic.uvic.ca</a>       crmd:   notice: too_many_st_failures:    No devices found in cluster to fence node1, giving up</div></div><div><br></div><div>I can manually fence a guest without any issue:</div><div># fence_xvm -a 225.0.0.12 -k /etc/cluster/fence_xvm_ceph1.key -o reboot -H NFS1<br></div><div><br></div><div>But the cluster doesn't recover resources to another host:</div><div># pcs status <i><-- after manual fencing</i><br></div><div><div>Cluster name: nfs</div><div>Last updated: Tue Jun  2 08:34:18 2015</div><div>Last change: Mon Jun  1 16:02:58 2015</div><div>Stack: corosync</div><div>Current DC: node3 (3) - partition with quorum</div><div>Version: 1.1.12-a14efad</div><div>3 Nodes configured</div><div>9 Resources configured</div><div><br></div><div><br></div><div>Node node1 (1): UNCLEAN (offline)</div><div>Online: [ node2 node3 ]</div><div><br></div><div>Full list of resources:</div><div><br></div><div> Resource Group: group_rbd_fs_nfs_vip</div><div>     rbd_nfs-ha (ocf::ceph:<a href="http://rbd.in">rbd.in</a>):     Started node1 </div><div>     rbd_home   (ocf::ceph:<a href="http://rbd.in">rbd.in</a>):     Started node1 </div><div>     fs_nfs-ha  (ocf::heartbeat:Filesystem):    Started node1 </div><div>     FS_home    (ocf::heartbeat:Filesystem):    Started node1 </div><div>     nfsserver  (ocf::heartbeat:nfsserver):     Started node1 </div><div>     vip_nfs_private    (ocf::heartbeat:IPaddr):        Started node1 </div><div> NFS1   (stonith:fence_xvm):    Started node2 </div><div> NFS2   (stonith:fence_xvm):    Started node3 </div><div> NFS3   (stonith:fence_xvm):    Started node1 </div><div><br></div><div>PCSD Status:</div><div>  node1: Online</div><div>  node2: Online</div><div>  node3: Online</div><div><br></div><div>Daemon Status:</div><div>  corosync: active/disabled</div><div>  pacemaker: active/disabled</div><div>  pcsd: active/enabled</div></div><div><br></div><div>Fence_virtd config on one of the hypervisors:</div><div><div># cat fence_virt.conf </div><div>backends {</div><div>        libvirt {</div><div>                uri = "qemu:///system";</div><div>        }</div><div><br></div><div>}</div><div><br></div><div>listeners {</div><div>        multicast {</div><div>                port = "1229";</div><div>                family = "ipv4";</div><div>                interface = "br1";</div><div>                address = "225.0.0.12";</div><div>                key_file = "/etc/cluster/fence_xvm_ceph1.key";</div><div>        }</div><div><br></div><div>}</div><div><br></div><div>fence_virtd {</div><div>        module_path = "/usr/lib64/fence-virt";</div><div>        backend = "libvirt";</div><div>        listener = "multicast";</div><div>}</div></div><div><br></div><div>Thanks,</div><div>Steve</div></div>