<div dir="ltr">Hi,<div><br></div><div>I've configured a fencing with libvirt, but I'm having some problem with stonith, due to the error "no route to host"</div><div><br></div><div>Config:</div><div><br></div><div><div><i>node 1053402612: server01</i></div><div><i>node 1053402613: server02 \</i></div><div><i>        attributes standby=off</i></div><div><i>primitive IP-rsc_nginx IPaddr2 \</i></div><div><i>        params ip=xx.xx.xx.xx nic=eth0 cidr_netmask=xx.xx.xy.xx \</i></div><div><i>        meta migration-threshold=2 \</i></div><div><i>        op monitor interval=20 timeout=60 on-fail=restart</i></div><div><i>primitive Nginx-rsc nginx \</i></div><div><i>        meta migration-threshold=2 \</i></div><div><i>        op monitor interval=20 timeout=60 on-fail=restart</i></div><div><i>primitive p_fence_server01 stonith:external/libvirt \</i></div><div><i>        params hostlist=server01.fqdn hypervisor_uri="qemu+tls://virtnode01:16514/system"</i></div><div><i>primitive p_fence_testlb02 stonith:external/libvirt \</i></div><div><i>        params hostlist=server02.fqdn hypervisor_uri="qemu+tls://virtnode02:16514/system"</i></div><div><i>location l_fence_server01 p_fence_server01 -inf: server01</i></div><div><i>location l_fence_testlb02 p_fence_testlb02 -inf: server02</i></div><div><i>colocation lb-loc inf: IP-rsc_nginx Nginx-rsc</i></div><div><i>order lb-ord inf: IP-rsc_nginx Nginx-rsc</i></div><div><i>property cib-bootstrap-options: \</i></div><div><i>        stonith-enabled=true \</i></div><div><i>        no-quorum-policy=ignore \</i></div><div><i>        default-resource-stickiness=100 \</i></div><div><i>        last-lrm-refresh=1434360625 \</i></div><div><i>        dc-version=1.1.12-561c4cf \</i></div><div><i>        cluster-infrastructure=corosync</i></div></div><div><i><br></i></div><div><br></div><div>As you see, in hostlist i'm searching for the host+fqdn, since it's the name that you can see doing "<i>virsh list</i>"</div><div>Also, from one node you can ping each other and viceverse doing  only "server0x", you don't need the full domain.</div><div><br></div><div>I was testing stonith, just killing corosync on server02, and I got this error in the logs:</div><div><br></div><div><br></div><div><div><i>Jun 15 14:44:45 [1301] server01   stonithd:    debug: stonith_action_async_done:         Child process 18649 performing action 'reboot' exited with rc 1</i></div><div><i>Jun 15 14:44:45 [1301] server01   stonithd:     info: update_remaining_timeout:  Attempted to execute agent fence_legacy (reboot) the maximum number of times (2) allowed</i></div><div><i>Jun 15 14:44:45 [1301] server01   stonithd:    debug: st_child_done:     Operation 'reboot' on 'p_fence_server02' completed with rc=1 (0 remaining)</i></div><div><i>Jun 15 14:44:45 [1301] server01   stonithd:    error: log_operation:     Operation 'reboot' [18649] (call 13 from crmd.1305) for host 'server02' with device 'p_fence_server02' returned: -201 (Generic Pacemaker error) </i></div><div><i>Jun 15 14:44:45 [1301] server01   stonithd:  warning: log_operation:     p_fence_server02:18649 [ Performing: stonith -t external/libvirt -T reset server02 ]</i></div><div><i>Jun 15 14:44:45 [1301] server01   stonithd:  warning: log_operation:     p_fence_server02:18649 [ failed: server02 5 ]</i></div></div><div><br></div><div><br></div><div><div><i>Jun 15 14:44:49 [1301] server01   stonithd:    debug: stonith_command:   Processing st_notify reply 0 from server01 (               0)            </i></div><div><i>Jun 15 14:44:49 [1301] server01   stonithd:    debug: process_remote_stonith_exec:       Marking call to reboot for server02 on behalf of crmd.1305@4281c4bb-9922-4a4d-97f3-706f7d34ec1c.test-lb0: No route to host (-113) </i></div><div><i>Jun 15 14:44:49 [1301] server01   stonithd:  warning: get_xpath_object:  No match for //@st_delegate in /st-reply</i></div><div><i>Jun 15 14:44:49 [1301] server01   stonithd:    error: remote_op_done:    Operation reboot of server02 by server01 for crmd.1305@server01.4281c4bb: No route to host</i></div><div><i>Jun 15 14:44:49 [1301] server01   stonithd:    debug: stonith_command:   Processed st_notify reply from server01: OK (0)</i></div><div><i>Jun 15 14:44:49 [1305] server01       crmd:   notice: tengine_stonith_callback:  Stonith operation 13/14:26:0:9234dba0-9b0d-4047-b4df-d05f9430f101: No route to host (-113) </i></div><div><i>Jun 15 14:44:49 [1305] server01       crmd:   notice: tengine_stonith_callback:  Stonith operation 13 for server02 failed (No route to host): aborting transition.</i></div><div><i>Jun 15 14:44:49 [1305] server01       crmd:     info: abort_transition_graph:    Transition aborted: Stonith failed (source=tengine_stonith_callback:697, 0)</i></div><div><i>Jun 15 14:44:49 [1305] server01       crmd:   notice: tengine_stonith_notify:    Peer server02 was not terminated (reboot) by server01 for server01: No route to host (ref=4281c4bb-9922-4a4d-97f3-706f7d34ec1c) </i></div><div><i>by client crmd.1305</i></div></div><div><br></div><div><br></div><div>I tried manually in this way:</div><div><br></div><div><i>stonith_admin -V -F server02</i><br></div><div><i><br></i></div><div>I got the same error, but if I try with the fqdn, like:</div><div><br></div><div>stonith_admin -V -F server02+fqdn<br></div><div><br></div><div>Then it works. I don't know why pacemaker can't resolve the host without the fqdn:</div><div><br></div><div><div><i>root@server01 ~# host server02</i></div><div><i>server02+fqdn has address xx.xx.xx.xx</i></div><div><i>root@server01 ~# host server01</i></div><div><i>server01+fqdn has address xx.xx.xx.xy</i></div></div><div><i><br></i></div><div><div><i>root@server02 ~# host server02</i></div><div><i>server02+fqdn has address xx.xx.xx.xx</i></div><div><i>root@server02 ~# host server01</i></div><div><i>server01+fqdn has address xx.xx.xx.xy</i></div></div><div><i><br></i></div><div><i><br></i></div><div><br></div><div>Anybody has an idea about that?</div><div><br></div><div>Thank you very much</div><div>Oscar Salvador</div><div><br></div></div>