<html><body><p>Hi Ken , <br><br>Below where you commented, <br><br>&quot;<tt>It's considered good practice to stop<br>pacemaker+corosync before rebooting a node intentionally (for even more<br>safety, you can put the node into standby first).</tt>&quot;<br><br>.. is this something that we document anywhere?  <br><br>Our 'reboot' action performs a halt (deactivate lpar) and then activate.   Do I run the risk<br>of guest instances running on multiple hosts in my case?  I'm performing various recovery<br>scenarios and want to avoid this procedure (reboot without first stopping cluster), if it's not supported.  <br><br>By the way, I always put the node in cluster standby before an intentional reboot. <br><br>Thanks!<br><br>Scott Greenlese ... IBM Solutions Test,  Poughkeepsie, N.Y.<br>  INTERNET:  swgreenl@us.ibm.com  <br>  PHONE:  8/293-7301 (845-433-7301)    M/S:  POK 42HA/P966<br><br><br><img width="16" height="16" src="cid:2__=8FBB0ABADFFA16EE8f9e8a93df938690918c8FB@" border="0" alt="Inactive hide details for Ken Gaillot ---09/02/2016 10:01:15 AM---From: Ken Gaillot &lt;kgaillot@redhat.com&gt; To: users@clusterlabs"><font color="#424282">Ken Gaillot ---09/02/2016 10:01:15 AM---From: Ken Gaillot &lt;kgaillot@redhat.com&gt; To: users@clusterlabs.org</font><br><br><font size="2" color="#5F5F5F">From:        </font><font size="2">Ken Gaillot &lt;kgaillot@redhat.com&gt;</font><br><font size="2" color="#5F5F5F">To:        </font><font size="2">users@clusterlabs.org</font><br><font size="2" color="#5F5F5F">Date:        </font><font size="2">09/02/2016 10:01 AM</font><br><font size="2" color="#5F5F5F">Subject:        </font><font size="2">Re: [ClusterLabs] &quot;VirtualDomain is active on 2 nodes&quot; due to transient network failure</font><br><hr width="100%" size="2" align="left" noshade style="color:#8091A5; "><br><br><br><tt>On 09/01/2016 09:39 AM, Scott Greenlese wrote:<br>&gt; Andreas,<br>&gt; <br>&gt; You wrote:<br>&gt; <br>&gt; /&quot;Would be good to see your full cluster configuration (corosync.conf<br>&gt; and cib) - but first guess is: no fencing at all .... and what is your<br>&gt; &quot;no-quorum-policy&quot; in Pacemaker?/<br>&gt; <br>&gt; /Regards,/<br>&gt; /Andreas&quot;/<br>&gt; <br>&gt; Thanks for your interest. I actually do have a stonith device configured<br>&gt; which maps all 5 cluster nodes in the cluster:<br>&gt; <br>&gt; [root@zs95kj ~]# date;pcs stonith show fence_S90HMC1<br>&gt; Thu Sep 1 10:11:25 EDT 2016<br>&gt; Resource: fence_S90HMC1 (class=stonith type=fence_ibmz)<br>&gt; Attributes: ipaddr=9.12.35.134 login=stonith passwd=lnx4ltic<br>&gt; pcmk_host_map=zs95KLpcs1:S95/KVL;zs93KLpcs1:S93/KVL;zs93kjpcs1:S93/KVJ;zs95kjpcs1:S95/KVJ;zs90kppcs1:S90/PACEMAKER<br>&gt; pcmk_host_list=&quot;zs95KLpcs1 zs93KLpcs1 zs93kjpcs1 zs95kjpcs1 zs90kppcs1&quot;<br>&gt; pcmk_list_timeout=300 pcmk_off_timeout=600 pcmk_reboot_action=off<br>&gt; pcmk_reboot_timeout=600<br>&gt; Operations: monitor interval=60s (fence_S90HMC1-monitor-interval-60s)<br>&gt; <br>&gt; This fencing device works, too well actually. It seems extremely<br>&gt; sensitive to node &quot;failures&quot;, and I'm not sure how to tune that. Stonith<br>&gt; reboot actoin is 'off', and the general stonith action (cluster config)<br>&gt; is also 'off'. In fact, often if I reboot a cluster node (i.e. reboot<br>&gt; command) that is an active member in the cluster... stonith will power<br>&gt; off that node while it's on its wait back up. (perhaps requires a<br>&gt; separate issue thread on this forum?).<br><br>That depends on what a reboot does in your OS ... if it shuts down the<br>cluster services cleanly, you shouldn't get a fence, but if it kills<br>anything still running, then the cluster will see the node as failed,<br>and fencing is appropriate. It's considered good practice to stop<br>pacemaker+corosync before rebooting a node intentionally (for even more<br>safety, you can put the node into standby first).<br><br>&gt; <br>&gt; My no-quorum-policy is: no-quorum-policy: stop<br>&gt; <br>&gt; I don't think I should have lost quorum, only two of the five cluster<br>&gt; nodes lost their corosync ring connection.<br><br>Those two nodes lost quorum, so they should have stopped all their<br>resources. And the three remaining nodes should have fenced them.<br><br>I'd check the logs around the time of the incident. Do the two affected<br>nodes detect the loss of quorum? Do they attempt to stop their<br>resources? Do those stops succeed? Do the other three nodes detect the<br>loss of the two nodes? Does the DC attempt to fence them? Do the fence<br>attempts succeed?<br><br>&gt; Here's the full configuration:<br>&gt; <br>&gt; <br>&gt; [root@zs95kj ~]# cat /etc/corosync/corosync.conf<br>&gt; totem {<br>&gt; version: 2<br>&gt; secauth: off<br>&gt; cluster_name: test_cluster_2<br>&gt; transport: udpu<br>&gt; }<br>&gt; <br>&gt; nodelist {<br>&gt; node {<br>&gt; ring0_addr: zs93kjpcs1<br>&gt; nodeid: 1<br>&gt; }<br>&gt; <br>&gt; node {<br>&gt; ring0_addr: zs95kjpcs1<br>&gt; nodeid: 2<br>&gt; }<br>&gt; <br>&gt; node {<br>&gt; ring0_addr: zs95KLpcs1<br>&gt; nodeid: 3<br>&gt; }<br>&gt; <br>&gt; node {<br>&gt; ring0_addr: zs90kppcs1<br>&gt; nodeid: 4<br>&gt; }<br>&gt; <br>&gt; node {<br>&gt; ring0_addr: zs93KLpcs1<br>&gt; nodeid: 5<br>&gt; }<br>&gt; }<br>&gt; <br>&gt; quorum {<br>&gt; provider: corosync_votequorum<br>&gt; }<br>&gt; <br>&gt; logging {<br>&gt; #Log to a specified file<br>&gt; to_logfile: yes<br>&gt; logfile: /var/log/corosync/corosync.log<br>&gt; #Log timestamp as well<br>&gt; timestamp: on<br>&gt; <br>&gt; #Facility in syslog<br>&gt; syslog_facility: daemon<br>&gt; <br>&gt; logger_subsys {<br>&gt; #Enable debug for this logger.<br>&gt; <br>&gt; debug: off<br>&gt; <br>&gt; #This specifies the subsystem identity (name) for which logging is specified<br>&gt; <br>&gt; subsys: QUORUM<br>&gt; <br>&gt; }<br>&gt; #Log to syslog<br>&gt; to_syslog: yes<br>&gt; <br>&gt; #Whether or not turning on the debug information in the log<br>&gt; debug: on<br>&gt; }<br>&gt; [root@zs95kj ~]#<br>&gt; <br>&gt; <br>&gt; <br>&gt; The full CIB (see attachment)<br>&gt; <br>&gt; [root@zs95kj ~]# pcs cluster cib &gt; /tmp/scotts_cib_Sep1_2016.out<br>&gt; <br>&gt; /(See attached file: scotts_cib_Sep1_2016.out)/<br>&gt; <br>&gt; <br>&gt; A few excerpts from the CIB:<br>&gt; <br>&gt; [root@zs95kj ~]# pcs cluster cib |less<br>&gt; &lt;cib crm_feature_set=&quot;3.0.10&quot; validate-with=&quot;pacemaker-2.3&quot; epoch=&quot;2804&quot;<br>&gt; num_updates=&quot;19&quot; admin_epoch=&quot;0&quot; cib-last-written=&quot;Wed Aug 31 15:59:31<br>&gt; 2016&quot; update-origin=&quot;zs93kjpcs1&quot; update-client=&quot;crm_resource&quot;<br>&gt; update-user=&quot;root&quot; have-quorum=&quot;1&quot; dc-uuid=&quot;2&quot;&gt;<br>&gt; &lt;configuration&gt;<br>&gt; &lt;crm_config&gt;<br>&gt; &lt;cluster_property_set id=&quot;cib-bootstrap-options&quot;&gt;<br>&gt; &lt;nvpair id=&quot;cib-bootstrap-options-have-watchdog&quot; name=&quot;have-watchdog&quot;<br>&gt; value=&quot;false&quot;/&gt;<br>&gt; &lt;nvpair id=&quot;cib-bootstrap-options-dc-version&quot; name=&quot;dc-version&quot;<br>&gt; value=&quot;1.1.13-10.el7_2.ibm.1-44eb2dd&quot;/&gt;<br>&gt; &lt;nvpair id=&quot;cib-bootstrap-options-cluster-infrastructure&quot;<br>&gt; name=&quot;cluster-infrastructure&quot; value=&quot;corosync&quot;/&gt;<br>&gt; &lt;nvpair id=&quot;cib-bootstrap-options-cluster-name&quot; name=&quot;cluster-name&quot;<br>&gt; value=&quot;test_cluster_2&quot;/&gt;<br>&gt; &lt;nvpair id=&quot;cib-bootstrap-options-no-quorum-policy&quot;<br>&gt; name=&quot;no-quorum-policy&quot; value=&quot;stop&quot;/&gt;<br>&gt; &lt;nvpair id=&quot;cib-bootstrap-options-last-lrm-refresh&quot;<br>&gt; name=&quot;last-lrm-refresh&quot; value=&quot;1472595716&quot;/&gt;<br>&gt; &lt;nvpair id=&quot;cib-bootstrap-options-stonith-action&quot; name=&quot;stonith-action&quot;<br>&gt; value=&quot;off&quot;/&gt;<br>&gt; &lt;/cluster_property_set&gt;<br>&gt; &lt;/crm_config&gt;<br>&gt; &lt;nodes&gt;<br>&gt; &lt;node id=&quot;1&quot; uname=&quot;zs93kjpcs1&quot;&gt;<br>&gt; &lt;instance_attributes id=&quot;nodes-1&quot;/&gt;<br>&gt; &lt;/node&gt;<br>&gt; &lt;node id=&quot;2&quot; uname=&quot;zs95kjpcs1&quot;&gt;<br>&gt; &lt;instance_attributes id=&quot;nodes-2&quot;/&gt;<br>&gt; &lt;/node&gt;<br>&gt; &lt;node id=&quot;3&quot; uname=&quot;zs95KLpcs1&quot;&gt;<br>&gt; &lt;instance_attributes id=&quot;nodes-3&quot;/&gt;<br>&gt; &lt;/node&gt;<br>&gt; &lt;node id=&quot;4&quot; uname=&quot;zs90kppcs1&quot;&gt;<br>&gt; &lt;instance_attributes id=&quot;nodes-4&quot;/&gt;<br>&gt; &lt;/node&gt;<br>&gt; &lt;node id=&quot;5&quot; uname=&quot;zs93KLpcs1&quot;&gt;<br>&gt; &lt;instance_attributes id=&quot;nodes-5&quot;/&gt;<br>&gt; &lt;/node&gt;<br>&gt; &lt;/nodes&gt;<br>&gt; &lt;primitive class=&quot;ocf&quot; id=&quot;zs95kjg109062_res&quot; provider=&quot;heartbeat&quot;<br>&gt; type=&quot;VirtualDomain&quot;&gt;<br>&gt; &lt;instance_attributes id=&quot;zs95kjg109062_res-instance_attributes&quot;&gt;<br>&gt; &lt;nvpair id=&quot;zs95kjg109062_res-instance_attributes-config&quot; name=&quot;config&quot;<br>&gt; value=&quot;/guestxml/nfs1/zs95kjg109062.xml&quot;/&gt;<br>&gt; &lt;nvpair id=&quot;zs95kjg109062_res-instance_attributes-hypervisor&quot;<br>&gt; name=&quot;hypervisor&quot; value=&quot;qemu:///system&quot;/&gt;<br>&gt; &lt;nvpair id=&quot;zs95kjg109062_res-instance_attributes-migration_transport&quot;<br>&gt; name=&quot;migration_transport&quot; value=&quot;ssh&quot;/&gt;<br>&gt; &lt;/instance_attributes&gt;<br>&gt; &lt;meta_attributes id=&quot;zs95kjg109062_res-meta_attributes&quot;&gt;<br>&gt; &lt;nvpair id=&quot;zs95kjg109062_res-meta_attributes-allow-migrate&quot;<br>&gt; name=&quot;allow-migrate&quot; value=&quot;true&quot;/&gt;<br>&gt; &lt;/meta_attributes&gt;<br>&gt; &lt;operations&gt;<br>&gt; &lt;op id=&quot;zs95kjg109062_res-start-interval-0s&quot; interval=&quot;0s&quot; name=&quot;start&quot;<br>&gt; timeout=&quot;90&quot;/&gt;<br>&gt; &lt;op id=&quot;zs95kjg109062_res-stop-interval-0s&quot; interval=&quot;0s&quot; name=&quot;stop&quot;<br>&gt; timeout=&quot;90&quot;/&gt;<br>&gt; &lt;op id=&quot;zs95kjg109062_res-monitor-interval-30s&quot; interval=&quot;30s&quot;<br>&gt; name=&quot;monitor&quot;/&gt;<br>&gt; &lt;op id=&quot;zs95kjg109062_res-migrate-from-interval-0s&quot; interval=&quot;0s&quot;<br>&gt; name=&quot;migrate-from&quot; timeout=&quot;1200&quot;/&gt;<br>&gt; &lt;/operations&gt;<br>&gt; &lt;utilization id=&quot;zs95kjg109062_res-utilization&quot;&gt;<br>&gt; &lt;nvpair id=&quot;zs95kjg109062_res-utilization-cpu&quot; name=&quot;cpu&quot; value=&quot;2&quot;/&gt;<br>&gt; &lt;nvpair id=&quot;zs95kjg109062_res-utilization-hv_memory&quot; name=&quot;hv_memory&quot;<br>&gt; value=&quot;2048&quot;/&gt;<br>&gt; &lt;/utilization&gt;<br>&gt; &lt;/primitive&gt;<br>&gt; <br>&gt; ( I OMITTED THE OTHER, SIMILAR 199 VIRTUALDOMAIN PRIMITIVE ENTRIES FOR<br>&gt; THE SAKE OF SPACE, BUT IF THEY ARE OF<br>&gt; INTEREST, I CAN ADD THEM)<br>&gt; <br>&gt; .<br>&gt; .<br>&gt; .<br>&gt; <br>&gt; &lt;constraints&gt;<br>&gt; &lt;rsc_location id=&quot;location-zs95kjg109062_res&quot; rsc=&quot;zs95kjg109062_res&quot;&gt;<br>&gt; &lt;rule id=&quot;location-zs95kjg109062_res-rule&quot; score=&quot;-INFINITY&quot;&gt;<br>&gt; &lt;expression attribute=&quot;#kind&quot; id=&quot;location-zs95kjg109062_res-rule-expr&quot;<br>&gt; operation=&quot;eq&quot; value=&quot;container&quot;/&gt;<br>&gt; &lt;/rule&gt;<br>&gt; &lt;/rsc_location&gt;<br>&gt; <br>&gt; (I DEFINED THIS LOCATION CONSTRAINT RULE TO PREVENT OPAQUE GUEST VIRTUAL<br>&gt; DOMAIN RESOUCES FROM BEING<br>&gt; ASSIGNED TO REMOTE NODE VIRTUAL DOMAIN RESOURCES. I ALSO OMITTED THE<br>&gt; NUMEROUS, SIMILAR ENTRIES BELOW).<br>&gt; <br>&gt; .<br>&gt; .<br>&gt; .<br>&gt; <br>&gt; (I ALSO OMITTED THE NUMEROUS RESOURCE STATUS STANZAS)<br>&gt; .<br>&gt; .<br>&gt; .<br>&gt; &lt;/node_state&gt;<br>&gt; &lt;node_state remote_node=&quot;true&quot; id=&quot;zs95kjg110117&quot; uname=&quot;zs95kjg110117&quot;<br>&gt; crm-debug-origin=&quot;do_state_transition&quot; node_fenced=&quot;0&quot;&gt;<br>&gt; &lt;transient_attributes id=&quot;zs95kjg110117&quot;&gt;<br>&gt; &lt;instance_attributes id=&quot;status-zs95kjg110117&quot;/&gt;<br>&gt; &lt;/transient_attributes&gt;<br>&gt; <br>&gt; (OMITTED NUMEROUS SIMILAR NODE STATUS ENTRIES)<br>&gt; .<br>&gt; .<br>&gt; .<br>&gt; <br>&gt; <br>&gt; If there's anything important I left out in the CIB output, please refer<br>&gt; to the email attachment &quot;scotts_cib_Sep1_2016.out&quot;. Thanks!<br>&gt; <br>&gt; <br>&gt; Scott G.<br>&gt; <br>&gt; <br>&gt; Scott Greenlese ... IBM z/BX Solutions Test, Poughkeepsie, N.Y.<br>&gt; INTERNET: swgreenl@us.ibm.com<br>&gt; PHONE: 8/293-7301 (845-433-7301) M/S: POK 42HA/P966<br>&gt; <br>&gt; <br>&gt; Inactive hide details for Andreas Kurz ---08/30/2016 05:06:40 PM---Hi,<br>&gt; On Tue, Aug 30, 2016 at 10:03 PM, Scott Greenlese &lt;swgreAndreas Kurz<br>&gt; ---08/30/2016 05:06:40 PM---Hi, On Tue, Aug 30, 2016 at 10:03 PM, Scott<br>&gt; Greenlese &lt;swgreenl@us.ibm.com&gt;<br>&gt; <br>&gt; From: Andreas Kurz &lt;andreas.kurz@gmail.com&gt;<br>&gt; To: Cluster Labs - All topics related to open-source clustering welcomed<br>&gt; &lt;users@clusterlabs.org&gt;<br>&gt; Date: 08/30/2016 05:06 PM<br>&gt; Subject: Re: [ClusterLabs] &quot;VirtualDomain is active on 2 nodes&quot; due to<br>&gt; transient network failure<br>&gt; <br>&gt; ------------------------------------------------------------------------<br>&gt; <br>&gt; <br>&gt; <br>&gt; Hi,<br>&gt; <br>&gt; On Tue, Aug 30, 2016 at 10:03 PM, Scott Greenlese &lt;_swgreenl@us.ibm.com_<br>&gt; &lt;</tt><tt><a href="mailto:swgreenl@us.ibm.com">mailto:swgreenl@us.ibm.com</a></tt><tt>&gt;&gt; wrote:<br>&gt; <br>&gt; &nbsp; &nbsp; Added an appropriate subject line (was blank). Thanks...<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; Scott Greenlese ... IBM z/BX Solutions Test, Poughkeepsie, N.Y.<br>&gt; &nbsp; &nbsp; INTERNET: _swgreenl@us.ibm.com_ &lt;</tt><tt><a href="mailto:swgreenl@us.ibm.com">mailto:swgreenl@us.ibm.com</a></tt><tt>&gt;<br>&gt; &nbsp; &nbsp; PHONE: 8/293-7301 _(845-433-7301_ &lt;tel:%28845-433-7301&gt;) M/S: POK<br>&gt; &nbsp; &nbsp; 42HA/P966<br>&gt; <br>&gt; &nbsp; &nbsp; ----- Forwarded by Scott Greenlese/Poughkeepsie/IBM on 08/30/2016<br>&gt; &nbsp; &nbsp; 03:59 PM -----<br>&gt; <br>&gt; &nbsp; &nbsp; From: Scott Greenlese/Poughkeepsie/IBM@IBMUS<br>&gt; &nbsp; &nbsp; To: Cluster Labs - All topics related to open-source clustering<br>&gt; &nbsp; &nbsp; welcomed &lt;_users@clusterlabs.org_ &lt;</tt><tt><a href="mailto:users@clusterlabs.org">mailto:users@clusterlabs.org</a></tt><tt>&gt;&gt;<br>&gt; &nbsp; &nbsp; Date: 08/29/2016 06:36 PM<br>&gt; &nbsp; &nbsp; Subject: [ClusterLabs] (no subject)<br>&gt; &nbsp; &nbsp; ------------------------------------------------------------------------<br>&gt; <br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; Hi folks,<br>&gt; <br>&gt; &nbsp; &nbsp; I'm assigned to system test Pacemaker/Corosync on the KVM on System<br>&gt; &nbsp; &nbsp; Z platform<br>&gt; &nbsp; &nbsp; with pacemaker-1.1.13-10 and corosync-2.3.4-7 . <br>&gt; <br>&gt; <br>&gt; Would be good to see your full cluster configuration (corosync.conf and<br>&gt; cib) - but first guess is: no fencing at all .... and what is your<br>&gt; &quot;no-quorum-policy&quot; in Pacemaker?<br>&gt; <br>&gt; Regards,<br>&gt; Andreas<br>&gt; &nbsp; <br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; I have a cluster with 5 KVM hosts, and a total of 200<br>&gt; &nbsp; &nbsp; ocf:pacemakerVirtualDomain resources defined to run<br>&gt; &nbsp; &nbsp; across the 5 cluster nodes (symmertical is true for this cluster).<br>&gt; <br>&gt; &nbsp; &nbsp; The heartbeat network is communicating over vlan1293, which is hung<br>&gt; &nbsp; &nbsp; off a network device, 0230 .<br>&gt; <br>&gt; &nbsp; &nbsp; In general, pacemaker does a good job of distributing my virtual<br>&gt; &nbsp; &nbsp; guest resources evenly across the hypervisors<br>&gt; &nbsp; &nbsp; in the cluster. These resource are a mixed bag:<br>&gt; <br>&gt; &nbsp; &nbsp; - &quot;opaque&quot; and remote &quot;guest nodes&quot; managed by the cluster.<br>&gt; &nbsp; &nbsp; - allow-migrate=false and allow-migrate=true<br>&gt; &nbsp; &nbsp; - qcow2 (file based) guests and LUN based guests<br>&gt; &nbsp; &nbsp; - Sles and Ubuntu OS<br>&gt; <br>&gt; &nbsp; &nbsp; [root@zs95kj ]# pcs status |less<br>&gt; &nbsp; &nbsp; Cluster name: test_cluster_2<br>&gt; &nbsp; &nbsp; Last updated: Mon Aug 29 17:02:08 2016 Last change: Mon Aug 29<br>&gt; &nbsp; &nbsp; 16:37:31 2016 by root via crm_resource on zs93kjpcs1<br>&gt; &nbsp; &nbsp; Stack: corosync<br>&gt; &nbsp; &nbsp; Current DC: zs95kjpcs1 (version 1.1.13-10.el7_2.ibm.1-44eb2dd) -<br>&gt; &nbsp; &nbsp; partition with quorum<br>&gt; &nbsp; &nbsp; 103 nodes and 300 resources configured<br>&gt; <br>&gt; &nbsp; &nbsp; Node zs90kppcs1: standby<br>&gt; &nbsp; &nbsp; Online: [ zs93KLpcs1 zs93kjpcs1 zs95KLpcs1 zs95kjpcs1 ]<br>&gt; <br>&gt; &nbsp; &nbsp; This morning, our system admin team performed a &quot;non-disruptive&quot;<br>&gt; &nbsp; &nbsp; (concurrent) microcode code load on the OSA, which<br>&gt; &nbsp; &nbsp; (to our surprise) dropped the network connection for 13 seconds on<br>&gt; &nbsp; &nbsp; the S93 CEC, from 11:18:34am to 11:18:47am , to be exact.<br>&gt; &nbsp; &nbsp; This temporary outage caused the two cluster nodes on S93<br>&gt; &nbsp; &nbsp; (zs93kjpcs1 and zs93KLpcs1) to drop out of the cluster,<br>&gt; &nbsp; &nbsp; as expected.<br>&gt; <br>&gt; &nbsp; &nbsp; However, pacemaker didn't handle this too well. The end result was<br>&gt; &nbsp; &nbsp; numerous VirtualDomain resources in FAILED state:<br>&gt; <br>&gt; &nbsp; &nbsp; [root@zs95kj log]# date;pcs status |grep VirtualD |grep zs93 |grep<br>&gt; &nbsp; &nbsp; FAILED<br>&gt; &nbsp; &nbsp; Mon Aug 29 12:33:32 EDT 2016<br>&gt; &nbsp; &nbsp; zs95kjg110104_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110092_res (ocf::heartbeat:VirtualDomain): FAILED zs93KLpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110099_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110102_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110106_res (ocf::heartbeat:VirtualDomain): FAILED zs93KLpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110112_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110115_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110118_res (ocf::heartbeat:VirtualDomain): FAILED zs93KLpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110124_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110127_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110130_res (ocf::heartbeat:VirtualDomain): FAILED zs93KLpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110136_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110139_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110142_res (ocf::heartbeat:VirtualDomain): FAILED zs93KLpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110148_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110152_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110155_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110161_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110164_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110167_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110173_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110176_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110179_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg110185_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; &nbsp; &nbsp; zs95kjg109106_res (ocf::heartbeat:VirtualDomain): FAILED zs93kjpcs1<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; As well as, several VirtualDomain resources showing &quot;Started&quot; on two<br>&gt; &nbsp; &nbsp; cluster nodes:<br>&gt; <br>&gt; &nbsp; &nbsp; zs95kjg110079_res (ocf::heartbeat:VirtualDomain): Started[<br>&gt; &nbsp; &nbsp; zs93kjpcs1 zs93KLpcs1 ]<br>&gt; &nbsp; &nbsp; zs95kjg110108_res (ocf::heartbeat:VirtualDomain): Started[<br>&gt; &nbsp; &nbsp; zs93kjpcs1 zs93KLpcs1 ]<br>&gt; &nbsp; &nbsp; zs95kjg110186_res (ocf::heartbeat:VirtualDomain): Started[<br>&gt; &nbsp; &nbsp; zs93kjpcs1 zs93KLpcs1 ]<br>&gt; &nbsp; &nbsp; zs95kjg110188_res (ocf::heartbeat:VirtualDomain): Started[<br>&gt; &nbsp; &nbsp; zs93kjpcs1 zs93KLpcs1 ]<br>&gt; &nbsp; &nbsp; zs95kjg110198_res (ocf::heartbeat:VirtualDomain): Started[<br>&gt; &nbsp; &nbsp; zs93kjpcs1 zs93KLpcs1 ]<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; The virtual machines themselves were in fact, &quot;running&quot; on both<br>&gt; &nbsp; &nbsp; hosts. For example:<br>&gt; <br>&gt; &nbsp; &nbsp; [root@zs93kl ~]# virsh list |grep zs95kjg110079<br>&gt; &nbsp; &nbsp; 70 zs95kjg110079 running<br>&gt; <br>&gt; &nbsp; &nbsp; [root@zs93kj cli]# virsh list |grep zs95kjg110079<br>&gt; &nbsp; &nbsp; 18 zs95kjg110079 running<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; On this particular VM, here was file corruption of this file-based<br>&gt; &nbsp; &nbsp; qcow2 guest's image, such that you could not ping or ssh,<br>&gt; &nbsp; &nbsp; and if you open a virsh console, you get &quot;initramfs&quot; prompt.<br>&gt; <br>&gt; &nbsp; &nbsp; To recover, we had to mount the volume on another VM and then run<br>&gt; &nbsp; &nbsp; fsck to recover it.<br>&gt; <br>&gt; &nbsp; &nbsp; I walked through the system log on the two S93 hosts to see how<br>&gt; &nbsp; &nbsp; zs95kjg110079 ended up running<br>&gt; &nbsp; &nbsp; on two cluster nodes. (some entries were omitted, I saved logs for<br>&gt; &nbsp; &nbsp; future reference):<br>&gt; &nbsp; &nbsp; *<br>&gt; <br>&gt; &nbsp; &nbsp; zs93kjpcs1 *system log - (shows membership changes after the network<br>&gt; &nbsp; &nbsp; failure at 11:18:34)<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:18:33 zs93kl kernel: qeth 0.0.0230: The qeth device driver<br>&gt; &nbsp; &nbsp; failed to recover an error on the device<br>&gt; &nbsp; &nbsp; Aug 29 11:18:33 zs93kl kernel: qeth: irb 00000000: 00 c2 40 17 01 51<br>&gt; &nbsp; &nbsp; 90 38 00 04 00 00 00 00 00 00 ..@..Q.8........<br>&gt; &nbsp; &nbsp; Aug 29 11:18:33 zs93kl kernel: qeth: irb 00000010: 00 00 00 00 00 00<br>&gt; &nbsp; &nbsp; 00 00 00 00 00 00 00 00 00 00 ................<br>&gt; &nbsp; &nbsp; Aug 29 11:18:33 zs93kl kernel: qeth: irb 00000020: 00 00 00 00 00 00<br>&gt; &nbsp; &nbsp; 00 00 00 00 00 00 00 00 00 00 ................<br>&gt; &nbsp; &nbsp; Aug 29 11:18:33 zs93kl kernel: qeth: irb 00000030: 00 00 00 00 00 00<br>&gt; &nbsp; &nbsp; 00 00 00 00 00 34 00 1f 00 07 ...........4....<br>&gt; &nbsp; &nbsp; Aug 29 11:18:33 zs93kl kernel: qeth 0.0.0230: A recovery process has<br>&gt; &nbsp; &nbsp; been started for the device<br>&gt; &nbsp; &nbsp; Aug 29 11:18:33 zs93kl corosync[19281]: [TOTEM ] The token was lost<br>&gt; &nbsp; &nbsp; in the OPERATIONAL state.<br>&gt; &nbsp; &nbsp; Aug 29 11:18:33 zs93kl corosync[19281]: [TOTEM ] A processor failed,<br>&gt; &nbsp; &nbsp; forming new configuration.<br>&gt; &nbsp; &nbsp; Aug 29 11:18:33 zs93kl corosync[19281]: [TOTEM ] entering GATHER<br>&gt; &nbsp; &nbsp; state from 2(The token was lost in the OPERATIONAL state.).<br>&gt; &nbsp; &nbsp; Aug 29 11:18:34 zs93kl kernel: qeth 0.0.0230: The qeth device driver<br>&gt; &nbsp; &nbsp; failed to recover an error on the device<br>&gt; &nbsp; &nbsp; Aug 29 11:18:34 zs93kl kernel: qeth: irb 00000000: 00 00 11 01 00 00<br>&gt; &nbsp; &nbsp; 00 00 00 04 00 00 00 00 00 00 ................<br>&gt; &nbsp; &nbsp; Aug 29 11:18:34 zs93kl kernel: qeth: irb 00000010: 00 00 00 00 00 00<br>&gt; &nbsp; &nbsp; 00 00 00 00 00 00 00 00 00 00 ................<br>&gt; &nbsp; &nbsp; Aug 29 11:18:34 zs93kl kernel: qeth: irb 00000020: 00 00 00 00 00 00<br>&gt; &nbsp; &nbsp; 00 00 00 00 00 00 00 00 00 00 ................<br>&gt; &nbsp; &nbsp; Aug 29 11:18:34 zs93kl kernel: qeth: irb 00000030: 00 00 00 00 00 00<br>&gt; &nbsp; &nbsp; 00 00 00 00 00 00 00 00 00 00 ................<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj attrd[21400]: notice: crm_update_peer_proc:<br>&gt; &nbsp; &nbsp; Node zs95kjpcs1[2] - state is now lost (was member)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj attrd[21400]: notice: Removing all zs95kjpcs1<br>&gt; &nbsp; &nbsp; attributes for attrd_peer_change_cb<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj cib[21397]: notice: crm_update_peer_proc:<br>&gt; &nbsp; &nbsp; Node zs95kjpcs1[2] - state is now lost (was member)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj cib[21397]: notice: Removing zs95kjpcs1/2<br>&gt; &nbsp; &nbsp; from the membership list<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj cib[21397]: notice: Purged 1 peers with id=2<br>&gt; &nbsp; &nbsp; and/or uname=zs95kjpcs1 from the membership cache<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj attrd[21400]: notice: Removing zs95kjpcs1/2<br>&gt; &nbsp; &nbsp; from the membership list<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj cib[21397]: notice: crm_update_peer_proc:<br>&gt; &nbsp; &nbsp; Node zs95KLpcs1[3] - state is now lost (was member)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj attrd[21400]: notice: Purged 1 peers with<br>&gt; &nbsp; &nbsp; id=2 and/or uname=zs95kjpcs1 from the membership cache<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj cib[21397]: notice: Removing zs95KLpcs1/3<br>&gt; &nbsp; &nbsp; from the membership list<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj attrd[21400]: notice: crm_update_peer_proc:<br>&gt; &nbsp; &nbsp; Node zs95KLpcs1[3] - state is now lost (was member)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj cib[21397]: notice: Purged 1 peers with id=3<br>&gt; &nbsp; &nbsp; and/or uname=zs95KLpcs1 from the membership cache<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj cib[21397]: notice: crm_update_peer_proc:<br>&gt; &nbsp; &nbsp; Node zs93KLpcs1[5] - state is now lost (was member)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj cib[21397]: notice: Removing zs93KLpcs1/5<br>&gt; &nbsp; &nbsp; from the membership list<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] entering GATHER<br>&gt; &nbsp; &nbsp; state from 0(consensus timeout).<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj cib[21397]: notice: Purged 1 peers with id=5<br>&gt; &nbsp; &nbsp; and/or uname=zs93KLpcs1 from the membership cache<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] Creating commit<br>&gt; &nbsp; &nbsp; token because I am the rep.<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] Saving state aru 32<br>&gt; &nbsp; &nbsp; high seq received 32<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [MAIN ] Storing new sequence<br>&gt; &nbsp; &nbsp; id for ring 300<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] entering COMMIT state.<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj crmd[21402]: notice: Membership 768: quorum<br>&gt; &nbsp; &nbsp; lost (1)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] got commit token<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj attrd[21400]: notice: Removing all zs95KLpcs1<br>&gt; &nbsp; &nbsp; attributes for attrd_peer_change_cb<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj attrd[21400]: notice: Removing zs95KLpcs1/3<br>&gt; &nbsp; &nbsp; from the membership list<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] entering RECOVERY<br>&gt; &nbsp; &nbsp; state.<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] TRANS [0] member<br>&gt; &nbsp; &nbsp; _10.20.93.11_ &lt;</tt><tt><a href="http://10.20.93.11/">http://10.20.93.11/</a></tt><tt>&gt;:<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj pacemakerd[21143]: notice: Membership 768:<br>&gt; &nbsp; &nbsp; quorum lost (1)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj stonith-ng[21398]: notice:<br>&gt; &nbsp; &nbsp; crm_update_peer_proc: Node zs95kjpcs1[2] - state is now lost (was<br>&gt; &nbsp; &nbsp; member)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj crmd[21402]: notice: crm_reap_unseen_nodes:<br>&gt; &nbsp; &nbsp; Node zs95KLpcs1[3] - state is now lost (was member)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj crmd[21402]: warning: No match for shutdown<br>&gt; &nbsp; &nbsp; action on 3<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj attrd[21400]: notice: Purged 1 peers with<br>&gt; &nbsp; &nbsp; id=3 and/or uname=zs95KLpcs1 from the membership cache<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj stonith-ng[21398]: notice: Removing<br>&gt; &nbsp; &nbsp; zs95kjpcs1/2 from the membership list<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj crmd[21402]: notice: Stonith/shutdown of<br>&gt; &nbsp; &nbsp; zs95KLpcs1 not matched<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] position [0] member<br>&gt; &nbsp; &nbsp; _10.20.93.11_ &lt;</tt><tt><a href="http://10.20.93.11/">http://10.20.93.11/</a></tt><tt>&gt;:<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj attrd[21400]: notice: crm_update_peer_proc:<br>&gt; &nbsp; &nbsp; Node zs93KLpcs1[5] - state is now lost (was member)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj stonith-ng[21398]: notice: Purged 1 peers<br>&gt; &nbsp; &nbsp; with id=2 and/or uname=zs95kjpcs1 from the membership cache<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj crmd[21402]: notice: crm_reap_unseen_nodes:<br>&gt; &nbsp; &nbsp; Node zs95kjpcs1[2] - state is now lost (was member)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] previous ring seq<br>&gt; &nbsp; &nbsp; 2fc rep 10.20.93.11<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj attrd[21400]: notice: Removing all zs93KLpcs1<br>&gt; &nbsp; &nbsp; attributes for attrd_peer_change_cb<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj stonith-ng[21398]: notice:<br>&gt; &nbsp; &nbsp; crm_update_peer_proc: Node zs95KLpcs1[3] - state is now lost (was<br>&gt; &nbsp; &nbsp; member)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj crmd[21402]: warning: No match for shutdown<br>&gt; &nbsp; &nbsp; action on 2<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] aru 32 high<br>&gt; &nbsp; &nbsp; delivered 32 received flag 1<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] Did not need to<br>&gt; &nbsp; &nbsp; originate any messages in recovery.<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] got commit token<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] Sending initial ORF<br>&gt; &nbsp; &nbsp; token<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] token retrans flag<br>&gt; &nbsp; &nbsp; is 0 my set retrans flag0 retrans queue empty 1 count 0, aru 0<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] install seq 0 aru 0<br>&gt; &nbsp; &nbsp; high seq received 0<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] token retrans flag<br>&gt; &nbsp; &nbsp; is 0 my set retrans flag0 retrans queue empty 1 count 1, aru 0<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] install seq 0 aru 0<br>&gt; &nbsp; &nbsp; high seq received 0<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] token retrans flag<br>&gt; &nbsp; &nbsp; is 0 my set retrans flag0 retrans queue empty 1 count 2, aru 0<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] install seq 0 aru 0<br>&gt; &nbsp; &nbsp; high seq received 0<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] token retrans flag<br>&gt; &nbsp; &nbsp; is 0 my set retrans flag0 retrans queue empty 1 count 3, aru 0<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] install seq 0 aru 0<br>&gt; &nbsp; &nbsp; high seq received 0<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] retrans flag count<br>&gt; &nbsp; &nbsp; 4 token aru 0 install seq 0 aru 0 0<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] Resetting old ring<br>&gt; &nbsp; &nbsp; state<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] recovery to regular 1-0<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] Marking UDPU member<br>&gt; &nbsp; &nbsp; 10.20.93.12 inactive<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] Marking UDPU member<br>&gt; &nbsp; &nbsp; 10.20.93.13 inactive<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] Marking UDPU member<br>&gt; &nbsp; &nbsp; 10.20.93.14 inactive<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [MAIN ] Member left: r(0)<br>&gt; &nbsp; &nbsp; ip(10.20.93.12)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [MAIN ] Member left: r(0)<br>&gt; &nbsp; &nbsp; ip(10.20.93.13)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [MAIN ] Member left: r(0)<br>&gt; &nbsp; &nbsp; ip(10.20.93.14)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] waiting_trans_ack<br>&gt; &nbsp; &nbsp; changed to 1<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] entering<br>&gt; &nbsp; &nbsp; OPERATIONAL state.<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] A new membership<br>&gt; &nbsp; &nbsp; (_10.20.93.11:768_ &lt;</tt><tt><a href="http://10.20.93.11:768/">http://10.20.93.11:768/</a></tt><tt>&gt;) was formed. Members<br>&gt; &nbsp; &nbsp; left: 2 5 3<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [TOTEM ] Failed to receive<br>&gt; &nbsp; &nbsp; the leave message. failed: 2 5 3<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [SYNC ] Committing<br>&gt; &nbsp; &nbsp; synchronization for corosync configuration map access<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [CMAP ] Not first sync -&gt; no<br>&gt; &nbsp; &nbsp; action<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [CPG ] comparing: sender<br>&gt; &nbsp; &nbsp; r(0) ip(10.20.93.11) ; members(old:4 left:3)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:37 zs93kj corosync[20562]: [CPG ] chosen downlist:<br>&gt; &nbsp; &nbsp; sender r(0) ip(10.20.93.11) ; members(old:4 left:3)<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [TOTEM ] Marking UDPU member<br>&gt; &nbsp; &nbsp; 10.20.93.12 active</tt><br><tt>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [TOTEM ] Marking UDPU member<br>&gt; &nbsp; &nbsp; 10.20.93.14 active<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [MAIN ] Member joined: r(0)<br>&gt; &nbsp; &nbsp; ip(10.20.93.12)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [MAIN ] Member joined: r(0)<br>&gt; &nbsp; &nbsp; ip(10.20.93.14)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [TOTEM ] entering<br>&gt; &nbsp; &nbsp; OPERATIONAL state.<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [TOTEM ] A new membership<br>&gt; &nbsp; &nbsp; (_10.20.93.11:772_ &lt;</tt><tt><a href="http://10.20.93.11:772/">http://10.20.93.11:772/</a></tt><tt>&gt;) was formed. Members<br>&gt; &nbsp; &nbsp; joined: 2 3<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [SYNC ] Committing<br>&gt; &nbsp; &nbsp; synchronization for corosync configuration map access<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CMAP ] Not first sync -&gt; no<br>&gt; &nbsp; &nbsp; action<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] got joinlist message<br>&gt; &nbsp; &nbsp; from node 0x1<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] got joinlist message<br>&gt; &nbsp; &nbsp; from node 0x2<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] comparing: sender<br>&gt; &nbsp; &nbsp; r(0) ip(10.20.93.14) ; members(old:2 left:0)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] comparing: sender<br>&gt; &nbsp; &nbsp; r(0) ip(10.20.93.12) ; members(old:2 left:0)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] comparing: sender<br>&gt; &nbsp; &nbsp; r(0) ip(10.20.93.11) ; members(old:1 left:0)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] chosen downlist:<br>&gt; &nbsp; &nbsp; sender r(0) ip(10.20.93.12) ; members(old:2 left:0)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] got joinlist message<br>&gt; &nbsp; &nbsp; from node 0x3<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [SYNC ] Committing<br>&gt; &nbsp; &nbsp; synchronization for corosync cluster closed process group service v1.01<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[0]<br>&gt; &nbsp; &nbsp; group:crmd\x00, ip:r(0) ip(10.20.93.14) , pid:21491<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[1]<br>&gt; &nbsp; &nbsp; group:attrd\x00, ip:r(0) ip(10.20.93.14) , pid:21489<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[2]<br>&gt; &nbsp; &nbsp; group:stonith-ng\x00, ip:r(0) ip(10.20.93.14) , pid:21487<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[3]<br>&gt; &nbsp; &nbsp; group:cib\x00, ip:r(0) ip(10.20.93.14) , pid:21486<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[4]<br>&gt; &nbsp; &nbsp; group:pacemakerd\x00, ip:r(0) ip(10.20.93.14) , pid:21485<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[5]<br>&gt; &nbsp; &nbsp; group:crmd\x00, ip:r(0) ip(10.20.93.12) , pid:24499<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[6]<br>&gt; &nbsp; &nbsp; group:attrd\x00, ip:r(0) ip(10.20.93.12) , pid:24497<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[7]<br>&gt; &nbsp; &nbsp; group:stonith-ng\x00, ip:r(0) ip(10.20.93.12) , pid:24495<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[8]<br>&gt; &nbsp; &nbsp; group:cib\x00, ip:r(0) ip(10.20.93.12) , pid:24494<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[9]<br>&gt; &nbsp; &nbsp; group:pacemakerd\x00, ip:r(0) ip(10.20.93.12) , pid:24491<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[10]<br>&gt; &nbsp; &nbsp; group:crmd\x00, ip:r(0) ip(10.20.93.11) , pid:21402<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[11]<br>&gt; &nbsp; &nbsp; group:attrd\x00, ip:r(0) ip(10.20.93.11) , pid:21400<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[12]<br>&gt; &nbsp; &nbsp; group:stonith-ng\x00, ip:r(0) ip(10.20.93.11) , pid:21398<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[13]<br>&gt; &nbsp; &nbsp; group:cib\x00, ip:r(0) ip(10.20.93.11) , pid:21397<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [CPG ] joinlist_messages[14]<br>&gt; &nbsp; &nbsp; group:pacemakerd\x00, ip:r(0) ip(10.20.93.11) , pid:21143<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [VOTEQ ] flags: quorate: No<br>&gt; &nbsp; &nbsp; Leaving: No WFA Status: No First: No Qdevice: No QdeviceAlive: No<br>&gt; &nbsp; &nbsp; QdeviceCastVote: No QdeviceMasterWins: No<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [QB ] IPC credentials<br>&gt; &nbsp; &nbsp; authenticated (20562-21400-28)<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [QB ] connecting to client<br>&gt; &nbsp; &nbsp; [21400]<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [QB ] shm size:1048589;<br>&gt; &nbsp; &nbsp; real_size:1052672; rb-&gt;word_size:263168<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [QB ] shm size:1048589;<br>&gt; &nbsp; &nbsp; real_size:1052672; rb-&gt;word_size:263168<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj pacemakerd[21143]: notice: Membership 772:<br>&gt; &nbsp; &nbsp; quorum acquired (3)<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [VOTEQ ] quorum regained,<br>&gt; &nbsp; &nbsp; resuming activity<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [VOTEQ ] got nodeinfo<br>&gt; &nbsp; &nbsp; message from cluster node 3<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [VOTEQ ] nodeinfo<br>&gt; &nbsp; &nbsp; message[0]: votes: 0, expected: 0 flags: 0<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [SYNC ] Committing<br>&gt; &nbsp; &nbsp; synchronization for corosync vote quorum service v1.0<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [VOTEQ ] total_votes=3,<br>&gt; &nbsp; &nbsp; expected_votes=5<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [VOTEQ ] node 1 state=1,<br>&gt; &nbsp; &nbsp; votes=1, expected=5<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [VOTEQ ] node 2 state=1,<br>&gt; &nbsp; &nbsp; votes=1, expected=5<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [VOTEQ ] node 3 state=1,<br>&gt; &nbsp; &nbsp; votes=1, expected=5<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [VOTEQ ] node 4 state=2,<br>&gt; &nbsp; &nbsp; votes=1, expected=5<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [VOTEQ ] node 5 state=2,<br>&gt; &nbsp; &nbsp; votes=1, expected=5<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [VOTEQ ] lowest node id: 1 us: 1<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [VOTEQ ] highest node id: 3<br>&gt; &nbsp; &nbsp; us: 1<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [QUORUM] This node is within<br>&gt; &nbsp; &nbsp; the primary component and will provide service.<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj pacemakerd[21143]: notice:<br>&gt; &nbsp; &nbsp; pcmk_quorum_notification: Node zs95KLpcs1[3] - state is now member<br>&gt; &nbsp; &nbsp; (was lost)<br>&gt; &nbsp; &nbsp; Au
g 29 11:18:43 zs93kj attrd[21400]: notice: crm_update_peer_proc:<br>&gt; &nbsp; &nbsp; Node zs95KLpcs1[3] - state is now member (was (null))<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [QUORUM] Members[3]: 1 2 3<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj stonith-ng[21398]: warning: Node names with<br>&gt; &nbsp; &nbsp; capitals are discouraged, consider changing 'zs95KLpcs1' to<br>&gt; &nbsp; &nbsp; something else<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj corosync[20562]: [MAIN ] Completed service<br>&gt; &nbsp; &nbsp; synchronization, ready to provide service.<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj stonith-ng[21398]: notice:<br>&gt; &nbsp; &nbsp; crm_update_peer_proc: Node zs95KLpcs1[3] - state is now member (was<br>&gt; &nbsp; &nbsp; (null))<br>&gt; &nbsp; &nbsp; Aug 29 11:18:43 zs93kj attrd[21400]: notice: crm_update_peer_proc:<br>&gt; &nbsp; &nbsp; Node zs95kjpcs1[2] - state is now member (was (null))<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; *<br>&gt; <br>&gt; &nbsp; &nbsp; The story of zs95kjg110079 starts on ZS93KL when it seemed to be<br>&gt; &nbsp; &nbsp; already running on ZS93KJ - **<br>&gt; <br>&gt; &nbsp; &nbsp; System log on zs93KLpcs1:*<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:20:58 zs93kl pengine[19997]: notice: Start<br>&gt; &nbsp; &nbsp; zs95kjg110079_res#011(zs93KLpcs1)<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:21:56 zs93kl crmd[20001]: notice: Initiating action 520:<br>&gt; &nbsp; &nbsp; start zs95kjg110079_res_start_0 on zs93KLpcs1 (local)<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:21:56 zs93kl systemd-machined: New machine<br>&gt; &nbsp; &nbsp; qemu-70-zs95kjg110079.<br>&gt; &nbsp; &nbsp; Aug 29 11:21:56 zs93kl systemd: Started Virtual Machine<br>&gt; &nbsp; &nbsp; qemu-70-zs95kjg110079.<br>&gt; &nbsp; &nbsp; Aug 29 11:21:56 zs93kl systemd: Starting Virtual Machine<br>&gt; &nbsp; &nbsp; qemu-70-zs95kjg110079.<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:21:59 zs93kl crmd[20001]: notice: Operation<br>&gt; &nbsp; &nbsp; zs95kjg110079_res_start_0: ok (node=zs93KLpcs1, call=1036, rc=0,<br>&gt; &nbsp; &nbsp; cib-update=735, confirmed=true)<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:22:07 zs93kl crmd[20001]: warning: Action 238<br>&gt; &nbsp; &nbsp; (zs95kjg110079_res_monitor_0) on zs93kjpcs1 failed (target: 7 vs.<br>&gt; &nbsp; &nbsp; rc: 0): Error<br>&gt; &nbsp; &nbsp; Aug 29 11:22:07 zs93kl crmd[20001]: notice: Transition aborted by<br>&gt; &nbsp; &nbsp; zs95kjg110079_res_monitor_0 'create' on zs93kjpcs1: Event failed<br>&gt; &nbsp; &nbsp; (magic=0:0;238:13:7:236d078a-9063-4092-9660-cfae048f3627,<br>&gt; &nbsp; &nbsp; cib=0.2437.3212, source=match_graph_event:381, 0)<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:22:15 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110079_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 11:22:15 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 11:22:15 zs93kl pengine[19997]: notice: Restart<br>&gt; &nbsp; &nbsp; zs95kjg110079_res#011(Started zs93kjpcs1)<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:22:23 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110079_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 11:22:23 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 11:22:23 zs93kl pengine[19997]: notice: Restart<br>&gt; &nbsp; &nbsp; zs95kjg110079_res#011(Started zs93kjpcs1)<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:30:31 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110079_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 11:30:31 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 11:30:31 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110108_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 11:30:31 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:55:41 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110079_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 11:55:41 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 11:55:41 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110108_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 11:55:41 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 11:55:41 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110186_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 11:55:41 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:58:53 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110079_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 11:58:53 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 11:58:53 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110108_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 11:58:53 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 11:58:53 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110186_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 11:58:53 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 11:58:53 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110188_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 11:58:53 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 12:00:00 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110079_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:00:00 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:00:00 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110108_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:00:00 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:00:00 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110186_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:00:00 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:00:00 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110188_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:00:00 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:00:00 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110198_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:00:00 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 12:03:24 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110079_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:03:24 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:03:2 4 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110108_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:03:24 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:03:24 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110186_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:03:24 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:03:24 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110188_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:03:24 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:03:24 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110198_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:03:24 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:03:24 zs93kl pengine[19997]: notice: Restart<br>&gt; &nbsp; &nbsp; zs95kjg110079_res#011(Started zs93kjpcs1)<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110079_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110108_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110186_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110188_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110198_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: error: Resource<br>&gt; &nbsp; &nbsp; zs95kjg110210_res (ocf::VirtualDomain) is active on 2 nodes<br>&gt; &nbsp; &nbsp; attempting recovery<br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: warning: See<br>&gt; &nbsp; &nbsp; _http://clusterlabs.org/wiki/FAQ#Resource_is_Too_Active_ for more<br>&gt; &nbsp; &nbsp; information.<br>&gt; &nbsp; &nbsp; Aug 29 12:36:27 zs93kl pengine[19997]: notice: Restart<br>&gt; &nbsp; &nbsp; zs95kjg110079_res#011(Started zs93kjpcs1)<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 12:44:41 zs93kl crmd[20001]: warning: Transition 84<br>&gt; &nbsp; &nbsp; (Complete=108, Pending=0, Fired=0, Skipped=0, Incomplete=77,<br>&gt; &nbsp; &nbsp; Source=/var/lib/pacemaker/pengine/pe-error-106.bz2): Terminated<br>&gt; &nbsp; &nbsp; Aug 29 12:44:41 zs93kl crmd[20001]: warning: Transition failed:<br>&gt; &nbsp; &nbsp; terminated<br>&gt; &nbsp; &nbsp; Aug 29 12:44:41 zs93kl crmd[20001]: notice: Graph 84 with 185<br>&gt; &nbsp; &nbsp; actions: batch-limit=185 jobs, network-delay=0ms<br>&gt; &nbsp; &nbsp; Aug 29 12:44:41 zs93kl crmd[20001]: notice: [Action 410]: Pending<br>&gt; &nbsp; &nbsp; rsc op zs95kjg110079_res_monitor_30000 on zs93kjpcs1 (priority: 0,<br>&gt; &nbsp; &nbsp; waiting: 409)<br>&gt; &nbsp; &nbsp; Aug 29 12:44:41 zs93kl crmd[20001]: notice: [Action 409]: Pending<br>&gt; &nbsp; &nbsp; rsc op zs95kjg110079_res_start_0 on zs93kjpcs1 (priority: 0,<br>&gt; &nbsp; &nbsp; waiting: 408)<br>&gt; &nbsp; &nbsp; Aug 29 12:44:41 zs93kl crmd[20001]: notice: [Action 408]: Pending<br>&gt; &nbsp; &nbsp; pseudo op zs95kjg110079_res_stop_0 on N/A (priority: 0, waiting: 439<br>&gt; &nbsp; &nbsp; 470 496 521 546)<br>&gt; &nbsp; &nbsp; Aug 29 12:44:41 zs93kl crmd[20001]: notice: [Action 407]: Completed<br>&gt; &nbsp; &nbsp; pseudo op zs95kjg110079_res_stop_0 on N/A (priority: 0, waiting: none)<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 12:59:42 zs93kl crmd[20001]: notice: Initiating action 428:<br>&gt; &nbsp; &nbsp; stop zs95kjg110079_res_stop_0 on zs93kjpcs1<br>&gt; &nbsp; &nbsp; Aug 29 12:59:42 zs93kl crmd[20001]: notice: Initiating action 495:<br>&gt; &nbsp; &nbsp; stop zs95kjg110108_res_stop_0 on zs93kjpcs1<br>&gt; &nbsp; &nbsp; Aug 29 12:59:44 zs93kl crmd[20001]: notice: Initiating action 660:<br>&gt; &nbsp; &nbsp; stop zs95kjg110186_res_stop_0 on zs93kjpcs1<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 13:00:04 zs93kl crmd[20001]: notice: [Action 431]: Pending<br>&gt; &nbsp; &nbsp; rsc op zs95kjg110079_res_monitor_30000 on zs93kjpcs1 (priority: 0,<br>&gt; &nbsp; &nbsp; waiting: 430)<br>&gt; &nbsp; &nbsp; Aug 29 13:00:04 zs93kl crmd[20001]: notice: [Action 430]: Pending<br>&gt; &nbsp; &nbsp; rsc op zs95kjg110079_res_start_0 on zs93kjpcs1 (priority: 0,<br>&gt; &nbsp; &nbsp; waiting: 429)<br>&gt; &nbsp; &nbsp; Aug 29 13:00:04 zs93kl crmd[20001]: notice: [Action 429]: Pending<br>&gt; &nbsp; &nbsp; pseudo op zs95kjg110079_res_stop_0 on N/A (priority: 0, waiting: 460<br>&gt; &nbsp; &nbsp; 491 517 542 567)<br>&gt; &nbsp; &nbsp; Aug 29 13:00:04 zs93kl crmd[20001]: notice: [Action 428]: Completed<br>&gt; &nbsp; &nbsp; rsc op zs95kjg110079_res_stop_0 on zs93kjpcs1 (priority: 0, waiting:<br>&gt; &nbsp; &nbsp; none)<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; *<br>&gt; <br>&gt; &nbsp; &nbsp; System log on zs93kjpcs1*:<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:20:48 zs93kj crmd[21402]: notice: Recurring action<br>&gt; &nbsp; &nbsp; zs95kjg110079_res:817 (zs95kjg110079_res_monitor_30000) incomplete<br>&gt; &nbsp; &nbsp; at shutdown<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 11:22:07 zs93kj crmd[259639]: notice: Operation<br>&gt; &nbsp; &nbsp; zs95kjg110079_res_monitor_0: ok (node=zs93kjpcs1, call=1223, rc=0,<br>&gt; &nbsp; &nbsp; cib-update=104, confirmed=true)<br>&gt; <br>&gt; &nbsp; &nbsp; Aug 29 12:59:42 zs93kj VirtualDomain(zs95kjg110079_res)[9148]: INFO:<br>&gt; &nbsp; &nbsp; Issuing graceful shutdown request for domain zs95kjg110079.*<br>&gt; <br>&gt; &nbsp; &nbsp; Finally **zs95kjg110079**shuts down on ZS93KJ at 12:59*<br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; ===================<br>&gt; <br>&gt; &nbsp; &nbsp; Does this &quot;active on two nodes&quot; recovery process look right?<br>&gt; <br>&gt; &nbsp; &nbsp; What is the recommended procedure to &quot;undo&quot; the resource failures<br>&gt; &nbsp; &nbsp; and dual host assignments? It took several hours (short of<br>&gt; &nbsp; &nbsp; stopping/starting the entire cluster)<br>&gt; &nbsp; &nbsp; to recover them... resource disable, cleanup, enable was the basis<br>&gt; &nbsp; &nbsp; ... but it seemed that I would fix one resource and two more would<br>&gt; &nbsp; &nbsp; fall out.<br>&gt; <br>&gt; &nbsp; &nbsp; This seems to be one of the pitfalls of configuring resources in<br>&gt; &nbsp; &nbsp; symmetrical mode.<br>&gt; <br>&gt; &nbsp; &nbsp; I would appreciate any best practice guidelines you have to offer. I<br>&gt; &nbsp; &nbsp; saved the system logs on all hosts in case anyone needs more<br>&gt; &nbsp; &nbsp; detailed information.<br>&gt; &nbsp; &nbsp; I also have pacemaker.log logs.<br>&gt; <br>&gt; &nbsp; &nbsp; Thanks in advance!<br>&gt; <br>&gt; <br>&gt; <br>&gt; &nbsp; &nbsp; Scott Greenlese ... IBM z/BX Solutions Test, Poughkeepsie, N.Y.<br>&gt; &nbsp; &nbsp; INTERNET: _swgreenl@us.ibm.com_ &lt;</tt><tt><a href="mailto:swgreenl@us.ibm.com">mailto:swgreenl@us.ibm.com</a></tt><tt>&gt;<br>&gt; &nbsp; &nbsp; PHONE: 8/293-7301 _(845-433-7301_ &lt;tel:%28845-433-7301&gt;) M/S: POK<br>&gt; &nbsp; &nbsp; 42HA/P966<br><br>_______________________________________________<br>Users mailing list: Users@clusterlabs.org<br></tt><tt><a href="http://clusterlabs.org/mailman/listinfo/users">http://clusterlabs.org/mailman/listinfo/users</a></tt><tt><br><br>Project Home: </tt><tt><a href="http://www.clusterlabs.org">http://www.clusterlabs.org</a></tt><tt><br>Getting started: </tt><tt><a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a></tt><tt><br>Bugs: </tt><tt><a href="http://bugs.clusterlabs.org">http://bugs.clusterlabs.org</a></tt><tt><br><br></tt><br><br><BR>
</body></html>