<html><header></header><body><div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">I tried setting wait_for_all: 0, but then when I start only 1st node, it will power off itself after few minues! :O :O :O</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<div id="wt-mailcard">
<div> </div>
<div><span style="font-size: 14px; font-family: Helvetica;"><strong>Sonicle S.r.l. </strong>: <a href="http://www.sonicle.com/" target="_new">http://www.sonicle.com</a></span></div>
<div><span style="font-size: 14px; font-family: Helvetica;"><strong>Music: </strong><a href="http://www.gabrielebulfon.com/" target="_new">http://www.gabrielebulfon.com</a></span></div>
<div><span style="font-size: 14px; font-family: Helvetica;"><strong>eXoplanets : </strong><a href="https://gabrielebulfon.bandcamp.com/album/exoplanets">https://gabrielebulfon.bandcamp.com/album/exoplanets</a></span></div>
<div> </div>
</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"><tt><br /><br /><br />----------------------------------------------------------------------------------<br /><br />Da: Reid Wahl <nwahl@redhat.com><br />A: Cluster Labs - All topics related to open-source clustering welcomed <users@clusterlabs.org> <br />Data: 11 dicembre 2020 11.40.16 CET<br />Oggetto: Re: [ClusterLabs] Recoveing from node failure<br /><br /></tt></div>
<blockquote style="border-left: #000080 2px solid; margin-left: 5px; padding-left: 5px;"><tt>Hi, Gabriele. It sounds like you don't have quorum on node 1.<br />Resources won't start unless the node is part of a quorate cluster<br />partition.<br /><br />You probably have "two_node: 1" configured by default in<br />corosync.conf. This setting automatically enables wait_for_all.<br /><br />From the votequorum(5) man page:<br /><br />NOTES: enabling two_node: 1 automatically enables<br />wait_for_all. It is still possible to override wait_for_all by<br />explicitly setting it to 0. If more than 2 nodes join the cluster,<br />the two_node<br />option is automatically disabled.<br /><br />wait_for_all: 1<br /><br />Enables Wait For All (WFA) feature (default: 0).<br /><br />The general behaviour of votequorum is to switch a cluster from<br />inquorate to quorate as soon as possible. For example, in an 8 node<br />cluster, where every node has 1 vote, expected_votes is set to 8<br />and quorum is (50% + 1) 5. As soon as 5 (or more) nodes are<br />visible to each other, the partition of 5 (or more) becomes quorate<br />and can start operating.<br /><br />When WFA is enabled, the cluster will be quorate for the first<br />time only after all nodes have been visible at least once at the same<br />time.<br /><br />This feature has the advantage of avoiding some startup race<br />conditions, with the cost that all nodes need to be up at the same<br />time at least once before the cluster can operate.<br /><br />You can either unblock quorum (`pcs quorum unblock` with pcs -- not<br />sure how to do it with crmsh) or set `wait_for_all: 0` in<br />corosync.conf and restart the cluster services.<br /><br />On Fri, Dec 11, 2020 at 2:23 AM Gabriele Bulfon <gbulfon@sonicle.com> wrote:<br />><br />> Hi, I finally could manage stonith with IPMI in my 2 nodes XStreamOS/illumos storage cluster.<br />> I have NFS IPs and shared storage zpool moving from one node or the other, and stonith controllin ipmi powering off when something is not clear.<br />><br />> What happens now is that if I shutdown 2nd node, I see the OFFLINE status from node 1 and everything is up and running, and this is ok:<br />><br />><br />> Online: [ xstha1 ]<br />> OFFLINE: [ xstha2 ]<br />><br />> Full list of resources:<br />><br />> xstha1_san0_IP (ocf::heartbeat:IPaddr): Started xstha1<br />> xstha2_san0_IP (ocf::heartbeat:IPaddr): Started xstha1<br />> xstha1-stonith (stonith:external/ipmi): Started xstha1<br />> xstha2-stonith (stonith:external/ipmi): Started xstha1<br />> zpool_data (ocf::heartbeat:ZFS): Started xstha1<br />><br />> But if also reboot 1st node, it starts with the UNCLEAN state, nothing is running, so I clearstate of node 2, but resources are not started:<br />><br />> Online: [ xstha1 ]<br />> OFFLINE: [ xstha2 ]<br />><br />> Full list of resources:<br />><br />> xstha1_san0_IP (ocf::heartbeat:IPaddr): Stopped<br />> xstha2_san0_IP (ocf::heartbeat:IPaddr): Stopped<br />> xstha1-stonith (stonith:external/ipmi): Stopped<br />> xstha2-stonith (stonith:external/ipmi): Stopped<br />> zpool_data (ocf::heartbeat:ZFS): Stopped<br />><br />> I tried restarting zpool_data or other resources:<br />><br />> # crm resource start zpool_data<br />><br />> but nothing happens!<br />> How can I recover from this state? Node2 needs to stay down, but I want node1 to work.<br />><br />> Thanks!<br />> Gabriele<br />><br />><br />> Sonicle S.r.l. : http://www.sonicle.com<br />> Music: http://www.gabrielebulfon.com<br />> eXoplanets : https://gabrielebulfon.bandcamp.com/album/exoplanets<br />><br />> _______________________________________________<br />> Manage your subscription:<br />> https://lists.clusterlabs.org/mailman/listinfo/users<br />><br />> ClusterLabs home: https://www.clusterlabs.org/<br /><br /><br /><br />-- <br />Regards,<br /><br />Reid Wahl, RHCA<br />Senior Software Maintenance Engineer, Red Hat<br />CEE - Platform Support Delivery - ClusterHA<br /><br />_______________________________________________<br />Manage your subscription:<br />https://lists.clusterlabs.org/mailman/listinfo/users<br /><br />ClusterLabs home: https://www.clusterlabs.org/<br /><br /><br /></tt></blockquote></body></html>