<html><header></header><body><div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">Looking at the two logs, looks like corosync decided that xst1 was offline, while xst was still online.</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">I just issued an "ifconfig ha0 down" on xst1, so I expect both nodes cannot see other one, while I see these same lines both on xst1 and xst2 log:</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">ec 16 15:08:56 [667]    pengine:  warning: pe_fence_node:      Cluster node xstha1 will be fenced: peer is no longer part of the cluster<br />Dec 16 15:08:56 [667]    pengine:  warning: determine_online_status:    Node xstha1 is unclean<br />Dec 16 15:08:56 [667]    pengine:     info: determine_online_status_fencing:    Node xstha2 is active<br />Dec 16 15:08:56 [667]    pengine:     info: determine_online_status:    Node xstha2 is online</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">why xst2 and not xst1?</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">I would expect no action at all in this case, until stonith is done...<br />While it goes on with :</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">Dec 16 15:08:56 [667]    pengine:  warning: custom_action:      Action xstha1_san0_IP_stop_0 on xstha1 is unrunnable (offline)<br />Dec 16 15:08:56 [667]    pengine:  warning: custom_action:      Action zpool_data_stop_0 on xstha1 is unrunnable (offline)<br />Dec 16 15:08:56 [667]    pengine:  warning: custom_action:      Action xstha2-stonith_stop_0 on xstha1 is unrunnable (offline)<br />Dec 16 15:08:56 [667]    pengine:  warning: custom_action:      Action xstha2-stonith_stop_0 on xstha1 is unrunnable (offline)</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">trying to stop everythin on xst1 (but it's not runnable).</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">Then:</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">Dec 16 15:08:56 [667]    pengine:   notice: LogAction:   * Move       xstha1_san0_IP     ( xstha1 -> xstha2 )<br />Dec 16 15:08:56 [667]    pengine:     info: LogActions: Leave   xstha2_san0_IP  (Started xstha2)<br />Dec 16 15:08:56 [667]    pengine:   notice: LogAction:   * Move       zpool_data         ( xstha1 -> xstha2 )<br />Dec 16 15:08:56 [667]    pengine:     info: LogActions: Leave   xstha1-stonith  (Started xstha2)<br />Dec 16 15:08:56 [667]    pengine:   notice: LogAction:   * Stop       xstha2-stonith     (           xstha1 )   due to node availability</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">as if xst2 has been elected to be the running node, not knowing xst1 will kill xst2 within few seconds.</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">What is wrong here?</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">Thanks!<br />Gabriele</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<div id="wt-mailcard">
<div> </div>
<div><span style="font-size: 14px; font-family: Helvetica;"><strong>Sonicle S.r.l. </strong>: <a href="http://www.sonicle.com/" target="_new">http://www.sonicle.com</a></span></div>
<div><span style="font-size: 14px; font-family: Helvetica;"><strong>Music: </strong><a href="http://www.gabrielebulfon.com/" target="_new">http://www.gabrielebulfon.com</a></span></div>
<div><span style="font-size: 14px; font-family: Helvetica;"><strong>eXoplanets : </strong><a href="https://gabrielebulfon.bandcamp.com/album/exoplanets">https://gabrielebulfon.bandcamp.com/album/exoplanets</a></span></div>
<div> </div>
</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<hr />
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"><br /><br /><span style="font-family: Arial, Helvetica, sans-serif; font-size: small;"><strong>Da:</strong> Gabriele Bulfon <gbulfon@sonicle.com><br /><strong>A:</strong> Cluster Labs - All topics related to open-source clustering welcomed <users@clusterlabs.org><br /><strong>Data:</strong> 16 dicembre 2020 15.56.28 CET<br /><strong>Oggetto:</strong> Re: [ClusterLabs] Antw: [EXT] delaying start of a resource<br /></span><br /><br /></div>
<blockquote style="border-left: #000080 2px solid; margin-left: 5px; padding-left: 5px;">
<div> </div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">Thanks, here are the logs, there are infos about how it tried to start resources on the nodes.</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">Keep in mind the node1 was already running the resources, and I simulated a problem by turning down the ha interface.</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;">Gabriele</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"> </div>
<div id="wt-mailcard">
<div> </div>
<div><span style="font-size: 14px; font-family: Helvetica;"><strong>Sonicle S.r.l. </strong>: <a href="http://www.sonicle.com/" target="_new">http://www.sonicle.com</a></span></div>
<div><span style="font-size: 14px; font-family: Helvetica;"><strong>Music: </strong><a href="http://www.gabrielebulfon.com/" target="_new">http://www.gabrielebulfon.com</a></span></div>
<div><span style="font-size: 14px; font-family: Helvetica;"><strong>eXoplanets : </strong><a href="https://gabrielebulfon.bandcamp.com/album/exoplanets">https://gabrielebulfon.bandcamp.com/album/exoplanets</a></span></div>
<div> </div>
</div>
<div style="font-family: tahoma,arial,helvetica,sans-serif; font-size: 14px;"><tt><br /><br /><br />----------------------------------------------------------------------------------<br /><br />Da: Ulrich Windl <Ulrich.Windl@rz.uni-regensburg.de><br />A: users@clusterlabs.org <br />Data: 16 dicembre 2020 15.45.36 CET<br />Oggetto: [ClusterLabs] Antw: [EXT] delaying start of a resource<br /><br /></tt></div>
<blockquote style="border-left: #000080 2px solid; margin-left: 5px; padding-left: 5px;"><tt>>>> Gabriele Bulfon <gbulfon@sonicle.com> schrieb am 16.12.2020 um 15:32 in<br />Nachricht <1523391015.734.1608129155836@www>:<br />> Hi, I have now a two node cluster using stonith with different <br />> pcmk_delay_base, so that node 1 has priority to stonith node 2 in case of <br />> problems.<br />> <br />> Though, there is still one problem: once node 2 delays its stonith action <br />> for 10 seconds, and node 1 just 1, node 2 does not delay start of resources, <br />> so it happens that while it's not yet powered off by node 1 (and waiting its <br />> dalay to power off node 1) it actually starts resources, causing a moment of <br />> few seconds where both NFS IP and ZFS pool (!!!!!) is mounted by both!<br /><br />AFAIK pacemaker will not start resources on a node that is scheduled for stonith. Even more: Pacemaker will tra to stop resources on a node scheduled for stonith to start them elsewhere.<br /><br />> How can I delay node 2 resource start until the delayed stonith action is <br />> done? Or how can I just delay the resource start so I can make it larger than <br />> its pcmk_delay_base?<br /><br />We probably need to see logs and configs to understand.<br /><br />> <br />> Also, I was suggested to set "stonith-enabled=true", but I don't know where <br />> to set this flag (cib-bootstrap-options is not happy with it...).<br /><br />I think it's on by default, so you must have set it to false.<br />In crm shell it is "configure# property stonith-enabled=...".<br /><br />Regards,<br />Ulrich<br /><br /><br />_______________________________________________<br />Manage your subscription:<br />https://lists.clusterlabs.org/mailman/listinfo/users<br /><br />ClusterLabs home: https://www.clusterlabs.org/<br /><br /><br /></tt></blockquote>
<pre>_______________________________________________
Manage your subscription:
https://lists.clusterlabs.org/mailman/listinfo/users

ClusterLabs home: https://www.clusterlabs.org/
</pre>
<br /><br /><<stonith1.txt>><br /><<stonith2.txt>></blockquote></body></html>