<div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Jun 16, 2021 at 11:26 AM Klaus Wenninger <<a href="mailto:kwenning@redhat.com">kwenning@redhat.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Jun 16, 2021 at 10:47 AM Roger Zhou <<a href="mailto:zzhou@suse.com" target="_blank">zzhou@suse.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><br>
On 6/16/21 3:03 PM, Andrei Borzenkov wrote:<br>
<br>
> <br>
>>><br>
>>> We thought that access to storage was restored, but one step was<br>
>>> missing so devices appeared empty.<br>
>>><br>
>>> At this point I tried to restart the pacemaker. But as soon as I<br>
>>> stopped pacemaker SBD rebooted nodes ‑ which is logical, as quorum was<br>
>>> now lost.<br>
>>><br>
>>> How to cleanly stop pacemaker in this case and keep nodes up?<br>
>><br>
>> Unconfigurte sbd devices I guess.<br>
>><br>
> <br>
> Do you have *practical* suggestions on how to do it online in a<br>
> running pacemaker cluster? Can you explain how it is going to help<br>
> given that lack of sbd device was not the problem in the first place?<br>
<br>
I would translate this issue as "how to gracefully shutdown sbd to deregister <br>
sbd from pacemaker for the whole cluster". Seems no way to do that except <br>
`systemctl stop corosync`.<br>
<br>
With that, to calm down sbd suicide, I'm thinking some tricky steps as below <br>
might help. Well, not sure it fits your situation as the whole.<br>
<br>
crm cluster run "systemctl stop pacemaker"<br>
crm cluster run "systemctl stop corosync"<br></blockquote><div>I guess this shouldn't be helpful in this situation.</div><div>As I've already tried to explain before shutting down</div><div>pacemaker on one of the nodes - if sbd-device can't</div><div>be reached - should already be enough for the other</div><div>one to suicide.</div><div><br></div><div>One - not less ugly than other suggestions here I'm afraid -</div><div>thing coming to my mind is to right after stopping pacemaker</div><div>dummy-register at the cpg-protocol. If after that you want</div><div>to bring down corosync & sbd as well it should be possible</div><div>to do that quickly enough - as pcs is otherwise doing with</div><div>3+ node clusters. </div></div></div></blockquote><div><br></div><div>Something else coming to my mind that might be more</div><div>helpful and less ugly - have to think it over a bit though:</div><div><br></div><div>With the new startup/shutdown-syncing pacemaker</div><div>should stay connected to the cpg-protocol till a final</div><div>handshake with sbd on shutdown.</div><div>If we could bring all nodes to a state right before that</div><div>handshake with e.g. pcs we have lots of time for that.</div><div>And the final step incl. corosync/sbd shutdown is quick</div><div>enough that it can happen on all nodes within</div><div>watchdog-timeout.</div><div><br></div><div>Klaus </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>
BR,<br>
Roger<br>
<br>
_______________________________________________<br>
Manage your subscription:<br>
<a href="https://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>
<br>
ClusterLabs home: <a href="https://www.clusterlabs.org/" rel="noreferrer" target="_blank">https://www.clusterlabs.org/</a><br>
</blockquote></div></div>
</blockquote></div></div>