Hi Lars,<br><br><div class="gmail_quote">On Mon, Apr 2, 2012 at 10:35 AM, Lars Marowsky-Bree <span dir="ltr"><<a href="mailto:lmb@suse.com">lmb@suse.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div class="im">On 2012-04-02T09:33:22, mark - pacemaker list <<a href="mailto:m%2Bpacemaker@nerdish.us">m+pacemaker@nerdish.us</a>> wrote:<br>
<br>
> Hello,<br>
><br>
> I'm just looking to verify that I'm understanding/configuring SBD<br>
> correctly.  It works great in the controlled cases where you unplug a node<br>
> from the network (it gets fenced via SBD) or remove its access to the<br>
> shared disk (the node suicides).  However, In the event of a hardware<br>
> failure or power interruption that takes a node offline before SBD can<br>
> fence it, if that node never comes back into the cluster then its resources<br>
> can't ever start anywhere else.  The surviving nodes will continue to try<br>
> to fence the dead node at regular intervals but can never succeed.<br>
<br>
</div>No, that is not correct.<br>
<br>
The node will be fenced implicitly - the poison pill is still written,<br>
and SBD knows that the node will have either read it (and committed<br>
suicide), determined that it was unable to read it (and committed<br>
suicide), or the watchdog will have triggered if SBD itself has failed<br>
beyond hope (i.e., the node will have committed suicide). Hence, after<br>
the msgwait timeout, the node will be declared "successfully dead" after<br>
the poison pill was written.<br>
<br>
What can affect fencing is the inability to write the poison pill to the<br>
(majority of) sbd device(s); e.g., the connection between the surviving<br>
nodes and the (majority of) sbd device(s) is broken.<br>
<br>
Or, theoretically, if the node has never been up and claimed its slot on<br>
them; but that is indeed reasonably unlikely.<br>
<br>
So the resources will be claimed afterwards; of course, the<br>
stonith-timeout needs to be higher than msgwait for this to work.<br>
<br>
Are you actually seeing the behaviour you describe (in which case it is<br>
either a bug or something else going wrong), or is this speculation?<br>
<div class="im"><br></div></blockquote><div><br></div><div>This is something I encountered, unfortunately it's been some time back so I don't think I'll still have logs available but I'll check.  I had one node of a three-node cluster die spontaneously, and for the next 5 hours the two surviving nodes kept attempting to fence it (the cluster wasn't quite in production yet so it wasn't monitored and stayed in this state until we arrived at work in the morning).  As soon as we got the dead node back up and running and it started talking with the cluster, the resources started on another node.</div>
<div> </div><div>I'm very glad to hear that's not how things are supposed to work, that gives me a cause to set up a test cluster and see if I can replicate the problem or discover where I've screwed up the configuration.</div>
<div><br></div><div>Debian's corosync/pacemaker scripts don't include a way to start SBD, you have to work up something on your own to get it started prior to corosync's startup (from testing SBD with RHEL I seem to recall that its scripts will start SBD for you, and that it has to be running before the other components start).  I'm simply starting it as:  /usr/sbin/sbd -d /dev/mapper/quorumdisk-sbd1 -W -D watch</div>
<div>... prior to corosync running.  Does that seem reasonable?</div><div><br></div><div>Thank you,</div><div>Mark</div><div><br></div><div><br></div><div><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div class="im">
> manual intervention?  I suppose this may be one of the reasons that fencing<br>
> via power devices is pretty much the best way to go about it?<br>
<br>
</div>No, fencing via power devices exposes one to the madness that is<br>
management board firmware. If I have the choice, I'll always pick SBD. </blockquote><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Regards,<br>
    Lars<br>
<br>
--<br>
Architect Storage/HA<br>
SUSE LINUX Products GmbH, GF: Jeff Hawn, Jennifer Guild, Felix Imendörffer, HRB 21284 (AG Nürnberg)<br>
"Experience is the name everyone gives to their mistakes." -- Oscar Wilde<br>
<br>
<br>
_______________________________________________<br>
Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
<a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>
</blockquote></div><br>