<div dir="ltr">Thanks a lot Lars. I took advantage of a crash last week to add the -P parameter.<div><br></div><div>I'll try to read more carefully the man of sbd to increase the IO timeout.</div><div><br></div><div>Kind regards,</div><div>Oriol</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Jan 7, 2015 at 12:09 PM, Lars Marowsky-Bree <span dir="ltr"><<a href="mailto:lmb@suse.com" target="_blank">lmb@suse.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="HOEnZb"><div class="h5">On 2015-01-04T19:49:58, Oriol Mula-Valls <<a href="mailto:omv.lists@gmail.com">omv.lists@gmail.com</a>> wrote:<br>
<br>
> I have a two node system with SLES 11 SP3 (pacemaker-1.1.9-0.19.102,<br>
> corosync-1.4.5-0.18.15, sbd-1.1-0.13.153). Since desember we started to<br>
> have several reboots of the system due to SBD; 22nd, 24th and 26th. Last<br>
> reboot happened yesterday January 3rd. The message is the same all the<br>
> times.<br>
> /var/log/messages:Jan  3 11:55:08 kernighan sbd: [7879]: info: Cancelling<br>
> IO request due to timeout (rw=0)<br>
> /var/log/messages:Jan  3 11:55:08 kernighan sbd: [7879]: ERROR: mbox read<br>
> failed in servant.<br>
> /var/log/messages:Jan  3 11:55:08 kernighan sbd: [7878]: WARN: Servant for<br>
> /dev/sdc1 (pid: 7879) has terminated<br>
> /var/log/messages:Jan  3 11:55:08 kernighan sbd: [7878]: WARN: Servant for<br>
> /dev/sdc1 outdated (age: 4)<br>
> /var/log/messages:Jan  3 11:55:08 kernighan sbd: [8183]: info: Servant<br>
> starting for device /dev/sdc1<br>
> /var/log/messages:Jan  3 11:55:11 kernighan sbd: [8183]: info: Cancelling<br>
> IO request due to timeout (rw=0)<br>
> /var/log/messages:Jan  3 11:55:11 kernighan sbd: [8183]: ERROR: Unable to<br>
> read header from device 5<br>
> /var/log/messages:Jan  3 11:55:11 kernighan sbd: [8183]: ERROR: Not a valid<br>
> header on /dev/sdc1<br>
> /var/log/messages:Jan  3 11:55:11 kernighan sbd: [7878]: WARN: Servant for<br>
> /dev/sdc1 (pid: 8183) has terminated<br>
> /var/log/messages:Jan  3 11:55:11 kernighan sbd: [7878]: WARN: Latency: No<br>
> liveness for 4 s exceeds threshold of 3 s (healthy servants: 0)<br>
><br>
> The sbd is an iscsi drive shared by synology box.<br>
><br>
> Could any one provide me some guidance on what's happenning please?<br>
<br>
</div></div>Those are pretty clearly IO errors due to high latency. You may need to<br>
increase the IO timeout, and/or figure out why the IO to your Synology<br>
box sometimes stalls for multiple seconds. See the manpage for this; you<br>
can add the required flag to /etc/sysconfig/sbd -> SBD_OPTS.<br>
<br>
You also should use a stable name (/dev/disk/by-id/...) rather than<br>
/dev/sdc1 - note that /dev/sdX may not be stable over reboots or iSCSI<br>
restarts.<br>
<br>
Further, you can avoid the reboots by enabling the pacemaker<br>
integration. See the manpage for details on what that flag does. (-P)<br>
That will be the default in later sbd versions for releases after SLE HA<br>
11.<br>
<br>
<br>
<br>
Regards,<br>
    Lars<br>
<br>
--<br>
Architect Storage/HA<br>
SUSE Linux GmbH, GF: Felix Imendörffer, Jane Smithard, Jennifer Guild, Dilip Upmanyu, Graham Norton, HRB 21284 (AG Nürnberg)<br>
"Experience is the name everyone gives to their mistakes." -- Oscar Wilde<br>
<br>
<br>
_______________________________________________<br>
Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
<a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>
</blockquote></div><br></div>