Can you check your dmesg to see if DLM is segfaulting? I might be experiencing the same problem. If corosync is started at boot DLM segfaults, but if it's started manually everything is ok. Still trying to find out more about what is going on, and I sadly can't provide more information before Monday when I get to work. We did even try bootchart to see if that could provide some more information, but sadly no. We also changed the start order to corosync by renaming the init symlink to S98corosync, but that didn't work out either.<br>
<br><div class="gmail_quote">On Sat, Apr 24, 2010 at 12:25 PM, Oliver Heinz <span dir="ltr"><<a href="mailto:oheinz@fbihome.de">oheinz@fbihome.de</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Hi,<br>
<br>
when rebooting my cluster nodes they won't bring up the ocfs2-fs because of<br>
resDLM failing. When I issue a '/etc/init.d/pacemaker restart' afterwards<br>
everything is fine.<br>
<br>
The machine needs quite a while to bring up the (bonding) network interfaces.<br>
Do timeout values need to be adjusted? Or should I rather try to startup<br>
pacemaker after the network is completely up?<br>
<br>
<br>
my current config:<br>
<br>
node server-c \<br>
        attributes standby="off"<br>
node server-d<br>
primitive failover-ip ocf:heartbeat:IPaddr \<br>
        params ip="192.168.5.150" \<br>
        op monitor interval="10s"<br>
primitive resDLM ocf:pacemaker:controld \<br>
        op monitor interval="120s"<br>
primitive resFS ocf:heartbeat:Filesystem \<br>
        params device="/dev/mapper/data-data" directory="/srv/data"<br>
fstype="ocfs2" \<br>
        op monitor interval="120s"<br>
primitive resO2CB ocf:pacemaker:o2cb \<br>
        op monitor interval="120s"<br>
clone cloneDLM resDLM \<br>
        meta globally-unique="false" interleave="true"<br>
clone cloneFS resFS \<br>
        meta interleave="true" ordered="true"<br>
clone cloneO2CB resO2CB \<br>
        meta globally-unique="false" interleave="true"<br>
colocation colFSO2CB inf: cloneFS cloneO2CB<br>
colocation colO2CBDLM inf: cloneO2CB cloneDLM<br>
order ordDLMO2CB 0: cloneDLM cloneO2CB<br>
order ordO2CBFS 0: cloneO2CB cloneFS<br>
property $id="cib-bootstrap-options" \<br>
        dc-version="1.0.8-042548a451fce8400660f6031f4da6f0223dd5dd" \<br>
        cluster-infrastructure="openais" \<br>
        expected-quorum-votes="2" \<br>
        stonith-enabled="false" \<br>
        last-lrm-refresh="1272026744"<br>
<br>
<br>
I tried something like<br>
primitive resDLM ocf:pacemaker:controld \<br>
        op start timeout="100s" \<br>
        op monitor interval="120s"<br>
but this didn't help.<br>
<br>
<br>
<br>
<br>
<br>
TIA,<br>
<font color="#888888">Oliver<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
</font><br>_______________________________________________<br>
Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
<a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br></blockquote></div><br>