<div>Hi all,</div><div>I have set up a two-node cluster, at first, it works fine, but when I write a lot of data to the fs，a resource of pacemaker，when the filesystem is almost full, it collapse. Run crm_mon and it appears:</div><div><div>============</div><div>Last updated: Mon Jun 21 16:57:09 2010</div><div>Stack: openais</div><div>Current DC: mds2 - partition with quorum</div><div>Version: 1.0.5-462f1569a43740667daf7b0f6b521742e9eb8fa7</div><div>2 Nodes configured, 2 expected votes</div><div>6 Resources configured.</div><div>============</div><div><br></div><div>Online: [ mds1 mds2 ]</div><div><br></div><div>ipmi_mds1<span class="Apple-tab-span" style="white-space:pre">       </span>(stonith:external/ipmi) Started [<span class="Apple-tab-span" style="white-space:pre">   </span>mds1    mds2 ]</div><div>ipmi_mds2<span class="Apple-tab-span" style="white-space:pre">    </span>(stonith:external/ipmi):        Started mds1 FAILED</div><div>Resource Group: web_server</div><div>    virtual_ip  (ocf::heartbeat:IPaddr) Started [<span class="Apple-tab-span" style="white-space:pre">        </span>mds1    mds2 ]</div><div>    apache<span class="Apple-tab-span" style="white-space:pre">    </span>(ocf::heartbeat:apache) Started [<span class="Apple-tab-span" style="white-space:pre">   </span>mds1    mds2 ]</div><div>Clone Set: pingd_manage_net</div><div>    manage_pingd:0<span class="Apple-tab-span" style="white-space:pre">  </span>(ocf::pacemaker:pingd): Started mds1 FAILED</div><div>        Started: [ mds2 ]</div><div>Clone Set: pingd_data_net</div><div>    data_pingd:0        (ocf::pacemaker:pingd): Started mds1 FAILED</div><div>        Started: [ mds2 ]</div><div>metavol_mpath0  (ocf::heartbeat:Filesystem) Started [   mds1    mds2 ]</div><div><br></div><div>Failed actions:</div><div>    ipmi_mds1_monitor_0 (node=mds1, call=-1, rc=1, status=Timed Out): unknown error</div><div>    ipmi_mds2_monitor_0 (node=mds1, call=-1, rc=1, status=Timed Out): unknown error</div><div>    virtual_ip_monitor_0 (node=mds1, call=-1, rc=1, status=Timed Out): unknown error</div><div>    apache_monitor_0 (node=mds1, call=-1, rc=1, status=Timed Out): unknown error</div><div>    manage_pingd:0_monitor_0 (node=mds1, call=-1, rc=1, status=Timed Out): unknown error</div><div>    data_pingd:0_monitor_0 (node=mds1, call=-1, rc=1, status=Timed Out): unknown error</div><div>    metavol_mpath0_monitor_0 (node=mds1, call=-1, rc=1, status=Timed Out): unknown error</div><div><br></div><div>and then I run crm resource start ipmi_mds2 , and wait about 5 minutes, then it says :Error performing operation: Remote node did not respond</div><div><br></div><div>Which reason? And how can I avoid this situation?</div></div><br><br><span title="neteasefooter"/></span>