<div dir="ltr"><div>yap and that´s my issue.<br><br></div>stonith is very powerfull but how can the cluster handle hardware failure?<br><br>primitive stonith-linux01 stonith:fence_virsh \<br>        params pcmk_host_list="linux01" pcmk_host_check="dynamic-list" pcmk_host_map="linux01:linux01" action="reboot" ipaddr="XXXXXX" secure="true" login="root" identity_file="/root/.ssh/id_rsa" debug="/var/log/stonith.log" verbose="false" \<br>

        op monitor interval="300s" \<br>        op start interval="0" timeout="60s" \<br>        meta failure-timeout="180s"<br>primitive stonith-linux02 stonith:fence_virsh \<br>        params pcmk_host_list="linux02" pcmk_host_check="dynamic-list" pcmk_host_map="linux02:linux02" action="reboot" ipaddr="XXXXX" secure="true" login="root" identity_file="/root/.ssh/id_rsa" delay="5" debug="/var/log/stonith.log" verbose="false" \<br>

        op monitor interval="60s" \<br>        op start interval="0" timeout="60s" \<br>        meta failure-timeout="180s"<br><br><br></div><div class="gmail_extra"><br><br><div class="gmail_quote">

2014-03-18 13:54 GMT+01:00 emmanuel segura <span dir="ltr"><<a href="mailto:emi2fast@gmail.com" target="_blank">emi2fast@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div dir="ltr">do you have stonith configured?<br></div><div class="gmail_extra"><br><br><div class="gmail_quote">2014-03-18 13:07 GMT+01:00 Alex Samad - Yieldbroker <span dir="ltr"><<a href="mailto:Alex.Samad@yieldbroker.com" target="_blank">Alex.Samad@yieldbroker.com</a>></span>:<br>


<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">


<div link="blue" vlink="purple" lang="EN-AU">

<div>

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d">Im not expert but<u></u><u></u></span></p>

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d"><u></u> <u></u></span></p>

<p class="MsoNormal">Current DC: linux02 - partition WITHOUT quorum<br>

Version: 1.1.10-14.el6_5.2-368c726<br>

2 Nodes configured, 2 expected votes<br>

<br>

<span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d"><u></u><u></u></span></p>

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d"><u></u> <u></u></span></p>

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d">I think your 2<sup>nd</sup> node can’t make quorum, there is some special config for 2 node cluster to allow nodes to make quorum with 1 vote..<u></u><u></u></span></p>


<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d"><u></u> <u></u></span></p>

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d">A<u></u><u></u></span></p>

<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri","sans-serif";color:#1f497d"><u></u> <u></u></span></p>

<div style="border:none;border-left:solid blue 1.5pt;padding:0cm 0cm 0cm 4.0pt">

<div>

<div style="border:none;border-top:solid #b5c4df 1.0pt;padding:3.0pt 0cm 0cm 0cm">

<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif"" lang="EN-US">From:</span></b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif"" lang="EN-US"> Beo Banks [mailto:<a href="mailto:beo.banks@googlemail.com" target="_blank">beo.banks@googlemail.com</a>]

<br>

<b>Sent:</b> Tuesday, 18 March 2014 10:06 PM<br>

<b>To:</b> <a href="mailto:pacemaker@oss.clusterlabs.org" target="_blank">pacemaker@oss.clusterlabs.org</a><br>

<b>Subject:</b> [Pacemaker] crm resource doesn´t move after hardware crash<u></u><u></u></span></p>

</div>

</div>

<p class="MsoNormal"><u></u> <u></u></p>

<div>

<div>

<div>

<div>

<div>

<div>

<p class="MsoNormal" style="margin-bottom:12.0pt">hi,<u></u><u></u></p>

</div>

<p class="MsoNormal">i have a hardware crash in a two-node drbd cluster.<u></u><u></u></p>

</div>

<p class="MsoNormal" style="margin-bottom:12.0pt">the active node has a hardware failure is actual down.<u></u><u></u></p>

</div>

<p class="MsoNormal">i am wondering that my 2nd doesn´t migrate/move the resource.<u></u><u></u></p>

</div>

<p class="MsoNormal" style="margin-bottom:12.0pt">the 2nd node want´s to fence the device but that´s not possible (it´s down)<br>

<br>

<u></u><u></u></p>

</div>

<div>

<p class="MsoNormal">how can i enable the services on the last "good" node?<u></u><u></u></p>

</div>

<div>

<p class="MsoNormal" style="margin-bottom:12.0pt">and how can i optimize my config to handle that kind of error?<u></u><u></u></p>

</div>

<div>

<p class="MsoNormal" style="margin-bottom:12.0pt">crm status<br>

<br>

Last updated: Tue Mar 18 12:01:07 2014<br>

Last change: Tue Mar 18 11:28:22 2014 via crmd on linux02<br>

Stack: classic openais (with plugin)<br>

Current DC: linux02 - partition WITHOUT quorum<br>

Version: 1.1.10-14.el6_5.2-368c726<br>

2 Nodes configured, 2 expected votes<br>

21 Resources configured<br>

<br>

<br>

Node linux01: UNCLEAN (offline)<br>

Online: [ linux02 ]<br>

<br>

 Resource Group: mysql<br>

     mysql_fs   (ocf::heartbeat:Filesystem):    Started linux01<br>

     mysql_ip   (ocf::heartbeat:IPaddr2):       Started linux01 <u></u><u></u></p>

</div>

<div>

<p class="MsoNormal" style="margin-bottom:12.0pt">.... and so on<br>

<br>

<br>

<u></u><u></u></p>

</div>

<p class="MsoNormal" style="margin-bottom:12.0pt">cluster.log<br>

<br>

<u></u><u></u></p>

<div>

<div>

<div>

<div>

<p class="MsoNormal" style="margin-bottom:12.0pt">Mar 18 11:54:43 [2234] linux02       crmd:   notice: tengine_stonith_callback:      Stonith operation 17 for linux01 failed (Timer expired): aborting transition.<br>

Mar 18 11:54:43 [2234] linux02       crmd:     info: abort_transition_graph:        tengine_stonith_callback:463 - Triggered transition abort (complete=0) : Stonith failed<br>

Mar 18 11:54:43 [2234] linux02       crmd:   notice: run_graph:     Transition 15 (Complete=9, Pending=0, Fired=0, Skipped=36, Incomplete=19, Source=/var/lib/pacemaker/pengine/pe-warn-63.bz2): Stopped<br>

Mar 18 11:54:43 [2234] linux02       crmd:   notice: too_many_st_failures:  Too many failures to fence linux01 (16), giving up<br>

Mar 18 11:54:43 [2234] linux02       crmd:     info: do_log:        FSA: Input I_TE_SUCCESS from notify_crmd() received in state S_TRANSITION_ENGINE<br>

Mar 18 11:54:43 [2234] linux02       crmd:   notice: do_state_transition:   State transition S_TRANSITION_ENGINE -> S_IDLE [ input=I_TE_SUCCESS cause=C_FSA_INTERNAL origin=notify_crmd ]<br>

Mar 18 11:54:43 [2230] linux02 stonith-ng:     info: stonith_command:       Processed st_notify reply from linux02: OK (0)<br>

Mar 18 11:54:43 [2234] linux02       crmd:   notice: tengine_stonith_notify:        Peer linux01 was not terminated (reboot) by linux02 for linux02: Timer expired (ref=7939b264-699c-4d00-a89c-07e7e0193a80) by client crmd.2234<br>


Mar 18 11:54:44 [2229] linux02        cib:     info: crm_client_new:        Connecting 0x155ac00 for uid=0 gid=0 pid=23360 id=b88b2690-0c3f-48ac-b8b4-3a47b7f9114a<br>

Mar 18 11:54:44 [2229] linux02        cib:     info: cib_process_request:   Completed cib_query operation for section 'all': OK (rc=0, origin=local/crm_mon/2, version=0.125.2)<br>

Mar 18 11:54:44 [2229] linux02        cib:     info: crm_client_destroy:    Destroying 0 events<br>

Mar 18 11:55:03 [2229] linux02        cib:     info: crm_client_new:        Connecting 0x155ac00 for uid=0 gid=0 pid=23415 id=62e7a9d8-588e-427f-8178-85febce00151<br>

Mar 18 11:55:03 [2229] linux02        cib:     info: crm_client_new:        Connecting 0x1585de0 for uid=0 gid=0 pid=23416 id=79795042-699b-4347-abcb-4c7c96ed2291<br>

Mar 18 11:55:03 [2229] linux02        cib:     info: cib_process_request:   Completed cib_query operation for section nodes: OK (rc=0, origin=local/crm_attribute/2, version=0.125.2)<br>

Mar 18 11:55:03 [2229] linux02        cib:     info: cib_process_request:   Completed cib_query operation for section nodes: OK (rc=0, origin=local/crm_attribute/2, version=0.125.2)<br>

Mar 18 11:55:03 [2229] linux02        cib:     info: crm_client_destroy:    Destroying 0 events<br>

Mar 18 11:55:03 [2229] linux02        cib:     info: crm_client_destroy:    Destroying 0 events<br>

Mar 18 11:55:43 [2230] linux02 stonith-ng:    error: remote_op_done:        Already sent notifications for 'reboot of linux01 by linux02' (<a href="mailto:for=crmd.2234@linux02.7939b264" target="_blank">for=crmd.2234@linux02.7939b264</a>, state=4): Timer expired<br>


Mar 18 11:55:59 [2229] linux02        cib:     info: crm_client_new:        Connecting 0x155ac00 for uid=0 gid=0 pid=23468 id=8dea3cab-9103-42fc-9747-76018c4a0500<br>

Mar 18 11:55:59 [2229] linux02        cib:     info: cib_process_request:   Completed cib_query operation for section 'all': OK (rc=0, origin=local/crm_mon/2, version=0.125.2)<br>

Mar 18 11:55:59 [2229] linux02        cib:     info: crm_client_destroy:    Destroying 0 events<br>

Mar 18 11:56:03 [2229] linux02        cib:     info: crm_client_new:        Connecting 0x155ac00 for uid=0 gid=0 pid=23523 id=b681390a-51a3-4d68-abf1-514ee8ab9351<br>

Mar 18 11:56:03 [2229] linux02        cib:     info: crm_client_new:        Connecting 0x1585de0 for uid=0 gid=0 pid=23524 id=005421e4-b079-4a16-b4cc-0fc2c8c73246<br>

Mar 18 11:56:03 [2229] linux02        cib:     info: cib_process_request:   Completed cib_query operation for section nodes: OK (rc=0, origin=local/crm_attribute/2, version=0.125.2)<br>

Mar 18 11:56:03 [2229] linux02        cib:     info: cib_process_request:   Completed cib_query operation for section nodes: OK (rc=0, origin=local/crm_attribute/2, version=0.125.2)<br>

Mar 18 11:56:03 [2229] linux02        cib:     info: crm_client_destroy:    Destroying 0 events<br>

Mar 18 11:56:03 [2229] linux02        cib:     info: crm_client_destroy:    Destroying 0 events<u></u><u></u></p>

</div>

<div>

<p class="MsoNormal">thanks<u></u><u></u></p>

</div>

<div>

<p class="MsoNormal">beo<u></u><u></u></p>

</div>

</div>

</div>

</div>

</div>

</div>

</div>

</div>


<br></div></div>_______________________________________________<br>

Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org" target="_blank">Pacemaker@oss.clusterlabs.org</a><br>

<a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>

<br>

Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>

Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>

Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>

<br></blockquote></div><span class="HOEnZb"><font color="#888888"><br><br clear="all"><br>-- <br>esta es mi vida e me la vivo hasta que dios quiera

</font></span></div>

<br>_______________________________________________<br>

Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>

<a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>

<br>

Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>

Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>

Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>

<br></blockquote></div><br></div>