<div dir="ltr"><br><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, May 10, 2013 at 6:21 AM, Andrew Beekhof <span dir="ltr"><<a href="mailto:andrew@beekhof.net" target="_blank">andrew@beekhof.net</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="im"><br>
On 08/05/2013, at 9:16 PM, pavan tc <<a href="mailto:pavan.tc@gmail.com">pavan.tc@gmail.com</a>> wrote:<br>
<br></div></blockquote><div><br></div><div>Hi Andrew,<br><br></div><div>Thanks much for looking into this. I have some queries inline.<br> <br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<div class="im">
> Hi,<br>
><br>
> I have a two-node cluster with STONITH disabled.<br>
<br>
</div>Thats not a good idea.<br></blockquote><div><br></div><div>Ok. I'll try and configure stonith.<br><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<div class="im">
> I am still running with the pcmk plugin as opposed to the recommended CMAN plugin.<br>
<br>
</div>On rhel6?<br></blockquote><div><br></div><div>Yes.<br> <br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<div class="im"><br>
><br>
> With 1.1.8, I see some messages (appended to this mail) once in a while. I do not understand some keywords here - There is a "Leave" action. I am not sure what that is.<br>
<br>
</div>It means the cluster is not going to change the state of the resource.<br></blockquote><div><br></div><div>Why did the cluster execute the "Leave" action at this point? Is there some other error that triggers this? Or is it a benign message?<br>
<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<div class="im"><br>
> And, there is a CIB update failure that leads to a RECOVER action. There is a message that says the RECOVER action is not supported. Finally this leads to a stop and start of my resource.<br>
<br>
</div>Well, and also Pacemaker's crmd process.<br>
My guess... the node is overloaded which is causing the cib queries to time out.<br>
<div class="im"><br></div></blockquote><div><br></div><div>Is there a cib query timeout value that I can set? I was earlier getting the TOTEM timeout.<br>So, I set the token to a larger value (5 seconds) in corosync.conf and things were much better.<br>
<div></div></div><div>But now, I have started hitting this problem.<br><br></div><div>Thanks,<br>Pavan<br><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<div class="im">
> I can copy the "crm configure show" output, but nothing special there.<br>
><br>
> Thanks much.<br>
> Pavan<br>
><br>
> PS: The resource vha-bcd94724-3ec0-4a8d-8951-9d27be3a6acb is stale. The underlying device that represents this resource has been removed. However, the resource is still part of the CIB. All errors related to that resource can be ignored. But can this cause a node to be stopped/fenced?<br>

<br>
</div>Not if fencing is disabled.<br>
<div><div class="h5"><br></div></div></blockquote></div><br></div></div>