<div dir="ltr">Thanks Aswathi. <div><br></div><div>(My account had stopped working due to mail bounces, never seen that occur on gmail accounts)<div><br></div><div>Ken,</div><div><br></div><div>Answers to your questions are below:</div><div><br></div><div><i>1. Using force option</i></div></div><div>A) During our testing we had observed that in some instances the resource deletion would fail and that&#39;s why we added the force option. With the force option we never saw the problem again.</div><div><br><div><i>2. &quot;Maybe in this particular instance, you actually did &quot;crm_resource -C&quot;?&quot;</i></div><div>A) This step is done through code so there is no human involvement. We are printing the full command and we always see resource name is included. So this cannot happen.</div><div><br></div><div><i>3.  $ crm_node -R 0005B94238BC --force</i></div><div>A) Yes, we want to remove the node completely. We are not specifying the node information in corosync.conf so there is nothing to be removed there. </div><div>I need to go back and check but I vaguely remember that because of some issue we had switched from using &quot;pcs cluster node remove&quot; command to crm_node -R command. Perhaps because it gave us the option to use force. </div><div><br></div><div><i>4. &quot;No STONITH and QUORUM&quot;</i></div><div>A) As I have mentioned earlier, split-brain doesn&#39;t pose a problem for us since we have a second line of defense based on our architecture. Hence we have made a conscious decision to disable it. The config IS for production.</div><div><div class="gmail_extra"><br></div><div class="gmail_extra">BTW, we also issue a &quot;<span style="color:rgb(0,0,0);font-family:&quot;Segoe UI&quot;;font-size:10pt">pcs resource disable</span>&quot; command before doing a &quot;<span style="color:rgb(0,0,0);font-family:&quot;Segoe UI&quot;;font-size:10pt">pcs resource delete</span>&quot;. Not sure if that makes any difference.</div><div class="gmail_extra"><br></div><div class="gmail_extra">We will play around with those 4-5 commands that we execute to see whether the resource restart happens as a reaction to any of those command.</div><div class="gmail_extra"><br></div><div class="gmail_extra">-Thanks &amp; Regards</div><div class="gmail_extra">Nikhil</div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, May 24, 2017 at 11:28 AM, Anu Pillai <span dir="ltr">&lt;<a href="mailto:anu.pillai.subscrib@gmail.com" target="_blank">anu.pillai.subscrib@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div id="gmail-m_5030438798138421009gmail-imcontent"><span style="word-wrap:break-word;font-size:10pt;font-family:&quot;Segoe UI&quot;;color:rgb(0,0,0);direction:ltr">blank response for thread to appear in mailbox..pls ignore</span></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, May 23, 2017 at 4:21 AM, Ken Gaillot <span dir="ltr">&lt;<a href="mailto:kgaillot@redhat.com" target="_blank">kgaillot@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><span>On 05/16/2017 04:34 AM, Anu Pillai wrote:<br>
&gt; Hi,<br>
&gt;<br>
</span><span>&gt; Please find attached debug logs for the stated problem as well as<br>
&gt; crm_mon command outputs.<br>
&gt; In this case we are trying to remove/delete res3 and system/node<br>
&gt; (0005B94238BC) from the cluster.<br>
&gt;<br>
</span>&gt; *_Test reproduction steps_*<br>
<span>&gt;<br>
&gt; Current Configuration of the cluster:<br>
&gt;  0005B9423910  - res2<br>
&gt;  0005B9427C5A - res1<br>
&gt;  0005B94238BC - res3<br>
&gt;<br>
</span>&gt; *crm_mon output:*<br>
<span>&gt;<br>
&gt; Defaulting to one-shot mode<br>
&gt; You need to have curses available at compile time to enable console mode<br>
&gt; Stack: corosync<br>
&gt; Current DC: 0005B9423910 (version 1.1.14-5a6cdd1) - partition with quorum<br>
&gt; Last updated: Tue May 16 12:21:23 2017          Last change: Tue May 16<br>
&gt; 12:13:40 2017 by root via crm_attribute on 0005B9423910<br>
&gt;<br>
&gt; 3 nodes and 3 resources configured<br>
&gt;<br>
&gt; Online: [ 0005B94238BC 0005B9423910 0005B9427C5A ]<br>
&gt;<br>
&gt;  res2   (ocf::redundancy:<wbr>RedundancyRA): Started 0005B9423910<br>
&gt;  res1   (ocf::redundancy:<wbr>RedundancyRA): Started 0005B9427C5A<br>
&gt;  res3   (ocf::redundancy:<wbr>RedundancyRA): Started 0005B94238BC<br>
&gt;<br>
&gt;<br>
&gt; Trigger the delete operation for res3 and node 0005B94238BC.<br>
&gt;<br>
&gt; Following commands applied from node 0005B94238BC<br>
&gt; $ pcs resource delete res3 --force<br>
&gt; $ crm_resource -C res3<br>
&gt; $ pcs cluster stop --force<br>
<br>
</span>I don&#39;t think &quot;pcs resource delete&quot; or &quot;pcs cluster stop&quot; does anything<br>
with the --force option. In any case, --force shouldn&#39;t be needed here.<br>
<br>
The crm_mon output you see is actually not what it appears. It starts with:<br>
<br>
May 16 12:21:27 [4661] 0005B9423910       crmd:   notice: do_lrm_invoke:<br>
       Forcing the status of all resources to be redetected<br>
<br>
This is usually the result of a &quot;cleanup all&quot; command. It works by<br>
erasing the resource history, causing pacemaker to re-probe all nodes to<br>
get the current state. The history erasure makes it appear to crm_mon<br>
that the resources are stopped, but they actually are not.<br>
<br>
In this case, I&#39;m not sure why it&#39;s doing a &quot;cleanup all&quot;, since you<br>
only asked it to cleanup res3. Maybe in this particular instance, you<br>
actually did &quot;crm_resource -C&quot;?<br>
<span><br>
&gt; Following command applied from DC(0005B9423910)<br>
&gt; $ crm_node -R 0005B94238BC --force<br>
<br>
</span>This can cause problems. This command shouldn&#39;t be run unless the node<br>
is removed from both pacemaker&#39;s and corosync&#39;s configuration. If you<br>
actually are trying to remove the node completely, a better alternative<br>
would be &quot;pcs cluster node remove 0005B94238BC&quot;, which will handle all<br>
of that for you. If you&#39;re not trying to remove the node completely,<br>
then you shouldn&#39;t need this command at all.<br>
<span class="gmail-m_5030438798138421009im gmail-m_5030438798138421009HOEnZb"><br>
&gt;<br>
&gt;<br>
&gt; *crm_mon output:*<br>
&gt; *<br>
&gt; *<br>
</span><span class="gmail-m_5030438798138421009im gmail-m_5030438798138421009HOEnZb">&gt; Defaulting to one-shot mode<br>
&gt; You need to have curses available at compile time to enable console mode<br>
&gt; Stack: corosync<br>
&gt; Current DC: 0005B9423910 (version 1.1.14-5a6cdd1) - partition with quorum<br>
&gt; Last updated: Tue May 16 12:21:27 2017          Last change: Tue May 16<br>
&gt; 12:21:26 2017 by root via cibadmin on 0005B94238BC<br>
&gt;<br>
&gt; 3 nodes and 2 resources configured<br>
&gt;<br>
&gt; Online: [ 0005B94238BC 0005B9423910 0005B9427C5A ]<br>
&gt;<br>
&gt;<br>
&gt; Observation is remaining two resources res2 and res1 were stopped and<br>
&gt; started.<br>
&gt;<br>
&gt;<br>
&gt; Regards,<br>
&gt; Aswathi<br>
&gt;<br>
&gt; On Mon, May 15, 2017 at 8:11 PM, Ken Gaillot &lt;<a href="mailto:kgaillot@redhat.com" target="_blank">kgaillot@redhat.com</a><br>
</span><div class="gmail-m_5030438798138421009HOEnZb"><div class="gmail-m_5030438798138421009h5">&gt; &lt;mailto:<a href="mailto:kgaillot@redhat.com" target="_blank">kgaillot@redhat.com</a>&gt;&gt; wrote:<br>
&gt;<br>
&gt;     On 05/15/2017 06:59 AM, Klaus Wenninger wrote:<br>
&gt;     &gt; On 05/15/2017 12:25 PM, Anu Pillai wrote:<br>
&gt;     &gt;&gt; Hi Klaus,<br>
&gt;     &gt;&gt;<br>
&gt;     &gt;&gt; Please find attached cib.xml as well as corosync.conf.<br>
&gt;<br>
&gt;     Maybe you&#39;re only setting this while testing, but having<br>
&gt;     stonith-enabled=false and no-quorum-policy=ignore is highly dangerous in<br>
&gt;     any kind of network split.<br>
&gt;<br>
&gt;     FYI, default-action-timeout is deprecated in favor of setting a timeout<br>
&gt;     in op_defaults, but it doesn&#39;t hurt anything.<br>
&gt;<br>
&gt;     &gt; Why wouldn&#39;t you keep placement-strategy with default<br>
&gt;     &gt; to keep things simple. You aren&#39;t using any load-balancing<br>
&gt;     &gt; anyway as far as I understood it.<br>
&gt;<br>
&gt;     It looks like the intent is to use placement-strategy to limit each node<br>
&gt;     to 1 resource. The configuration looks good for that.<br>
&gt;<br>
&gt;     &gt; Haven&#39;t used resource-stickiness=INF. No idea which strange<br>
&gt;     &gt; behavior that triggers. Try to have it just higher than what<br>
&gt;     &gt; the other scores might some up to.<br>
&gt;<br>
&gt;     Either way would be fine. Using INFINITY ensures that no other<br>
&gt;     combination of scores will override it.<br>
&gt;<br>
&gt;     &gt; I might have overseen something in your scores but otherwise<br>
&gt;     &gt; there is nothing obvious to me.<br>
&gt;     &gt;<br>
&gt;     &gt; Regards,<br>
&gt;     &gt; Klaus<br>
&gt;<br>
&gt;     I don&#39;t see anything obvious either. If you have logs around the time of<br>
&gt;     the incident, that might help.<br>
&gt;<br>
&gt;     &gt;&gt; Regards,<br>
&gt;     &gt;&gt; Aswathi<br>
&gt;     &gt;&gt;<br>
&gt;     &gt;&gt; On Mon, May 15, 2017 at 2:46 PM, Klaus Wenninger &lt;<a href="mailto:kwenning@redhat.com" target="_blank">kwenning@redhat.com</a> &lt;mailto:<a href="mailto:kwenning@redhat.com" target="_blank">kwenning@redhat.com</a>&gt;<br>
</div></div><div class="gmail-m_5030438798138421009HOEnZb"><div class="gmail-m_5030438798138421009h5">&gt;     &gt;&gt; &lt;mailto:<a href="mailto:kwenning@redhat.com" target="_blank">kwenning@redhat.com</a> &lt;mailto:<a href="mailto:kwenning@redhat.com" target="_blank">kwenning@redhat.com</a>&gt;&gt;&gt; wrote:<br>
&gt;     &gt;&gt;<br>
&gt;     &gt;&gt;     On 05/15/2017 09:36 AM, Anu Pillai wrote:<br>
&gt;     &gt;&gt;     &gt; Hi,<br>
&gt;     &gt;&gt;     &gt;<br>
&gt;     &gt;&gt;     &gt; We are running pacemaker cluster for managing our resources. We<br>
&gt;     &gt;&gt;     have 6<br>
&gt;     &gt;&gt;     &gt; system running 5 resources and one is acting as standby. We have a<br>
&gt;     &gt;&gt;     &gt; restriction that, only one resource can run in one node. But our<br>
&gt;     &gt;&gt;     &gt; observation is whenever we add or delete a resource from cluster all<br>
&gt;     &gt;&gt;     &gt; the remaining resources in the cluster are stopped and started back.<br>
&gt;     &gt;&gt;     &gt;<br>
&gt;     &gt;&gt;     &gt; Can you please guide us whether this normal behavior or we are<br>
&gt;     &gt;&gt;     missing<br>
&gt;     &gt;&gt;     &gt; any configuration that is leading to this issue.<br>
&gt;     &gt;&gt;<br>
&gt;     &gt;&gt;     It should definitely be possible to prevent this behavior.<br>
&gt;     &gt;&gt;     If you share your config with us we might be able to<br>
&gt;     &gt;&gt;     track that down.<br>
&gt;     &gt;&gt;<br>
&gt;     &gt;&gt;     Regards,<br>
&gt;     &gt;&gt;     Klaus<br>
&gt;     &gt;&gt;<br>
&gt;     &gt;&gt;     &gt;<br>
&gt;     &gt;&gt;     &gt; Regards<br>
&gt;     &gt;&gt;     &gt; Aswathi<br>
</div></div></blockquote></div><br></div>
<br>______________________________<wbr>_________________<br>
Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
<a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
<br></blockquote></div><br></div></div></div></div>