<div dir="ltr">That makes sense. I&#39;ve tried copying the anything resource and changed its name and id (which I guess should be enough to make pacemaker think they are different) but I still have the same problem.<div><span style="font-size:12.8px"><br></span><div>After more debugging I have reduced the problem to this:</div><div>* First cloned resource running fine</div><div>* Second cloned resource running fine</div><div>* Manually set failcount to INFINITY to second cloned resource</div><div>* Pacemaker triggers an stop operation (without monitor operation failing) for the two resources in the node where the failcount has been set to INFINITY.</div><div>* Reset failcount starts the two resources again</div><div><br></div><div>Weirdly enough the second resource doesn&#39;t stop if I set the the the first resource failcount to INFINITY (not even the first resource stops...). </div><div><br></div><div>But:</div><div>* If I set the first resource as globally-unique=true it does not stop so somehow this breaks the relation.<br></div><div>* If I manually set the failcount to 0 in the first resource that also breaks the relation so it does not stop either. It seems like the failcount value is being inherited from the second resource when it does not have any value. </div><div><br></div><div>I must have something wrongly configuration but I can&#39;t really see why there is this relationship...</div><div><br></div><div>Gerard</div></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Oct 17, 2017 at 3:35 PM, Ken Gaillot <span dir="ltr">&lt;<a href="mailto:kgaillot@redhat.com" target="_blank">kgaillot@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On Tue, 2017-10-17 at 11:47 +0200, Gerard Garcia wrote:<br>
&gt; Thanks Ken. Yes, inspecting the logs seems that the failcount of the<br>
&gt; correctly running resource reaches the maximum number of allowed<br>
&gt; failures and gets banned in all nodes.<br>
&gt;<br>
&gt; What is weird is that I just see how the failcount for the first<br>
&gt; resource gets updated, is like the failcount are being mixed. In<br>
&gt; fact, when the two resources get banned the only way I have to make<br>
&gt; the first one start is to disable the failing one and clean the<br>
&gt; failcount of the two resources (it is not enough to only clean the<br>
&gt; failcount of the first resource) does it make sense?<br>
&gt;<br>
&gt; Gerard<br>
<br>
</span>My suspicion is that you have two instances of the same service, and<br>
the resource agent monitor is only checking the general service, rather<br>
than a specific instance of it, so the monitors on both of them return<br>
failure if either one is failing.<br>
<br>
That would make sense why you have to disable the failing resource, so<br>
its monitor stops running. I can&#39;t think of why you&#39;d have to clean its<br>
failcount for the other one to start, though.<br>
<br>
The &quot;anything&quot; agent very often causes more problems than it solves ...<br>
 I&#39;d recommend writing your own OCF agent tailored to your service.<br>
It&#39;s not much more complicated than an init script.<br>
<div class="HOEnZb"><div class="h5"><br>
&gt; On Mon, Oct 16, 2017 at 6:57 PM, Ken Gaillot &lt;<a href="mailto:kgaillot@redhat.com">kgaillot@redhat.com</a>&gt;<br>
&gt; wrote:<br>
&gt; &gt; On Mon, 2017-10-16 at 18:30 +0200, Gerard Garcia wrote:<br>
&gt; &gt; &gt; Hi,<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; I have a cluster with two ocf:heartbeat:anything resources each<br>
&gt; &gt; one<br>
&gt; &gt; &gt; running as a clone in all nodes of the cluster. For some reason<br>
&gt; &gt; when<br>
&gt; &gt; &gt; one of them fails to start the other one stops. There is not any<br>
&gt; &gt; &gt; constrain configured or any kind of relation between them. <br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Is it possible that there is some kind of implicit relation that<br>
&gt; &gt; I&#39;m<br>
&gt; &gt; &gt; not aware of (for example because they are the same type?)<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Thanks,<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Gerard<br>
&gt; &gt;<br>
&gt; &gt; There is no implicit relation on the Pacemaker side. However if the<br>
&gt; &gt; agent returns &quot;failed&quot; for both resources when either one fails,<br>
&gt; &gt; you<br>
&gt; &gt; could see something like that. I&#39;d look at the logs on the DC and<br>
&gt; &gt; see<br>
&gt; &gt; why it decided to restart the second resource.<br>
&gt; &gt; --<br>
&gt; &gt; Ken Gaillot &lt;<a href="mailto:kgaillot@redhat.com">kgaillot@redhat.com</a>&gt;<br>
&gt; &gt;<br>
&gt; &gt; ______________________________<wbr>_________________<br>
&gt; &gt; Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
&gt; &gt; <a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>
&gt; &gt;<br>
&gt; &gt; Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
&gt; &gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratc" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_from_Scratc</a><br>
&gt; &gt; h.pdf<br>
&gt; &gt; Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
&gt; &gt;<br>
&gt;<br>
&gt; ______________________________<wbr>_________________<br>
&gt; Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
&gt; <a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>
&gt;<br>
&gt; Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_from_Scratch</a>.<br>
&gt; pdf<br>
&gt; Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
--<br>
Ken Gaillot &lt;<a href="mailto:kgaillot@redhat.com">kgaillot@redhat.com</a>&gt;<br>
<br>
______________________________<wbr>_________________<br>
Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
<a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
</div></div></blockquote></div><br></div>