<div dir="ltr"><div>I've put the wrong entry from "journalctl --since="2016-01-19" --until="2016-01-20"".</div><div>The correct one is:</div><div><br></div><div>Jan 19 23:42:24 A2-2U12-302-LS ntpd[2204]: 0.0.0.0 c61c 0c clock_step -43194.111405 s</div><div>Jan 19 11:42:29 A2-2U12-302-LS ntpd[2204]: 0.0.0.0 c614 04 freq_mode</div><div>Jan 19 11:42:29 A2-2U12-302-LS systemd[1]: Time has been changed</div><div><br></div><div>Yes, the really first monitor operation was successful.</div><div>But I still have a question.</div><div>The first monitor op was at <span style="font-size:12.8px">[Jan 19 23:42:16]</span><span style="font-size:12.8px"> and the failure was considered by Pacemaker at </span><span style="font-size:12.8px">[Jan 19 12:57:53].</span></div><div><span style="font-size:12.8px">So, the first one still remains older and here I don't understand why Pacemaker considers it failed?</span></div></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature"><div dir="ltr"><div><div dir="ltr">Thank you,<div>Kostia</div></div></div></div></div></div>
<br><div class="gmail_quote">On Tue, Jan 19, 2016 at 8:02 PM, Ken Gaillot <span dir="ltr"><<a href="mailto:kgaillot@redhat.com" target="_blank">kgaillot@redhat.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="HOEnZb"><div class="h5">On 01/19/2016 10:30 AM, Kostiantyn Ponomarenko wrote:<br>
> The resource that wasn't running, but was reported as running, is<br>
> "adminServer".<br>
><br>
> Here are a brief chronological description:<br>
><br>
> [Jan 19 23:42:16] The first time Pacemaker triggers its monitor function at<br>
> line #1107. (those lines are from its Resource Agent)<br>
> [Jan 19 23:42:16] Then Pacemaker starts the resource - line #1191.<br>
> [Jan 19 11:42:53] The first failure is reported by monitor operation at<br>
> line #1543.<br>
> [Jan 19 11:42:53] The fail-count is set, but I don't see any attempt from<br>
> Pacemaker to "start" the resource - the start function is not called (from<br>
> the logs) - line #1553.<br>
> [Jan 19 12:27:56] Then adminServer's monitor operation keeps returning<br>
> $OCF_NOT_RUNNING - starts at line #1860.<br>
> [Jan 19 12:57:53] Then the expired failcount is cleared at line #1969.<br>
> [Jan 19 12:57:53] Another call of the monitor function happens at line<br>
> #2038.<br>
> [Jan 19 12:57:53] I assume that the line #2046 means "not running" (?).<br>
> [Jan 19 12:57:53] The "stop" function is called - line #2150<br>
> [Jan 19 12:57:53] The "start" function is called and the resource is<br>
> successfully started - line #2164<br>
><br>
><br>
> The time change occurred while cluster was starting, I see this from<br>
> "journalctl --since="2016-01-19" --until="2016-01-20"":<br>
><br>
> Jan 19 23:10:39 A2-2U12-302-LS ntpd[2210]: 0.0.0.0 c61c 0c clock_step<br>
> -43193.793349 s<br>
> Jan 19 11:10:45 A2-2U12-302-LS ntpd[2210]: 0.0.0.0 c614 04 freq_mode<br>
> Jan 19 11:10:45 A2-2U12-302-LS systemd[1]: Time has been changed<br>
><br>
> I am attaching corosync.log.<br>
<br>
</div></div>The time change is interesting. I suspect what's happening is that<br>
pacemaker considers the failed monitor "older" than the original<br>
successful one, and so ignores it.<br>
<br>
In general, we don't support large clock shifts in a running cluster (a<br>
topic that has come up before on this list). But if you can reproduce<br>
the behavior with 1.1.14, feel free to open a bug report. It might be<br>
worth revisiting to see if there is anything we can do about it.<br>
<div class="HOEnZb"><div class="h5"><br>
> Thank you,<br>
> Kostia<br>
><br>
> On Tue, Jan 19, 2016 at 5:17 PM, Bogdan Dobrelya <<a href="mailto:bdobrelia@mirantis.com">bdobrelia@mirantis.com</a>><br>
> wrote:<br>
><br>
>> On 19.01.2016 16:13, Ken Gaillot wrote:<br>
>>> On 01/19/2016 06:49 AM, Kostiantyn Ponomarenko wrote:<br>
>>>> One of resources in my cluster is not actually running, but "crm_mon"<br>
>> shows<br>
>>>> it with the "Started" status.<br>
>>>> Its resource agent's monitor function returns "$OCF_NOT_RUNNING", but<br>
>>>> Pacemaker doesn't react on this anyhow - crm_mon show the resource as<br>
>>>> Started.<br>
>>>> I couldn't find an explanation to this behavior, so I suppose it is a<br>
>> bug,<br>
>>>> is it?<br>
>>><br>
>>> That is unexpected. Can you post the configuration and logs from around<br>
>>> the time of the issue?<br>
>>><br>
>><br>
>> Oh, sorry, I forgot to mention the related thread [0]. That is exactly<br>
>> the case I reported there. Looks same, so I thought you've just updated<br>
>> my thread :)<br>
>><br>
>> These may be merged perhaps.<br>
>><br>
>> [0] <a href="http://clusterlabs.org/pipermail/users/2016-January/002035.html" rel="noreferrer" target="_blank">http://clusterlabs.org/pipermail/users/2016-January/002035.html</a><br>
>><br>
>>><br>
>>> _______________________________________________<br>
>>> Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
>>> <a href="http://clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://clusterlabs.org/mailman/listinfo/users</a><br>
>>><br>
>>> Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
>>> Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" rel="noreferrer" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
>>> Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
<br>
<br>
_______________________________________________<br>
Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
<a href="http://clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://clusterlabs.org/mailman/listinfo/users</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" rel="noreferrer" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
</div></div></blockquote></div><br></div>