<font size=2 face="Verdana">The resource failed when the sleep expired,
i.e. each 600 secs.</font>
<br><font size=2 face="Verdana">Now I changed the resource to</font>
<br>
<br><font size=2 face="Verdana">sleep 7200, failure-timeout 3600</font>
<br>
<br><font size=2 face="Verdana">i.e. to values far beyond the recheck-interval
opf 15m.</font>
<br>
<br><font size=2 face="Verdana">Now everything behaves as expected.</font>
<br><font size=3> </font>
<br><font size=2 face="Verdana">Mit freundlichen Grüßen / Kind regards</font><font size=3>
</font><font size=2 color=#5f5f5f face="Verdana"><br>
<b><br>
Holger Teutsch</b> <br>
</font><font size=1 face="Verdana"><br>
</font>
<br>
<br>
<br>
<br><font size=1 color=#5f5f5f face="sans-serif">From:      
 </font><font size=1 face="sans-serif">Andrew Beekhof <andrew@beekhof.net></font>
<br><font size=1 color=#5f5f5f face="sans-serif">To:      
 </font><font size=1 face="sans-serif">The Pacemaker cluster
resource manager <pacemaker@oss.clusterlabs.org></font>
<br><font size=1 color=#5f5f5f face="sans-serif">Date:      
 </font><font size=1 face="sans-serif">05.10.2010 11:09</font>
<br><font size=1 color=#5f5f5f face="sans-serif">Subject:    
   </font><font size=1 face="sans-serif">Re: [Pacemaker]
Fail-count and failure timeout</font>
<br>
<hr noshade>
<br>
<br>
<br><tt><font size=2>On Tue, Oct 5, 2010 at 11:07 AM, Andrew Beekhof <andrew@beekhof.net>
wrote:<br>
> On Fri, Oct 1, 2010 at 3:40 PM,  <Holger.Teutsch@fresenius-netcare.com>
wrote:<br>
>> Hi,<br>
>> I observed the following in pacemaker Versions 1.1.3 and tip up
to patch<br>
>> 10258.<br>
>><br>
>> In a small test environment to study fail-count behavior I have
one resource<br>
>><br>
>> anything<br>
>> doing sleep 600 with monitoring interval 10 secs.<br>
>><br>
>> The failure-timeout is 300.<br>
>><br>
>> I would expect to never see a failcount higher than 1.<br>
><br>
> Why?<br>
><br>
> The fail-count is only reset when the PE runs... which is on a failure<br>
> and/or after the cluster-recheck-interval<br>
> So I'd expect a maximum of two.<br>
<br>
Actually this is wrong.<br>
There is no maximum, because there needs to have been 300s since the<br>
last failure when the PE runs.<br>
And since it only runs when the resource fails, it is never reset.<br>
<br>
><br>
>       cluster-recheck-interval = time [15min]<br>
>              Polling interval for
time based changes to options,<br>
> resource parameters and constraints.<br>
><br>
>              The Cluster is primarily
event driven, however the<br>
> configuration can have elements that change based on time. To ensure<br>
> these changes take effect, we can optionally poll  the  cluster’s<br>
>              status for changes.
Allowed values: Zero disables<br>
> polling. Positive values are an interval in seconds (unless other
SI<br>
> units are specified. eg. 5min)<br>
><br>
><br>
><br>
>><br>
>> I observed some sporadic clears but mostly the count is increasing
by 1 each<br>
>> 10 minutes.<br>
>><br>
>> Am I mistaken or is this a bug ?<br>
><br>
> Hard to say without logs.  What value did it reach?<br>
><br>
>><br>
>> Regards<br>
>> Holger<br>
>><br>
>> -- complete cib for reference ---<br>
>><br>
>> <cib epoch="32" num_updates="0" admin_epoch="0"<br>
>> validate-with="pacemaker-1.2" crm_feature_set="3.0.4"
have-quorum="0"<br>
>> cib-last-written="Fri Oct  1 14:17:31 2010" dc-uuid="hotlx"><br>
>>   <configuration><br>
>>     <crm_config><br>
>>       <cluster_property_set id="cib-bootstrap-options"><br>
>>         <nvpair id="cib-bootstrap-options-dc-version"
name="dc-version"<br>
>> value="1.1.3-09640bd6069e677d5eed65203a6056d9bf562e67"/><br>
>>         <nvpair id="cib-bootstrap-options-cluster-infrastructure"<br>
>> name="cluster-infrastructure" value="openais"/><br>
>>         <nvpair id="cib-bootstrap-options-expected-quorum-votes"<br>
>> name="expected-quorum-votes" value="2"/><br>
>>         <nvpair id="cib-bootstrap-options-no-quorum-policy"<br>
>> name="no-quorum-policy" value="ignore"/><br>
>>         <nvpair id="cib-bootstrap-options-stonith-enabled"<br>
>> name="stonith-enabled" value="false"/><br>
>>         <nvpair id="cib-bootstrap-options-start-failure-is-fatal"<br>
>> name="start-failure-is-fatal" value="false"/><br>
>>         <nvpair id="cib-bootstrap-options-last-lrm-refresh"<br>
>> name="last-lrm-refresh" value="1285926879"/><br>
>>       </cluster_property_set><br>
>>     </crm_config><br>
>>     <nodes><br>
>>       <node id="hotlx" uname="hotlx"
type="normal"/><br>
>>     </nodes><br>
>>     <resources><br>
>>       <primitive class="ocf" id="test"
provider="heartbeat" type="anything"><br>
>>         <meta_attributes id="test-meta_attributes"><br>
>>           <nvpair id="test-meta_attributes-target-role"
name="target-role"<br>
>> value="started"/><br>
>>           <nvpair id="test-meta_attributes-failure-timeout"<br>
>> name="failure-timeout" value="300"/><br>
>>         </meta_attributes><br>
>>         <operations id="test-operations"><br>
>>           <op id="test-op-monitor-10"
interval="10" name="monitor"<br>
>> on-fail="restart" timeout="20s"/><br>
>>           <op id="test-op-start-0"
interval="0" name="start"<br>
>> on-fail="restart" timeout="20s"/><br>
>>         </operations><br>
>>         <instance_attributes id="test-instance_attributes"><br>
>>           <nvpair id="test-instance_attributes-binfile"
name="binfile"<br>
>> value="sleep 600"/><br>
>>         </instance_attributes><br>
>>       </primitive><br>
>>     </resources><br>
>>     <constraints/><br>
>>   </configuration><br>
>> </cib><br>
>><br>
>> _______________________________________________<br>
>> Pacemaker mailing list: Pacemaker@oss.clusterlabs.org<br>
>> </font></tt><a href=http://oss.clusterlabs.org/mailman/listinfo/pacemaker><tt><font size=2>http://oss.clusterlabs.org/mailman/listinfo/pacemaker</font></tt></a><tt><font size=2><br>
>><br>
>> Project Home: </font></tt><a href=http://www.clusterlabs.org/><tt><font size=2>http://www.clusterlabs.org</font></tt></a><tt><font size=2><br>
>> Getting started: </font></tt><a href=http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf><tt><font size=2>http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</font></tt></a><tt><font size=2><br>
>> Bugs:<br>
>> </font></tt><a href="http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker"><tt><font size=2>http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker</font></tt></a><tt><font size=2><br>
>><br>
>><br>
><br>
<br>
_______________________________________________<br>
Pacemaker mailing list: Pacemaker@oss.clusterlabs.org<br>
</font></tt><a href=http://oss.clusterlabs.org/mailman/listinfo/pacemaker><tt><font size=2>http://oss.clusterlabs.org/mailman/listinfo/pacemaker</font></tt></a><tt><font size=2><br>
<br>
Project Home: </font></tt><a href=http://www.clusterlabs.org/><tt><font size=2>http://www.clusterlabs.org</font></tt></a><tt><font size=2><br>
Getting started: </font></tt><a href=http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf><tt><font size=2>http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</font></tt></a><tt><font size=2><br>
Bugs: </font></tt><a href="http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker"><tt><font size=2>http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker</font></tt></a><tt><font size=2><br>
</font></tt>
<br>