Hi, Antony. failure-timeout should be a resource meta attribute, not an attribute of the monitor operation. At least I'm not aware of it being configurable per-operation -- maybe it is. Can't check at the moment :)<br><br>On Wednesday, March 31, 2021, Antony Stone <<a href="mailto:Antony.Stone@ha.open.source.it">Antony.Stone@ha.open.source.it</a>> wrote:<br>> Hi.<br>><br>> I've pared my configureation down to almost a bare minimum to demonstrate the<br>> problem I'm having.<br>><br>> I have two questions:<br>><br>> 1. What command can I use to find out what pacemaker thinks my cluster.cib file<br>> really means?<br>><br>> I know what I put in it, but I want to see what pacemaker has understood from<br>> it, to make sure that pacemaker has the same idea about how to manage my<br>> resources as I do.<br>><br>><br>> 2. Can anyone tell me what the problem is with the following cluster.cib<br>> (lines split on spaces to make things more readable, the actual file consists<br>> of four lines of text):<br>><br>> primitive IP-float4<br>>         IPaddr2<br>>         params<br>>         ip=10.1.0.5<br>>         cidr_netmask=24<br>>         meta<br>>         migration-threshold=3<br>>         op<br>>         monitor<br>>         interval=10<br>>         timeout=30<br>>         on-fail=restart<br>>         failure-timeout=180<br>> primitive IPsecVPN<br>>         lsb:ipsecwrapper<br>>         meta<br>>         migration-threshold=3<br>>         op<br>>         monitor<br>>         interval=10<br>>         timeout=30<br>>         on-fail=restart<br>>         failure-timeout=180<br>> group Everything<br>>         IP-float4<br>>         IPsecVPN<br>>         resource-stickiness=100<br>> property cib-bootstrap-options:<br>>         stonith-enabled=no<br>>         no-quorum-policy=stop<br>>         start-failure-is-fatal=false<br>>         cluster-recheck-interval=60s<br>><br>> My problem is that "failure-timeout" is not being honoured.  A resource<br>> failure simply never times out, and 3 failures (over a fortnight, if that's<br>> how long it takes to get 3 failures) mean that the resources move.<br>><br>> I want a failure to be forgotten about after 180 seconds (or at least, soon<br>> after that - 240 seconds would be fine, if cluster-recheck-interval means that<br>> 180 can't quite be achieved).<br>><br>> Somehow or other, _far_ more than 180 seconds go by, and I *still* have:<br>><br>>         fail-count=1 last-failure='Wed Mar 31 21:23:11 2021'<br>><br>> as part of the output of "crm status -f" (the above timestamp is BST, so<br>> that's 70 minutes ago now).<br>><br>><br>> Thanks for any help,<br>><br>><br>> Antony.<br>><br>> --<br>> Don't procrastinate - put it off until tomorrow.<br>><br>>                                                    Please reply to the list;<br>>                                                          please *don't* CC me.<br>> _______________________________________________<br>> Manage your subscription:<br>> <a href="https://lists.clusterlabs.org/mailman/listinfo/users">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>><br>> ClusterLabs home: <a href="https://www.clusterlabs.org/">https://www.clusterlabs.org/</a><br>><br>><br><br>-- <br><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div>Regards,<br><br></div>Reid Wahl, RHCA<br></div><div>Senior Software Maintenance Engineer, Red Hat<br></div>CEE - Platform Support Delivery - ClusterHA</div></div></div></div></div></div></div></div></div></div></div></div></div><br>