You can use a meta attribute to expire failures . The attribute name is '<code class="literal">failure-timeout'</code><div>I have used it for my fencing devices as during the night the network was quite busy.<br></div><div><br></div><div>Best Regards,</div><div>Strahil Nikolov</div><div> <br> <blockquote style="margin: 0 0 20px 0;"> <div style="font-family:Roboto, sans-serif; color:#6D00F6;"> <div>On Tue, Apr 26, 2022 at 23:54, Hayden, Robert via Users</div><div><users@clusterlabs.org> wrote:</div> </div> <div style="padding: 10px 0 0 20px; margin: 10px 0 0 0; border-left: 1px solid #6D00F6;"> <br clear="none"><br clear="none">Robert Hayden | Lead Technology Architect | Cerner Corporation | 816.201.4068 | <a shape="rect" ymailto="mailto:rhayden@cerner.com" href="mailto:rhayden@cerner.com">rhayden@cerner.com</a> | www.cerner.com<br clear="none"><br clear="none"><br clear="none">> -----Original Message-----<br clear="none">> From: Users <<a shape="rect" ymailto="mailto:users-bounces@clusterlabs.org" href="mailto:users-bounces@clusterlabs.org">users-bounces@clusterlabs.org</a>> On Behalf Of Ken Gaillot<br clear="none">> Sent: Tuesday, April 26, 2022 2:25 PM<br clear="none">> To: Cluster Labs - All topics related to open-source clustering welcomed<br clear="none">> <<a shape="rect" ymailto="mailto:users@clusterlabs.org" href="mailto:users@clusterlabs.org">users@clusterlabs.org</a>><br clear="none">> Subject: Re: [ClusterLabs] OCF_TIMEOUT - Does it recover by itself?<br clear="none">><br clear="none">> On Tue, 2022-04-26 at 15:20 -0300, Salatiel Filho wrote:<br clear="none">> > I have a question about OCF_TIMEOUT. Some times my cluster shows me<br clear="none">> > this on pcs status:<br clear="none">> > Failed Resource Actions:<br clear="none">> >   * fence-server02_monitor_60000 on server01 'OCF_TIMEOUT' (198):<br clear="none">> > call=419, status='Timed Out', exitreason='',<br clear="none">> > last-rc-change='2022-04-26 14:47:32 -03:00', queued=0ms, exec=20004ms<br clear="none">> ><br clear="none">> > I can see in the same pcs status output that the fence device is<br clear="none">> > started, so does that mean it failed some moment in the past and now<br clear="none">> > it is OK? Or do I have to do something to recover it?<br clear="none">><br clear="none">> Correct, the status shows failures that have happened in the past. The<br clear="none">> cluster tries to recover failed resources automatically according to<br clear="none">> whatever policy has been configured (the default being to stop and<br clear="none">> start the resource).<br clear="none">><br clear="none">> Since the resource is shown as active, there's nothing you have to do.<br clear="none">> You can investigate the timeout (for example look at the system logs<br clear="none">> around that timestamp to see if anything else unusual was reported),<br clear="none">> and you can clear the failure from the status display with<br clear="none">> "crm_resource --cleanup" (or "pcs resource cleanup").<br clear="none">><br clear="none"><br clear="none">FYI - I have had some issues with "pcs resource cleanup" and on past events where it decided<br clear="none">restart my already recovered and running resources throwing me into another<br clear="none">short outage.  Also seen past, but recovered failures cause issues with future<br clear="none">events where nodes are coming out of maintenance mode (times when the cluster<br clear="none">is reviewing states of resources and see a past failure, but not recognizing it was already<br clear="none">recovered).  This was mainly on RHEL/OL 7 clusters.<br clear="none"><br clear="none">Since people don't like to see failures on the "pcs status" output, I have moved<br clear="none">to using the following to automatically clear resource failures after 1 week's time.<br clear="none"><br clear="none">pcs resource defaults failure-timeout=604800<br clear="none"><br clear="none">Gives people a chance to investigate a past failure, but they fall off the cluster's radar.<br clear="none"><br clear="none">> ><br clear="none">> > # pcs status<br clear="none">> > Cluster name: cluster1<br clear="none">> > Cluster Summary:<br clear="none">> >   * Stack: corosync<br clear="none">> >   * Current DC: server02 (version 2.1.0-8.el8-7c3f660707) - partition<br clear="none">> > with quorum<br clear="none">> >   * Last updated: Tue Apr 26 14:52:56 2022<br clear="none">> >   * Last change:  Tue Apr 26 14:37:22 2022 by hacluster via crmd on<br clear="none">> > server01<br clear="none">> >   * 2 nodes configured<br clear="none">> >   * 11 resource instances configured<br clear="none">> ><br clear="none">> > Node List:<br clear="none">> >   * Online: [ server01 server02 ]<br clear="none">> ><br clear="none">> > Full List of Resources:<br clear="none">> >   * fence-server01    (stonith:fence_vmware_rest):     Started<br clear="none">> > server02<br clear="none">> >   * fence-server02    (stonith:fence_vmware_rest):     Started<br clear="none">> > server01<br clear="none">> > ...<br clear="none">> ><br clear="none">> > Is "pcs resource cleanup" the right way to remove those messages ?<br clear="none">> ><br clear="none">> ><br clear="none">> ><br clear="none">> ><br clear="none">> > Atenciosamente/Kind regards,<br clear="none">> > Salatiel<br clear="none">> --<br clear="none">> Ken Gaillot <<a shape="rect" ymailto="mailto:kgaillot@redhat.com" href="mailto:kgaillot@redhat.com">kgaillot@redhat.com</a>><br clear="none">><br clear="none">> _______________________________________________<br clear="none">> Manage your subscription:<br clear="none">> https://nam10.safelinks.protection.outlook.com/?url=https%3A%2F%2Flists.<br clear="none">> clusterlabs.org%2Fmailman%2Flistinfo%2Fusers&amp;data=05%7C01%7Crha<br clear="none">> yden%40cerner.com%7C96253b7f767848073dcb08da27ba6e9b%7Cfbc493a80<br clear="none">> d244454a815f4ca58e8c09d%7C0%7C0%7C637865978923341094%7CUnknown<br clear="none">> %7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1ha<br clear="none">> WwiLCJXVCI6Mn0%3D%7C3000%7C%7C%7C&amp;sdata=EPiNm1sfkHccbXEa<br clear="none">> 14EmuIot5jWii53Nk5KtrdKQk9Y%3D&amp;reserved=0<br clear="none">><br clear="none">> ClusterLabs home:<br clear="none">> <a shape="rect" href="https://nam10.safelinks.protection.outlook.com/?url=https%3A%2F%2Fww" target="_blank">https://nam10.safelinks.protection.outlook.com/?url=https%3A%2F%2Fww</a><br clear="none">> w.clusterlabs.org%2F&amp;data=05%7C01%7Crhayden%40cerner.com%7C9<br clear="none">> 6253b7f767848073dcb08da27ba6e9b%7Cfbc493a80d244454a815f4ca58e8c09d<br clear="none">> %7C0%7C0%7C637865978923341094%7CUnknown%7CTWFpbGZsb3d8eyJWIj<br clear="none">> oiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C3<br clear="none">> 000%7C%7C%7C&amp;sdata=yH1vGXlaWOfuu3q0aTxDfuonpC2XFzbwYpz7ea<br clear="none">> UrwzA%3D&amp;reserved=0<br clear="none"><br clear="none"><br clear="none">CONFIDENTIALITY NOTICE This message and any included attachments are from Cerner Corporation and are intended only for the addressee. The information contained in this message is confidential and may constitute inside or non-public information under international, federal, or state securities laws. Unauthorized forwarding, printing, copying, distribution, or use of such information is strictly prohibited and may be unlawful. If you are not the addressee, please promptly delete this message and notify the sender of the delivery error by e-mail or you may call Cerner's corporate offices in Kansas City, Missouri, U.S.A at (+1) (816)221-1024.<div class="yqt5126655514" id="yqtfd17114"><br clear="none">_______________________________________________<br clear="none">Manage your subscription:<br clear="none"><a shape="rect" href="https://lists.clusterlabs.org/mailman/listinfo/users" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br clear="none"><br clear="none">ClusterLabs home: <a shape="rect" href="https://www.clusterlabs.org/" target="_blank">https://www.clusterlabs.org/</a><br clear="none"></div> </div> </blockquote></div>