<div dir="ltr">Andrei, <div><br></div><div>I just went through the docs (<a href="https://clusterlabs.org/pacemaker/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/s-failure-migration.html">https://clusterlabs.org/pacemaker/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/s-failure-migration.html</a>) </div><div>and it says that the option "<b>failure-timeout</b>" is responsible for retrying a failed resource.</div><div><br></div><div><b>"If STONITH is not enabled, then the cluster has no way to continue and will not try to start the resource elsewhere, but will try to stop it again after the failure timeout."</b></div><div><br><a href="https://clusterlabs.org/pacemaker/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/s-resource-options.html">https://clusterlabs.org/pacemaker/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/s-resource-options.html</a> says that <br></div><div>"failure-timeout" is disabled by default:</div><br><b>How many seconds to wait before acting as if the failure had not occurred, and potentially allowing the resource back to the node on which it failed. A value of 0 indicates that this feature is disabled. </b><div> <br></div><div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr">Sincerely,<div>Ark.</div><div><br></div><div><div><a href="mailto:eth@ethaniel.com" target="_blank">eth@ethaniel.com</a></div></div></div></div></div></div></div></div></div></div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, May 6, 2019 at 1:53 AM Andrei Borzenkov <<a href="mailto:arvidjaar@gmail.com">arvidjaar@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">05.05.2019 21:43, Arkadiy Kulev пишет:<br>
> Is there a way how I can get Pacemaker to repeat the stop of the resource<br>
> if it failed?<br>
> <br>
<br>
Not on pacemaker level. You would need to modify resource agent to retry<br>
operation.<br>
<br>
> Sincerely,<br>
> Ark.<br>
> <br>
> <a href="mailto:eth@ethaniel.com" target="_blank">eth@ethaniel.com</a><br>
> <br>
> <br>
> On Sun, May 5, 2019 at 11:05 PM Andrei Borzenkov <<a href="mailto:arvidjaar@gmail.com" target="_blank">arvidjaar@gmail.com</a>><br>
> wrote:<br>
> <br>
>> 05.05.2019 18:43, Arkadiy Kulev пишет:<br>
>>> Dear Andrei,<br>
>>><br>
>>> I'm sorry for the screenshot, this is the only thing that I have left<br>
>> after<br>
>>> the crash.<br>
>>><br>
>><br>
>> What crash do you mean? All nodes appear up and running, you are able to<br>
>> execute commands, I do not see anything crashed.<br>
>><br>
>>> What would the best course of action be in this situation?<br>
>><br>
>> Configure STONITH. It is mandatory so pacemaker can resolve such<br>
>> situation among others.<br>
>><br>
>> For now assuming node problems are over you should be able to clean<br>
>> resource state (crm_resource --cleanup). Restarting pacemaker on all<br>
>> nodes would also work.<br>
>><br>
>>> We don't have a STONITH device. But the local network is still up (both<br>
>>> nodes see each othes).<br>
>>><br>
>>> Also, what does "(blocked)" means?<br>
>>><br>
>><br>
>> It means that pacemaker cannot perform any action on this resource due<br>
>> to failed prerequisites. In this case failed prerequisite was successful<br>
>> stop of resource.<br>
>><br>
>>> Sincerely,<br>
>>> Ark.<br>
>>><br>
>>> <a href="mailto:eth@ethaniel.com" target="_blank">eth@ethaniel.com</a><br>
>>><br>
>>><br>
>>> On Sun, May 5, 2019 at 9:46 PM Andrei Borzenkov <<a href="mailto:arvidjaar@gmail.com" target="_blank">arvidjaar@gmail.com</a>><br>
>> wrote:<br>
>>><br>
>>>> 05.05.2019 16:14, Arkadiy Kulev пишет:<br>
>>>>> Hello!<br>
>>>>><br>
>>>>> I run pacemaker on 2 active/active hosts which balance the load of 2<br>
>>>> public<br>
>>>>> IP addresses.<br>
>>>>> A few days ago we ran a very CPU/network intensive process on one of<br>
>> the<br>
>>>> 2<br>
>>>>> hosts and Pacemaker failed.<br>
>>>>><br>
>>>>> I've attached a screenshot of the terminal to this email.<br>
>>>>><br>
>>>>> The "Failed Actions" shows that the IPaddr2 "monitor_30000" failed with<br>
>>>>> "unknown error" and a status of "Timed Out" (queue=0ms exec=0ms). The<br>
>>>>> /etc/init.d LSB script (mycluster) failed as well (and set to blocked).<br>
>>>>><br>
>>>>> This completely stalled Pacemaker and the second host didn't take over<br>
>>>> the<br>
>>>>> IP address and gateway settings.<br>
>>>>><br>
>>>>> Any ideas would be appreciated.<br>
>>>>><br>
>>>><br>
>>>> Stop operation failed, you have no stonith, so pacemaker cannot continue<br>
>>>> and is stuck.<br>
>>>><br>
>>>><br>
>>>>><br>
>>>>> [image: Screen Shot 2019-04-30 at 12.36.34.png]<br>
>>>>><br>
>>>><br>
>>>><br>
>>>> Images are hard to reply to, consume excessive space and cannot be<br>
>>>> viewed using text only clients. There is no reason to send image when<br>
>>>> you can just copy and paste several lines of text.<br>
>>>> _______________________________________________<br>
>>>> Manage your subscription:<br>
>>>> <a href="https://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>
>>>><br>
>>>> ClusterLabs home: <a href="https://www.clusterlabs.org/" rel="noreferrer" target="_blank">https://www.clusterlabs.org/</a><br>
>>><br>
>>><br>
>>> _______________________________________________<br>
>>> Manage your subscription:<br>
>>> <a href="https://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>
>>><br>
>>> ClusterLabs home: <a href="https://www.clusterlabs.org/" rel="noreferrer" target="_blank">https://www.clusterlabs.org/</a><br>
>>><br>
>><br>
>> _______________________________________________<br>
>> Manage your subscription:<br>
>> <a href="https://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>
>><br>
>> ClusterLabs home: <a href="https://www.clusterlabs.org/" rel="noreferrer" target="_blank">https://www.clusterlabs.org/</a><br>
> <br>
> <br>
> _______________________________________________<br>
> Manage your subscription:<br>
> <a href="https://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>
> <br>
> ClusterLabs home: <a href="https://www.clusterlabs.org/" rel="noreferrer" target="_blank">https://www.clusterlabs.org/</a><br>
> <br>
<br>
_______________________________________________<br>
Manage your subscription:<br>
<a href="https://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>
<br>
ClusterLabs home: <a href="https://www.clusterlabs.org/" rel="noreferrer" target="_blank">https://www.clusterlabs.org/</a></blockquote></div>