In clouds you can't just use VIPs.<div>Use azure-lb resource instead.</div><div><br></div><div>Best Regards,</div><div>Strahil Nikolov <br> <br> <blockquote style="margin: 0 0 20px 0;"> <div style="font-family:Roboto, sans-serif; color:#6D00F6;"> <div>On Fri, Jul 29, 2022 at 23:21, Reid Wahl</div><div><nwahl@redhat.com> wrote:</div> </div> <div style="padding: 10px 0 0 20px; margin: 10px 0 0 0; border-left: 1px solid #6D00F6;"> On Fri, Jul 29, 2022 at 1:02 PM Reid Wahl <<a shape="rect" ymailto="mailto:nwahl@redhat.com" href="mailto:nwahl@redhat.com">nwahl@redhat.com</a>> wrote:<br clear="none">><br clear="none">> On Fri, Jul 29, 2022 at 12:52 PM Ross Sponholtz <<a shape="rect" ymailto="mailto:rsponholtz@hotmail.com" href="mailto:rsponholtz@hotmail.com">rsponholtz@hotmail.com</a>> wrote:<br clear="none">> ><br clear="none">> > I’m running a RHEL pacemaker cluster on Azure, and I’ve gotten a failure & fencing where I get these messages in the log file:<br clear="none">> ><br clear="none">> ><br clear="none">> > warning: vip_ABC_30_monitor_10000 process (PID 1779737) timed out<br clear="none">> > crit: vip_ABC_30_monitor_10000 process (PID 1779737) will not die!<br clear="none">> ><br clear="none">> ><br clear="none">> ><br clear="none">> > This resource uses the IPAddr2 resource agent.  I’ve looked at the agent code, and I can’t pinpoint any reason it would hang up, and since the node gets fenced, I can’t tell why this happens – any ideas on what kinds of failures could cause this problem?<br clear="none">> ><br clear="none">> ><br clear="none">> ><br clear="none">> > Thanks,<br clear="none">> ><br clear="none">> > Ross<br clear="none">> ><br clear="none">><br clear="none">> Are you able to reproduce this? I suggest adding `trace_ra=1` to the<br clear="none">> resource configuration in order to determine where it's hanging.<br clear="none">><br clear="none">> # pcs resource update vip_ABC trace_ra=1<br clear="none">><br clear="none">> This will produce a shell trace of each operation in<br clear="none">> /var/lib/heartbeat/trace_ra/IPaddr2. This is naturally quite a lot of<br clear="none">> logging, so remove the option when you've gotten what you need.<br clear="none">><br clear="none">> # pcs resource update vip_ABC trace_ra=<br clear="none">><br clear="none">> Also discussed in this article (you should have access if you're on RHEL):<br clear="none">> - How can I determine exactly what is happening with every operation<br clear="none">> on a resource in Pacemaker?<br clear="none">> (<a shape="rect" href="https://access.redhat.com/solutions/3182931" target="_blank">https://access.redhat.com/solutions/3182931</a>)<br clear="none"><br clear="none">You may also want to set on-fail=block for the stop operation to<br clear="none">prevent the node from getting fenced while you troubleshoot this.<br clear="none"><br clear="none"># pcs resource update vip_ABC op stop interval=0s<br clear="none">timeout=<whatever_the_current_timeout_is> on-fail=block<br clear="none"><br clear="none">Other than that, trace_ra=1 will generally tell us quite a lot -- I<br clear="none">just hope that it _does_ get written, given that the child process<br clear="none">becomes unkillable.<br clear="none"><br clear="none">The IPaddr2 resource agent doesn't do all that much. It runs a few<br clear="none">`ip` commands and sends an ARP refresh. That's about it. Generally<br clear="none">would not expect any of those to hang unless there's a deeper issue.<br clear="none"><br clear="none">><br clear="none">> > _______________________________________________<br clear="none">> > Manage your subscription:<br clear="none">> > <a shape="rect" href="https://lists.clusterlabs.org/mailman/listinfo/users" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br clear="none">> ><br clear="none">> > ClusterLabs home: <a shape="rect" href="https://www.clusterlabs.org/" target="_blank">https://www.clusterlabs.org/</a><br clear="none">><br clear="none">><br clear="none">><br clear="none">> --<br clear="none">> Regards,<br clear="none">><br clear="none">> Reid Wahl (He/Him)<br clear="none">> Senior Software Engineer, Red Hat<br clear="none">> RHEL High Availability - Pacemaker<div class="yqt2965423934" id="yqtfd00384"><br clear="none"><br clear="none"><br clear="none"><br clear="none">-- <br clear="none">Regards,<br clear="none"><br clear="none">Reid Wahl (He/Him)<br clear="none">Senior Software Engineer, Red Hat<br clear="none">RHEL High Availability - Pacemaker<br clear="none"><br clear="none">_______________________________________________<br clear="none">Manage your subscription:<br clear="none"><a shape="rect" href="https://lists.clusterlabs.org/mailman/listinfo/users" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br clear="none"><br clear="none">ClusterLabs home: <a shape="rect" href="https://www.clusterlabs.org/" target="_blank">https://www.clusterlabs.org/</a><br clear="none"></div> </div> </blockquote></div>