<div dir="ltr">Hello, recently I received some really great advice from this community regarding changing the token timeout value in corosync. Thank you! Since then the cluster has been working perfectly with no errors in the log for more than a week.  <br><br>This morning I logged in to find a stopped stonith device.  If I'm reading the log right, it looks like it failed 1 million times in ~20 seconds then gave up. If you wouldn't mind looking at the logs below, is there some way that I can make this more robust so that it can recover?  I'll be investigating the reason for the timeout but would like to help the system recover on its own.<br><br>Servers: RHEL 8.2<br><br>Cluster name: cluster_pgperf2<br>Stack: corosync<br>Current DC: srv1 (version 2.0.2-3.el8_1.2-744a30d655) - partition with quorum<br>Last updated: Wed Jun 17 11:47:42 2020<br>Last change: Tue Jun 16 22:00:29 2020 by root via crm_attribute on srv1<br><br>2 nodes configured<br>4 resources configured<br><br>Online: [ srv1 srv2 ]<br><br>Full list of resources:<br><br> Clone Set: pgsqld-clone [pgsqld] (promotable)<br>     Masters: [ srv1 ]<br>     Slaves: [ srv2 ]<br> pgsql-master-ip        (ocf::heartbeat:IPaddr2):       Started srv1<br> vmfence        (stonith:fence_vmware_soap):    Stopped<br><br>Failed Resource Actions:<br>* vmfence_start_0 on srv2 'OCF_TIMEOUT' (198): call=19, status=Timed Out, exitreason='',<br>    last-rc-change='Wed Jun 17 08:34:16 2020', queued=7ms, exec=20184ms<br>* vmfence_start_0 on srv1 'OCF_TIMEOUT' (198): call=44, status=Timed Out, exitreason='',<br>    last-rc-change='Wed Jun 17 08:33:55 2020', queued=0ms, exec=20008ms<br><br>Daemon Status:<br>  corosync: active/disabled<br>  pacemaker: active/disabled<br>  pcsd: active/enabled<br><br> pcs resource config<br> Clone: pgsqld-clone<br>  Meta Attrs: notify=true promotable=true<br>  Resource: pgsqld (class=ocf provider=heartbeat type=pgsqlms)<br>   Attributes: bindir=/usr/bin pgdata=/var/lib/pgsql/data<br>   Operations: demote interval=0s timeout=120s (pgsqld-demote-interval-0s)<br>               methods interval=0s timeout=5 (pgsqld-methods-interval-0s)<br>               monitor interval=15s role=Master timeout=60s (pgsqld-monitor-interval-15s)<br>               monitor interval=16s role=Slave timeout=60s (pgsqld-monitor-interval-16s)<br>               notify interval=0s timeout=60s (pgsqld-notify-interval-0s)<br>               promote interval=0s timeout=30s (pgsqld-promote-interval-0s)<br>               reload interval=0s timeout=20 (pgsqld-reload-interval-0s)<br>               start interval=0s timeout=60s (pgsqld-start-interval-0s)<br>               stop interval=0s timeout=60s (pgsqld-stop-interval-0s)<br>               monitor interval=60s timeout=60s (pgsqld-monitor-interval-60s)<br> Resource: pgsql-master-ip (class=ocf provider=heartbeat type=IPaddr2)<br>  Attributes: cidr_netmask=24 ip=xxx.xxx.xxx.xxx<br>  Operations: monitor interval=10s (pgsql-master-ip-monitor-interval-10s)<br>              start interval=0s timeout=20s (pgsql-master-ip-start-interval-0s)<br>              stop interval=0s timeout=20s (pgsql-master-ip-stop-interval-0s)<br><br>pcs stonith config<br> Resource: vmfence (class=stonith type=fence_vmware_soap)<br>  Attributes: ipaddr=xxx.xxx.xxx.xxx login=xxxx\xxxxxxxx passwd_script=xxxxxxxx pcmk_host_map=srv1:xxxxxxxxx;srv2:yyyyyyyyy ssl=1 ssl_insecure=1<br>  Operations: monitor interval=60s (vmfence-monitor-interval-60s)<br><br>pcs resource failcount show<br>Failcounts for resource 'vmfence'<br>  srv1: INFINITY<br>  srv2: INFINITY<br><br>Here are the versions installed:<br>[postgres@srv1 cluster]$ rpm -qa|grep "pacemaker\|pcs\|corosync\|fence-agents-vmware-soap\|paf"<br>corosync-3.0.2-3.el8_1.1.x86_64<br>corosync-qdevice-3.0.0-2.el8.x86_64<br>corosync-qnetd-3.0.0-2.el8.x86_64<br>corosynclib-3.0.2-3.el8_1.1.x86_64<br>fence-agents-vmware-soap-4.2.1-41.el8.noarch<br>pacemaker-2.0.2-3.el8_1.2.x86_64<br>pacemaker-cli-2.0.2-3.el8_1.2.x86_64<br>pacemaker-cluster-libs-2.0.2-3.el8_1.2.x86_64<br>pacemaker-libs-2.0.2-3.el8_1.2.x86_64<br>pacemaker-schemas-2.0.2-3.el8_1.2.noarch<br>pcs-0.10.2-4.el8.x86_64<br>resource-agents-paf-2.3.0-1.noarch<br><br>Here are the errors and warnings from the pacemaker.log from the first warning until it gave up.  <br><br>/var/log/pacemaker/pacemaker.log:Jun 17 08:33:55 srv1 pacemaker-fenced    [26722] (child_timeout_callback)         warning: fence_vmware_soap_monitor_1 process (PID 43095) timed out<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:33:55 srv1 pacemaker-fenced    [26722] (operation_finished)     warning: fence_vmware_soap_monitor_1:43095 - timed out after 20000ms<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:33:55 srv1 pacemaker-controld  [26726] (process_lrm_event)      error: Result of monitor operation for vmfence on srv1: Timed Out | call=39 key=vmfence_monitor_60000 timeout=20000ms<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:33:55 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed monitor of vmfence on srv1: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:15 srv1 pacemaker-fenced    [26722] (child_timeout_callback)         warning: fence_vmware_soap_monitor_1 process (PID 43215) timed out<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:15 srv1 pacemaker-fenced    [26722] (operation_finished)     warning: fence_vmware_soap_monitor_1:43215 - timed out after 20000ms<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:15 srv1 pacemaker-controld  [26726] (process_lrm_event)      error: Result of start operation for vmfence on srv1: Timed Out | call=44 key=vmfence_start_0 timeout=20000ms<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:15 srv1 pacemaker-controld  [26726] (status_from_rc)         warning: Action 39 (vmfence_start_0) on srv1 failed (target: 0 vs. rc: 198): Error<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:15 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed start of vmfence on srv1: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:15 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed start of vmfence on srv1: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:15 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed start of vmfence on srv1: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:15 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed start of vmfence on srv1: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:15 srv1 pacemaker-schedulerd[26725] (check_migration_threshold)      warning: Forcing vmfence away from srv1 after 1000000 failures (max=5)<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:15 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed start of vmfence on srv1: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:15 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed start of vmfence on srv1: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:15 srv1 pacemaker-schedulerd[26725] (check_migration_threshold)      warning: Forcing vmfence away from srv1 after 1000000 failures (max=5)<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:36 srv1 pacemaker-controld  [26726] (status_from_rc)         warning: Action 38 (vmfence_start_0) on srv2 failed (target: 0 vs. rc: 198): Error<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:36 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed start of vmfence on srv2: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:36 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed start of vmfence on srv2: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:36 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed start of vmfence on srv1: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:36 srv1 pacemaker-schedulerd[26725] (check_migration_threshold)      warning: Forcing vmfence away from srv1 after 1000000 failures (max=5)<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:36 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed start of vmfence on srv2: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:36 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed start of vmfence on srv2: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:36 srv1 pacemaker-schedulerd[26725] (unpack_rsc_op_failure)  warning: Processing failed start of vmfence on srv1: OCF_TIMEOUT | rc=198<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:36 srv1 pacemaker-schedulerd[26725] (check_migration_threshold)      warning: Forcing vmfence away from srv1 after 1000000 failures (max=5)<br>/var/log/pacemaker/pacemaker.log:Jun 17 08:34:36 srv1 pacemaker-schedulerd[26725] (check_migration_threshold)      warning: Forcing vmfence away from srv2 after 1000000 failures (max=5)<br></div>