<div dir="ltr">Hi,<div class="gmail_extra"><br><div class="gmail_quote">On Thu, Feb 22, 2018 at 11:58 AM,  <span dir="ltr"><<a href="mailto:jota@disroot.org" target="_blank">jota@disroot.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><u></u><div><div style="font-family:arial,sans-serif;font-size:13px"> <br>Hi,<br><br>I have a 2 node pacemaker cluster configured with the fence agent vmware_soap.<br>Everything works fine until the vCenter is restarted. After that, stonith fails and stop.<br></div></div></blockquote><div><br></div><div>This is expected as we run 'monitor' action to find out if fence device is working. I assume that it is not responding when vCenter is restarting. If your fencing device fails then manual intervention makes sense as you have to have fencing working  in order to prevent data corruption. </div><div><br></div><div>m,</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div style="font-family:arial,sans-serif;font-size:13px"><br>[root@node1 ~]# pcs status <br>Cluster name: psqltest<br>Stack: corosync<br>Current DC: node2 (version 1.1.16-12.el7_4.7-94ff4df) - partition with quorum<br>Last updated: Thu Feb 22 11:30:22 2018<br>Last change: Mon Feb 19 09:28:37 2018 by root via crm_resource on node1<br><br>2 nodes configured<br>6 resources configured<br><br>Online: [ node1 node2 ]<br><br>Full list of resources:<br><br> Master/Slave Set: ms_drbd_psqltest [drbd_psqltest]<br> Masters: [ node1 ]<br> Slaves: [ node2 ]<br> Resource Group: pgsqltest<br> psqltestfs (ocf::heartbeat:Filesystem): Started node1<br> psqltest_vip (ocf::heartbeat:IPaddr2): Started node1<br> postgresql-94 (ocf::heartbeat:pgsql): Started node1<br> vmware_soap (stonith:fence_vmware_soap): Stopped<br><br>Failed Actions:<br>* vmware_soap_start_0 on node1 'unknown error' (1): call=38, status=Error, exitreason='none',<br> last-rc-change='Thu Feb 22 10:55:46 2018', queued=0ms, exec=5374ms<br>* vmware_soap_start_0 on node2 'unknown error' (1): call=56, status=Error, exitreason='none',<br> last-rc-change='Thu Feb 22 10:55:39 2018', queued=0ms, exec=5479ms<br><br>Daemon Status:<br> corosync: active/enabled<br> pacemaker: active/enabled<br> pcsd: active/enabled<br> <br> <br>[root@node1 ~]# pcs stonith show --full <br> Resource: vmware_soap (class=stonith type=fence_vmware_soap)<br> Attributes: inet4_only=1 ipaddr=192.168.1.1 ipport=443 login=MYDOMAIN\User passwd=mypass pcmk_host_list=node1,node2 power_wait=3 ssl_insecure=1 action= pcmk_list_timeout=120s pcmk_monitor_timeout=120s pcmk_status_timeout=120s<br> Operations: monitor interval=60s (vmware_soap-monitor-interval-<wbr>60s)<br> <br><br>I need to manually perform a "resource cleanup vmware_soap" to put it online again.<br>Is there any way to do this automatically?.<br>Is it possible to detect vSphere online again and enable stonith?.<br><br>Thanks.<br><u></u><u></u> </div></div>
<br>______________________________<wbr>_________________<br>
Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
<a href="https://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">https://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
<br></blockquote></div><br></div></div>