<html dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body style="text-align:left; direction:ltr;">
<div>Hi there, first of all thank you both for your suggestions and observations and apologies for my late reply.</div>
<div><br>
</div>
<div>I will check the logs on both hosts (although only one of them seems to be the issue) and will revert with any findings.</div>
<div><br>
</div>
<div>Just to confirm the error message for the monitor operation:</div>
<div><br>
</div>
<div>It seems that host zc-mail-2.zylacloud.com has a connection timeout to monitor the resource fence_zc-mail-1_virsh right?</div>
<div><br>
</div>
<div>My question here is, what is the monitor operation doing to confirm that the monitor operation is successful?</div>
<div><br>
</div>
<div>Is it doing the same operation as specified in the stonith resource and expecting a particular exit code?</div>
<div><br>
</div>
<div>Thanks once again</div>
<div><br>
</div>
<div>-----Original Message-----</div>
<div><b>From</b>: Dan Swartzendruber <<a href="mailto:Dan%20Swartzendruber%20%3cdswartz@druber.com%3e">dswartz@druber.com</a>></div>
<div><b>To</b>: Cluster Labs - All topics related to open-source clustering welcomed <<a href="mailto:Cluster%20Labs%20-%20All%20topics%20related%20to%20open-source%20clustering%20welcomed%20%3cusers@clusterlabs.org%3e">users@clusterlabs.org</a>></div>
<div><b>Cc</b>: Luke Camilleri <<a href="mailto:Luke%20Camilleri%20%3cluke.camilleri@zylacomputing.com%3e">luke.camilleri@zylacomputing.com</a>></div>
<div><b>Subject</b>: Re: [ClusterLabs] connection timed out fence_virsh monitor stonith</div>
<div><b>Date</b>: Mon, 24 Feb 2020 12:24:16 -0500</div>
<div><br>
</div>
<pre>On 2020-02-24 12:17, Strahil Nikolov wrote:</pre>
<pre></pre>
<pre>On February 24, 2020 4:56:07 PM GMT+02:00, Luke Camilleri</pre>
<pre><<a href="mailto:luke.camilleri@zylacomputing.com">luke.camilleri@zylacomputing.com</a>> wrote:</pre>
<pre></pre>
<pre>Hello users, I would like to ask for assistance on the below setup</pre>
<pre>please, mainly on the monitor fence timeout:</pre>
<pre></pre>
<pre></pre>
<pre><br></pre>
<pre></pre>
<pre>I notice that the issue happens at 00:00 on both days .</pre>
<pre>Have you checked  for a backup or other cron job that is 'overloading'</pre>
<pre>the virtualization host ?</pre>
<pre></pre>
<pre><br></pre>
<pre>This is a very good point.  I had a similar problem with a vsphere </pre>
<pre>cluster.  Two hyper-converged storage appliances.  I used the </pre>
<pre>fence-vmware-rest (or soap) stonith agent to fence the storage apps.  </pre>
<pre>Worked just fine.  Until the vcenter server appliance got busy doing </pre>
<pre>something or other.  Next thing I know, I'm getting stonith agent </pre>
<pre>timeouts.  I ended up switching to fence_scsi.  Not sure there is a good </pre>
<pre>answer.  I saw on a vmware forum a recommendation to increase the </pre>
<pre>stonith timeout, but the recommended timeout was close to a minute, </pre>
<pre>which is enough to be a problem for the VMs in that cluster...</pre>
<pre><br></pre>
</body>
</html>