<div dir="ltr">Hi, <div><br></div><div>I have a 2 node HA cluster configured on CentOS 7 with pcs command. </div><div><br></div><div>Below are the properties of the cluster :</div><div><br></div><div><div># pcs property</div><div>Cluster Properties:</div><div> cluster-infrastructure: corosync</div><div> cluster-name: SVSDEHA</div><div> cluster-recheck-interval: 2s</div><div> dc-deadtime: 5</div><div> dc-version: 1.1.15-11.el7_3.5-e174ec8</div><div> have-watchdog: false</div><div> last-lrm-refresh: 1504090367</div><div> no-quorum-policy: ignore</div><div> start-failure-is-fatal: false</div><div> stonith-enabled: false</div></div><div><br></div><div>PFA the cib.</div><div>Also attached is the corosync.log around the time the below issue happened.</div><div><br></div><div>After around 10 hrs and multiple failures, pacemaker stops monitoring resource on one of the nodes in the cluster.</div><div><br></div><div>So even though the resource on other node fails, it is never migrated to the node on which the resource is not monitored.</div><div><br></div><div>Wanted to know what could have triggered this and how to avoid getting into such scenarios.</div><div>I am going through the logs and couldn't find why this happened.</div><div><br></div><div>After this log the monitoring stopped.   <br></div><div><b>Aug 29 11:01:44 [16500] <a href="http://TPC-D12-10-002.phaedrus.sandvine.com">TPC-D12-10-002.phaedrus.sandvine.com</a>       crmd:     info: process_lrm_event:   Result of monitor operation for SVSDEHA on <a href="http://TPC-D12-10-002.phaedrus.sandvine.com">TPC-D12-10-002.phaedrus.sandvine.com</a>: 0 (ok) | call=538 key=SVSDEHA_monitor_2000 confirmed=false cib-update=50013</b><br></div><div><br></div><div>Below log says the resource is leaving the cluster. </div><div><b>Aug 29 11:01:44 [16499] <a href="http://TPC-D12-10-002.phaedrus.sandvine.com">TPC-D12-10-002.phaedrus.sandvine.com</a>    pengine:     info: LogActions:  Leave   SVSDEHA:0       (Slave <a href="http://TPC-D12-10-002.phaedrus.sandvine.com">TPC-D12-10-002.phaedrus.sandvine.com</a>)<br></b></div><div><br></div><div>Let me know if anything more is needed. </div><div><br></div><div>Regards,</div><div>Abhay</div><div><br></div><div><b>PS:'pcs resource cleanup' brought the cluster back into good state. </b></div></div>