<div dir="ltr"><div dir="ltr"><div dir="ltr">Hello - I was trying to understand the behavior or cluster when pacemaker crashes on one of the nodes. So I hard killed pacemakerd and its related processes.<div><br></div><div><div>--------------------------------------------------------------------------------------------------------</div><div>[root@SG-mysqlold-907 azureuser]# ps -ef | grep pacemaker</div><div>root      74022      1  0 07:53 pts/0    00:00:00 pacemakerd</div><div>189       74028  74022  0 07:53 ?        00:00:00 /usr/libexec/pacemaker/cib</div><div>root      74029  74022  0 07:53 ?        00:00:00 /usr/libexec/pacemaker/stonithd</div><div>root      74030  74022  0 07:53 ?        00:00:00 /usr/libexec/pacemaker/lrmd</div><div>189       74031  74022  0 07:53 ?        00:00:00 /usr/libexec/pacemaker/attrd</div><div>189       74032  74022  0 07:53 ?        00:00:00 /usr/libexec/pacemaker/pengine</div><div>189       74033  74022  0 07:53 ?        00:00:00 /usr/libexec/pacemaker/crmd</div><div><br></div><div>root      75228  50092  0 07:54 pts/0    00:00:00 grep pacemaker</div><div>[root@SG-mysqlold-907 azureuser]# kill -9 74022</div><div><br></div><div>[root@SG-mysqlold-907 azureuser]# ps -ef | grep pacemaker</div><div>root      74030      1  0 07:53 ?        00:00:00 /usr/libexec/pacemaker/lrmd</div><div>189       74032      1  0 07:53 ?        00:00:00 /usr/libexec/pacemaker/pengine</div><div><br></div><div>root      75303  50092  0 07:55 pts/0    00:00:00 grep pacemaker</div><div>[root@SG-mysqlold-907 azureuser]# kill -9 74030</div><div>[root@SG-mysqlold-907 azureuser]# kill -9 74032</div><div>[root@SG-mysqlold-907 azureuser]# ps -ef | grep pacemaker</div><div>root      75332  50092  0 07:55 pts/0    00:00:00 grep pacemaker</div><div><br></div><div>[root@SG-mysqlold-907 azureuser]# crm satus</div><div>ERROR: status: crm_mon (rc=107): Connection to cluster failed: Transport endpoint is not connected</div></div><div>-----------------------------------------------------------------------------------------------------------------------------</div><div><br></div><div>However, this does not seem to be having any effect on the cluster status from other nodes</div><div>---------------------------------------------------------------------------------------------------------------------------</div><div><br></div><div><div>[root@SG-mysqlold-909 azureuser]# crm status</div><div>Last updated: Thu Sep 27 07:56:17 2018          Last change: Thu Sep 27 07:53:43 2018 by root via crm_attribute on SG-mysqlold-909</div><div>Stack: classic openais (with plugin)</div><div>Current DC: SG-mysqlold-908 (version 1.1.14-8.el6_8.1-70404b0) - partition with quorum</div><div>3 nodes and 3 resources configured, 3 expected votes</div><div><br></div><div>Online: [ SG-mysqlold-907 SG-mysqlold-908 SG-mysqlold-909 ]</div><div><br></div><div>Full list of resources:</div><div><br></div><div> Master/Slave Set: ms_mysql [p_mysql]</div><div>     Masters: [ SG-mysqlold-909 ]</div><div>     Slaves: [ SG-mysqlold-907 SG-mysqlold-908 ]</div><div><br></div><div><br></div><div>[root@SG-mysqlold-908 azureuser]# crm status</div><div>Last updated: Thu Sep 27 07:56:08 2018          Last change: Thu Sep 27 07:53:43 2018 by root via crm_attribute on SG-mysqlold-909</div><div>Stack: classic openais (with plugin)</div><div>Current DC: SG-mysqlold-908 (version 1.1.14-8.el6_8.1-70404b0) - partition with quorum</div><div>3 nodes and 3 resources configured, 3 expected votes</div><div><br></div><div>Online: [ SG-mysqlold-907 SG-mysqlold-908 SG-mysqlold-909 ]</div><div><br></div><div>Full list of resources:</div><div><br></div><div> Master/Slave Set: ms_mysql [p_mysql]</div><div>     Masters: [ SG-mysqlold-909 ]</div><div>     Slaves: [ SG-mysqlold-907 SG-mysqlold-908 ]</div></div><div><br></div><div>----------------------------------------------------------------------------------------------------------------------</div><div><br></div><div>I am bit surprised that other nodes are not able to detect that pacemaker is down on one of the nodes - SG-mysqlold-907 </div><div><br></div><div>Even if I kill pacemaker on the node which is a DC - I observe the same behavior with rest of the nodes not detecting that DC is down. </div><div><br></div><div>Could some one explain what is the expected behavior in these cases ?</div><div> <br></div><div>I am using corosync 1.4.7 and pacemaker 1.1.14</div><div><br></div><div>Thanks in advance</div><div>Prasad</div><div><br></div></div></div></div>