<div dir="ltr">Hi All, <div><br></div><div>We are seeing an issue as part of crm maintenance operations. As part of the upgrade process, the crm nodes are put into standby mode. </div><div>But it's observed that one of the nodes fails to go into standby mode despite the "crm node standby" returning success. </div><div><br></div><div>Commands issued to put nodes into maintenance : </div><div><br></div><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><font face="monospace">[2023-03-15 06:07:08 +0000] [468] [INFO] changed: [FILE-1] => {"changed": true, "cmd": "/usr/sbin/crm node standby FILE-1", "delta": "0:00:00.442615", "end": "2023-03-15 06:07:08.150375", "rc": 0, "start": "2023-03-15 06:07:07.707760", "stderr": "", "stderr_lines": [], "stdout": "\u001b[32mINFO\u001b[0m: standby node FILE-1", "stdout_lines": ["\u001b[32mINFO\u001b[0m: standby node FILE-1"]}</font></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><div>.</div></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><div><b><font face="monospace">[2023-03-15 06:07:08 +0000] [468] [INFO] changed: [FILE-2] => {"changed": true, "cmd": "/usr/sbin/crm node standby FILE-2", "delta": "0:00:00.459407", "end": "2023-03-15 06:07:08.223749", "rc": 0,</font><span style="font-family:monospace"> "start": "2023-03-15 06:07:07.764342", "stderr": "", "stderr_lines": [], "stdout": "\u001b[32mINFO\u001b[0m: standby node FILE-2", "stdout_lines": ["\u001b[32mINFO\u001b[0m: standby node FILE-2"]}</span></b></div></blockquote><div><div><font face="monospace">      ........</font> </div></div><div><div><br></div><div>Crm status o/p after above command execution: </div><div><br></div></div><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><div><div><div><font face="monospace">FILE-2:/var/log # crm status</font></div></div></div><div><div><div><font face="monospace">Cluster Summary:</font></div></div></div><div><div><div><font face="monospace">  * Stack: corosync</font></div></div></div><div><div><div><font face="monospace">  * Current DC: FILE-1 (version 2.1.2+20211124.ada5c3b36-150400.2.43-2.1.2+20211124.ada5c3b36) - partition with quorum</font></div></div></div><div><div><div><font face="monospace">  * Last updated: Wed Mar 15 08:32:27 2023</font></div></div></div><div><div><div><font face="monospace">  * Last change:  Wed Mar 15 06:07:08 2023 by root via cibadmin on FILE-4</font></div></div></div><div><div><div><font face="monospace">  * 4 nodes configured</font></div></div></div><div><div><div><font face="monospace">  * 11 resource instances configured (5 DISABLED)</font></div></div></div></blockquote><div><div><div><font face="monospace"><br></font></div></div></div><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><div><div><div><font face="monospace">Node List:</font></div></div></div><div><div><div><font face="monospace">  * Node FILE-1: standby (with active resources)</font></div></div></div><div><div><div><font face="monospace">  * Node FILE-3: standby (with active resources)</font></div></div></div><div><div><div><font face="monospace">  * Node FILE-4: standby (with active resources)</font></div></div></div><div><div><div><font face="monospace"><b>  * Online: [ FILE-2 ]</b></font></div></div></div></blockquote><div><div><br></div><div>pacemaker logs indicate that FILE-2 received the commands to put it into standby. </div><div><br></div></div><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><div><div><font face="monospace">FILE-2:/var/log # grep standby /var/log/pacemaker/pacemaker.log</font></div></div><div><div><font face="monospace">Mar 15 06:07:08.098 FILE-2 pacemaker-based     [8635] (cib_perform_op)  info: ++                                            <nvpair id="num-1-instance_attributes-standby" name="standby" value="on"/></font></div></div><div><div><font face="monospace">Mar 15 06:07:08.166 FILE-2 pacemaker-based     [8635] (cib_perform_op)  info: ++                                            <nvpair id="num-3-instance_attributes-standby" name="standby" value="on"/></font></div></div><div><div><font face="monospace">Mar 15 06:07:08.170 FILE-2 pacemaker-based     [8635] (cib_perform_op)  info: ++                                            <nvpair id="num-2-instance_attributes-standby" name="standby" value="on"/></font></div></div><div><div><font face="monospace">Mar 15 06:07:08.230 FILE-2 pacemaker-based     [8635] (cib_perform_op)  info: ++                                            <nvpair id="num-4-instance_attributes-standby" name="standby" value="on"/></font></div></div></blockquote><div><div><br></div><div><br></div></div><div>Issue is quite intermittent and observed on other nodes as well. </div><div>We have seen a similar issue when we try to remove the node from standby mode (using crm node online) command. One/more nodes fails to get removed from standby mode. </div><div><br></div><div>We suspect it could be an issue with parallel execution of node standby/online command for all nodes but this issue wasn't observed with pacemaker packaged with SLES15 SP2 OS. </div><div><br></div><div>I'm attaching the pacemaker.log from FILE-2 for analysis. Let us know if any additional information is required. </div><div><br></div><div>OS: SLES15 SP4</div><div>Pacemaker version --> </div><div> crmadmin --version</div><div>Pacemaker 2.1.2+20211124.ada5c3b36-150400.2.43<br></div><div><br></div><div>Thanks,</div><div>Ayush </div><div><br></div></div>