<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<style>






#aqm-original p.MsoNormal, #aqm-original li.MsoNormal, #aqm-original div.MsoNormal {
margin:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;
} /* style */

#aqm-original a:link, #aqm-original span.MsoHyperlink {
mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;
} /* style */

#aqm-original p.MsoListParagraph, #aqm-original li.MsoListParagraph, #aqm-original div.MsoListParagraph {
mso-style-priority:34;
        margin-top:0in;
        margin-right:0in;
        margin-bottom:0in;
        margin-left:.5in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;
} /* style */

#aqm-original span.EmailStyle17 {
mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;
} /* style */

#aqm-original .MsoChpDefault {
mso-style-type:export-only;
        font-family:"Calibri",sans-serif;
} /* style */

@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
#aqm-original div.WordSection1 {
page:WordSection1;
} /* style */


@list l0
        {mso-list-id:1274094876;
        mso-list-type:hybrid;
        mso-list-template-ids:1531084404 18282006 67698691 67698693 67698689 67698691 67698693 67698689 67698691 67698693;}
@list l0:level1
        {mso-level-start-at:0;
        mso-level-number-format:bullet;
        mso-level-text:\F0D8;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        margin-left:.75in;
        text-indent:-.25in;
        font-family:Wingdings;
        mso-fareast-font-family:Calibri;
        mso-bidi-font-family:"Times New Roman";}
@list l0:level2
        {mso-level-number-format:bullet;
        mso-level-text:o;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        margin-left:1.25in;
        text-indent:-.25in;
        font-family:"Courier New";}
@list l0:level3
        {mso-level-number-format:bullet;
        mso-level-text:\F0A7;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        margin-left:1.75in;
        text-indent:-.25in;
        font-family:Wingdings;}
@list l0:level4
        {mso-level-number-format:bullet;
        mso-level-text:\F0B7;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        margin-left:2.25in;
        text-indent:-.25in;
        font-family:Symbol;}
@list l0:level5
        {mso-level-number-format:bullet;
        mso-level-text:o;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        margin-left:2.75in;
        text-indent:-.25in;
        font-family:"Courier New";}
@list l0:level6
        {mso-level-number-format:bullet;
        mso-level-text:\F0A7;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        margin-left:3.25in;
        text-indent:-.25in;
        font-family:Wingdings;}
@list l0:level7
        {mso-level-number-format:bullet;
        mso-level-text:\F0B7;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        margin-left:3.75in;
        text-indent:-.25in;
        font-family:Symbol;}
@list l0:level8
        {mso-level-number-format:bullet;
        mso-level-text:o;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        margin-left:4.25in;
        text-indent:-.25in;
        font-family:"Courier New";}
@list l0:level9
        {mso-level-number-format:bullet;
        mso-level-text:\F0A7;
        mso-level-tab-stop:none;
        mso-level-number-position:left;
        margin-left:4.75in;
        text-indent:-.25in;
        font-family:Wingdings;}
#aqm-original ol {
margin-bottom:0in;
} /* style */

#aqm-original ul {
margin-bottom:0in;
} /* style */

</style>
</head>
<body>
<div dir="auto">
<div dir="auto">Hi.</div><div dir="auto"><br></div><div dir="auto">Have you considered using pacemaker-remote instead?</div><div dir="auto"><br></div><div dir='auto'><br></div>
<div id="aqm-original" style="color: black;">

<!-- body start -->
<div lang="en-us" link="#0563c1" vlink="#954f72" style="word-wrap:break-word" class="aqm-original-body">
<div style="color: black;">
<p style="color: black; font-size: 10pt; font-family: sans-serif; margin: 8pt 0;">On May 18, 2021 5:55:57 PM S Sathish S <s.s.sathish@ericsson.com> wrote:</p>
<blockquote type="cite" class="gmail_quote" style="margin: 0 0 0 0.75ex; border-left: 1px solid #808080; padding-left: 0.75ex;">
<div class="WordSection1">
<p class="MsoNormal">Hi Team,<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">We are setup 32 nodes pacemaker cluster setup each node has 10 resource so total [around 300+ components] are up and running. While performing installation/update with below task will happen.<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<ul style="margin-top:0in" type="disc">
<li class="MsoListParagraph" style="margin-left:.25in;mso-list:l0 level1 lfo1">From First node we start adding all 31 nodes one-by-one into the cluster and added resource for each nodes.<o:p></o:p></li><li class="MsoListParagraph" style="margin-left:.25in;mso-list:l0 level1 lfo1">we execute pcs command stop/start resource parallelly in some use-case for all nodes.<o:p></o:p></li><li class="MsoListParagraph" style="margin-left:.25in;mso-list:l0 level1 lfo1">If any network related change in node , we kept pcs in maintenance mode and post that network change disable pcs maintenance mode.<o:p></o:p></li><li class="MsoListParagraph" style="margin-left:.25in;mso-list:l0 level1 lfo1">Some case we use to reboot the node one-by-one also for some kernel/application changes to be reflected.<o:p></o:p></li></ul>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Till 9 node cluster is working fine for us  we don’t see below reported issue , For 32 node cluster setup we are facing below error whenever we perform installation/upgrade with above task is executed.<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b>Please find the coroysnc logs in problematic duration with below error message</b> :
<o:p></o:p></p>
<p class="MsoNormal">May 17 08:08:47 [1978] node1  corosync notice  [TOTEM ] A new membership (10.61.78.50:85864) was formed. Members left: 2 16 17 31 15 12 13 14 27 28 29 30 20 32 18 7 22 19 24 25 10 5 6 26 23 21 11 3 4<o:p></o:p></p>
<p class="MsoNormal">May 17 08:08:47 [1978] node1  corosync notice  [TOTEM ] Failed to receive the leave message. failed: 2 16 17 31 15 12 13 14 27 28 29 30 20 32 18 7 22 19 24 25 10 5 6 26 23 21 11 3 4<o:p></o:p></p>
<p class="MsoNormal">May 17 08:08:47 [1978] node1  corosync notice  [QUORUM] This node is within the non-primary component and will NOT provide any services.<o:p></o:p></p>
<p class="MsoNormal">May 17 08:08:47 [1978] node1  corosync notice  [QUORUM] Members[1]: 1<o:p></o:p></p>
<p class="MsoNormal">May 17 08:08:47 [1978] node1  corosync notice  [MAIN  ] Completed service synchronization, ready to provide service.<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1  corosync notice  [MAIN  ] Corosync Cluster Engine ('UNKNOWN'): started and ready to provide service.<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync info    [MAIN  ] Corosync built-in features: pie relro bindnow<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync warning [MAIN  ] Could not set SCHED_RR at priority 99: Operation not permitted (1)<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync notice  [TOTEM ] Initializing transport (UDP/IP Unicast).<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1  corosync notice  [TOTEM ] Initializing transmit/receive security (NSS) crypto: none hash: none<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync notice  [TOTEM ] The network interface [10.61.78.50] is now up.<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync notice  [SERV  ] Service engine loaded: corosync configuration map access [0]<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync info    [QB    ] server name: cmap<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync notice  [SERV  ] Service engine loaded: corosync configuration service [1]<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync info    [QB    ] server name: cfg<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync notice  [SERV  ] Service engine loaded: corosync cluster closed process group service v1.01 [2]<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync info    [QB    ] server name: cpg<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync notice  [SERV  ] Service engine loaded: corosync profile loading service [4]<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync notice  [QUORUM] Using quorum provider corosync_votequorum<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1   corosync notice  [SERV  ] Service engine loaded: corosync vote quorum service v1.0 [5]<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1  corosync info    [QB    ] server name: votequorum<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1  corosync notice  [SERV  ] Service engine loaded: corosync cluster quorum service v0.1 [3]<o:p></o:p></p>
<p class="MsoNormal">May 17 11:17:30 [1866] node1  corosync info    [QB    ] server name: quorum<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Another node logs :<o:p></o:p></p>
<p class="MsoNormal">May 18 16:20:17 [1968] node2 corosync notice  [TOTEM ] A new membership (10.223.106.11:104056) was formed. Members left: 2 16 17 31 15 12 1 13 14 27 28 29 30 20 7 22 8 9 19 24 25 10 5 6 26 23 11 3 4<o:p></o:p></p>
<p class="MsoNormal">May 18 16:20:17 [1968] node2 corosync notice  [TOTEM ] Failed to receive the leave message. failed: 2 16 17 31 15 12 1 13 14 27 28 29 30 20 7 22 8 9 19 24 25 10 5 6 26 23 11 3 4<o:p></o:p></p>
<p class="MsoNormal">May 18 16:20:17 [1968] node2 corosync notice  [QUORUM] This node is within the non-primary component and will NOT provide any services.<o:p></o:p></p>
<p class="MsoNormal">May 18 16:20:17 [1968] node2 corosync notice  [QUORUM] Members[1]: 32<o:p></o:p></p>
<p class="MsoNormal">May 18 16:20:17 [1968] node2 corosync notice  [MAIN  ] Completed service synchronization, ready to provide service.<o:p></o:p></p>
<p class="MsoNormal">May 18 16:22:20 [1968] node2 corosync notice  [TOTEM ] A new membership (10.217.41.26:104104) was formed. Members joined: 27 29 18<o:p></o:p></p>
<p class="MsoNormal">May 18 16:22:20 [1968] node2 corosync notice  [QUORUM] Members[4]: 27 29 32 18<o:p></o:p></p>
<p class="MsoNormal">May 18 16:22:20 [1968] node2 corosync notice  [MAIN  ] Completed service synchronization, ready to provide service.<o:p></o:p></p>
<p class="MsoNormal">May 18 16:22:45 [1968] node2 corosync notice  [TOTEM ] A new membership (10.217.41.26:104112) was formed. Members<o:p></o:p></p>
<p class="MsoNormal">May 18 16:22:45 [1968] node2 corosync notice  [QUORUM] Members[4]: 27 29 32 18<o:p></o:p></p>
<p class="MsoNormal">May 18 16:22:45 [1968] node2 corosync notice  [MAIN  ] Completed service synchronization, ready to provide service.<o:p></o:p></p>
<p class="MsoNormal">May 18 16:22:46 [1968] node2 corosync notice  [TOTEM ] A new membership (10.217.41.26:104116) was formed. Members joined: 30<o:p></o:p></p>
<p class="MsoNormal">May 18 16:22:46 [1968] node2 corosync notice  [QUORUM] Members[5]: 27 29 30 32 18<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b>Any PCS command will fail with error message on all nodes:<o:p></o:p></b></p>
<p class="MsoNormal"><span style="font-size:10.5pt;font-family:"Segoe UI",sans-serif">[root@node1 online]# pcs property set maintenance-mode=false --wait=240<br>
<span style="background:yellow;mso-highlight:yellow">Error: Unable to update cib<br>
Call cib_replace failed (-62): Timer expired</span><o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:10.5pt;font-family:"Segoe UI",sans-serif">[root@node1 online]#<o:p></o:p></span></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b>Workaround </b>: we poweroff all nodes and bring nodes one-by-one to overcome above problem statement , kindly check on this error message and provide us RCA for this problem.<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><b>Current Pacemaker version</b> :<o:p></o:p></p>
<p class="MsoNormal">pacemaker-2.0.2 --> <a href="https://github.com/ClusterLabs/pacemaker/tree/Pacemaker-2.0.2">
https://github.com/ClusterLabs/pacemaker/tree/Pacemaker-2.0.2</a><o:p></o:p></p>
<p class="MsoNormal">corosync-2.4.4 -->  <a href="https://github.com/corosync/corosync/tree/v2.4.4">
https://github.com/corosync/corosync/tree/v2.4.4</a><o:p></o:p></p>
<p class="MsoNormal">pcs-0.9.169<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Thanks and Regards,<o:p></o:p></p>
<p class="MsoNormal">S Sathish S<o:p></o:p></p>
</div>

<div>_______________________________________________</div>
<div>Manage your subscription:</div>
<div><a class="aqm-autolink aqm-autowrap" href="https://lists.clusterlabs.org/mailman/listinfo/users">https://lists.clusterlabs.org/mailman/listinfo/users</a></div>
<div><br></div>
<div>ClusterLabs home: <a class="aqm-autolink aqm-autowrap" href="https://www.clusterlabs.org/">https://www.clusterlabs.org/</a></div>
<div><br></div></blockquote>
</div>
</div>
<!-- body end -->

</div><div dir="auto"><br></div>
</div></body>
</html>