<div id="yMail_cursorElementTracker_1615591978489">I will try to get into the details on monday, when I have access to the cluster again.</div><div id="yMail_cursorElementTracker_1615593083585">I guess the /var/log/cluster/corosync.log and /etc/corosync/corosync.conf are the most interesting.</div><div id="yMail_cursorElementTracker_1615592001476"><br></div><div id="yMail_cursorElementTracker_1615592001627">So far, I have 6 node cluster with separate VLANs for HANA replication, prod and backup.</div><div id="yMail_cursorElementTracker_1615592381173">Initially, I used pcs to create the corosync.conf with 2 IPs per node, token 40000, consensus 48000 and wait_for_all=1.</div><div id="yMail_cursorElementTracker_1615592269096">Later I have expanded the cluster to 3 links and added qnet to the setup (only after I made it run (token 29000) ), so I'm ruling it out.</div><div id="yMail_cursorElementTracker_1615592508078">I updated the cluster nodes from RHEL 8.1 to 8.2 , removed the consensus and enabled debug.</div><div id="yMail_cursorElementTracker_1615592111275"><br></div><div id="yMail_cursorElementTracker_1615592111536">As knet is using udp by default, and because the problem is hitting me both in udp (default settings) and sctp - the problem is not in the protocol.</div><div id="yMail_cursorElementTracker_1615592339495"><br></div><div id="yMail_cursorElementTracker_1615592761958" style="orphans: 3; widows: 3;">I've also enabled pacemaker blackbox, although I doubt that has any effect on corosync.</div><div id="yMail_cursorElementTracker_1615592670924"><br></div><div id="yMail_cursorElementTracker_1615592671089">How can I enable trace logs for corosync only ?</div><div id="yMail_cursorElementTracker_1615592339713"><br></div><div id="yMail_cursorElementTracker_1615592992050">Best Regards,</div><div id="yMail_cursorElementTracker_1615592997880">Strahil Nikolov</div><div id="yMail_cursorElementTracker_1615592231699"><br></div><div id="yMail_cursorElementTracker_1615592161267"><br> <br> <blockquote style="margin: 0 0 20px 0;"> <div style="font-family:Roboto, sans-serif; color:#6D00F6;"> <div>On Fri, Mar 12, 2021 at 17:01, Jan Friesse</div><div><jfriesse@redhat.com> wrote:</div> </div> <div style="padding: 10px 0 0 20px; margin: 10px 0 0 0; border-left: 1px solid #6D00F6;"> Strahil,<br clear="none"><br clear="none">> Interesting...<br clear="none">> Yet, this doesn't explain why token of 30000 causes the nodes to never assemble a cluster (waiting for half an hour, using wait_for_all=1) , while setting it to 29000 works like a charm.<br clear="none"><br clear="none">Definitively.<br clear="none"><br clear="none">Could you please provide a bit more info about your setup <br clear="none">(config/logs/how many nodes cluster has/...)? Because I've just briefly <br clear="none">tested two nodes setup with 30 sec token timeout and it was working <br clear="none">perfectly fine.<br clear="none"><br clear="none">> <br clear="none">> Thankfully we got RH subsciption, so RH devs will provide more detailed output on the issue.<br clear="none"><br clear="none">As Jehan correctly noted if it would really get to RH devs it would <br clear="none">probably get to me ;) But before that GSS will take care of checking <br clear="none">configs/hw/logs/... and they are really good in finding problems with <br clear="none">setup/hw/...<br clear="none"><br clear="none">> <br clear="none">> I was hoping that I missed in the documentation about the maximum token size...<br clear="none"><br clear="none">Nope.<br clear="none"><br clear="none">No matter what, if you can send config/logs/... we may try to find out <br clear="none">what is root of the problem here on ML or you can really try GSS, but as <br clear="none">Jehan told, it would be nice if you can post result so other people (me <br clear="none">included) knows what was the main problem.<br clear="none"><br clear="none">Thanks and regards,<br clear="none">   Honza<div class="yqt3910565204" id="yqtfd23568"><br clear="none"><br clear="none">> <br clear="none">> Best Regards,<br clear="none">> Strahil Nikolov<br clear="none">> <br clear="none">> <br clear="none">> <br clear="none">> <br clear="none">> <br clear="none">> <br clear="none">> В четвъртък, 11 март 2021 г., 19:12:58 ч. Гринуич+2, Jan Friesse <<a shape="rect" ymailto="mailto:jfriesse@redhat.com" href="mailto:jfriesse@redhat.com">jfriesse@redhat.com</a>> написа:<br clear="none">> <br clear="none">> <br clear="none">> <br clear="none">> <br clear="none">> <br clear="none">> Strahil,<br clear="none">>> Hello all,<br clear="none">>> I'm building a test cluster on RHEL8.2 and I have noticed that the cluster fails to assemble ( nodes stay inquorate as if the network is not working) if I set the token at 30000 or more (30s+).<br clear="none">> <br clear="none">> Knet waits for enough pong replies for other nodes before it marks them<br clear="none">> as alive and starts sending/receiving packets from them. By default it<br clear="none">> needs to receive 2 pongs and ping is sent 4 times in token timeout so it<br clear="none">> means 15 sec until node is considered up for 30 sec token timeout.<br clear="none">> <br clear="none">>> What is the maximum token value with knet ?On SLES12 (I think it was  corosync 1) , I used to set the token/consensus with far greater values on some of our clusters.<br clear="none">> <br clear="none">> I'm really not aware about any arbitrary limits.<br clear="none">> <br clear="none">> <br clear="none">>> Best Regards,Strahil Nikolov<br clear="none">>><br clear="none">> <br clear="none">> Regards,<br clear="none">> <br clear="none">>    Honza<br clear="none">> <br clear="none">>><br clear="none">>><br clear="none">>> _______________________________________________<br clear="none">>> Manage your subscription:<br clear="none">>> <a shape="rect" href="https://lists.clusterlabs.org/mailman/listinfo/users" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br clear="none">>><br clear="none">>> ClusterLabs home: <a shape="rect" href="https://www.clusterlabs.org/" target="_blank">https://www.clusterlabs.org/</a><br clear="none">> <br clear="none">>><br clear="none">> <br clear="none"><br clear="none"></div> </div> </blockquote></div>