<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:x="urn:schemas-microsoft-com:office:excel" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Consolas;
        panose-1:2 11 6 9 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;
        mso-fareast-language:EN-US;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;
        mso-fareast-language:EN-US;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:70.85pt 70.85pt 70.85pt 70.85pt;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="FR" link="#0563C1" vlink="#954F72">
<div class="WordSection1">
<p class="MsoNormal">Hello everyone,<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><span lang="EN-US">I’m having stability issue with a 2 nodes active/passive HA infrastructure (Zabbix VMs in this case).<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">Daily backup create a latency, slowing Corosync scheduling and triggering a token timeout. It frequently ends up on a split brain issue, where service is started on both nodes at the same time.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">I did increase the token timeout to 4000 by updating corosync.conf, on both nodes, followed by the command “sudo corosync-cfgtool -R”.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">But this doesn’t reflect in the log message …
<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">1st question : Why ?<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">2nd question : I find reference to increasing token_retransmits_before_loss_const. Should I ? To which value ?<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">Best regards.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">JJ<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">NODE 2<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:30:52 FRPLZABPXY02 corosync[11552]:  [MAIN  ] Corosync main process was not scheduled for 9902.1504 ms (threshold is 800.0000 ms).
 Consider token timeout increase.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:30:52 FRPLZABPXY02 corosync[11552]:  [TOTEM ] A processor failed, forming new configuration.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:31:03 FRPLZABPXY02 corosync[11552]:  [TOTEM ] A new membership (</span><span lang="EN-US">10.XX.YY.1</span><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">:5808)
 was formed. Members joined: 1 left: 1<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:31:03 FRPLZABPXY02 corosync[11552]:  [TOTEM ] Failed to receive the leave message. failed: 1<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:31:03 FRPLZABPXY02 corosync[11552]:  [QUORUM] Members[2]: 1 2<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:31:03 FRPLZABPXY02 corosync[11552]:  [MAIN  ] Completed service synchronization, ready to provide service.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">NODE1<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:30:55 FRPLZABPXY01 corosync[1110]:  [TOTEM ] A processor failed, forming new configuration.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:30:56 FRPLZABPXY01 corosync[1110]:  [TOTEM ] A new membership (</span><span lang="EN-US">10.XX.YY.1</span><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">:5804)
 was formed. Members left: 2<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:30:56 FRPLZABPXY01 corosync[1110]:  [TOTEM ] Failed to receive the leave message. failed: 2<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:30:56 FRPLZABPXY01 corosync[1110]:  [QUORUM] Members[1]: 1<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:30:56 FRPLZABPXY01 corosync[1110]:  [MAIN  ] Completed service synchronization, ready to provide service.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:31:03 FRPLZABPXY01 corosync[1110]:  [TOTEM ] A new membership (</span><span lang="EN-US">10.XX.YY.1</span><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">:5808)
 was formed. Members joined: 2<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:31:03 FRPLZABPXY01 corosync[1110]:  [QUORUM] Members[2]: 1 2<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white">Jul 22 13:31:03 FRPLZABPXY01 corosync[1110]:  [MAIN  ] Completed service synchronization, ready to provide service.<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US" style="font-size:9.0pt;font-family:Consolas;color:#2D2D2D;background:white"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal">cat /etc/corosync/corosync.conf<o:p></o:p></p>
<p class="MsoNormal">totem {<o:p></o:p></p>
<p class="MsoNormal">    <span lang="EN-US">version: 2<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    secauth: off<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    cluster_name: FRPLZABPXY<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    transport: udpu<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    totem: 4000<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    interface {<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">        ringnumber: 0<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">        bindnetaddr: 10.XX.YY.2<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">        broadcast: yes<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">        mcastport: 5405<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    }<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">}<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">nodelist {<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    node {<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">        ring0_addr: 10.XX.YY.1<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">        name: FRPLZABPXY01<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">        nodeid: 1<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    }<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    node {<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">        ring0_addr: 10.XX.YY.2<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">        name: FRPLZABPXY02<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">        nodeid: 2<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    }<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">}<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">quorum {<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    provider: corosync_votequorum<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    two_node: 1<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">}<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">logging {<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    to_logfile: yes<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    logfile: /var/log/cluster/corosync.log<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">    to_syslog: yes<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">}<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US"><o:p> </o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">sudo corosync-cmapctl | grep -E "(.config.totem.|^totem.)"<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.consensus (u32) = 1200<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.downcheck (u32) = 1000<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.fail_recv_const (u32) = 2500<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.heartbeat_failures_allowed (u32) = 0<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.hold (u32) = 180<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.join (u32) = 50<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.max_messages (u32) = 17<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.max_network_delay (u32) = 50<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.merge (u32) = 200<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.miss_count_const (u32) = 5<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.rrp_autorecovery_check_timeout (u32) = 1000<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.rrp_problem_count_mcast_threshold (u32) = 100<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.rrp_problem_count_threshold (u32) = 10<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.rrp_problem_count_timeout (u32) = 2000<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.rrp_token_expired_timeout (u32) = 238<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.send_join (u32) = 0<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.seqno_unchanged_const (u32) = 30<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.token (u32) = 1000<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.token_retransmit (u32) = 238<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.token_retransmits_before_loss_const (u32) = 4<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">runtime.config.totem.window_size (u32) = 50<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">totem.cluster_name (str) = FRPLZABPXY<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">totem.interface.0.bindnetaddr (str) = 10.XX.YY.2<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">totem.interface.0.broadcast (str) = yes<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">totem.interface.0.mcastport (u16) = 5405<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">totem.secauth (str) = off<o:p></o:p></span></p>
<p class="MsoNormal"><span lang="EN-US">totem.totem (str) = 4000<o:p></o:p></span></p>
<p class="MsoNormal">totem.transport (str) = udpu<o:p></o:p></p>
<p class="MsoNormal">totem.version (u32) = 2<o:p></o:p></p>
</div>
</body>
</html>