<div dir="ltr">Hi:<div><br></div><div>One of these days, I saw a spurious node loss on my 3-node corosync cluster with following logged in the corosync.log of one of the nodes.</div><div><br></div><div><div>Aug 18 12:40:25 corosync [pcmk  ] notice: pcmk_peer_update: Transitional membership event on ring 32: memb=2, new=0, lost=1</div><div>Aug 18 12:40:25 corosync [pcmk  ] info: pcmk_peer_update: memb: vm02d780875f 67114156</div><div>Aug 18 12:40:25 corosync [pcmk  ] info: pcmk_peer_update: memb: vmfa2757171f 151000236</div><div>Aug 18 12:40:25 corosync [pcmk  ] info: pcmk_peer_update: lost: vm728316982d 201331884</div><div>Aug 18 12:40:25 corosync [pcmk  ] notice: pcmk_peer_update: Stable membership event on ring 32: memb=2, new=0, lost=0</div><div>Aug 18 12:40:25 corosync [pcmk  ] info: pcmk_peer_update: MEMB: vm02d780875f 67114156</div><div>Aug 18 12:40:25 corosync [pcmk  ] info: pcmk_peer_update: MEMB: vmfa2757171f 151000236</div><div>Aug 18 12:40:25 corosync [pcmk  ] info: ais_mark_unseen_peer_dead: Node vm728316982d was not seen in the previous transition</div><div>Aug 18 12:40:25 corosync [pcmk  ] info: update_member: Node 201331884/vm728316982d is now: lost</div><div>Aug 18 12:40:25 corosync [pcmk  ] info: send_member_notification: Sending membership update 32 to 3 children</div><div>Aug 18 12:40:25 corosync [TOTEM ] A processor joined or left the membership and a new membership was formed.</div><div>Aug 18 12:40:25 [4544] vmfa2757171f stonith-ng:     info: plugin_handle_membership:     Membership 32: quorum retained</div><div>Aug 18 12:40:25 [4544] vmfa2757171f stonith-ng:   notice: crm_update_peer_state_iter:   plugin_handle_membership: Node vm728316982d[201331884] - state is now lost (was member)</div><div>Aug 18 12:40:25 [4548] vmfa2757171f       crmd:     info: plugin_handle_membership:     Membership 32: quorum retained</div><div>Aug 18 12:40:25 [4548] vmfa2757171f       crmd:   notice: crm_update_peer_state_iter:   plugin_handle_membership: Node vm728316982d[201331884] - state is now lost (was member)</div><div>Aug 18 12:40:25 [4548] vmfa2757171f       crmd:     info: peer_update_callback: vm728316982d is now lost (was member)</div><div>Aug 18 12:40:25 [4548] vmfa2757171f       crmd:  warning: match_down_event:     No match for shutdown action on vm728316982d</div><div>Aug 18 12:40:25 [4548] vmfa2757171f       crmd:   notice: peer_update_callback: Stonith/shutdown of vm728316982d not matched</div><div>Aug 18 12:40:25 [4548] vmfa2757171f       crmd:     info: crm_update_peer_join: peer_update_callback: Node vm728316982d[201331884] - join-6 phase 4 -> 0</div><div>Aug 18 12:40:25 [4548] vmfa2757171f       crmd:     info: abort_transition_graph:       Transition aborted: Node failure (source=peer_update_callback:240, 1)</div><div>Aug 18 12:40:25 [4543] vmfa2757171f        cib:     info: plugin_handle_membership:     Membership 32: quorum retained</div><div>Aug 18 12:40:25 [4543] vmfa2757171f        cib:   notice: crm_update_peer_state_iter:   plugin_handle_membership: Node vm728316982d[201331884] - state is now lost (was member)</div><div>Aug 18 12:40:25 [4543] vmfa2757171f        cib:   notice: crm_reap_dead_member: Removing vm728316982d/201331884 from the membership list</div><div>Aug 18 12:40:25 [4543] vmfa2757171f        cib:   notice: reap_crm_member:      Purged 1 peers with id=201331884 and/or uname=vm728316982d from the membership cache</div><div>Aug 18 12:40:25 [4544] vmfa2757171f stonith-ng:   notice: crm_reap_dead_member: Removing vm728316982d/201331884 from the membership list</div><div>Aug 18 12:40:25 [4544] vmfa2757171f stonith-ng:   notice: reap_crm_member:      Purged 1 peers with id=201331884 and/or uname=vm728316982d from the membership cache</div></div><div><br></div><div>However, within seconds, the node was able to join back.</div><div><br></div><div><div>Aug 18 12:40:34 corosync [pcmk  ] notice: pcmk_peer_update: Stable membership event on ring 36: memb=3, new=1, lost=0</div><div>Aug 18 12:40:34 corosync [pcmk  ] info: update_member: Node 201331884/vm728316982d is now: member</div><div>Aug 18 12:40:34 corosync [pcmk  ] info: pcmk_peer_update: NEW:  vm728316982d 201331884</div></div><div><br></div><div><br></div><div>But this was enough time for the cluster to get into split brain kind of situation with  a resource on the node <span style="font-size:small;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline">vm728316982d being stopped because of this node loss detection.</span></div><div><span style="font-size:small;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline"><br></span></div><div><span style="font-size:small;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline">Could anyone help whether this could happen due to any transient network distortion or so ?</span></div><div><span style="font-size:small;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline">Are there any configuration settings that can be applied in corosync.conf so that cluster is more resilient to such temporary distortions.</span></div><div><span style="font-size:small;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline"><br></span></div><div><span style="font-size:small;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline">Currently my corosync.conf looks like this :</span></div><div><span style="font-size:small;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline"><br></span></div><div><span style="background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline"><div>compatibility: whitetank</div><div>totem {</div><div>    version: 2</div><div>    secauth: on</div><div>    threads: 0</div><div>    interface {</div><div>    member {</div><div>            memberaddr: 172.20.0.4</div><div>        }</div><div>member {</div><div>            memberaddr: 172.20.0.9</div><div>        }</div><div>member {</div><div>            memberaddr: 172.20.0.12</div><div>        }</div><div><br></div><div>    bindnetaddr: 172.20.0.12</div><div><br></div><div>    ringnumber: 0</div><div>    mcastport: 5405</div><div>    ttl: 1</div><div>    }</div><div>    transport: udpu</div><div>    token: 10000</div><div>    token_retransmits_before_loss_const: 10</div><div>}</div><div><br></div><div>logging {</div><div>    fileline: off</div><div>    to_stderr: yes</div><div>    to_logfile: yes</div><div>    to_syslog: no</div><div>    logfile: /var/log/cluster/corosync.log</div><div>    timestamp: on</div><div>    logger_subsys {</div><div>    subsys: AMF</div><div>    debug: off</div><div>    }</div><div>}</div><div>service {</div><div>    name: pacemaker</div><div>    ver: 1</div><div>}</div><div>amf {</div><div>    mode: disabled</div><div>}</div><div style="font-size:small"><br></div></span></div><div><span style="font-size:small;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline">Thanks in advance for the help.</span></div><div><span style="font-size:small;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline">Prasad</span></div><div><span style="font-size:small;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline"><br></span></div></div>