<div style="color:#000; font-size: 14px;font-family: arial;"><div>I have checked all the config files are the same, except bindnetaddr.</div><div>So I'm sending only logs.</div><div><br></div><div><br></div><div><br></div></div><!-- jy5ContentSuffix --><div>在2017年03月16 15时54分, "Jan Friesse"<jfriesse@redhat.com>写道:</div><blockquote id="isReplyContent" style="padding-left: 1ex; margin: 0px 0px 0px 0.8ex; border-left: 1px solid rgb(204, 204, 204);"><br>> corosync.conf and debug logs are in attachment.<br><br>Thanks for them. They look really interesting. As can be seen<br><br>Mar 14 11:37:28 [57827] node-132.acloud.vt corosync debug   [TOTEM ] <br>timer_function_orf_token_timeout The token was lost in the<br>  OPERATIONAL state.<br><br>corosync correctly detected token lost. Also<br><br>Mar 14 11:44:41 [57827] node-132.acloud.vt corosync debug   [TOTEM ] <br>memb_state_gather_enter entering GATHER state from 11(merg<br>e during join).<br><br>says it correctly detected merge. But since then it's becoming weird.<br>Mar 14 11:44:54 [57827] node-132.acloud.vt corosync debug   [TOTEM ] <br>memb_state_gather_enter entering GATHER state from 0(conse<br>nsus timeout).<br>Mar 14 11:45:06 [57827] node-132.acloud.vt corosync debug   [TOTEM ] <br>memb_state_gather_enter entering GATHER state from 0(conse<br>nsus timeout).<br>...<br>Mar 14 12:55:47 [154709] node-132.acloud.vt corosync debug   [TOTEM ] <br>memb_state_gather_enter entering GATHER state from 0(cons<br>ensus timeout)<br><br>So even after two other nodes merged, there is still something what <br>prevents corosync to reach consensus.<br><br>Would it be possible to attach also other nodes logs/configs?<br><br>For now I guess reason can be one ofe:<br>- ifdown on one of other nodes which made whole membership broken<br>- different node list in config between nodes<br>- "forget" node with node list containing one of the 200.201.162.x nodes<br><br>Regards,<br>   Honza<br>><br>> And two messages from kernel:<br>><br>> 2017-03-14 11:37:20.097233 - info  e1000: eth0 NIC Link is Down<br>><br>> 2017-03-14 11:44:41.032121 - info  e1000: eth0 NIC Link is Up 1000 Mbps<br>> Full Duplex, Flow Control: RX<br>><br>><br>> Thanks.<br>><br>><br>> On 2017/3/15 16:29, Jan Friesse wrote:<br>>>> Yesterday I found corosync took almost one hour to form a cluster(a<br>>>> failed node came back online).<br>>><br>>> This for sure shouldn't happen (at least with default timeout settings).<br>>><br>>>><br>>>> So I captured some corosync packets, and opened the pcap file in<br>>>> wireshark.<br>>>><br>>>> But wireshark only displayed raw udp, no totem.<br>>>><br>>>> Wireshark version is 2.2.5. I'm sure it supports corosync totem.<br>>>><br>>>> corosync is 2.4.0.<br>>><br>>> Wireshark has corosync dissector, but only for version 1.x. 2.x is not<br>>> supported yet.<br>>><br>>>><br>>>> And if corosync takes too long to form a cluster, how to diagnose it?<br>>>><br>>>> I read the logs, but could not figure it out.<br>>><br>>> Logs, specially when debug is enabled, has usually enough info. Can<br>>> paste your config + logs?<br>>><br>>> Regards,<br>>>   Honza<br>>><br>>>><br>>>> Thanks.<br>>>><br>>>><br>>>><br>>>> _______________________________________________<br>>>> Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>>>> http://lists.clusterlabs.org/mailman/listinfo/users<br>>>><br>>>> Project Home: http://www.clusterlabs.org<br>>>> Getting started: http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf<br>>>> Bugs: http://bugs.clusterlabs.org<br>>><br>>><br>>> _______________________________________________<br>>> Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>>> http://lists.clusterlabs.org/mailman/listinfo/users<br>>><br>>> Project Home: http://www.clusterlabs.org<br>>> Getting started: http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf<br>>> Bugs: http://bugs.clusterlabs.org<br>><br>><br>><br>> _______________________________________________<br>> Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>> http://lists.clusterlabs.org/mailman/listinfo/users<br>><br>> Project Home: http://www.clusterlabs.org<br>> Getting started: http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf<br>> Bugs: http://bugs.clusterlabs.org<br>><br><br><br>_______________________________________________<br>Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>http://lists.clusterlabs.org/mailman/listinfo/users<br><br>Project Home: http://www.clusterlabs.org<br>Getting started: http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf<br>Bugs: http://bugs.clusterlabs.org<br></blockquote>