<div dir="ltr">Thanks Honza and Andrei (and Strahil?  I might have missed a message in the thread...)<div><br></div><div>I'm running this in a VM cluster, so they are on a VLAN and there is switched routing.</div><div><br></div><div>I tried enabling the 'transport: udpu' unicast option, but I have mixed results: corosync seems to fault and not come up, but even that isn't consistent.  I can't fool around with it right now because it is production, so I will move to try udpu on a test environment.</div><div><br></div><div>Is it possible for me to rule in/out multicast?  I tried using iperf to do this:</div><div><br></div><div>rnickle@mail3:~$ !605<br>iperf -s -u -B 239.192.226.65 -i 1<br>------------------------------------------------------------<br>Server listening on UDP port 5001<br>Binding to local address 239.192.226.65<br>Joining multicast group  239.192.226.65<br>Receiving 1470 byte datagrams<br>UDP buffer size:  208 KByte (default)<br>------------------------------------------------------------<br></div><div><br></div><div>rnickle@mail2:~$ iperf -c 239.192.226.65 -u -T 32 -t 3 -i 1<br>------------------------------------------------------------<br>Client connecting to 239.192.226.65, UDP port 5001<br>Sending 1470 byte datagrams, IPG target: 11215.21 us (kalman adjust)<br>Setting multicast TTL to 32<br>UDP buffer size:  208 KByte (default)<br>------------------------------------------------------------<br>[  3] local 192.133.83.146 port 46033 connected with 239.192.226.65 port 5001<br>[ ID] Interval       Transfer     Bandwidth<br>[  3]  0.0- 1.0 sec   131 KBytes  1.07 Mbits/sec<br>[  3]  1.0- 2.0 sec   128 KBytes  1.05 Mbits/sec<br>[  3]  2.0- 3.0 sec   128 KBytes  1.05 Mbits/sec<br>[  3]  0.0- 3.0 sec   386 KBytes  1.05 Mbits/sec<br>[  3] Sent 269 datagrams<br></div><div><br></div><div>Thanks,</div><div><br></div><div>Rick</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, May 5, 2020 at 1:54 AM Andrei Borzenkov <<a href="mailto:arvidjaar@gmail.com">arvidjaar@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">05.05.2020 06:39, Nickle, Richard пишет:<br>
> I have a two node cluster managing a VIP.  The service is an SMTP service.<br>
> This could be active/active, it doesn't matter which node accepts the SMTP<br>
> connection, but I wanted to make sure that a VIP was in place so that there<br>
> was a well-known address.<br>
> <br>
> This service has been running for quite awhile with no problems.  All of a<br>
> sudden, it partitioned, and now I can't work out a good way to get them to<br>
> merge the clusters back again.  Right now one partition takes the resource<br>
> and starts the VIP, but doesn't see the other node.  The other node doesn't<br>
> create a resource, and can't seem to see the other node.<br>
> <br>
> At this point, I am perfectly willing to create another node and make an<br>
> odd-numbered cluster, the arguments for this being fairly persuasive.  But<br>
> I'm not sure why they are blocking.<br>
> <br>
> Surely there must be some manual way to get a partitioned cluster to<br>
> merge? <br>
<br>
it does it automatically if nodes can communicate with each other. You<br>
seem to have some network connectivity issues which you need to<br>
investigate and resolve.<br>
<br>
> Some trick?  I also had a scenario several weeks ago where an<br>
> odd-numbered cluster configured in a similar way partitioned into a 3 and 2<br>
> node cluster, and I was unable to work out how to get them to merge, until<br>
> all of a sudden they seemed to fix themselves after doing a 'pcs node<br>
> remove/pcs node add' which had failed many times before.  I have tried that<br>
> here but with no success so far.<br>
> <br>
> I ruled out some common cases I've seen in discussions and threads, such as<br>
> having my host name defined in host as localhost, etc.<br>
> <br>
> Corosync 2.4.3, Pacemaker 0.9.164. (Ubuntu 18.04.).<br>
> <br>
> Output from pcs status for both nodes:<br>
> <br>
> Cluster name: mail<br>
> Stack: corosync<br>
> Current DC: mail2 (version 1.1.18-2b07d5c5a9) - partition with quorum<br>
> Last updated: Mon May  4 23:28:53 2020<br>
> Last change: Mon May  4 21:50:04 2020 by hacluster via crmd on mail2<br>
> <br>
> 2 nodes configured<br>
> 1 resource configured<br>
> <br>
> Online: [ mail2 ]<br>
> OFFLINE: [ mail3 ]<br>
> <br>
> Full list of resources:<br>
> <br>
>  mail_vip (ocf::heartbeat:IPaddr2): Started mail2<br>
> <br>
> Daemon Status:<br>
>   corosync: active/enabled<br>
>   pacemaker: active/enabled<br>
>   pcsd: active/enabled<br>
> <br>
> Cluster name: mail<br>
> Stack: corosync<br>
> Current DC: mail3 (version 1.1.18-2b07d5c5a9) - partition with quorum<br>
> Last updated: Mon May  4 22:13:10 2020<br>
> Last change: Mon May  4 22:10:34 2020 by root via cibadmin on mail3<br>
> <br>
> 2 nodes configured<br>
> 0 resources configured<br>
> <br>
> Online: [ mail3 ]<br>
> OFFLINE: [ mail2 ]<br>
> <br>
> No resources<br>
> <br>
> Daemon Status:<br>
>   corosync: active/enabled<br>
>   pacemaker: active/enabled<br>
>   pcsd: active/enabled<br>
> <br>
> /etc/corosync/corosync.conf:<br>
> <br>
> totem {<br>
>     version: 2<br>
>     cluster_name: mail<br>
>     clear_node_high_bit: yes<br>
>     crypto_cipher: none<br>
>     crypto_hash: none<br>
> <br>
>     interface {<br>
>         ringnumber: 0<br>
>         bindnetaddr: 192.168.80.128<br>
>         mcastport: 5405<br>
>     }<br>
> }<br>
> <br>
<br>
Is interconnect attached to LAN switches or it is direct cable between<br>
two host?<br>
<br>
> logging {<br>
>     fileline: off<br>
>     to_stderr: no<br>
>     to_logfile: no<br>
>     to_syslog: yes<br>
>     syslog_facility: daemon<br>
>     debug: off<br>
>     timestamp: on<br>
> }<br>
> <br>
> quorum {<br>
>     provider: corosync_votequorum<br>
>     wait_for_all: 0<br>
>     two_node: 1<br>
> }<br>
> <br>
> nodelist {<br>
>     node {<br>
>         ring0_addr: mail2<br>
>         name: mail2<br>
>         nodeid: 1<br>
>     }<br>
> <br>
>     node {<br>
>         ring0_addr: mail3<br>
>         name: mail3<br>
>         nodeid: 2<br>
>     }<br>
> }<br>
> <br>
> Thanks!<br>
> <br>
> Rick<br>
> <br>
> <br>
> _______________________________________________<br>
> Manage your subscription:<br>
> <a href="https://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>
> <br>
> ClusterLabs home: <a href="https://www.clusterlabs.org/" rel="noreferrer" target="_blank">https://www.clusterlabs.org/</a><br>
> <br>
<br>
_______________________________________________<br>
Manage your subscription:<br>
<a href="https://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>
<br>
ClusterLabs home: <a href="https://www.clusterlabs.org/" rel="noreferrer" target="_blank">https://www.clusterlabs.org/</a><br>
</blockquote></div>