<div dir="ltr">I have a two node cluster managing a VIP.  The service is an SMTP service.  This could be active/active, it doesn't matter which node accepts the SMTP connection, but I wanted to make sure that a VIP was in place so that there was a well-known address.<div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div dir="ltr"></div></div></div><div><br></div><div>This service has been running for quite awhile with no problems.  All of a sudden, it partitioned, and now I can't work out a good way to get them to merge the clusters back again.  Right now one partition takes the resource and starts the VIP, but doesn't see the other node.  The other node doesn't create a resource, and can't seem to see the other node.</div><div><br></div><div>At this point, I am perfectly willing to create another node and make an odd-numbered cluster, the arguments for this being fairly persuasive.  But I'm not sure why they are blocking.</div><div><br></div><div>Surely there must be some manual way to get a partitioned cluster to merge?  Some trick?  I also had a scenario several weeks ago where an odd-numbered cluster configured in a similar way partitioned into a 3 and 2 node cluster, and I was unable to work out how to get them to merge, until all of a sudden they seemed to fix themselves after doing a 'pcs node remove/pcs node add' which had failed many times before.  I have tried that here but with no success so far.</div><div><br></div><div>I ruled out some common cases I've seen in discussions and threads, such as having my host name defined in host as localhost, etc.</div><div><br></div><div>Corosync 2.4.3, Pacemaker 0.9.164. (Ubuntu 18.04.). </div><div><br></div><div>Output from pcs status for both nodes:</div><div><br></div><div>Cluster name: mail<br>Stack: corosync<br>Current DC: mail2 (version 1.1.18-2b07d5c5a9) - partition with quorum<br>Last updated: Mon May  4 23:28:53 2020<br>Last change: Mon May  4 21:50:04 2020 by hacluster via crmd on mail2<br><br>2 nodes configured<br>1 resource configured<br><br>Online: [ mail2 ]<br>OFFLINE: [ mail3 ]<br><br>Full list of resources:<br><br> mail_vip        (ocf::heartbeat:IPaddr2):       Started mail2</div><div><br>Daemon Status:<br>  corosync: active/enabled<br>  pacemaker: active/enabled<br>  pcsd: active/enabled<br></div><div><br></div>Cluster name: mail<br>Stack: corosync<br>Current DC: mail3 (version 1.1.18-2b07d5c5a9) - partition with quorum<br>Last updated: Mon May  4 22:13:10 2020<br>Last change: Mon May  4 22:10:34 2020 by root via cibadmin on mail3<br><br>2 nodes configured<br>0 resources configured<br><br>Online: [ mail3 ]<br>OFFLINE: [ mail2 ]<br><br>No resources<div><br>Daemon Status:<br>  corosync: active/enabled<br>  pacemaker: active/enabled<br>  pcsd: active/enabled</div><div><br></div><div>/etc/corosync/corosync.conf:</div><div><br></div>totem {<br>    version: 2<br>    cluster_name: mail<br>    clear_node_high_bit: yes<br>    crypto_cipher: none<br>    crypto_hash: none<br><br>    interface {<br>        ringnumber: 0<br>        bindnetaddr: 192.168.80.128<br>        mcastport: 5405<br>    }<br>}<br><br>logging {<br>    fileline: off<br>    to_stderr: no<br>    to_logfile: no<br>    to_syslog: yes<br>    syslog_facility: daemon<br>    debug: off<br>    timestamp: on<br>}<br><br>quorum {<br>    provider: corosync_votequorum<br>    wait_for_all: 0<br>    two_node: 1<br>}<br><br>nodelist {<br>    node {<br>        ring0_addr: mail2<br>        name: mail2<br>        nodeid: 1<br>    }<br><br>    node {<br>        ring0_addr: mail3<br>        name: mail3<br>        nodeid: 2<br>    }<br>}<div><br><div>Thanks!<br></div><div><div><br></div><div>Rick</div></div></div></div>