<div dir="ltr">Andrew et al,<div><br></div><div>I'm impressed by the amount of work gone into this project. Normally nothing but praises. Today I'm at my wits end. After several weeks of unsuccessfully jostling with the unnavigable Mischung of software versions, cluster shells, and OS-vendor-specific issues, I'm turning to you for help. </div><div><br></div><div>Goal: HA Postgresql cluster not unlike described at <a href="http://clusterlabs.org/wiki/PgSQL_Replicated_Cluster">http://clusterlabs.org/wiki/PgSQL_Replicated_Cluster</a>, however with quorum (a third, voting-only entity that arbitrates split-brain issues).</div><div><br></div><div>OS/Vendor: Linux 2.6.32, RHEL 6.5  (The voiting-only quorum-maker is actually CentOS 6.6. It was not my choice.)</div><div>Postgresql: 9.1.8  (currently stuck with that for compatibility issues and experience base, but I could upgrade)</div><div>Transport Protocol: udpu (required for network reasons)<br></div><div><br></div><div>-- Rounds 1 through 5  -- </div><div>  Corosync-1.4.7</div><div>  Pacemaker 1.1.12  (libs, cli)</div><div>  clusterlib-3.0.12</div><div>  cluster-glue-libs-1.0.5</div><div>  resource-agents-3.9.5</div><div><br></div><div><br></div><div>  Note: Between my 1st & 2nd tries on this one, 5 weeks had passed due to an illness.</div><div><br>  First, the documentation (see link) is in error, as it suggests a corosync configuration with service pacemaker version 0 and then describes launching pacemaker after corosync. Specifying version 0 here will cause corosync to attempt to start pacemaker as a plugin. The directives conflict somehow and nothing really works -- corosync shows slave zombied processes.  Also had another error causing unexpected results in the TOTEM protocol -- I think it was fixed by removing <span style="color:black;line-height:1.1em;background-color:rgb(249,249,249)">mcastaddr which apparently didn't mix well with the udpu transport protocol.</span></div><div><span style="color:black;line-height:1.1em;background-color:rgb(249,249,249)"><br></span></div><div><span style="color:black;line-height:1.1em;background-color:rgb(249,249,249)">  Eventually, corocsync ran correctly and commands such as "crm_mon -Afr -1" showed expected results.</span></div><div><br></div><div><font color="#000000"><span style="line-height:14.3000001907349px;background-color:rgb(249,249,249)">  Also got postgresql to work as master/slave (this is where my experience base is, so no problem here).</span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px;background-color:rgb(249,249,249)"><br></span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px;background-color:rgb(249,249,249)">  Used the pcs configuration fairly close to described in the documentation. I'm not using 3 different subnets as that's really unnecessary and quite impossible for me. There are two "physical" IPs and 2 virtual/service IPs. They are all within the same 22/CIDR LAN, but I don't see how that's a problem. </span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px;background-color:rgb(249,249,249)"><br></span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px;background-color:rgb(249,249,249)">  After running the pcs script, pacemaker starts both the PRI and HS in recovery mode. I cannot see a reason for this. </span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px;background-color:rgb(249,249,249)">  I start over with the configuration (clearing it, restarting pacemaker everywhere) and this time, leave pacemaker not running on the secondary. The primary is not started. There is no given reason for it, but the crm_mon output indicates something odd:</span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px;background-color:rgb(249,249,249)">   </span><span style="line-height:14.3000001907349px"> + master-pgsql                      : -INFINITY</span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px">    + pgsql-data-status                 : LATEST    </span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px">Logs indicate no attempt to starting the database was attempted. But again, if I have the HS in the cluster, *it* gets started but in recovery mode.</span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px"><br></span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px">  But perhaps I should be using corosync 2.3.3, which is available for the above platforms. </span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px">  </span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px"><br></span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px">-- Round 6 -- </span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px">  Install corosync-2.3.3. Won't upgrade due to conflicts; must uninstall pacemaker first. Afterwards, clusterlib refuses to install due to dependency conflicts. Another user posted this problem on this forum 2 years ago, so I'm surpised this is still an issue. By the way, the repo URL for this is: <a href="http://download.opensuse.org/repositories/network:/ha-clustering:/Stable/CentOS_CentOS-6/">http://download.opensuse.org/repositories/network:/ha-clustering:/Stable/CentOS_CentOS-6/</a>   Among the unresolvable errors include:</span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px">           Requires: libcoroipcc.so.4()(64bit)</span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px">Error: Package: pacemaker-libs-1.1.12+git20140723.483f48a-1.1.x86_64 (network_ha-clustering_Stable)</span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px">           Requires: libconfdb.so.4()(64bit)</span></font></div><div><font color="#000000"><span style="line-height:14.3000001907349px">Error: Package: pacemaker-cli-1.1.12+git20140723.483f48a-1.1.x86_64 (network_ha-clustering_Stable)</span></font></div><div><br></div><div><br></div><div><br></div><div>What's the best route for me to go here? Find the right set of RPMs? Build from source? If so which versions? Throw it all away and try to get CMAN (shiver)? Go back to Corosync 1.4.7 and try again?</div><div><br></div><div><br></div></div>