<div dir="ltr">Hello,<div><br></div><div>Yesterday, my three node cluster (CentOS 7, PostgreSQL with the PAF resource agent) went down. For an as of yet unknown reason, the master (ph-sql-04) did not report to the rest of the cluster and was fenced. (I'll take the advice given earlier now to setup an rsyslog server...). Unfortunately, the cluster failed to promote on of the slaves (ph-sql-03) so that node was fenced too. Then quorum was lost and the stop action for the pgsqld resource on the last node (ph-sql-05) was executed and although it timed out (see my earlier post on this list) the PostgreSQL daemon was eventually stopped, leaving all nodes down.</div><div><br></div><div>The error message on ph-sql-03 was:</div><div><br></div><div><font face="arial, sans-serif">pgsqlms(pgsqld)[5006]:      Jul 03 19:32:38  ERROR: Can not get current node LSN location<br>Jul 03 19:32:38 [30148] <a href="http://ph-sql-03.prod.ams.i.rdmedia.com">ph-sql-03.prod.ams.i.rdmedia.com</a>       lrmd:   notice: operation_finished:      pgsqld_promote_0:5006:stderr [ ocf-exit-reason:Can not get current node LSN location ]<br>Jul 03 19:32:38 [30148] <a href="http://ph-sql-03.prod.ams.i.rdmedia.com">ph-sql-03.prod.ams.i.rdmedia.com</a>       lrmd:     info: log_finished:   finished - rsc:pgsqld action:promote call_id:87 pid:5006 exit-code:1 exec-time:237ms queue-time:0ms<br>Jul 03 19:32:38 [30151] <a href="http://ph-sql-03.prod.ams.i.rdmedia.com">ph-sql-03.prod.ams.i.rdmedia.com</a>       crmd:   notice: process_lrm_event:  Result of promote operation for pgsqld on ph-sql-03: 1 (unknown error) | call=87 key=pgsqld_promote_0 confirmed=true cib-update=8309<br>Jul 03 19:32:38 [30151] <a href="http://ph-sql-03.prod.ams.i.rdmedia.com">ph-sql-03.prod.ams.i.rdmedia.com</a>       crmd:   notice: process_lrm_event: ph-sql-03-pgsqld_promote_0:87 [ ocf-exit-reason:Can not get current node LSN location\n ]</font><br></div><div><font face="arial, sans-serif"><br></font></div><div><font face="arial, sans-serif">I've seen some PAF Github issues that mention this error, but not sure they apply to my situation. Is this a bug or is there something wrong with my setup?</font></div><div><br></div><div>I've attached the corosync logs from the relevant time period (19:28-19:34). </div><div><br></div></div>