<div dir="ltr"><div dir="ltr"><br></div>We tried to fix ldap issue with nss_initgroups_ignoreusers option in nslcd.conf for postgres and hacluster users. So cluster shouldn't contact ldap server every 15 seconds when it checks psql with postgres user:<br>/usr/lib/postgresql/9.5/bin/pg_isready -h /var/run/postgresql/ -p 5432<br>We have two ldap servers, and when one was unavailable, cluster failed immediately due to timeout, even if it can reach other ldap server.<br>I know it should be avoided starting master database with systemctl, but I didn't find a way to start it with pacemaker. I will test again, but I am out of ideas. Because I tried with different pgsqlms options, different versions of postgres..<br>But now it looks like something else happened..<div><br><div><div><div><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Jul 10, 2019 at 4:57 PM Jehan-Guillaume de Rorthais <<a href="mailto:jgdr@dalibo.com">jgdr@dalibo.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On Wed, 10 Jul 2019 16:34:17 +0200<br>
Danka Ivanovic <<a href="mailto:danka.ivanovic@sbgenomics.com" target="_blank">danka.ivanovic@sbgenomics.com</a>> wrote:<br>
<br>
> Hi, Thank you all for responding so quickly. Part of corosync.log file is<br>
> attached. Cluster failure occured in 09:16  AM yesterday.<br>
> Debug mode is turned on in corosync configuration, but I didn't turn it on<br>
> in pacemaker config. I will test that.<br>
<br>
There's really nothing interesting in there sadly. It could even be like pgsqlms hadn't been called at all and the action timed out...<br>
<br>
> Postgres log is also attached.<br>
<br>
Nothing really revelent there as well.<br>
<br>
> Several times cluster failed because of ldap time out, even if I tried to<br>
> disable ldap searching for local postgres user,<br>
<br>
This is really anoying. IIRC, this was already happening last time. Fix this<br>
first if you didn't yet?<br>
<br>
...<br>
> From syslog it looks like postgres systemd process was<br>
> stoped,<br>
<br>
Again, systemd shouldn't take part of anything in your cluster irw postgresql.<br>
If Pacemaker manage PostgreSQL, systemd should have nothing to do with it.<br>
<br>
If you really need to start/stop it by hands (I really discourage you to<br>
do so), do it using pg_ctl. And make sure to unmanage the Pacemaker resource<br>
before.<br>
<br>
> On Tue, 9 Jul 2019 19:57:06 +0300<br>
> > Andrei Borzenkov <<a href="mailto:arvidjaar@gmail.com" target="_blank">arvidjaar@gmail.com</a>> wrote:<br>
> >  <br>
> > > 09.07.2019 13:08, Danka Ivanović пишет:  <br>
> > > > Hi I didn't manage to start master with postgres, even if I increased  <br>
> > start  <br>
> > > > timeout. I checked executable paths and start options.  <br>
> ><br>
> > We would require much more logs from this failure...<br>
> >  <br>
> > > > When cluster is running with manually started master and slave started  <br>
> > over  <br>
> > > > pacemaker, everything works ok.  <br>
> ><br>
> > Logs from this scenario might be interesting as well to check and compare.<br>
> >  <br>
> > > > Today we had failover again.<br>
> > > > I cannot find reason from the logs, can you help me with debugging?  <br>
> > Thanks.<br>
> ><br>
> > logs logs logs please.<br>
> >  <br>
> > > > Jul 09 09:16:32 [2679] postgres1       lrmd:    debug:<br>
> > > > child_kill_helper:  Kill pid 12735's group Jul 09 09:16:34 [2679]<br>
> > > > postgres1       lrmd:  warning: child_timeout_callback:<br>
> > > > PGSQL_monitor_15000 process (PID 12735) timed out  <br>
> > ><br>
> > > You probably want to enable debug output in resource agent. As far as I<br>
> > > can tell, this requires HA_debug=1 in environment of resource agent, but<br>
> > > for the life of me I cannot find where it is possible to set it.<br>
> > ><br>
> > > Probably setting it directly in resource agent for debugging is the most<br>
> > > simple way.  <br>
> ><br>
> > I usually set this in "/etc/sysconfig/pacemaker". Never tried to add it<br>
> > to pgsqlms, interesting.<br>
> >  <br>
> > > P.S. crm_resource is called by resource agent (pgsqlms). And it shows<br>
> > > result of original resource probing which makes it confusing. At least<br>
> > > it explains where these logs entries come from.  <br>
> ><br>
> > Not sure tu understand what you mean :/<br>
> >  <br>
<br>
<br>
<br>
-- <br>
Jehan-Guillaume de Rorthais<br>
Dalibo</blockquote></div><div dir="ltr" class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div style="font-size:12.8px"></div></div></div></div></div></div></div></div></div></div></div></div>