<div dir="ltr"><div dir="ltr">Hi, </div><div dir="ltr">Here are the logs when pacemaker fails to start postgres service on master. It manage to start only postgres slave. </div><div dir="ltr">I tried different configuration with pgslqms and pgsql resource agents. Those errors are when I use pgsqlms agent, which configuration I have sent in first mail:</div><div dir="ltr"><br></div><div dir="ltr">Apr 25 16:40:23 [4213] master       lrmd:     info: log_execute:  executing - rsc:PGSQL action:start call_id:51<div><div>launching as "postgres" command "/usr/lib/postgresql/9.5/bin/pg_ctl --pgdata /var/lib/postgresql/9.5/main -w --timeout 120 start -o -c config_file=/etc/postgresql/9.5/main/postgresql.conf"</div><div>Apr 25 16:40:24 [4211] master        cib:     info: cib_perform_op:<span style="white-space:pre">     </span>+  /cib/status/node_state[@id='2']/lrm[@id='2']/lrm_resources/lrm_resource[@id='PGSQL']/lrm_rsc_op[@id='PGSQL_last_0']:  @operation_key=PGSQL_start_0, @operation=start, @transition-key=12:30:0:078c2b66-b095-49c4-947b-2427dd7852bf, @transition-magic=0:0;12:30:0:078c2b66-b095-49c4-947b-2427dd7852bf, @call-id=176, @rc-code=0, @exec-time=1146, @queue-time=0</div><div>Apr 25 16:40:53 [4216] master       crmd:    debug: crm_timer_start:<span style="white-space:pre">       </span>Started Shutdown Escalation (I_STOP:1200000ms), src=53</div><div>Apr 25 16:41:23 [4213] master       lrmd:  warning: child_timeout_callback:<span style="white-space:pre">        </span>PGSQL_start_0 process (PID 5986) timed out</div></div><div><br></div><div>Part of the log is attached.</div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, 23 Apr 2019 at 17:28, Danka Ivanović <<a href="mailto:danka.ivanovic@gmail.com">danka.ivanovic@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr">Hi,<br><div>It seems that ldap timeout caused cluster failure. Cluster is checking status every 15s on master and 16s on slave. Cluster needs postgres user for authentication, but ldap first query user on ldap server and then localy on host. When connection to ldap server was interrupted, cluster couldn't find postgres user and authenticate on db to check state. Problem is solved with reconfiguring /etc/ldap.conf and /etc/nslcd.conf. Following variable is added: nss_initgroups_ignoreusers with specified local users which should be ignored when querying ldap server. Thanks for your help. :)</div><div>Another problem is that I cannot start postgres master with pacemaker. When I start postgres manually (with systemd) and then start pacemaker on slave, pacemaker is able to recognize master and start slave and failover works.</div><div>That is another problem which I didn't manage to solve. Should I send a new mail for that issue or we can continue in this thread?<br></div></div></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, 19 Apr 2019 at 19:19, Jehan-Guillaume de Rorthais <<a href="mailto:jgdr@dalibo.com" target="_blank">jgdr@dalibo.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On Fri, 19 Apr 2019 17:26:14 +0200<br>
Danka Ivanović <<a href="mailto:danka.ivanovic@gmail.com" target="_blank">danka.ivanovic@gmail.com</a>> wrote:<br>
...<br>
> Should I change any of those timeout parameters in order to avoid timeout?<br>
<br>
You can try to raise the timeout, indeed. But as far as we don't know **why**<br>
your VMs froze for some time, it is difficult to guess how high should be<br>
these timeouts. <br>
<br>
Not to mention that it will raise your RTO.<br>
</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail-m_-8194531873890119807gmail_signature">Pozdrav<br>Danka Ivanovic</div>
</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail_signature">Pozdrav<br>Danka Ivanovic</div>