<div dir="ltr">Hi Ken,<div>Thanks. In this case, transient_attributes for node02 in the cib on node02 which never lost quorum seem to be deleted by a request from node01 when node01 rejoins the cluster - IF I understand the pacemaker.log correctly. This causes node02 to stop resources, which will not be restarted until we manually refresh on node02.</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, Feb 1, 2021 at 10:59 AM Ken Gaillot <<a href="mailto:kgaillot@redhat.com">kgaillot@redhat.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-style:solid;border-left-color:rgb(204,204,204);padding-left:1ex">On Fri, 2021-01-29 at 12:37 -0500, Stuart Massey wrote:<br>
> Can someone help me with this?<br>
> Background:<br>
> > "node01" is failing, and has been placed in "maintenance" mode. It<br>
> > occasionally loses connectivity.<br>
> > "node02" is able to run our resources<br>
> <br>
> Consider the following messages from pacemaker.log on "node02", just<br>
> after "node01" has rejoined the cluster (per "node02"):<br>
> > Jan 28 14:48:03 [21933] <a href="http://node02.example.com" rel="noreferrer" target="_blank">node02.example.com</a>        cib:     info:<br>
> > cib_perform_op:       --<br>
> > /cib/status/node_state[@id='2']/transient_attributes[@id='2']<br>
> > Jan 28 14:48:03 [21933] <a href="http://node02.example.com" rel="noreferrer" target="_blank">node02.example.com</a>        cib:     info:<br>
> > cib_perform_op:       +  /cib:  @num_updates=309<br>
> > Jan 28 14:48:03 [21933] <a href="http://node02.example.com" rel="noreferrer" target="_blank">node02.example.com</a>        cib:     info:<br>
> > cib_process_request:  Completed cib_delete operation for section<br>
> > //node_state[@uname='<a href="http://node02.example.com" rel="noreferrer" target="_blank">node02.example.com</a>']/transient_attributes: OK<br>
> > (rc=0, origin=<a href="http://node01.example.com/crmd/3784" rel="noreferrer" target="_blank">node01.example.com/crmd/3784</a>, version=0.94.309)<br>
> > Jan 28 14:48:04 [21938] <a href="http://node02.example.com" rel="noreferrer" target="_blank">node02.example.com</a>       crmd:     info:<br>
> > abort_transition_graph:       Transition aborted by deletion of<br>
> > transient_attributes[@id='2']: Transient attribute change |<br>
> > cib=0.94.309 source=abort_unless_down:357<br>
> > path=/cib/status/node_state[@id='2']/transient_attributes[@id='2']<br>
> > complete=true<br>
> > Jan 28 14:48:05 [21937] <a href="http://node02.example.com" rel="noreferrer" target="_blank">node02.example.com</a>    pengine:     info:<br>
> > master_color: ms_drbd_ourApp: Promoted 0 instances of a possible 1<br>
> > to master<br>
> > <br>
> The implication, it seems to me, is that "node01" has asked "node02"<br>
> to delete the transient-attributes for "node02". The transient-<br>
> attributes should normally be:<br>
>       <transient_attributes id="2"><br>
>         <instance_attributes id="status-2"><br>
>           <nvpair id="status-2-master-drbd_ourApp" name="master-<br>
> drbd_ourApp" value="10000"/><br>
>           <nvpair id="status-2-pingd" name="pingd" value="100"/><br>
>         </instance_attributes><br>
>       </transient_attributes><br>
> <br>
> These attributes are necessary for "node02" to be Master/Primary,<br>
> correct? <br>
> <br>
> Why might this be happening and how do we prevent it?<br>
<br>
Transient attributes are always cleared when a node leaves the cluster<br>
(that's what makes them transient ...). It's probably coincidence it<br>
went through as the node rejoined.<br>
<br>
When the node rejoins, it will trigger another run of the scheduler,<br>
which will schedule a probe of all resources on the node. Those probes<br>
should reset the promotion score.<br>
-- <br>
Ken Gaillot <<a href="mailto:kgaillot@redhat.com" target="_blank">kgaillot@redhat.com</a>><br>
<br>
_______________________________________________<br>
Manage your subscription:<br>
<a href="https://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>
<br>
ClusterLabs home: <a href="https://www.clusterlabs.org/" rel="noreferrer" target="_blank">https://www.clusterlabs.org/</a><br>
</blockquote></div>