<div class="zcontentRow"><div><div class="zcontentRow"><div><div class="zcontentRow"><p><span style="font-family: arial; font-size: 14px;">There is a issue that pacemaker don't schedule resource </span>which is  in docker  container after docker is restarted but the pacemaker cluster show the resource is started ,it seems to be a bug of pacemaker .</p><p> I am very confused what happend when pengine print those logs(pengine:   notice: check_operation_expiry:<span class="Apple-tab-span" style="white-space: pre;">       </span>Clearing failure of event_agent on 120_120__fd4 because it expired | event_agent_clear_failcount_0). Does anyone know what they mean? Thank you very much!</p><p style="font-size:14px;font-family:arial;"><strong>1. pacemaker/corosync version:  1.1.16/2.4.3</strong></p><p style="font-size:14px;font-family:arial;"><strong>2. corosync logs as follows;</strong></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58629] node-4      attrd:     info: attrd_peer_update:<span class="Apple-tab-span" style="white-space: pre;">    </span>Setting event_agent_status[120_120__fd4]: ok -> fail from 120_120__fd4</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58629] node-4      attrd:     info: write_attribute:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">   </span>Sent update 50 with 1 changes for event_agent_status, id=<n/a>, set=(null)</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58629] node-4      attrd:     info: attrd_cib_callback:<span class="Apple-tab-span" style="white-space: pre;">  </span>Update 50 for event_agent_status: OK (0)</span></p><p><span style="font-size: 12px; color: rgb(255, 0, 0);">Feb 06 09:52:19 [58629] node-4      attrd:     info: attrd_cib_callback:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">  </span>Update 50 for event_agent_status[120_120__fd4]=fail: OK (0)</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:   notice: unpack_config:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">     </span>On loss of CCM Quorum: Ignore</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: determine_online_status:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">    </span>Node 120_120__fd4 is online</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: get_failcount_full:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">   </span>event_agent has failed 1 times on 120_120__fd4</span></p><p><span style="font-size: 12px; color: rgb(255, 0, 0);">Feb 06 09:52:19 [58630] node-4    pengine:   notice: check_operation_expiry:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">  </span>Clearing failure of event_agent on 120_120__fd4 because it expired | event_agent_clear_failcount_0</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:   notice: unpack_rsc_op:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">      </span>Re-initiated expired calculated failure event_agent_monitor_60000 (rc=1, magic=0:1;9:18:0:9d1d66d2-2cbe-4182-89f6-c90ba008e2b7) on 120_120__fd4</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: get_failcount_full:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">       </span>event_agent has failed 1 times on 120_120__fd4</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:   notice: check_operation_expiry:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;"> </span>Clearing failure of event_agent on 120_120__fd4 because it expired | event_agent_clear_failcount_0</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: get_failcount_full:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">    </span>event_agent has failed 1 times on 120_120__fd4</span></p><p><span style="font-size: 12px; color: rgb(255, 0, 0);">Feb 06 09:52:19 [58630] node-4    pengine:   notice: check_operation_expiry:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">  </span>Clearing failure of event_agent on 120_120__fd4 because it expired | event_agent_clear_failcount_0</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: unpack_node_loop:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">      </span>Node 4052 is already processed</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: unpack_node_loop:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">  </span>Node 4052 is already processed</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: common_print:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">      </span>pm_agent<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;"> </span>(ocf::heartbeat:pm_agent):<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">       </span>Started 120_120__fd4</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: common_print:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">        </span>event_agent<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">      </span>(ocf::heartbeat:event_agent):<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">    </span>Started 120_120__fd4</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: common_print:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">        </span>nwmonitor_vip<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">    </span>(ocf::heartbeat:IPaddr2):<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">        </span>Started 120_120__fd4</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: common_print:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">        </span>nwmonitor<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">        </span>(ocf::heartbeat:nwmonitor):<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">      </span>Started 120_120__fd4</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: LogActions:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">  </span>Leave   pm_agent<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">    </span>(Started 120_120__fd4)</span></p><p><span style="font-size: 12px; color: rgb(255, 0, 0);">Feb 06 09:52:19 [58630] node-4    pengine:     info: LogActions:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;"> </span>Leave   event_agent<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;"> </span>(Started 120_120__fd4)</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: LogActions:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">        </span>Leave   nwmonitor_vip<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">       </span>(Started 120_120__fd4)</span></p><p><span style="font-size: 12px;">Feb 06 09:52:19 [58630] node-4    pengine:     info: LogActions:<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">        </span>Leave   nwmonitor<span class="Apple-tab-span" style="font-size: 12px; white-space: pre;">   </span>(Started 120_120__fd4)</span></p><p><strong><span style="font-size: 14px;">3. the event_agent resource is marked fail by attrd, that triggered pengine computing, but PE actually does't  do anything about  event_agent later. is it related to <span style="line-height: 18px;">check_operation_expiry function in unpack.c ?  I see some notes in this function as fllows:</span></span></strong></p><p><span style="font-size: 12px;">/* clearing recurring monitor operation failures automatically</span></p><p><span style="font-size: 12px;">     * needs to be carefully considered */</span></p><p><span style="font-size: 12px;">    if (safe_str_eq(crm_element_value(xml_op, XML_LRM_ATTR_TASK), "monitor") &&</span></p><p><span style="font-size: 12px;">        safe_str_neq(crm_element_value(xml_op, XML_LRM_ATTR_INTERVAL), "0")) {</span></p><p><span style="font-size: 12px;">        <span style="font-size: 12px; color: rgb(255, 0, 0);">/* TODO, in the future we should consider not clearing recurring monitor</span></span></p><p><span style="font-size: 12px; color: rgb(255, 0, 0);">         * op failures unless the last action for a resource was a "stop" action.</span></p><p><span style="font-size: 12px; color: rgb(255, 0, 0);">         * otherwise it is possible that clearing the monitor failure will result</span></p><p><span style="font-size: 12px; color: rgb(255, 0, 0);">         * in the resource being in an undeterministic state.</span></p><p><br></p></div></div></div></div></div>