<div dir="ltr">Hi  Guys!<div><br></div><div>I'm having a strange problem with pacemaker-heartbeat cluster when I put it in a maintenance-mode.</div><div><br></div><div>First of all, let me show my configuration:</div><div><br></div><div>[ Pacemaker ]</div><div><br></div><div><div>node $id="23ade9ce-d274-4e56-aa91-9e95a8c08cf7" test-lb02 \</div><div>        attributes standby="off"</div><div>node $id="52ac429f-2b78-4630-bbd8-fb73a8152ab3" test-lb01</div><div>primitive ClusterMon ocf:pacemaker:ClusterMon \</div><div>        params user="root" update="30" extra_options="-T somemail -F somemail -P PACEMAKER" \</div><div>        op monitor interval="60" timeout="20" on-fail="standby"</div><div>primitive IP-rsc_apache ocf:heartbeat:IPaddr2 \</div><div>        params ip="xx.xx.xx.yy" nic="eth0" cidr_netmask="255.255.255.192" \</div><div>        meta migration-threshold="2" target-role="Started" \</div><div>        op monitor interval="20" timeout="20" on-fail="standby"</div><div>primitive Nginx-rsc ocf:heartbeat:nginx \</div><div>        meta migration-threshold="2" is-managed="true" target-role="Started" \</div><div>        op monitor interval="20" timeout="20" on-fail="standby"</div><div>clone ClusterMon-clone ClusterMon \</div><div>        meta taget-role="Started"</div><div>colocation lb-loc inf: IP-rsc_apache Nginx-rsc</div><div>order lb-ord inf: IP-rsc_apache Nginx-rsc</div><div>property $id="cib-bootstrap-options" \</div><div>        stonith-enabled="no" \</div><div>        dc-version="1.1.7-ee0730e13d124c3d58f00016c3376a1de5323cff" \</div><div>        cluster-infrastructure="Heartbeat" \</div><div>        maintenance-mode="false" \</div><div>        cluster-recheck-interval="60s"</div></div><div><br></div><div>[heartbeat]</div><div><br></div><div><div>crm yes</div><div><br></div><div>logfile /var/log/ha-log</div><div><br></div><div>logfacility     local0</div><div><br></div><div>keepalive 2</div><div>deadtime 30</div><div>warntime 10</div><div>initdead 120</div><div><br></div><div>auto_failback off</div><div><br></div><div>ucast   eth0 xx.xx.xx.xx</div><div>ucast   eth0 xx.xx.xx.xy</div><div><br></div><div>node    test-lb01</div><div>node    test-lb02</div></div><div><br></div><div><br></div><div><br></div><div>[STATUS]</div><div><br></div><div><div>Last updated: Fri May 29 18:04:11 2015</div><div>Last change: Fri May 29 18:01:57 2015 via cibadmin on test-lb01</div><div>Stack: Heartbeat</div><div>Current DC: test-lb01 (52ac429f-2b78-4630-bbd8-fb73a8152ab3) - partition with quorum</div><div>Version: 1.1.7-ee0730e13d124c3d58f00016c3376a1de5323cff</div><div>2 Nodes configured, unknown expected votes</div><div>4 Resources configured.</div><div>============</div><div><br></div><div>Online: [ test-lb01 test-lb02 ]</div><div><br></div><div> IP-rsc_apache<span class="" style="white-space:pre">   </span>(ocf::heartbeat:IPaddr2):<span class="" style="white-space:pre"> </span>Started test-lb01</div><div> Nginx-rsc<span class="" style="white-space:pre">       </span>(ocf::heartbeat:nginx):<span class="" style="white-space:pre">   </span>Started test-lb01</div><div> Clone Set: ClusterMon-clone [ClusterMon]</div><div>     Started: [ test-lb01 test-lb02 ]</div></div><div><br></div><div><br></div><div>====================</div><div><br></div><div><br></div><div>So, everything is working. But now, if put enable the maintenance-mode on the cluster, both nodes get rebooted:</div><div><br></div><div><br></div><div>crm(live)# configure property maintenance-mode="true"<br></div><div><br></div><div>Then in the logs:</div><div><br></div><div><br></div><div>May 29 18:06:39 test-lb01 crmd: [3240]: info: te_rsc_command: Initiating action 2: cancel IP-rsc_apache_monitor_20000 on test-lb01 (local)<br></div><div>May 29 18:06:39 test-lb01 lrmd: [3237]: info: cancel_op: operation monitor[8] on IP-rsc_apache for client 3240, its parameters: cidr_netmask=[255.255.255.192] CRM_meta_timeout=[20000] CRM_meta_name=[monitor] CRM_meta_on_fail=[standby] crm_feature_set=[3.0.6] CRM_meta_interval=[20000] ip=[xx.xx.xx.yy] nic=[eth0]  cancelled<br></div><div><div>May 29 18:06:39 test-lb01 crmd: [3240]: info: te_rsc_command: Initiating action 3: cancel Nginx-rsc_monitor_20000 on test-lb01 (local)</div><div>May 29 18:06:39 test-lb01 lrmd: [3237]: info: cancel_op: operation monitor[10] on Nginx-rsc for client 3240, its parameters: crm_feature_set=[3.0.6] CRM_meta_on_fail=[standby] CRM_meta_name=[monitor] CRM_meta_interval=[20000] CRM_meta_timeout=[20000]  cancelled</div></div><div><div>May 29 18:06:39 test-lb01 crmd: [3240]: info: te_rsc_command: Initiating action 4: cancel ClusterMon:0_monitor_60000 on test-lb01 (local)</div><div>May 29 18:06:39 test-lb01 lrmd: [3237]: info: cancel_op: operation monitor[6] on ClusterMon:0 for client 3240, its parameters: CRM_meta_timeout=[20000] CRM_meta_name=[monitor] CRM_meta_on_fail=[standby] crm_feature_set=[3.0.6] CRM_meta_notify=[false] </div><div>extra_options=[-T somemail -F somemail -P PACEMAKuser=[root] CRM_meta_clone=[0] CRM_meta_clone_max=[2] CRM_meta_clone_node_max=[1] CRM_meta_interval=[60000] CRM_meta_globally_unique=[false] update=[30]  cancelled</div></div><div><br></div><div><div>May 29 18:06:39 test-lb02 lrmd: [3223]: info: cancel_op: operation monitor[6] on ClusterMon:1 for client 3226, its parameters: CRM_meta_timeout=[20000] CRM_meta_name=[monitor] CRM_meta_on_fail=[standby] crm_feature_set=[3.0.6] CRM_meta_notify=[false] extra_options=[-T somemail -F some mail -P PACEMAKuser=[root] CRM_meta_clone=[1] CRM_meta_clone_max=[2] CRM_meta_clone_node_max=[1] CRM_meta_interval=[60000] CRM_meta_globally_unique=[false] update=[30]  cancelled</div></div><div><br></div><div><br></div><div>May 29 18:06:39 test-lb01 crmd: [3240]: info: te_rsc_command: Initiating action 1: cancel ClusterMon:1_monitor_60000 on test-lb02<br></div><div><div>May 29 18:06:39 test-lb01 crmd: [3240]: info: process_lrm_event: LRM operation IP-rsc_apache_monitor_20000 (call=8, status=1, cib-update=0, confirmed=true) Cancelled</div><div>May 29 18:06:39 test-lb01 crmd: [3240]: info: process_lrm_event: LRM operation Nginx-rsc_monitor_20000 (call=10, status=1, cib-update=0, confirmed=true) Cancelled</div><div>May 29 18:06:39 test-lb01 crmd: [3240]: info: process_lrm_event: LRM operation ClusterMon:0_monitor_60000 (call=6, status=1, cib-update=0, confirmed=true) Cancelled</div></div><div>May 29 18:06:39 test-lb02 crmd: [3226]: info: process_lrm_event: LRM operation ClusterMon:1_monitor_60000 (call=6, status=1, cib-update=0, confirmed=true) Cancelled<br></div><div><br></div><div><br></div><div>But after 60s, when the timmer hits, the whole cluster went away:</div><div><br></div><div><br></div><div><div>May 29 18:07:40 test-lb01 crmd: [3240]: info: crm_timer_popped: PEngine Recheck Timer (I_PE_CALC) just popped (60000ms)</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: notice: do_state_transition: State transition S_IDLE -> S_POLICY_ENGINE [ input=I_PE_CALC cause=C_TIMER_POPPED origin=crm_timer_popped ]</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: info: do_state_transition: Progressed to state S_POLICY_ENGINE after C_TIMER_POPPED</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: notice: do_state_transition: State transition S_POLICY_ENGINE -> S_TRANSITION_ENGINE [ input=I_PE_SUCCESS cause=C_IPC_MESSAGE origin=handle_response ]</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: WARN: destroy_action: Cancelling timer for action 2 (src=98)</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: WARN: destroy_action: Cancelling timer for action 3 (src=99)</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: WARN: destroy_action: Cancelling timer for action 4 (src=100)</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: info: do_te_invoke: Processing graph 8 (ref=pe_calc-dc-1432915660-42) derived from /var/lib/pengine/pe-input-242.bz2</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: info: te_rsc_command: Initiating action 2: cancel IP-rsc_apache_monitor_20000 on test-lb01 (local)</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: info: cancel_op: No pending op found for IP-rsc_apache:8</div><div>May 29 18:07:40 test-lb01 lrmd: [3237]: info: on_msg_cancel_op: no operation with id 8</div><div>May 29 18:07:40 test-lb01 cib: [3236]: info: cib_process_request: Operation complete: op cib_delete for section //node_state[@uname='test-lb01']//lrm_resource[@id='IP-rsc_apache']/lrm_rsc_op[@id='IP-rsc_apache_monitor_20000' and @call-id='8'] (origin=local/crmd/73, version=0.124.27): ok (rc=0)</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: info: te_rsc_command: Initiating action 3: cancel Nginx-rsc_monitor_20000 on test-lb01 (local)</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: ERROR: lrm_get_rsc(666): failed to send a getrsc message to lrmd via ch_cmd channel.</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: ERROR: lrm_get_rsc(666): failed to send a getrsc message to lrmd via ch_cmd channel.</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: ERROR: lrm_add_rsc(870): failed to send a addrsc message to lrmd via ch_cmd channel.</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: ERROR: lrm_get_rsc(666): failed to send a getrsc message to lrmd via ch_cmd channel.</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: ERROR: get_lrm_resource: Could not add resource Nginx-rsc to LRM</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: ERROR: do_lrm_invoke: Invalid resource definition</div></div><div><br></div><div><br></div><div>And this message repeated for every resource I have:</div><div><br></div><div><div>May 29 18:07:40 test-lb01 crmd: [3240]: WARN: do_lrm_invoke: bad input <create_request_adv origin="te_rsc_command" t="crmd" version="3.0.6" subt="request" reference="lrm_invoke-tengine-1432915660-45" crm_task="lrm_invoke" crm_sys_to="lrmd" crm_sys_from="tengine" crm_host_to="test-lb01" ></div><div>May 29 18:07:40 test-lb01 crmd: [3240]: WARN: do_lrm_invoke: bad input   <crm_xml ></div><div>May 29 18:07:40 test-lb01 crmd: [3240]: WARN: do_lrm_invoke: bad input     <rsc_op id="3" operation="cancel" operation_key="Nginx-rsc_monitor_20000" on_node="test-lb01" on_node_uuid="52ac429f-2b78-4630-bbd8-fb73a8152ab3" transition-key="3:8:0:3edaee69-5093-4538-8d12-90e0db0658ba" ></div><div>May 29 18:07:40 test-lb01 crmd: [3240]: WARN: do_lrm_invoke: bad input       <primitive id="Nginx-rsc" long-id="Nginx-rsc" class="ocf" provider="heartbeat" type="nginx" /></div><div>May 29 18:07:40 test-lb01 crmd: [3240]: WARN: do_lrm_invoke: bad input       <attributes CRM_meta_call_id="10" CRM_meta_interval="20000" CRM_meta_name="monitor" CRM_meta_on_fail="standby" CRM_meta_operation="monitor" CRM_meta_timeout="20000" crm_feature_set="3.0.6" /></div><div>May 29 18:07:40 test-lb01 crmd: [3240]: WARN: do_lrm_invoke: bad input     </rsc_op></div><div>May 29 18:07:40 test-lb01 crmd: [3240]: WARN: do_lrm_invoke: bad input   </crm_xml></div><div>May 29 18:07:40 test-lb01 crmd: [3240]: WARN: do_lrm_invoke: bad input </create_request_adv></div><div>May 29 18:07:40 test-lb01 crmd: [3240]: info: te_rsc_command: Initiating action 4: cancel ClusterMon:0_monitor_60000 on test-lb01 (local)</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: ERROR: lrm_get_rsc(666): failed to send a getrsc message to lrmd via ch_cmd channel.</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: ERROR: lrm_get_rsc(666): failed to send a getrsc message to lrmd via ch_cmd channel.</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: ERROR: lrm_add_rsc(870): failed to send a addrsc message to lrmd via ch_cmd channel.</div><div>May 29 18:07:40 test-lb01 crmd: [3240]: ERROR: lrm_get_rsc(666): failed to send a getrsc message to lrmd via ch_cmd channel.</div></div><div><br></div><div>And then the rea crash</div><div><br></div><div><div>May 29 18:07:40 test-lb01 crmd: [3240]: ERROR: crm_abort: abort_transition_graph: Triggered assert at te_utils.c:339 : transition_graph != NULL</div></div><div><div>May 29 18:07:40 test-lb01 heartbeat: [3155]: WARN: Managed /usr/lib/heartbeat/crmd process 3240 killed by signal 11 [SIGSEGV - Segmentation violation].</div><div>May 29 18:07:40 test-lb01 heartbeat: [3155]: ERROR: Managed /usr/lib/heartbeat/crmd process 3240 dumped core</div><div>May 29 18:07:40 test-lb01 heartbeat: [3155]: EMERG: Rebooting system.  Reason: /usr/lib/heartbeat/crmd</div></div><div><br></div><div><br></div><div><br></div><div>At the same time, I found that in the other node:</div><div><br></div><div><br></div><div><div>May 29 18:07:41 test-lb02 crmd: [3226]: CRIT: lrm_connection_destroy: LRM Connection failed</div><div>May 29 18:07:41 test-lb02 crmd: [3226]: info: lrm_connection_destroy: LRM Connection disconnected</div><div>May 29 18:07:41 test-lb02 crmd: [3226]: ERROR: do_log: FSA: Input I_ERROR from lrm_connection_destroy() received in state S_ELECTION</div><div>May 29 18:07:41 test-lb02 crmd: [3226]: notice: do_state_transition: State transition S_ELECTION -> S_RECOVERY [ input=I_ERROR cause=C_FSA_INTERNAL origin=lrm_connection_destroy ]</div><div>May 29 18:07:41 test-lb02 crmd: [3226]: ERROR: do_recover: Action A_RECOVER (0000000001000000) not supported</div><div>May 29 18:07:41 test-lb02 crmd: [3226]: info: do_dc_release: DC role released</div><div>May 29 18:07:41 test-lb02 crmd: [3226]: info: do_te_control: Transitioner is now inactive</div><div>May 29 18:07:41 test-lb02 crmd: [3226]: ERROR: do_log: FSA: Input I_TERMINATE from do_recover() received in state S_RECOVERY</div></div><div><br></div><div><br></div><div><div>May 29 18:07:41 test-lb02 heartbeat: [3148]: WARN: Managed /usr/lib/heartbeat/crmd process 3226 exited with return code 2.</div><div>May 29 18:07:41 test-lb02 heartbeat: [3148]: EMERG: Rebooting system.  Reason: /usr/lib/heartbeat/crmd</div></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div>For some reason, pacemaker found something that it didn't like, and crashed, but I'm not understanding what.</div><div>Could someone throw me some hints about that?</div><div><br></div><div>Thanks in advance</div><div>Have a nice weekend!</div><div>Best Regards</div><div><br></div><div><br></div><div><br></div></div>