<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>

<meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
</head>
<body text="#000000" bgcolor="#ffffff">
Hi all,<br>
I'm working on a Pacemaker cluster with 4 nodes (IBM x3650) with RSA on
each node and they are connected through a Fiber Channel switch to an
IBM Storage with dual CTRL.<br>
The scenario will be 4 nodes Dom0 with some Xen VMs as resources on
Opensuse 11.2 64bit environment<br>
This is the crm configure show output:<br>
<font color="#006600"><small>node1:~ # crm configure show<br>
node node2<br>
node node1<br>
node node3<br>
node node4<br>
primitive dlm ocf:pacemaker:controld \<br>
    op monitor interval="120s"<br>
primitive o2cb ocf:ocfs2:o2cb \<br>
    op monitor interval="120s"<br>
primitive st-ibmrsa1 stonith:external/ibmrsa-telnet params </small><small>
ip_address="192.168.1.12" </small><small>username="hacluster"
password="Cluster" </small><small>nodename="node1"  meta
target-role="started"<br>
primitive st-ibmrsa2 stonith:external/ibmrsa-telnet params
ip_address="192.168.1.13" username="hacluster" password="Cluster"
nodename="node2"  meta target-role="started"<br>
primitive st-ibmrsa3 stonith:external/ibmrsa-telnet params
ip_address="192.168.1.14" username="hacluster" password="Cluster"  </small><small>nodename="node3"
</small><small>meta target-role="started"<br>
primitive st-ibmrsa4 stonith:external/ibmrsa-telnet params
ip_address="192.168.1.15" username="hacluster" password="Cluster"  </small><small>nodename="node4"
</small><small>meta target-role="started"<br>
clone dlm-clone dlm   meta interleave="true"<br>
clone o2cb-clone o2cb  meta interleave="true" target-role="started"<br>
location l-st-nodo1 st-ibmrsa1 -inf: node1<br>
location l-st-nodo2 st-ibmrsa2 -inf: node2<br>
location l-st-nodo3 st-ibmrsa3 -inf: node3<br>
location l-st-nodo4 st-ibmrsa4 -inf: node4<br>
colocation o2cb-with-dlm inf: o2cb-clone dlm-clone<br>
order start-o2cb-after-dlm inf: dlm-clone o2cb-clone<br>
property $id="cib-bootstrap-options"
dc-version="1.0.2-ec6b0bbee1f3aa72c4c2559997e675db6ab39160" \<br>
    expected-quorum-votes="4" last-lrm-refresh="1270572049"<br>
rsc_defaults $id="rsc-options" resource-stickiness="100"</small></font><br>
<br>
<br>
I've already installed a simple cluster with two nodes with tha same HW
but with  DRBD storage, now I'm going to create a production cluster
with a real storage.<br>
The question are about the ibmrsa stonith resources:<br>
<b><font color="#000099">1)</font></b>I've added 4 resources
external/ibmrsa-telnet resources, enabled the stonith, and set the
location for each one, but only 3 are running, the last <small>"st-ibmrsa2"
</small>didn't run<br>
this is the log messages after "cleanup resource" command from the
pacemaker gui and the error seems "empty hostlist" but it is wrong!<br>
<br>
<small>Apr  6 22:43:21 node1 mgmtd: [2992]: info: Delete fail-count for
st-ibmrsa2 from node2<br>
Apr  6 22:43:21 node1 crmd: [2991]: info: do_lrm_invoke: Forcing a
local LRM refresh<br>
Apr  6 22:43:21 node1 openais[2887]: [crm  ] ERROR: route_ais_message:
Child 8603 spawned to record non-fatal assertion failure line 1297:
dest > 0 && dest < SIZEOF(pcmk_children)<br>
Apr  6 22:43:21 node1 openais[2887]: [crm  ] ERROR: route_ais_message:
Invalid destination: 0<br>
Apr  6 22:43:21 node1 openais[2887]: [MAIN ] Msg[358]
(dest=local:unknown, from=node2:crmd.4844, remote=true, size=853):
<create_request_adv origin="send_direct_ack" t="crmd"
version="3.0.1" subt="request" refer<br>
Apr  6 22:43:21 node1 cib: [8604]: info: write_cib_contents: Archived
previous version as /var/lib/heartbeat/crm/cib-19.raw<br>
Apr  6 22:43:21 node1 cib: [8604]: info: write_cib_contents: Wrote
version 0.343.0 of the CIB to disk (digest: 63e0b94a027daf<br>
19a1122391cd8653b0)<br>
Apr  6 22:43:21 node1 cib: [8604]: info: retrieveCib: Reading cluster
configuration from: /var/lib/heartbeat/crm/cib.N2IctU (digest:
/var/lib/heartbeat/crm/cib.0FFVrB)<br>
Apr  6 22:43:23 node1 cib: [2987]: info: cib_process_xpath: Processing
cib_query op for
//cib/configuration/crm_config//nvpair[@name='last-lrm-refresh']
(/cib/configuration/crm_config/cluster_property_set/nvpair[3])<br>
Apr  6 22:43:23 node1 cib: [8605]: info: write_cib_contents: Archived
previous version as /var/lib/heartbeat/crm/cib-20.raw<br>
Apr  6 22:43:23 node1 crmd: [2991]: <font color="#cc0000">info:
do_lrm_invoke: Removing resource st-ibmrsa2 from the LRM</font><br>
Apr  6 22:43:23 node1 cib: [2987]: info: cib_process_xpath: Processing
cib_query op for
//cib/status//node_state[@id='node1']//nvpair[@name='fail-count-st-ibmrsa2']
(/cib/status/node_state[1]/transient_attributes/instance_attributes/nvpair[5])<br>
Apr  6 22:43:23 node1 crmd: [2991]: info: send_direct_ack: ACK'ing
resource op st-ibmrsa2_delete_0 from mgmtd-2992:
lrm_invoke-lrmd-1270586603-24<br>
Apr  6 22:43:23 node1 cib: [2987]: info: cib_process_xpath: Processing
cib_query op for
//cib/configuration/crm_config//nvpair[@name='last-lrm-refresh']
(/cib/configuration/crm_config/cluster_property_set/nvpair[3])<br>
Apr  6 22:43:23 node1 crmd: [2991]: info: do_lrm_invoke: Forcing a
local LRM refresh<br>
Apr  6 22:43:23 node1 cib: [8605]: info: write_cib_contents: Wrote
version 0.344.0 of the CIB to disk (digest: 898ef83ec60f0b<br>
080c67dac0b96f4247)<br>
Apr  6 22:43:23 node1 cib: [8605]: info: retrieveCib: Reading cluster
configuration from: /var/lib/heartbeat/crm/cib.4yG9ST (digest:
/var/lib/heartbeat/crm/cib.Dr1NRG)<br>
Apr  6 22:43:23 node1 mgmtd: [2992]: <font color="#cc0000">info:
Delete fail-count for st-ibmrsa2 from node1</font><br>
Apr  6 22:43:23 node1 cib: [8606]: info: write_cib_contents: Archived
previous version as /var/lib/heartbeat/crm/cib-21.raw<br>
Apr  6 22:43:23 node1 cib: [8606]: info: write_cib_contents: Wrote
version 0.345.0 of the CIB to disk (digest:
0db39b0d5be55ecf9ab68fd95c0ef307)<br>
Apr  6 22:43:23 node1 cib: [8606]: info: retrieveCib: Reading cluster
configuration from: /var/lib/heartbeat/crm/cib.uZ6Dz0 (digest:
/var/lib/heartbeat/crm/cib.ZlmGIN)<br>
Apr  6 22:43:25 node1 cib: [2987]: info: cib_process_xpath: Processing
cib_query op for
//cib/configuration/crm_config//nvpair[@name='last-lrm-refresh']
(/cib/configuration/crm_config/cluster_property_set/nvpair[3])<br>
Apr  6 22:43:25 node1 cib: [2987]: info: cib_process_xpath: Processing
cib_query op for
//cib/status//node_state[@id='node3']//nvpair[@name='fail-count-st-ibmrsa2']
(/cib/status/node_state[3]/transient_attributes/instance_attributes/nvpair[6])<br>
Apr  6 22:43:25 node1 crmd: [2991]: info: do_lrm_invoke: Forcing a
local LRM refresh<br>
Apr  6 22:43:25 node1 openais[2887]: [crm  ] ERROR: route_ais_message:
Child 8607 spawned to record non-fatal assertion failure line 1297:
dest > 0 && dest < SIZEOF(pcmk_children)<br>
Apr  6 22:43:25 node1 openais[2887]: [crm  ] ERROR: route_ais_message:
Invalid destination: 0<br>
Apr  6 22:43:25 node1 openais[2887]: [MAIN ] Msg[104]
(dest=local:unknown, from=node3:crmd.5002, remote=true, size=852):
<create_request_adv origin="send_direct_ack" t="crmd"
version="3.0.1" subt="request" refer<br>
Apr  6 22:43:25 node1 mgmtd: [2992]: info: <font color="#cc0000">Delete
fail-count for st-ibmrsa2 from node3</font><br>
Apr  6 22:43:25 node1 cib: [8608]: info: write_cib_contents: Archived
previous version as /var/lib/heartbeat/crm/cib-22.raw<br>
Apr  6 22:43:25 node1 cib: [8608]: info: write_cib_contents: Wrote
version 0.346.0 of the CIB to disk (digest:
e4061e0e405cf035c566f53a79935212)<br>
Apr  6 22:43:25 node1 cib: [8608]: info: retrieveCib: Reading cluster
configuration from: /var/lib/heartbeat/crm/cib.88fw77 (digest:
/var/lib/heartbeat/crm/cib.SsgJA1)<br>
Apr  6 22:43:25 node1 lrmd: [2988]: notice: lrmd_rsc_new(): No
lrm_rprovider field in message<br>
Apr  6 22:43:25 node1 crmd: [2991]: info: do_lrm_rsc_op: Performing
key=13:130:7:113d7b66-f090-46d5-bb11-a1782de6fa92
op=st-ibmrsa2_monitor_0 )<br>
Apr  6 22:43:25 node1 lrmd: [2988]: info: rsc:st-ibmrsa2: monitor<br>
Apr  6 22:43:25 node1 crmd: [2991]: info: process_lrm_event: LRM
operation st-ibmrsa2_monitor_0 (call=42, rc=7, cib-update=172,
confirmed=true) complete not running<br>
Apr  6 22:43:26 node1 cib: [2987]: info: cib_process_xpath: Processing
cib_query op for
//cib/status//node_state[@id='node1']//nvpair[@name='probe_complete']
(/cib/status/node_state[1]/transient_attributes/instance_attributes/nvpair[1])<br>
Apr  6 22:43:26 node1 crmd: [2991]:<font color="#cc0000"> info:
do_lrm_rsc_op: Performing
key=43:130:0:113d7b66-f090-46d5-bb11-a1782de6fa92 op=st-ibmrsa2_start_0
)</font><br>
Apr  6 22:43:26 node1 lrmd: [2988]: info: rsc:st-ibmrsa2: start<br>
Apr  6 22:43:26 node1 lrmd: [8611]: <font color="#cc0000">info: Try to
start STONITH resource <rsc_id=st-ibmrsa2> :
Device=external/ibmrsa-telnet</font><br>
Apr  6 22:43:27 node1 cib: [2987]: info: cib_process_xpath: Processing
cib_query op for
//cib/configuration/crm_config//nvpair[@name='last-lrm-refresh']
(/cib/configuration/crm_config/cluster_property_set/nvpair[3])<br>
Apr  6 22:43:27 node1 cib: [2987]: info: cib_process_xpath: Processing
cib_query op for
//cib/status//node_state[@id='node4']//nvpair[@name='fail-count-st-ibmrsa2']
(/cib/status/node_state[4]/transient_attributes/instance_attributes/nvpair[5])<br>
Apr  6 22:43:27 node1 cib: [8625]: info: write_cib_contents: Archived
previous version as /var/lib/heartbeat/crm/cib-23.raw<br>
Apr  6 22:43:27 node1 crmd: [2991]: WARN: msg_to_op(1224): failed to
get the value of field lrm_opstatus from a ha_msg<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: msg_to_op: Message follows:<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG: Dumping message with 16
fields<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[0] : [lrm_t=op]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[1] : [lrm_rid=st-ibmrsa2]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[2] : [lrm_op=start]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[3] : [lrm_timeout=20000]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[4] : [lrm_interval=0]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[5] : [lrm_delay=0]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[6] : [lrm_copyparams=1]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[7] : [lrm_t_run=0]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[8] : [lrm_t_rcchange=0]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[9] : [lrm_exec_time=0]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[10] : [lrm_queue_time=0]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[11] : [lrm_targetrc=-1]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[12] : [lrm_app=crmd]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[13] :
[lrm_userdata=43:130:0:113d7b66-f090-46d5-bb11-a1782de6fa92]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[14] :
[(2)lrm_param=0x6525f0(148 182)]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG: Dumping message with 6
fields<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[0] :
[crm_feature_set=3.0.1]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[1] : [username=hacluster]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[2] : [nodename=node2]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[3] :
[CRM_meta_timeout=20000]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[4] :
[ip_address=192.168.1.13]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[5] : [password=Cluster]<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: MSG[15] : [lrm_callid=43]<br>
Apr  6 22:43:27 node1 cib: [8625]: info: write_cib_contents: Wrote
version 0.347.0 of the CIB to disk (digest:
a781b13afe33af0dee9384b257ba4955)<br>
Apr  6 22:43:27 node1 crmd: [2991]: info: do_lrm_invoke: Forcing a
local LRM refresh<br>
Apr  6 22:43:27 node1 openais[2887]: [crm  ] ERROR: route_ais_message:
Child 8626 spawned to record non-fatal assertion failure line 1297:
dest > 0 && dest < SIZEOF(pcmk_children)<br>
Apr  6 22:43:27 node1 openais[2887]: [crm  ] ERROR: route_ais_message:
Invalid destination: 0<br>
Apr  6 22:43:27 node1 openais[2887]: [MAIN ] Msg[135]
(dest=local:unknown, from=node4:crmd.4857, remote=true, size=852):
<create_request_adv origin="send_direct_ack" t="crmd"
version="3.0.1" subt="request" refer<br>
Apr  6 22:43:27 node1 cib: [8625]: info: retrieveCib: Reading cluster
configuration from: /var/lib/heartbeat/crm/cib.PeQ17d (digest:
/var/lib/heartbeat/crm/cib.rYQfMd)<br>
Apr  6 22:43:27 node1 mgmtd: [2992]: info: <font color="#cc0000">Delete
fail-count for st-ibmrsa2 from node4</font><br>
Apr  6 22:43:27 node1 cib: [8627]: info: write_cib_contents: Archived
previous version as /var/lib/heartbeat/crm/cib-24.raw<br>
Apr  6 22:43:28 node1 cib: [8627]: info: write_cib_contents: Wrote
version 0.348.0 of the CIB to disk (digest:
edfb5a292bbe7f6b9a7f2f7e8951401c)<br>
Apr  6 22:43:28 node1 cib: [8627]: info: retrieveCib: Reading cluster
configuration from: /var/lib/heartbeat/crm/cib.D2Mnak (digest:
/var/lib/heartbeat/crm/cib.X6bWXj)<br>
Apr  6 22:43:29 node1 stonithd: [8613]: info: <font color="#cc0000">external_run_cmd:
Calling '/usr/lib64/stonith/plugins/external/ibmrsa-telnet status'
returned 256</font><br>
Apr  6 22:43:29 node1 stonithd: [2986]: <font color="#cc0000"><b>WARN:
start st-ibmrsa2 failed, because its hostlist is empty</b></font><br>
Apr  6 22:43:29 node1 crmd: [2991]: info: <font color="#cc0000">process_lrm_event:
LRM operation st-ibmrsa2_start_0 (call=43, rc=1, cib-update=176,
confirmed=true) complete unknown error</font><br>
Apr  6 22:43:29 node1 crmd: [2991]: info: do_lrm_rsc_op: Performing
key=3:131:0:113d7b66-f090-46d5-bb11-a1782de6fa92 op=st-ibmrsa2_stop_0 )<br>
Apr  6 22:43:29 node1 lrmd: [2988]: info: rsc:st-ibmrsa2: stop<br>
Apr  6 22:43:29 node1 lrmd: [8628]: info: Try to stop STONITH resource
<rsc_id=st-ibmrsa2> : Device=external/ibmrsa-telnet<br>
Apr  6 22:43:29 node1 stonithd: [2986]: notice: try to stop a resource
st-ibmrsa2 who is not in started resource queue.<br>
Apr  6 22:43:29 node1 crmd: [2991]: info: process_lrm_event: LRM
operation st-ibmrsa2_stop_0 (call=44, rc=0, cib-update=177,
confirmed=true) complete ok<br>
Apr  6 22:43:29 node1 cib: [2987]: info: cib_process_xpath: Processing
cib_query op for
//cib/configuration/crm_config//nvpair[@name='last-lrm-refresh']
(/cib/configuration/crm_config/cluster_property_set/nvpair[3])<br>
Apr  6 22:43:29 node1 haclient: on_event:evt:cib_changed<br>
Apr  6 22:43:29 node1 haclient: on_event:evt:cib_changed<br>
Apr  6 22:43:29 node1 haclient: on_event:evt:cib_changed<br>
Apr  6 22:43:29 node1 haclient: on_event:evt:cib_changed<br>
Apr  6 22:43:29 node1 cib: [8630]: info: write_cib_contents: Archived
previous version as /var/lib/heartbeat/crm/cib-25.raw<br>
Apr  6 22:43:29 node1 haclient: on_event:evt:cib_changed<br>
Apr  6 22:43:29 node1 haclient: on_event:evt:cib_changed<br>
Apr  6 22:43:29 node1 haclient: on_event:evt:cib_changed<br>
Apr  6 22:43:29 node1 haclient: on_event:evt:cib_changed<br>
Apr  6 22:43:30 node1 cib: [8630]: info: write_cib_contents: Wrote
version 0.349.0 of the CIB to disk (digest:
6adc75d1d6ea221f66c3de30e73561ff)<br>
Apr  6 22:43:30 node1 cib: [8630]: info: retrieveCib: Reading cluster
configuration from: /var/lib/heartbeat/crm/cib.o8SqKq (digest:
/var/lib/heartbeat/crm/cib.shG0Iw)<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 haclient: on_event: from message queue:
evt:cib_changed<br>
Apr  6 22:43:30 node1 mgmtd: [2992]: info: CIB query: cib<br>
Apr  6 22:43:32 node1 haclient: on_event:evt:cib_changed</small><br>
<br>
<font color="#000099"><b>2)</b></font>should I clone the resources? Why<br>
<b><font color="#000099">3)</font></b>after running the 3 stonith
resources, the owner doesn't respect the location that I've specified
when created? Why<br>
<br>
This is the crm_mon output<font color="#009900"><small><br>
============<br>
Last updated: Tue Apr  6 22:50:22 2010<br>
Current DC: node2 (node2)<br>
Version: 1.0.2-ec6b0bbee1f3aa72c4c2559997e675db6ab39160<br>
4 Nodes configured.<br>
6 Resources configured.<br>
============<br>
<br>
Node: node2 (node2): online<br>
Node: node1 (node1): online<br>
Node: node3 (node3): online<br>
Node: node4 (node4): online<br>
<br>
Clone Set: dlm-clone<br>
    dlm:0       (ocf::pacemaker:controld):      Started node3<br>
    dlm:1       (ocf::pacemaker:controld):      Started node1<br>
    dlm:2       (ocf::pacemaker:controld):      Started node2<br>
    dlm:3       (ocf::pacemaker:controld):      Started node4<br>
Clone Set: o2cb-clone<br>
    o2cb:0      (ocf::ocfs2:o2cb):      Started node2<br>
    o2cb:1      (ocf::ocfs2:o2cb):      Started node4<br>
    o2cb:2      (ocf::ocfs2:o2cb):      Started node1<br>
    o2cb:3      (ocf::ocfs2:o2cb):      Started node3<br>
st-ibmrsa1      (stonith:external/ibmrsa-telnet):       Started node3<br>
st-ibmrsa3      (stonith:external/ibmrsa-telnet):       Started node2<br>
st-ibmrsa4      (stonith:external/ibmrsa-telnet):       Started node1<br>
<br>
Failed actions:<br>
    st-ibmrsa2_start_0 (node=node1, call=43, rc=1, status=complete):
unknown error<br>
    st-ibmrsa2_start_0 (node=node3, call=49, rc=1, status=complete):
unknown error<br>
    st-ibmrsa2_start_0 (node=node4, call=50, rc=1, status=complete):
unknown error</small></font><br>
<br>
Any idea to resolve it?<br>
Regards,<br>
Roberto.<br>
<div class="moz-signature"><br>
</div>
</body>
</html>