<p>hi:<br />          Hope you everything goes well.<br /><br />          I have problems with DRBD+dlm+gfs in pacemaker.<br /><br />          I follow this doc:http://www.clusterlabs.org/doc/en-US/Pacemaker/1.1/html/Clusters_from_Scratch/index.html  to make a DRBD-GFS2 cluster<br /><br />          When I run DRBD(two primaries)+dlm+gfs+Filesystem, node-c hangs and reboot.<br /><br />          Then I run DRBD(two primaries)+dlm+gfs , it does well, running on both nodes;<br /><br />           And then, I "mount -t gfs2 /dev/drbd0 /mnt" on node-b, it's ok;<br /><br />           BUT, when I run command "mount -t gfs2 /dev/drbd0 /mnt" on node-c, node-c hangs and reboot. No err log on stderr. <br /><br />           Once again, I do this on node-c firstly, it's ok; then on node-b, it hangs and reboot!<br /><br />#################################################################<br />$ crm configure show<br /><br />node ha-b<br />node ha-c<br />primitive dlm ocf:pacemaker:controld \<br />    operations $id="dlm-operations" \<br />    op monitor interval="10" timeout="20" start-delay="0" \<br />    params args="-L -K -P -q 0 "<br />primitive drbd ocf:linbit:drbd \<br />    operations $id="drbd-operations" \<br />    op monitor interval="20" role="Slave" timeout="20" \<br />    op monitor interval="10" role="Master" timeout="20" \<br />    params drbd_resource="drbd0"<br />primitive gfs ocf:pacemaker:controld \<br />    operations $id="gfs-operations" \<br />    op monitor interval="10" timeout="20" start-delay="0" \<br />    params daemon="gfs_controld.pcmk" args="-L -P -g 0"<br />group groups dlm gfs<br />ms ms-drbd drbd \<br />    meta master-max="2" notify="true" target-role="Started"<br />clone clone-set groups \<br />    meta interleave="true" target-role="Started"<br />colocation clone-on-drbd inf: clone-set:Started ms-drbd:Master<br />order clone-after-drbd inf: ms-drbd:promote clone-set:start symmetrical=true<br />property $id="cib-bootstrap-options" \<br />    dc-version="1.1.6-1.el6-9971ebba4494012a93c03b40a2c58ec0eb60f50c" \<br />    cluster-infrastructure="openais" \<br />    expected-quorum-votes="2" \<br />    no-quorum-policy="ignore" \<br />    stonith-enabled="false"<br />##########################################################################<br /><br /><br />gfs_controld.log on ha-b<br />##########################################################################<br />[root@ha-b ~]# cat /var/log/cluster/gfs_controld.log<br /><br />Sep 22 09:08:13 gfs_controld gfs_controld 3.0.12 started<br />Sep 22 09:08:13 gfs_controld Connected as node 3393650954 to cluster 'cs2c'<br />Sep 22 09:08:13 gfs_controld logging mode 3 syslog f 160 p 6 logfile p 7 /var/log/cluster/gfs_controld.log<br />Sep 22 09:08:13 gfs_controld group_mode 3 compat 0<br />Sep 22 09:08:13 gfs_controld setup_cpg_daemon 11<br />Sep 22 09:08:13 gfs_controld gfs:controld conf 1 1 0 memb -901316342 join -901316342 left<br />Sep 22 09:08:13 gfs_controld set_protocol member_count 1 propose daemon 1.1.1 kernel 1.1.1<br />Sep 22 09:08:13 gfs_controld run protocol from nodeid -901316342<br />Sep 22 09:08:13 gfs_controld daemon run 1.1.1 max 1.1.1 kernel run 1.1.1 max 1.1.1<br />Sep 22 09:08:14 gfs_controld gfs:controld conf 2 1 0 memb -901316342 -884539126 join -884539126 left<br />Sep 22 09:11:57 gfs_controld client connection 5 fd 14<br />Sep 22 09:11:57 gfs_controld join: /mnt gfs2 lock_dlm cs2c:liang rw /dev/drbd0<br />Sep 22 09:11:57 gfs_controld liang join: cluster name matches: cs2c<br />Sep 22 09:11:57 gfs_controld liang process_dlmcontrol register 0<br />Sep 22 09:11:57 gfs_controld gfs:mount:liang conf 1 1 0 memb -901316342 join -901316342 left<br />Sep 22 09:11:57 gfs_controld liang add_change cg 1 joined nodeid -901316342<br />Sep 22 09:11:57 gfs_controld liang add_change cg 1 we joined<br />Sep 22 09:11:57 gfs_controld liang add_change cg 1 counts member 1 joined 1 remove 0 failed 0<br />Sep 22 09:11:57 gfs_controld liang wait_conditions skip for zero started_count<br />Sep 22 09:11:57 gfs_controld liang send_start cg 1 id_count 1 om 0 nm 1 oj 0 nj 0<br />Sep 22 09:11:57 gfs_controld liang receive_start -901316342:1 len 92<br />Sep 22 09:11:57 gfs_controld liang match_change -901316342:1 matches cg 1<br />Sep 22 09:11:57 gfs_controld liang wait_messages cg 1 got all 1<br />Sep 22 09:11:57 gfs_controld liang pick_first_recovery_master low -901316342 old 0<br />Sep 22 09:11:57 gfs_controld liang sync_state all_nodes_new first_recovery_needed master -901316342<br />Sep 22 09:11:57 gfs_controld liang create_old_nodes all new<br />Sep 22 09:11:57 gfs_controld liang create_new_nodes -901316342 ro 0 spect 0<br />Sep 22 09:11:57 gfs_controld liang create_failed_journals all new<br />Sep 22 09:11:57 gfs_controld liang apply_recovery first start_kernel<br />Sep 22 09:11:57 gfs_controld liang start_kernel cg 1 member_count 1<br />Sep 22 09:11:57 gfs_controld liang set /sys/fs/gfs2/cs2c:liang/lock_module/block to 0<br />Sep 22 09:11:57 gfs_controld liang set open /sys/fs/gfs2/cs2c:liang/lock_module/block error -1 2<br />Sep 22 09:11:57 gfs_controld liang client_reply_join_full ci 5 result 0 hostdata=jid=0:id=915250580:first=1<br />Sep 22 09:11:57 gfs_controld client_reply_join liang ci 5 result 0<br />Sep 22 09:11:57 gfs_controld uevent add gfs2 /fs/gfs2/cs2c:liang<br />Sep 22 09:11:57 gfs_controld liang ping_kernel_mount 0<br />Sep 22 09:11:57 gfs_controld uevent change gfs2 /fs/gfs2/cs2c:liang<br />Sep 22 09:11:57 gfs_controld liang recovery_uevent jid 0 first recovery done 0<br />Sep 22 09:11:57 gfs_controld uevent change gfs2 /fs/gfs2/cs2c:liang<br />Sep 22 09:11:57 gfs_controld liang recovery_uevent jid 1 first recovery done 0<br />Sep 22 09:11:57 gfs_controld uevent change gfs2 /fs/gfs2/cs2c:liang<br />Sep 22 09:11:57 gfs_controld liang recovery_uevent jid 1 first recovery done 0<br />Sep 22 09:11:57 gfs_controld liang recovery_uevent first_done<br />Sep 22 09:11:57 gfs_controld liang receive_first_recovery_done from -901316342 master -901316342 mount_client_notified 1<br />Sep 22 09:11:57 gfs_controld liang wait_recoveries done<br />Sep 22 09:11:57 gfs_controld uevent online gfs2 /fs/gfs2/cs2c:liang<br />Sep 22 09:11:57 gfs_controld liang ping_kernel_mount 0<br />Sep 22 09:11:57 gfs_controld mount_done: liang result 0<br />Sep 22 09:11:57 gfs_controld connection 5 read error -1<br />Sep 22 09:11:57 gfs_controld liang receive_mount_done from -901316342 result 0<br />Sep 22 09:11:57 gfs_controld liang wait_recoveries done<br />Sep 22 09:12:37 gfs_controld uevent remove gfs2 /fs/gfs2/cs2c:liang<br />Sep 22 09:12:37 gfs_controld do_leave liang mnterr 0<br />Sep 22 09:12:37 gfs_controld gfs:mount:liang conf 0 0 1 memb join left -901316342<br />Sep 22 09:12:37 gfs_controld liang confchg for our leave<br />##########################################################################<br /><br /><br />gfs_controld.log on ha-c<br />##########################################################################<br />[root@ha-c ~]# cat /var/log/cluster/gfs_controld.log<br /><br />Sep 22 08:52:12 gfs_controld gfs_controld 3.0.12 started<br />Sep 22 08:52:12 gfs_controld Connected as node 3410428170 to cluster 'cs2c'<br />Sep 22 08:52:12 gfs_controld logging mode 3 syslog f 160 p 6 logfile p 7 /var/log/cluster/gfs_controld.log<br />Sep 22 08:52:12 gfs_controld group_mode 3 compat 0<br />Sep 22 08:52:12 gfs_controld setup_cpg_daemon 11<br />Sep 22 08:52:12 gfs_controld gfs:controld conf 2 1 0 memb -901316342 -884539126 join -884539126 left<br />Sep 22 08:52:12 gfs_controld run protocol from nodeid -901316342<br />Sep 22 08:52:12 gfs_controld daemon run 1.1.1 max 1.1.1 kernel run 1.1.1 max 1.1.1<br />Sep 22 08:56:52 gfs_controld client connection 5 fd 14<br />Sep 22 08:56:52 gfs_controld join: /mnt gfs2 lock_dlm cs2c:liang rw /dev/drbd0<br />Sep 22 08:56:52 gfs_controld liang join: cluster name matches: cs2c<br />Sep 22 08:56:52 gfs_controld liang process_dlmcontrol register 0<br />Sep 22 08:56:52 gfs_controld gfs:mount:liang conf 1 1 0 memb -884539126 join -884539126 left<br />Sep 22 08:56:52 gfs_controld liang add_change cg 1 joined nodeid -884539126<br />Sep 22 08:56:52 gfs_controld liang add_change cg 1 we joined<br />Sep 22 08:56:52 gfs_controld liang add_change cg 1 counts member 1 joined 1 remove 0 failed 0<br />Sep 22 08:56:52 gfs_controld liang wait_conditions skip for zero started_count<br />Sep 22 08:56:52 gfs_controld liang send_start cg 1 id_count 1 om 0 nm 1 oj 0 nj 0<br />Sep 22 08:56:52 gfs_controld liang receive_start -884539126:1 len 92<br />Sep 22 08:56:52 gfs_controld liang match_change -884539126:1 matches cg 1<br />Sep 22 08:56:52 gfs_controld liang wait_messages cg 1 got all 1<br />Sep 22 08:56:52 gfs_controld liang pick_first_recovery_master low -884539126 old 0<br />Sep 22 08:56:52 gfs_controld liang sync_state all_nodes_new first_recovery_needed master -884539126<br />Sep 22 08:56:52 gfs_controld liang create_old_nodes all new<br />Sep 22 08:56:52 gfs_controld liang create_new_nodes -884539126 ro 0 spect 0<br />Sep 22 08:56:52 gfs_controld liang create_failed_journals all new<br />Sep 22 08:56:52 gfs_controld liang apply_recovery first start_kernel<br />Sep 22 08:56:52 gfs_controld liang start_kernel cg 1 member_count 1<br />Sep 22 08:56:52 gfs_controld liang set /sys/fs/gfs2/cs2c:liang/lock_module/block to 0<br />Sep 22 08:56:52 gfs_controld liang set open /sys/fs/gfs2/cs2c:liang/lock_module/block error -1 2<br />Sep 22 08:56:52 gfs_controld liang client_reply_join_full ci 5 result 0 hostdata=jid=0:id=915250580:first=1<br />Sep 22 08:56:52 gfs_controld client_reply_join liang ci 5 result 0<br />Sep 22 08:56:53 gfs_controld uevent add gfs2 /fs/gfs2/cs2c:liang<br />Sep 22 08:56:53 gfs_controld liang ping_kernel_mount 0<br />Sep 22 08:56:53 gfs_controld uevent change gfs2 /fs/gfs2/cs2c:liang<br />Sep 22 08:56:53 gfs_controld liang recovery_uevent jid 0 first recovery done 0<br />Sep 22 08:56:53 gfs_controld uevent change gfs2 /fs/gfs2/cs2c:liang<br />Sep 22 08:56:53 gfs_controld liang recovery_uevent jid 1 first recovery done 0<br />Sep 22 08:56:53 gfs_controld uevent change gfs2 /fs/gfs2/cs2c:liang<br />Sep 22 08:56:53 gfs_controld liang recovery_uevent jid 1 first recovery done 0<br />Sep 22 08:56:53 gfs_controld liang recovery_uevent first_done<br />Sep 22 08:56:53 gfs_controld liang receive_first_recovery_done from -884539126 master -884539126 mount_client_notified 1<br />Sep 22 08:56:53 gfs_controld liang wait_recoveries done<br />Sep 22 08:56:53 gfs_controld uevent online gfs2 /fs/gfs2/cs2c:liang<br />Sep 22 08:56:53 gfs_controld liang ping_kernel_mount 0<br />Sep 22 08:56:53 gfs_controld mount_done: liang result 0<br />Sep 22 08:56:53 gfs_controld connection 5 read error -1<br />Sep 22 08:56:53 gfs_controld liang receive_mount_done from -884539126 result 0<br />Sep 22 08:56:53 gfs_controld liang wait_recoveries done<br />Sep 22 08:57:17 gfs_controld gfs:mount:liang conf 2 1 0 memb -901316342 -884539126 join -901316342 left<br />Sep 22 08:57:17 gfs_controld liang add_change cg 2 joined nodeid -901316342<br />Sep 22 08:57:17 gfs_controld liang add_change cg 2 counts member 2 joined 1 remove 0 failed 0<br />Sep 22 08:57:17 gfs_controld liang wait_conditions skip for zero journals_need_recovery<br />Sep 22 08:57:17 gfs_controld liang send_start cg 2 id_count 2 om 1 nm 1 oj 0 nj 0<br />Sep 22 08:57:17 gfs_controld liang receive_start -901316342:1 len 104<br />Sep 22 08:57:17 gfs_controld liang match_change -901316342:1 matches cg 2<br />Sep 22 08:57:17 gfs_controld liang wait_messages cg 2 need 1 of 2<br />Sep 22 08:57:17 gfs_controld liang receive_start -884539126:2 len 104<br />Sep 22 08:57:17 gfs_controld liang match_change -884539126:2 matches cg 2<br />Sep 22 08:57:17 gfs_controld liang wait_messages cg 2 got all 2<br />Sep 22 08:57:17 gfs_controld liang sync_state first_recovery_msg<br />Sep 22 08:57:17 gfs_controld liang create_new_nodes -901316342 ro 0 spect 0<br />Sep 22 08:57:17 gfs_controld liang wait_recoveries done<br />Sep 22 08:57:22 gfs_controld gfs:controld conf 1 0 1 memb -884539126 join left -901316342<br />Sep 22 08:57:22 gfs_controld gfs:mount:liang conf 1 0 1 memb -884539126 join left -901316342<br />Sep 22 08:57:22 gfs_controld liang add_change cg 3 remove nodeid -901316342 reason 3<br />Sep 22 08:57:22 gfs_controld liang add_change cg 3 counts member 1 joined 0 remove 1 failed 1<br />Sep 22 08:57:22 gfs_controld liang stop_kernel<br />Sep 22 08:57:22 gfs_controld liang set /sys/fs/gfs2/cs2c:liang/lock_module/block to 1<br />Sep 22 08:57:22 gfs_controld liang check_dlm_notify nodeid -901316342 begin<br />Sep 22 08:57:22 gfs_controld liang process_dlmcontrol notified nodeid -901316342 result 0<br />Sep 22 08:57:22 gfs_controld liang check_dlm_notify done<br />Sep 22 08:57:22 gfs_controld liang send_start cg 3 id_count 1 om 1 nm 0 oj 0 nj 0<br />Sep 22 08:57:22 gfs_controld liang receive_start -884539126:3 len 92<br />Sep 22 08:57:22 gfs_controld liang match_change -884539126:3 matches cg 3<br />Sep 22 08:57:22 gfs_controld liang wait_messages cg 3 got all 1<br />Sep 22 08:57:22 gfs_controld liang sync_state first_recovery_msg<br />Sep 22 08:57:22 gfs_controld liang set_failed_journals no journal for nodeid -901316342 <br />Sep 22 08:57:22 gfs_controld liang wait_recoveries done<br />Sep 22 08:57:22 gfs_controld liang apply_recovery start_kernel<br />Sep 22 08:57:22 gfs_controld liang start_kernel cg 3 member_count 1<br />Sep 22 08:57:22 gfs_controld liang set /sys/fs/gfs2/cs2c:liang/lock_module/block to 0<br />##########################################################################<br /><br />    My experimental environment:<br />    <br />        2 PC <br />            node-b <br />            node-c<br /><br />        Both OS are RHEL6.1X64<br /><br />        RPMS:<br />            pacemaker-cli-1.1.6-1.el6.x86_64<br />            pacemaker-doc-1.1.6-1.el6.x86_64<br />            pacemaker-libs-1.1.6-1.el6.x86_64<br />            pacemaker-1.1.6-1.el6.x86_64<br />            pacemaker-cts-1.1.6-1.el6.x86_64<br />            pacemaker-libs-devel-1.1.6-1.el6.x86_64<br /><br />            corosynclib-1.4.1-1.x86_64<br />            corosync-1.4.1-1.x86_64<br />            corosynclib-devel-1.4.1-1.x86_64<br /><br />            resource-agents-3.9.2-1.x86_64<br /><br />            cluster-glue-libs-devel-1.0.7-1.el6.x86_64<br />            cluster-glue-libs-1.0.7-1.el6.x86_64<br />            cluster-glue-1.0.7-1.el6.x86_64<br /><br />            openais-1.1.1-7.el6.x86_64<br />            openaislib-1.1.1-7.el6.x86_64<br /><br />            dlm-pcmk-3.0.12-23.el6_0.6.x86_64<br /><br />            gfs-pcmk-3.0.12-23.el6_0.6.x86_64<br />            gfs2-utils-3.0.12-41.el6.x86_64<br /><br />            clusterlib-3.0.12-41.el6.x86_64<br /><br />            drbd-udev-8.4.0-1.el6.x86_64<br />            drbd-8.4.0-1.el6.x86_64<br />            drbd-utils-8.4.0-1.el6.x86_64<br />            drbd-heartbeat-8.4.0-1.el6.x86_64<br />            drbd-pacemaker-8.4.0-1.el6.x86_64<br />            drbd-bash-completion-8.4.0-1.el6.x86_64<br />            drbd-xen-8.4.0-1.el6.x86_64<br />            drbd-km-2.6.32_131.0.15.el6.x86_64-8.4.0-1.el6.x86_64<br />            drbd-kernel-8.4.0-1.el6.x86_64<br /><br />    My conf:<br />        $ cat /etc/corosync/corosync.conf<br /><br />        compatibility: whitetank<br /><br />        totem {<br />            version: 2<br />            secauth: off<br />            threads: 0<br />            rrp_mode: passive<br />            interface {<br />                ringnumber: 0<br />                bindnetaddr: 10.1.71.0<br />                mcastaddr: 235.3.4.5<br />                mcastport: 9876<br />            }<br /><br />            interface {<br />                ringnumber: 1<br />                bindnetaddr: 10.10.10.0<br />                mcastaddr: 235.3.4.6<br />                mcastport: 9877<br />            }<br />        }<br /><br />        logging {<br />            fileline: off<br />            to_stderr: no<br />            to_logfile: yes<br />            to_syslog: yes<br />            logfile: /var/log/cluster/corosync.log<br />            debug: off<br />            timestamp: on<br />            logger_subsys {<br />            subsys: AMF<br />            debug: off<br />            }<br />        }<br /><br />        amf {<br />            mode: disabled<br />        }<br /><br />        service {<br />            name: pacemaker<br />            var: 0<br />            use_logd: yes<br />            use_mgmtd: yes<br />            clustername: cs2c<br />        }</p>
<p> </p>