<div dir="ltr"><div>I'm fairly new to clustering under Linux.  I've basically have one shared storage resource  right now, using dlm, and gfs2.</div><div>I'm using fibre channel and when both of my nodes are up (2 node cluster) dlm and gfs2 seem to be operating perfectly.</div><div>If I reboot node B, node A works fine and vice-versa.</div><div><br></div><div>When node B goes offline unexpectedly, and become unclean, dlm seems to block all IO to the shared storage.</div><div><br></div><div>dlm knows node B is down:</div><div><br></div><div># dlm_tool status</div><div>cluster nodeid 1084772368 quorate 1 ring seq 32644 32644</div><div>daemon now 865695 fence_pid 18186</div><div>fence 1084772369 nodedown pid 18186 actor 1084772368 fail 1527119246 fence 0 now 1527119524</div><div>node 1084772368 M add 861439 rem 0 fail 0 fence 0 at 0 0</div><div>node 1084772369 X add 865239 rem 865416 fail 865416 fence 0 at 0 0</div><div><br></div><div>on the same server, I see these messages in my daemon.log</div><div>May 23 19:52:47 alpha stonith-api[18186]: stonith_api_kick: Could not kick (reboot) node 1084772369/(null) : No route to host (-113)</div><div>May 23 19:52:47 alpha dlm_stonith[18186]: kick_helper error -113 nodeid 1084772369</div><div><br></div><div>I can recover from the situation by forcing it (or bring the other node back online)</div><div>dlm_tool fence_ack 1084772369</div><div><br></div><div>cluster config is pretty straighforward.</div><div>node 1084772368: alpha</div><div>node 1084772369: beta</div><div>primitive p_dlm_controld ocf:pacemaker:controld \</div><div>        op monitor interval=60 timeout=60 \</div><div>        meta target-role=Started \</div><div>        params args="-K -L -s 1"</div><div>primitive p_fs_gfs2 Filesystem \</div><div>        params device="/dev/sdb2" directory="/vms" fstype=gfs2</div><div>primitive stonith_sbd stonith:external/sbd \</div><div>        params pcmk_delay_max=30 sbd_device="/dev/sdb1" \</div><div>        meta target-role=Started</div><div>group g_gfs2 p_dlm_controld p_fs_gfs2</div><div>clone cl_gfs2 g_gfs2 \</div><div>        meta interleave=true target-role=Started</div><div>location cli-prefer-cl_gfs2 cl_gfs2 role=Started inf: alpha</div><div>property cib-bootstrap-options: \</div><div>        have-watchdog=false \</div><div>        dc-version=1.1.16-94ff4df \</div><div>        cluster-infrastructure=corosync \</div><div>        cluster-name=zeta \</div><div>        last-lrm-refresh=1525523370 \</div><div>        stonith-enabled=true \</div><div>        stonith-timeout=20s</div><div><br></div><div><span style="white-space:pre">             </span></div><div>Any pointers would be appreciated. I feel like this should be working but I'm not sure if I've missed something.</div><div><br></div><div>Thanks,</div><div><br></div><div>Jason</div></div>