<div dir="ltr"><div>Hi,<br><br>i have two questions stated in the email's subject, but let me describe my system first.<br><br>I have a Lustre over infiniband setup constiting of mgs, mds, and two oss, each oss has two ost's, but the questions are not specific to Lustre.<br>Each server has two IPoIB interfaces which provide multipath redundancy to the SAN block devices.<br>I'm using the crm configuration generated by the make-lustre-crm-config.py script<br>available at <a href="https://github.com/gc3-uzh-ch/schroedinger-lustre-ha">https://github.com/gc3-uzh-ch/schroedinger-lustre-ha</a><br>After some changes (hostnames, IPs, and the fact that in my setup I have two IPoIB interfaces<br>instead of just one), the script creates the attached crm.txt.<br><br>I'm familiar with <a href="https://ourobengr.com/ha/">https://ourobengr.com/ha/</a> , which says:<br>"If a stop (umount of the Lustre filesystem in this case) fails,<br>the node will be fenced/STONITHd because this is the only safe thing to do".<br><br>I have a working STONITH, with corosync communicating over eth0 interface.<br>Let's take the example of server-02, which mounts Lustre's mdt.<br>The server-02 is powered-off if I disable the eth0 interface on it,<br>and mdt moves onto server-01 as expected.<br>However if instead both IPoIB interfaces go down on server-02,<br>the mdt is moved to server-01, but no STONITH is performed on server-02.<br>This is expected, because there is nothing in the configuration that triggers<br>STONITH in case of IB connection loss.<br>Hovever if IPoIB is flapping this setup could lead to mdt moving<br>back and forth between server-01 and server-02.<br>Should I have STONITH shutting down a node that misses both IpoIB<br>(remember they are passively redundant, only one active at a time) interfaces?<br>If so, how to achieve that?<br><br>The context for the second question: the configuration contains the following Filesystem template:<br><br>rsc_template lustre-target-template ocf:heartbeat:Filesystem \<br>  op monitor interval=120 timeout=60 OCF_CHECK_LEVEL=10 \<br>  op start   interval=0   timeout=300 on-fail=fence \<br>  op stop    interval=0   timeout=300 on-fail=fence<br><br>How can I make umount/mount of Filesystem fail in order to test STONITH action in these cases?<br><br>Extra question: where can I find the documentation/source what on-fail=fence is doing?<br>Or what does it mean on-fail=stop in the ethmonitor template below (what is stopped?)?<br><br>rsc_template netmonitor-30sec ethmonitor \<br>  params repeat_count=3 repeat_interval=10 \<br>  op monitor interval=15s timeout=60s \<br>  op start   interval=0s  timeout=60s on-fail=stop \<br><br></div>Marcin<br></div>