<div class="zcontentRow"> <p>Hi,</p><p><br></p><p>> crm configure show</p><p>+ crm configure show</p><p>node $id="336855579" paas-controller-1</p><p>node $id="336855580" paas-controller-2</p><p>node $id="336855581" paas-controller-3</p><p>primitive apigateway ocf:heartbeat:apigateway \</p><p>        op monitor interval="2s" timeout="20s" on-fail="restart" \</p><p>        op stop interval="0" timeout="200s" on-fail="restart" \</p><p>        op start interval="0" timeout="9999h" on-fail="restart"</p><p>primitive apigateway_vip ocf:heartbeat:IPaddr2 \</p><p>        params ip="20.20.2.7" cidr_netmask="24" \</p><p>        op start interval="0" timeout="20" \</p><p>        op stop interval="0" timeout="20" \</p><p>        op monitor timeout="20s" interval="2s" depth="0"</p><p>primitive router ocf:heartbeat:router \</p><p>        op monitor interval="2s" timeout="20s" on-fail="restart" \</p><p>        op stop interval="0" timeout="200s" on-fail="restart" \</p><p>        op start interval="0" timeout="9999h" on-fail="restart"</p><p>primitive router_vip ocf:heartbeat:IPaddr2 \</p><p>        params ip="10.10.1.7" cidr_netmask="24" \</p><p>        op start interval="0" timeout="20" \</p><p>        op stop interval="0" timeout="20" \</p><p>        op monitor timeout="20s" interval="2s" depth="0"</p><p>primitive sdclient ocf:heartbeat:sdclient \</p><p>        op monitor interval="2s" timeout="20s" on-fail="restart" \</p><p>        op stop interval="0" timeout="200s" on-fail="restart" \</p><p>        op start interval="0" timeout="9999h" on-fail="restart"</p><p>primitive sdclient_vip ocf:heartbeat:IPaddr2 \</p><p>        params ip="10.10.1.8" cidr_netmask="24" \</p><p>        op start interval="0" timeout="20" \</p><p>        op stop interval="0" timeout="20" \</p><p>        op monitor timeout="20s" interval="2s" depth="0"</p><p>clone apigateway_rep apigateway</p><p>clone router_rep router</p><p>clone sdclient_rep sdclient</p><p>location apigateway_loc apigateway_vip \</p><p>        rule $id="apigateway_loc-rule" +inf: apigateway_workable eq 1</p><p>location router_loc router_vip \</p><p>        rule $id="router_loc-rule" +inf: router_workable eq 1</p><p>location sdclient_loc sdclient_vip \</p><p>        rule $id="sdclient_loc-rule" +inf: sdclient_workable eq 1</p><p>property $id="cib-bootstrap-options" \</p><p>        dc-version="1.1.10-42f2063" \</p><p>        cluster-infrastructure="corosync" \</p><p>        stonith-enabled="false" \</p><p>        no-quorum-policy="ignore" \</p><p>        start-failure-is-fatal="false" \</p><p>        last-lrm-refresh="1486981647"</p><p>op_defaults $id="op_defaults-options" \</p><p>        on-fail="restart"</p><p>-------------------------------------------------------------------------------------------------</p><p><br></p><p>and B.T.W, I am using "crm_attribute -N $HOSTNAME -q -l reboot --name <prefix>_workable -v <1 or 0>" in the monitor to update the transient attributes, which control the vip location.</p><p>and also found, the vip resource won't get moved if the related clone resource failed to restart.</p><p style="font-family: 宋体; font-size: medium; line-height: normal; widows: 1;"><br></p><span style="line-height: normal; widows: 1; font-size: 7.0px;;color:#58595b;font-size:10px"></span><div><div class="zhistoryRow" style="display:block"><div class="zhistoryDes" style="width: 100%; height: 28px; line-height: 28px; background-color: #E0E5E9; color: #1388FF; text-align: center;" language-data="HistoryOrgTxt">原始邮件</div><div id="zwriteHistoryContainer"><div class="control-group zhistoryPanel"><div class="zhistoryHeader" style="padding: 8px; background-color: #F5F6F8;"><div><strong language-data="HistorySenderTxt">发件人:</strong><span class="zreadUserName"> <kgaillot@redhat.com>;</span></div><div><strong language-data="HistoryTOTxt">收件人:</strong><span class="zreadUserName" style="display: inline-block;"> <users@clusterlabs.org>;</span></div><div><strong language-data="HistoryDateTxt">日 期 :</strong><span class="">2017年02月13日 23:04</span></div><div><strong language-data="HistorySubjectTxt">主 题 :</strong><span class="zreadTitle"><strong>Re: [ClusterLabs] clone resource not get restarted on fail</strong></span></div></div><p class="zhistoryContent"><br></p><div>On 02/13/2017 07:57 AM, he.hailong5@zte.com.cn wrote:<br>> Pacemaker 1.1.10<br>> <br>> Corosync 2.3.3<br>> <br>> <br>> this is a 3 nodes cluster configured with 3 clone resources, each<br>> attached wih a vip resource of IPAddr2:<br>> <br>> <br>> >crm status<br>> <br>> <br>> Online: [ paas-controller-1 paas-controller-2 paas-controller-3 ]<br>> <br>> <br>>  router_vip     (ocf::heartbeat:IPaddr2):       Started paas-controller-1 <br>> <br>>  sdclient_vip   (ocf::heartbeat:IPaddr2):       Started paas-controller-3 <br>> <br>>  apigateway_vip (ocf::heartbeat:IPaddr2):       Started paas-controller-2 <br>> <br>>  Clone Set: sdclient_rep [sdclient]<br>> <br>>      Started: [ paas-controller-1 paas-controller-2 paas-controller-3 ]<br>> <br>>  Clone Set: router_rep [router]<br>> <br>>      Started: [ paas-controller-1 paas-controller-2 paas-controller-3 ]<br>> <br>>  Clone Set: apigateway_rep [apigateway]<br>> <br>>      Started: [ paas-controller-1 paas-controller-2 paas-controller-3 ]<br>> <br>> <br>> It is observed that sometimes the clone resource is stuck to monitor<br>> when the service fails:<br>> <br>> <br>>  router_vip     (ocf::heartbeat:IPaddr2):       Started paas-controller-1 <br>> <br>>  sdclient_vip   (ocf::heartbeat:IPaddr2):       Started paas-controller-2 <br>> <br>>  apigateway_vip (ocf::heartbeat:IPaddr2):       Started paas-controller-3 <br>> <br>>  Clone Set: sdclient_rep [sdclient]<br>> <br>>      Started: [ paas-controller-1 paas-controller-2 ]<br>> <br>>      Stopped: [ paas-controller-3 ]<br>> <br>>  Clone Set: router_rep [router]<br>> <br>>      router     (ocf::heartbeat:router):        Started<br>> paas-controller-3 FAILED <br>> <br>>      Started: [ paas-controller-1 paas-controller-2 ]<br>> <br>>  Clone Set: apigateway_rep [apigateway]<br>> <br>>      apigateway (ocf::heartbeat:apigateway):    Started<br>> paas-controller-3 FAILED <br>> <br>>      Started: [ paas-controller-1 paas-controller-2 ]<br>> <br>> <br>> in the example above. the sdclient_rep get restarted on node 3, while<br>> the other two hang at monitoring on node 3, here are the ocf logs:<br>> <br>> <br>> abnormal (apigateway_rep):<br>> <br>> 2017-02-13 18:27:53 [23586]===print_log test_monitor run_func main===<br>> Starting health check.<br>> <br>> 2017-02-13 18:27:53 [23586]===print_log test_monitor run_func main===<br>> health check succeed.<br>> <br>> 2017-02-13 18:27:55 [24010]===print_log test_monitor run_func main===<br>> Starting health check.<br>> <br>> 2017-02-13 18:27:55 [24010]===print_log test_monitor run_func main===<br>> Failed: docker daemon is not running.<br>> <br>> 2017-02-13 18:27:57 [24095]===print_log test_monitor run_func main===<br>> Starting health check.<br>> <br>> 2017-02-13 18:27:57 [24095]===print_log test_monitor run_func main===<br>> Failed: docker daemon is not running.<br>> <br>> 2017-02-13 18:27:59 [24159]===print_log test_monitor run_func main===<br>> Starting health check.<br>> <br>> 2017-02-13 18:27:59 [24159]===print_log test_monitor run_func main===<br>> Failed: docker daemon is not running.<br>> <br>> <br>> normal (sdclient_rep):<br>> <br>> 2017-02-13 18:27:52 [23507]===print_log sdclient_monitor run_func<br>> main=== health check succeed.<br>> <br>> 2017-02-13 18:27:54 [23630]===print_log sdclient_monitor run_func<br>> main=== Starting health check.<br>> <br>> 2017-02-13 18:27:54 [23630]===print_log sdclient_monitor run_func<br>> main=== Failed: docker daemon is not running.<br>> <br>> 2017-02-13 18:27:55 [23710]===print_log sdclient_stop run_func main===<br>> Starting stop the container.<br>> <br>> 2017-02-13 18:27:55 [23710]===print_log sdclient_stop run_func main===<br>> docker daemon lost, pretend stop succeed.<br>> <br>> 2017-02-13 18:27:55 [23763]===print_log sdclient_start run_func main===<br>> Starting run the container.<br>> <br>> 2017-02-13 18:27:55 [23763]===print_log sdclient_start run_func main===<br>> docker daemon lost, try again in 5 secs.<br>> <br>> 2017-02-13 18:28:00 [23763]===print_log sdclient_start run_func main===<br>> docker daemon lost, try again in 5 secs.<br>> <br>> 2017-02-13 18:28:05 [23763]===print_log sdclient_start run_func main===<br>> docker daemon lost, try again in 5 secs.<br>> <br>> <br>> If I disable 2 clone resource, the switch over test for one clone<br>> resource works as expected: fail the service -> monitor fails -> stop<br>> -> start<br>> <br>> <br>> Online: [ paas-controller-1 paas-controller-2 paas-controller-3 ]<br>> <br>> <br>>  sdclient_vip   (ocf::heartbeat:IPaddr2):       Started paas-controller-2 <br>> <br>>  Clone Set: sdclient_rep [sdclient]<br>> <br>>      Started: [ paas-controller-1 paas-controller-2 ]<br>> <br>>      Stopped: [ paas-controller-3 ]<br>> <br>> <br>> what's the reason behind???? <br><br>Can you show the configuration of the three clones, their operations,<br>and any constraints?<br><br>Normally, the response is controlled by the monitor operation's on-fail<br>attribute (which defaults to restart).<br><br><br>_______________________________________________<br>Users mailing list: Users@clusterlabs.org<br>http://lists.clusterlabs.org/mailman/listinfo/users<br><br>Project Home: http://www.clusterlabs.org<br>Getting started: http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf<br>Bugs: http://bugs.clusterlabs.org<br></div><p><br></p></div></div></div></div><p><br></p> </div>