<div class="zcontentRow"> <p>Pacemaker 1.1.10</p><p>Corosync 2.3.3</p><p><br></p><p>this is a 3 nodes cluster configured with 3 clone resources, each attached wih a vip resource of IPAddr2:</p><p><br></p><p>>crm status</p><p><br></p><p>Online: [ paas-controller-1 paas-controller-2 paas-controller-3 ]</p><p><br></p><p> router_vip     (ocf::heartbeat:IPaddr2):       Started paas-controller-1 </p><p> sdclient_vip   (ocf::heartbeat:IPaddr2):       Started paas-controller-3 </p><p> apigateway_vip (ocf::heartbeat:IPaddr2):       Started paas-controller-2 </p><p> Clone Set: sdclient_rep [sdclient]</p><p>     Started: [ paas-controller-1 paas-controller-2 paas-controller-3 ]</p><p> Clone Set: router_rep [router]</p><p>     Started: [ paas-controller-1 paas-controller-2 paas-controller-3 ]</p><p> Clone Set: apigateway_rep [apigateway]</p><p>     Started: [ paas-controller-1 paas-controller-2 paas-controller-3 ]</p><p><br></p><p>It is observed that sometimes the clone resource is stuck to monitor when the service fails:</p><p><br></p><p> router_vip     (ocf::heartbeat:IPaddr2):       Started paas-controller-1 </p><p> sdclient_vip   (ocf::heartbeat:IPaddr2):       Started paas-controller-2 </p><p> apigateway_vip (ocf::heartbeat:IPaddr2):       Started paas-controller-3 </p><p> Clone Set: sdclient_rep [sdclient]</p><p>     Started: [ paas-controller-1 paas-controller-2 ]</p><p>     Stopped: [ paas-controller-3 ]</p><p> Clone Set: router_rep [router]</p><p>     router     (ocf::heartbeat:router):        Started paas-controller-3 FAILED </p><p>     Started: [ paas-controller-1 paas-controller-2 ]</p><p> Clone Set: apigateway_rep [apigateway]</p><p>     apigateway (ocf::heartbeat:apigateway):    Started paas-controller-3 FAILED </p><p>     Started: [ paas-controller-1 paas-controller-2 ]</p><p><br></p><p>in the example above. the <span style="line-height: 21px;">sdclient_rep get restarted on node 3, while the other two hang at monitoring on node 3, here are the ocf logs:</span></p><p><span style="line-height: 21px;"><br></span></p><p><span style="line-height: 21px;">abnormal (<span style="line-height: 21px;">apigateway_rep</span>):<br></span></p><p>2017-02-13 18:27:53 [23586]===print_log test_monitor run_func main=== Starting health check.</p><p>2017-02-13 18:27:53 [23586]===print_log test_monitor run_func main=== health check succeed.</p><p>2017-02-13 18:27:55 [24010]===print_log test_monitor run_func main=== Starting health check.</p><p>2017-02-13 18:27:55 [24010]===print_log test_monitor run_func main=== Failed: docker daemon is not running.</p><p>2017-02-13 18:27:57 [24095]===print_log test_monitor run_func main=== Starting health check.</p><p>2017-02-13 18:27:57 [24095]===print_log test_monitor run_func main=== Failed: docker daemon is not running.</p><p>2017-02-13 18:27:59 [24159]===print_log test_monitor run_func main=== Starting health check.</p><p>2017-02-13 18:27:59 [24159]===print_log test_monitor run_func main=== Failed: docker daemon is not running.</p><p><br></p><p>normal (<span style="line-height: 21px;">sdclient_rep</span>):</p><p>2017-02-13 18:27:52 [23507]===print_log sdclient_monitor run_func main=== health check succeed.</p><p>2017-02-13 18:27:54 [23630]===print_log sdclient_monitor run_func main=== Starting health check.</p><p>2017-02-13 18:27:54 [23630]===print_log sdclient_monitor run_func main=== Failed: docker daemon is not running.</p><p>2017-02-13 18:27:55 [23710]===print_log sdclient_stop run_func main=== Starting stop the container.</p><p>2017-02-13 18:27:55 [23710]===print_log sdclient_stop run_func main=== docker daemon lost, pretend stop succeed.</p><p>2017-02-13 18:27:55 [23763]===print_log sdclient_start run_func main=== Starting run the container.</p><p>2017-02-13 18:27:55 [23763]===print_log sdclient_start run_func main=== docker daemon lost, try again in 5 secs.</p><p>2017-02-13 18:28:00 [23763]===print_log sdclient_start run_func main=== docker daemon lost, try again in 5 secs.</p><p>2017-02-13 18:28:05 [23763]===print_log sdclient_start run_func main=== docker daemon lost, try again in 5 secs.</p><p><br></p><p>If I disable 2 clone resource, the switch over test for one clone resource works as expected: fail the service -> monitor fails -> stop -> start</p><p><br></p><p>Online: [ paas-controller-1 paas-controller-2 paas-controller-3 ]</p><p><br></p><p> sdclient_vip   (ocf::heartbeat:IPaddr2):       Started paas-controller-2 </p><p> Clone Set: sdclient_rep [sdclient]</p><p>     Started: [ paas-controller-1 paas-controller-2 ]</p><p>     Stopped: [ paas-controller-3 ]</p><p><br></p><p>what's the reason behind???? </p><p><br></p><p><br></p><p><br></p><p style="font-size: 7.0px; line-height: normal; widows: 1;"><span style="font-size:10px;color:#58595B;font-family:微软雅黑;font-size: 7.0px;"></span></p><span style="line-height: normal; widows: 1; font-size: 7.0px;;color:#58595b;font-size:10px"></span></div>