HI,<br><br>Your configuration is straightforward, nothing out of the ordinary.<br><br>Make sure that when your other box comes up from offline, syslog-ng is started before corosync. Because it appears that when you kill all the process and restart by that time syslog-ng has started and everything comes up properly.<br>

<br>Your resource will migrate back because there is no reason for it to to stick there i.e. resource-stickiness.<br><br>You might want to look into how to get resource stickiness which may mean enhancing your config a little more than what you have now. Configuration manual explains it very nicely.<br>

<br>There is a tool called ptest you can use it to get the scores which determines the stickiness for e.g. you can experiment with different resource-stickiness values and then do<div><br></div><div>ptest -sL  to look at the score.</div>
<div><br></div><div>You will have to go a bit deeper than your vanilla config to understand and also read the manual.<br><br></div><div><br></div><div>Thanks<br>-Shravan<br><br><br>O n Thu, Dec 23, 2010 at 6:12 PM, Daniel Bareiro <<a href="mailto:daniel-listas@gmx.net" target="_blank">daniel-listas@gmx.net</a>> wrote:<br>
> On Wednesday, 22 December 2010 08:29:02 -0500,<br>
> Shravan Mishra wrote:<br>><br>>> Hi,<br>><br>> Hi, Shravan.<br>><br>>> What's happening is that corosync is forking but the exec is not<br>>> happening.<br>><br>> And do you think that what is shown in the logs is consistent with what<br>

> is shown using ps?<br>><br>>> I used to see this problem in my case when syslog-ng process was not<br>>> running.<br>>><br>>> Try checking that and starting it and then start corosync.<br>
><br>
> Now I see that if I do a shutdown of the node that has the resource<br>> (failover-ip), then this does not migrate to another node. By doing the<br>> test I made sure Pacemaker + Corosync are functioning correctly on both<br>

> nodes before doing a shutdown of Atlantis.<br>><br>> Before making a shutdown of Atlantis:<br>><br>> -----------------------------------------------------------------------<br>> daedalus:~# crm_mon --one-shot<br>

> ============<br>> Last updated: Thu Dec 23 19:24:09 2010<br>> Stack: openais<br>> Current DC: atlantis - partition with quorum<br>> Version: 1.0.9-74392a28b7f31d7ddc86689598bd23114f58978b<br>> 2 Nodes configured, 2 expected votes<br>

> 1 Resources configured.<br>> ============<br>><br>> Online: [ atlantis daedalus ]<br>><br>>  failover-ip    (ocf::heartbeat:IPaddr):        Started atlantis<br>> -----------------------------------------------------------------------<br>

><br>> After doing a shutdown of Atlantis:<br>><br>> -----------------------------------------------------------------------<br>> daedalus:~# crm_mon --one-shot<br>> ============<br>> Last updated: Thu Dec 23 19:25:44 2010<br>

> Stack: openais<br>> Current DC: daedalus - partition WITHOUT quorum<br>> Version: 1.0.9-74392a28b7f31d7ddc86689598bd23114f58978b<br>> 2 Nodes configured, 2 expected votes<br>> 1 Resources configured.<br>
> ============<br>
><br>> Online: [ daedalus ]<br>> OFFLINE: [ atlantis ]<br>> -----------------------------------------------------------------------<br>><br>> Here I'm using a configuration like the one presented in the wiki [1].<br>

><br>> I am also noting that after the Atlantis launch, corosync makes the fork<br>> without exec (as we assume from what I showed in the previous mail) and<br>> only now is when the resource migrates to Daedalus:<br>

><br>> -----------------------------------------------------------------------<br>> daedalus:~# crm_mon --one-shot<br>> ============<br>> Last updated: Thu Dec 23 19:49:11 2010<br>> Stack: openais<br>> Current DC: daedalus - partition with quorum<br>

> Version: 1.0.9-74392a28b7f31d7ddc86689598bd23114f58978b<br>> 2 Nodes configured, 2 expected votes<br>> 1 Resources configured.<br>> ============<br>><br>> Online: [ daedalus ]<br>> OFFLINE: [ atlantis ]<br>

><br>>  failover-ip    (ocf::heartbeat:IPaddr):        Started daedalus<br>> -----------------------------------------------------------------------<br>><br>><br>> -----------------------------------------------------------------------<br>

> atlantis:~# crm_mon --one-shot<br>><br>> Connection to cluster failed: connection failed<br>> -----------------------------------------------------------------------<br>><br>> I tried doing a "corosync stop", but the processes are not closed:<br>

><br>> atlantis:~# ps auxf<br>> [...]<br>> root      1564  0.0  1.2 168144  3240 ?        S    19:38   0:00 /usr/sbin/corosync<br>> root      1565  0.0  1.2 168144  3240 ?        S    19:38   0:00 /usr/sbin/corosync<br>

> root      1566  0.0  1.2 168144  3240 ?        S    19:38   0:00 /usr/sbin/corosync<br>> root      1567  0.0  1.2 168144  3240 ?        S    19:38   0:00 /usr/sbin/corosync<br>> root      1568  0.0  1.2 168144  3240 ?        S    19:38   0:00 /usr/sbin/corosync<br>

> root      1569  0.0  1.2 168144  3240 ?        S    19:38   0:00 /usr/sbin/corosync<br>><br>><br>> The only way I found to correctly start corosync is doing a "pkill -9<br>> corosync" and "corosync start":<br>

><br>><br>> atlantis:~# ps auxf<br>> [...]<br>> root      2120  0.2  1.9 134288  5060 ?        Ssl  19:59   0:00 /usr/sbin/corosync<br>> root      2128  0.0  4.5  76028 11600 ?        SLs  19:59   0:00  \_ /usr/lib/heartbeat/stonithd<br>

> 105       2129  0.1  2.0  79104  5120 ?        S    19:59   0:00  \_ /usr/lib/heartbeat/cib<br>> root      2130  0.0  0.8  71580  2108 ?        S    19:59   0:00  \_ /usr/lib/heartbeat/lrmd<br>> 105       2131  0.0  1.3  79968  3340 ?        S    19:59   0:00  \_ /usr/lib/heartbeat/attrd<br>

> 105       2132  0.0  1.1  80332  2892 ?        S    19:59   0:00  \_ /usr/lib/heartbeat/pengine<br>> 105       2133  0.0  1.4  86216  3764 ?        S    19:59   0:00  \_ /usr/lib/heartbeat/crmd<br>><br>><br>

> After this, the resource automatically migrates back to Atlantis:<br>><br>> -----------------------------------------------------------------------<br>> daedalus:~# crm_mon --one-shot<br>> ============<br>

> Last updated: Thu Dec 23 20:03:18 2010<br>> Stack: openais<br>> Current DC: daedalus - partition with quorum<br>> Version: 1.0.9-74392a28b7f31d7ddc86689598bd23114f58978b<br>> 2 Nodes configured, 2 expected votes<br>

> 1 Resources configured.<br>> ============<br>><br>> Online: [ atlantis daedalus ]<br>><br>>  failover-ip    (ocf::heartbeat:IPaddr):        Started atlantis<br>> -----------------------------------------------------------------------<br>

><br>><br>> Any idea how to fix this problem with Corosync?<br>><br>> Why to do a shutdown of Atlantis the resource does not migrate to<br>> Daedalus?<br>><br>><br>><br>> Thanks for your reply.<br>

><br>> Regards,<br>> Daniel<br>><br>> [1] <a href="http://www.clusterlabs.org/wiki/Debian_Lenny_HowTo" target="_blank">http://www.clusterlabs.org/wiki/Debian_Lenny_HowTo</a><br>> --<br>> Daniel Bareiro - GNU/Linux registered user #188.598<br>

> Proudly running Debian GNU/Linux with uptime:<br>> 17:52:45 up 71 days, 18:19, 10 users,  load average: 0.00, 0.01, 0.03<br>><br>> -----BEGIN PGP SIGNATURE-----<br>> Version: GnuPG v1.4.9 (GNU/Linux)<br>
><br>
> iEYEARECAAYFAk0T11kACgkQZpa/GxTmHTejywCfdVBAfru12t1LL8kvDiSCYGpJ<br>> c9YAnjlbFMF9NzFWKCsA1vkzdCfOCmJr<br>> =7Gh3<br>> -----END PGP SIGNATURE-----<br>><br>> _______________________________________________<br>

> Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org" target="_blank">Pacemaker@oss.clusterlabs.org</a><br>> <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>

><br>> Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>> Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>

> Bugs: <a href="http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker" target="_blank">http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker</a><br>><br>><br><br>
</div>