<div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Apr 18, 2024 at 6:09 PM Klaus Wenninger <<a href="mailto:kwenning@redhat.com">kwenning@redhat.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Apr 18, 2024 at 6:06 PM NOLIBOS Christophe <<a href="mailto:christophe.nolibos@thalesgroup.com" target="_blank">christophe.nolibos@thalesgroup.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><div lang="FR"><div><p style="margin:0cm 0cm 0.0001pt"><span style="font-size:10pt;font-family:Calibri,sans-serif;color:black">Classified as: {OPEN}</span><u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Well… why do you say that « </span><span lang="EN-US">Well if corosync isn't  there that this is to be expected and pacemaker won't recover corosync.”?<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">In my mind, Corosync is managed by Pacemaker as any other cluster resource and the "pacemakerd: recover properly from > Corosync crash" fix implemented in version 2.1.2 seems confirm that.</span></p></div></div></div></blockquote><div><br></div><div>Nope. Startup of the stack is done by systemd. And pacemaker is just started after corosync is up and</div><div>systemd should be responsible for keeping the stack up.</div><div>For completeness: if you have sbd in the mix that is as well being started by systemd but kind of</div><div>parallel with corosync as part of it (systemd terminology).</div></div></div></blockquote><div><br></div><div>The "recover" above is referring to pacemaker recovering from corosync going away and coming back.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_quote"><div><br></div><div>Klaus </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div><div lang="FR"><div><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p><p class="MsoNormal"><u></u> <u></u></p><p align="center" style="margin:0cm 0cm 0.0001pt;text-align:center"><span style="font-size:10pt;font-family:Calibri,sans-serif;color:black">{OPEN}</span><u></u><u></u></p><div><div style="border-right:none;border-bottom:none;border-left:none;border-top:1pt solid rgb(225,225,225);padding:3pt 0cm 0cm"><p class="MsoNormal"><b><span style="font-size:11pt;font-family:Calibri,sans-serif">De :</span></b><span style="font-size:11pt;font-family:Calibri,sans-serif"> NOLIBOS Christophe <br><b>Envoyé :</b> jeudi 18 avril 2024 17:56<br><b>À :</b> 'Klaus Wenninger' <<a href="mailto:kwenning@redhat.com" target="_blank">kwenning@redhat.com</a>>; Cluster Labs - All topics related to open-source clustering welcomed <<a href="mailto:users@clusterlabs.org" target="_blank">users@clusterlabs.org</a>><br><b>Cc :</b> Ken Gaillot <<a href="mailto:kgaillot@redhat.com" target="_blank">kgaillot@redhat.com</a>><br><b>Objet :</b> RE: [ClusterLabs] "pacemakerd: recover properly from Corosync crash" fix<u></u><u></u></span></p></div></div><p class="MsoNormal"><u></u> <u></u></p><p style="margin:0cm 0cm 0.0001pt"><span style="font-size:10pt;font-family:Calibri,sans-serif;color:black">Classified as: {OPEN}</span><u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">[~]$ systemctl status corosync<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">● corosync.service - Corosync Cluster Engine<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">   Loaded: loaded (/usr/lib/systemd/system/corosync.service; enabled; vendor preset: disabled)<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">   Active: failed (Result: signal) since Thu 2024-04-18 14:58:42 UTC; 53min ago<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">     Docs: man:corosync<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">           man:corosync.conf<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">           man:corosync_overview<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">  Process: 2027251 ExecStop=/usr/sbin/corosync-cfgtool -H --force (code=exited, status=0/SUCCESS)<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">  Process: 1324906 ExecStart=/usr/sbin/corosync -f $COROSYNC_OPTIONS (code=killed, signal=KILL)<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Main PID: 1324906 (code=killed, signal=KILL)<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Apr 18 13:16:04 - corosync[1324906]:   [QUORUM] Sync joined[1]: 1<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Apr 18 13:16:04 - corosync[1324906]:   [TOTEM ] A new membership (1.1c8) was formed. Members joined: 1<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Apr 18 13:16:04 - corosync[1324906]:   [VOTEQ ] Waiting for all cluster members. Current votes: 1 expected_votes: 2<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Apr 18 13:16:04 - corosync[1324906]:   [VOTEQ ] Waiting for all cluster members. Current votes: 1 expected_votes: 2<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Apr 18 13:16:04 - corosync[1324906]:   [VOTEQ ] Waiting for all cluster members. Current votes: 1 expected_votes: 2<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Apr 18 13:16:04 - corosync[1324906]:   [QUORUM] Members[1]: 1<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Apr 18 13:16:04 - corosync[1324906]:   [MAIN  ] Completed service synchronization, ready to provide service.<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Apr 18 13:16:04 - systemd[1]: Started Corosync Cluster Engine.<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Apr 18 14:58:42 - systemd[1]: corosync.service: Main process exited, code=killed, status=9/KILL<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">Apr 18 14:58:42 - systemd[1]: corosync.service: Failed with result 'signal'.<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)">[~]$<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p><p class="MsoNormal"><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif;color:rgb(31,73,125)"><u></u> <u></u></span></p><p class="MsoNormal"><b><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif">De :</span></b><span lang="EN-US" style="font-size:11pt;font-family:Calibri,sans-serif"> Klaus Wenninger <<a href="mailto:kwenning@redhat.com" target="_blank">kwenning@redhat.com</a>> <br><b>Envoyé :</b> jeudi 18 avril 2024 17:43<br><b>À :</b> Cluster Labs - All topics related to open-source clustering welcomed <<a href="mailto:users@clusterlabs.org" target="_blank">users@clusterlabs.org</a>><br><b>Cc :</b> Ken Gaillot <<a href="mailto:kgaillot@redhat.com" target="_blank">kgaillot@redhat.com</a>>; NOLIBOS Christophe <<a href="mailto:christophe.nolibos@thalesgroup.com" target="_blank">christophe.nolibos@thalesgroup.com</a>><br><b>Objet :</b> Re: [ClusterLabs] "pacemakerd: recover properly from Corosync crash" fix<u></u><u></u></span></p><p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p><div><div><p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p></div><p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p><div><div><p class="MsoNormal">On Thu, Apr 18, 2024 at 5:07 PM NOLIBOS Christophe via Users <<a href="mailto:users@clusterlabs.org" target="_blank">users@clusterlabs.org</a>> wrote:<u></u><u></u></p></div><blockquote style="border-top:none;border-right:none;border-bottom:none;border-left:1pt solid rgb(204,204,204);padding:0cm 0cm 0cm 6pt;margin:5pt 0cm 5pt 4.8pt"><p class="MsoNormal" style="margin-bottom:12pt">Classified as: {OPEN}<br><br>I'm using RedHat 8.8 (4.18.0-477.21.1.el8_8.x86_64).<br>When I kill Corosync, no new corosync process is created and pacemaker is in failure.<br>The only solution is to restart the pacemaker service.<br><br>[~]$ pcs status<br>Error: unable to get cib<br>[~]$<br><br>[~]$systemctl status pacemaker<br>● pacemaker.service - Pacemaker High Availability Cluster Manager<br>   Loaded: loaded (/usr/lib/systemd/system/pacemaker.service; enabled; vendor preset: disabled)<br>   Active: active (running) since Thu 2024-04-18 13:16:04 UTC; 1h 43min ago<br>     Docs: man:pacemakerd<br>           <a href="https://clusterlabs.org/pacemaker/doc/" target="_blank">https://clusterlabs.org/pacemaker/doc/</a><br> Main PID: 1324923 (pacemakerd)<br>    Tasks: 91<br>   Memory: 132.1M<br>   CGroup: /system.slice/pacemaker.service<br>...<br>Apr 18 14:59:02 - pacemakerd[1324923]:  crit: Could not connect to Corosync CFG: CS_ERR_LIBRARY<br>Apr 18 14:59:03 - pacemakerd[1324923]:  crit: Could not connect to Corosync CFG: CS_ERR_LIBRARY<br>Apr 18 14:59:04 - pacemakerd[1324923]:  crit: Could not connect to Corosync CFG: CS_ERR_LIBRARY<br>Apr 18 14:59:05 - pacemakerd[1324923]:  crit: Could not connect to Corosync CFG: CS_ERR_LIBRARY<br>Apr 18 14:59:06 - pacemakerd[1324923]:  crit: Could not connect to Corosync CFG: CS_ERR_LIBRARY<br>Apr 18 14:59:07 - pacemakerd[1324923]:  crit: Could not connect to Corosync CFG: CS_ERR_LIBRARY<br>Apr 18 14:59:08 - pacemakerd[1324923]:  crit: Could not connect to Corosync CFG: CS_ERR_LIBRARY<br>Apr 18 14:59:09 - pacemakerd[1324923]:  crit: Could not connect to Corosync CFG: CS_ERR_LIBRARY<br>Apr 18 14:59:10 - pacemakerd[1324923]:  crit: Could not connect to Corosync CFG: CS_ERR_LIBRARY<br>Apr 18 14:59:11 - pacemakerd[1324923]:  crit: Could not connect to Corosync CFG: CS_ERR_LIBRARY<br>[~]$<u></u><u></u></p></blockquote><div><p class="MsoNormal">Well if corosync isn't  there that this is to be expected and pacemaker won't recover corosync.<u></u><u></u></p></div><div><p class="MsoNormal">Can you check what systemd thinks about corosync (status/journal). <u></u><u></u></p></div><div><p class="MsoNormal"><u></u> <u></u></p></div><div><p class="MsoNormal">Klaus<u></u><u></u></p></div><blockquote style="border-top:none;border-right:none;border-bottom:none;border-left:1pt solid rgb(204,204,204);padding:0cm 0cm 0cm 6pt;margin:5pt 0cm 5pt 4.8pt"><p class="MsoNormal"><br>{OPEN}<br><br>-----Message d'origine-----<br>De : Ken Gaillot <<a href="mailto:kgaillot@redhat.com" target="_blank">kgaillot@redhat.com</a>> <br>Envoyé : jeudi 18 avril 2024 16:40<br>À : Cluster Labs - All topics related to open-source clustering welcomed <<a href="mailto:users@clusterlabs.org" target="_blank">users@clusterlabs.org</a>><br>Cc : NOLIBOS Christophe <<a href="mailto:christophe.nolibos@thalesgroup.com" target="_blank">christophe.nolibos@thalesgroup.com</a>><br>Objet : Re: [ClusterLabs] "pacemakerd: recover properly from Corosync crash" fix<br><br>What OS are you using? Does it use systemd?<br><br>What does happen when you kill Corosync?<br><br>On Thu, 2024-04-18 at 13:13 +0000, NOLIBOS Christophe via Users wrote:<br>> Classified as: {OPEN}<br>> <br>> Dear All,<br>>  <br>> I have a question about the "pacemakerd: recover properly from <br>> Corosync crash" fix implemented in version 2.1.2.<br>> I have observed the issue when testing pacemaker version 2.0.5, just <br>> by killing the ‘corosync’ process: Corosync was not recovered.<br>>  <br>> I am using now pacemaker version 2.1.5-8.<br>> Doing the same test, I have the same result: Corosync is still not <br>> recovered.<br>>  <br>> Please confirm the "pacemakerd: recover properly from Corosync crash"<br>> fix implemented in version 2.1.2 covers this scenario.<br>> If it is, did I miss something in the configuration of my cluster?<br>>  <br>> Best Regard.<br>>  <br>> Christophe.<br>>   <br>>  <br>> <br>> {OPEN}<br>> _______________________________________________<br>> Manage your subscription:<br>> <a href="https://lists.clusterlabs.org/mailman/listinfo/users" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>> <br>> ClusterLabs home: <a href="https://www.clusterlabs.org/" target="_blank">https://www.clusterlabs.org/</a><br>--<br>Ken Gaillot <<a href="mailto:kgaillot@redhat.com" target="_blank">kgaillot@redhat.com</a>><br>_______________________________________________<br>Manage your subscription:<br><a href="https://lists.clusterlabs.org/mailman/listinfo/users" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br><br>ClusterLabs home: <a href="https://www.clusterlabs.org/" target="_blank">https://www.clusterlabs.org/</a><u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p align="center" style="margin:0cm 0cm 0.0001pt;text-align:center"><span style="font-size:10pt;font-family:Calibri,sans-serif;color:black">{OPEN}</span><u></u><u></u></p></blockquote></div></div></div></div></div></blockquote></div></div>
</blockquote></div></div>