<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">2015-08-06 8:53 GMT+02:00 Jan Friesse <span dir="ltr"><<a href="mailto:jfriesse@redhat.com" target="_blank">jfriesse@redhat.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Pallai Roland napsal(a):<span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
hi,<br>
<br>
I've built a recent cluster stack from sources on Debian Jessie and I can't<br>
get rid of cpu spikes. Corosync blocks the entire system for seconds on<br>
every simple transition, even itself:<br>
</blockquote>
<br></span>
How many cores you have? Corosync since 2.0 uses only two threads (and one is only for logging) so it's virtually impossible for corosync to block ENTIRE system as long as you have more then one core.</blockquote><div><br></div><div>I forgot to mention my test nodes are KVM guests on the same host. There is 2x4 cores on the host but only one was allocated for each VM.</div><div><br></div><div>You got the point.</div><div><br></div><div>The problem has been absolutely eliminated by allocating more cpu cores to the guest. Now I run "drbdtest1" on 1 logical core and "drbdtest2" on 2 logical cores. Corosync on drbdtest1 spins the cpu but no spinning on drbdtest2.</div><div><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br>
  drbdtest1 corosync[4734]:   [MAIN  ] Corosync main process was not<br>
scheduled for 2590.4512 ms (threshold is 2400.0000 ms). Consider token<br>
timeout increase.<br>
<br>
and even drbd:<br>
  drbdtest1 kernel: drbd p1: PingAck did not arrive in time.<br>
</blockquote>
<br></span>
Kernel module blocked by unrelated userspace app?</blockquote><div><br></div><div>There is a chance that the nodes are blocking each other as they are on the same host and that is the reason of the DRBD timeout but it's also weird - how can a guest block an other entirely when there are idle cores on the host?</div><div><br></div><div>All in all, DRBD timeout has been eliminated when a node got more than one logical core.</div><div><br></div><div><br></div><div>Is this a known behaviour of corosync?</div><div><br></div></div></div></div>