Hi all,<br><br>I have a task that I think can logically be implemented using a pacemaker/corosync cluster with many nodes (e.g. 15) and maybe thousand or more resources. Most of the resources are parametrized processes controlled by a custom resource agent. The resources are added and removed dynamically, typically many (e.g. 100) at one time. <br>
<br>My first tests in a VM environment show that - even after some tuning of lrmd max-children and custom-batch-limit, optimizing the RA and having the processes idle - adding so many resources in one step (xml based) appears to bring the cluster to its knees, i.e. nodes become unresponsive, DC and other nodes have very high load, and the operation takes an hour or longer.<br>
<br>Does this mean that the design limit of this software/hardware is reached or are there ways like tuning or best practices to make such a scenario work?<br><br>Are there known implementations of comparable size?<br><br>
Thanks<br>Gerhard<br><br>