<div dir="ltr">Hi!<div><br></div><div>Most likely related...</div><div>I have node vm-vmwww with remote-node vmwww. Both are reported online (vmwww:vm-vmwww) and vm-vmwww is reported as 'started on wings1'.</div><div>However, when I try to cleanup faulty failed action " vmwww_start_0 on wings1 'unknown error' (1): call=100, status=Timed Out ", here is what I get in the log:</div><div><br></div><div><div>Oct 13 18:25:43 wings1 crmd[3844]:  warning: qb_ipcs_event_sendv: new_event_notification (3844-18918-16): Broken pipe (32)</div><div>Oct 13 18:25:43 wings1 crmd[3844]:    error: do_lrm_invoke: no lrmd connection for remote node vmwww found on cluster node wings1. Can not process request.</div><div>Oct 13 18:25:43 wings1 crmd[3844]:    error: send_msg_via_ipc: Unknown Sub-system (d483a600-5535-4f0d-8ffd-2af391f5cb21)... discarding message.</div><div>Oct 13 18:25:43 wings1 crmd[3844]:    error: send_msg_via_ipc: Unknown Sub-system (d483a600-5535-4f0d-8ffd-2af391f5cb21)... discarding message.</div><div>Oct 13 18:25:43 wings1 crmd[3844]:    error: send_msg_via_ipc: Unknown Sub-system (d483a600-5535-4f0d-8ffd-2af391f5cb21)... discarding message.</div><div>Oct 13 18:25:43 wings1 crmd[3844]:    error: send_msg_via_ipc: Unknown Sub-system (d483a600-5535-4f0d-8ffd-2af391f5cb21)... discarding message.</div></div><div><br></div><div>I go to the VM, and try to run 'crm_mon':</div><div><br></div><div><div>Oct 13 18:27:06 vmwww pacemaker_remoted[3798]:    error: ipc_proxy_accept: No ipc providers available for uid 0 gid 0</div><div>Oct 13 18:27:06 vmwww pacemaker_remoted[3798]:    error: handle_new_connection: Error in connection setup (3798-3868-13): Remote I/O error (121)</div></div><div><br></div><div><div>ps aux | grep pace</div><div>root      3798  0.1  0.1  76396  2868 ?        S    18:16   0:00 pacemaker_remoted</div></div><div><br></div><div><div>netstat -nltp | grep 3121</div><div>tcp        0      0 <a href="http://0.0.0.0:3121">0.0.0.0:3121</a>                0.0.0.0:*                   LISTEN      3798/pacemaker_remo</div></div><div><br></div><div>However I can telnet ok:</div><div><br></div><div><div>[root@wings1 ~]# telnet vmwww 3121</div><div>Trying 192.168.222.89...</div><div>Connected to vmwww.</div><div>Escape character is '^]'.</div><div>^]</div><div>telnet> quit</div><div>Connection closed.</div></div><div><br></div><div>This is pretty weird...</div><div><br></div><div>Best regards,</div><div>Alex</div><div><br></div><div class="gmail_extra"><br><div class="gmail_quote">2014-10-13 17:47 GMT+04:00 Саша Александров <span dir="ltr"><<a href="mailto:shurrman@gmail.com" target="_blank">shurrman@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hi!<div><br></div><div>I was building a cluster with pacemaker+pacemaker-remote  (CentOS 6.5, everything from the official repo).</div><div>While I had several resources, everything was fine. However, when I added more VMs (2 nodes and 10 VMs currently) I started to run into problems (see below).</div><div>Strange thing is that when I start cman/pacemaker some time later - they seem to work fine for some time.</div><div><br></div><div><div>Oct 13 17:03:54 wings1 pacemakerd[26440]:   notice: pcmk_child_exit: Child process crmd terminated with signal 13 (pid=30010, core=0)</div><div>Oct 13 17:03:54 wings1 lrmd[26448]:  warning: qb_ipcs_event_sendv: new_event_notification (26448-30010-6): Bad file descriptor (9)</div><div>Oct 13 17:03:54 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/665bd130-2630-454b-9102-3f17d2bd71f3 failed</div><div>Oct 13 17:03:54 wings1 pacemakerd[26440]:   notice: pcmk_process_exit: Respawning failed child process: crmd</div><div>Oct 13 17:03:54 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/665bd130-2630-454b-9102-3f17d2bd71f3 failed</div><div>Oct 13 17:03:54 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/665bd130-2630-454b-9102-3f17d2bd71f3 failed</div><div>Oct 13 17:03:54 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/665bd130-2630-454b-9102-3f17d2bd71f3 failed</div><div>Oct 13 17:03:54 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/665bd130-2630-454b-9102-3f17d2bd71f3 failed</div><div>Oct 13 17:03:54 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/665bd130-2630-454b-9102-3f17d2bd71f3 failed</div></div><div><br></div><div><div>Oct 13 17:03:57 wings1 pacemakerd[26440]:   notice: pcmk_child_exit: Child process crmd terminated with signal 13 (pid=30603, core=0)</div><div>Oct 13 17:03:57 wings1 lrmd[26448]:  warning: qb_ipcs_event_sendv: new_event_notification (26448-30603-6): Bad file descriptor (9)</div><div>Oct 13 17:03:57 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/820ac884-24ca-4fff-9dc8-0a09e82e0e0a failed</div><div>Oct 13 17:03:57 wings1 pacemakerd[26440]:   notice: pcmk_process_exit: Respawning failed child process: crmd</div><div>Oct 13 17:03:57 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/820ac884-24ca-4fff-9dc8-0a09e82e0e0a failed</div><div>Oct 13 17:03:57 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/820ac884-24ca-4fff-9dc8-0a09e82e0e0a failed</div><div>Oct 13 17:03:57 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/820ac884-24ca-4fff-9dc8-0a09e82e0e0a failed</div><div>Oct 13 17:03:57 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/820ac884-24ca-4fff-9dc8-0a09e82e0e0a failed</div><div>Oct 13 17:03:57 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/820ac884-24ca-4fff-9dc8-0a09e82e0e0a failed</div><div>Oct 13 17:03:57 wings1 crmd[31192]:   notice: crm_add_logfile: Additional logging available in /var/log/cluster/corosync.log</div><div>Oct 13 17:03:57 wings1 cib[26446]:  warning: qb_ipcs_event_sendv: new_event_notification (26446-30603-11): Broken pipe (32)</div><div>Oct 13 17:03:57 wings1 cib[26446]:  warning: cib_notify_send_one: Notification of client crmd/fe944296-b3a1-4177-a94c-650568e8ff0a failed</div></div><div><br></div><div>..................</div><div><br></div><div>So it keeps restarting, I even had to unmanage resources and stop pacemaker/cman. </div><div><br></div><div><div>Oct 13 17:04:13 wings1 lrmd[26448]:  warning: qb_ipcs_event_sendv: new_event_notification (26448-32444-6): Bad file descriptor (9)</div><div>Oct 13 17:04:13 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/ea7ab099-1005-450b-9e46-d9d13ea266e4 failed</div><div>Oct 13 17:04:13 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/ea7ab099-1005-450b-9e46-d9d13ea266e4 failed</div><div>Oct 13 17:04:13 wings1 pacemakerd[26440]:   notice: pcmk_child_exit: Child process crmd terminated with signal 13 (pid=32444, core=0)</div><div>Oct 13 17:04:13 wings1 pacemakerd[26440]:   notice: pcmk_process_exit: Respawning failed child process: crmd</div><div>Oct 13 17:04:13 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/ea7ab099-1005-450b-9e46-d9d13ea266e4 failed</div><div>Oct 13 17:04:13 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/ea7ab099-1005-450b-9e46-d9d13ea266e4 failed</div><div>Oct 13 17:04:13 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/ea7ab099-1005-450b-9e46-d9d13ea266e4 failed</div><div>Oct 13 17:04:13 wings1 lrmd[26448]:  warning: send_client_notify: Notification of client crmd/ea7ab099-1005-450b-9e46-d9d13ea266e4 failed</div><div>Oct 13 17:04:13 wings1 cib[26446]:  warning: qb_ipcs_event_sendv: new_event_notification (26446-32444-11): Broken pipe (32)</div><div>Oct 13 17:04:13 wings1 cib[26446]:  warning: cib_notify_send_one: Notification of client crmd/ef727424-ce2b-4b3b-8749-82136dc72af8 failed</div><div><br></div><div><br></div><div><br></div><div>And one more thing (probably not related, but who knows) - I have CentOS 7.0 on one of the VMs, LRMD is unable to establish communications with pacemaker_remote on that VM:</div><div><br></div><div>(node):</div><div><div>Oct 13 17:31:43 wings1 crmd[3844]:    error: lrmd_tls_send_recv: Remote lrmd server disconnected while waiting for reply with id 6.</div><div>Oct 13 17:31:45 wings1 crmd[3844]:    error: lrmd_tls_send_recv: Remote lrmd server disconnected while waiting for reply with id 7.</div><div>Oct 13 17:31:47 wings1 crmd[3844]:    error: lrmd_tls_send_recv: Remote lrmd server disconnected while waiting for reply with id 8.</div><div>Oct 13 17:31:48 wings1 crmd[3844]:    error: lrmd_tls_send_recv: Remote lrmd server disconnected while waiting for reply with id 9.</div><div>Oct 13 17:31:50 wings1 crmd[3844]:    error: lrmd_tls_send_recv: Remote lrmd server disconnected while waiting for reply with id 10.</div><div>Oct 13 17:31:51 wings1 crmd[3844]:    error: lrmd_tls_send_recv: Remote lrmd server disconnected while waiting for reply with id 11.</div><div>Oct 13 17:31:53 wings1 crmd[3844]:    error: lrmd_tls_send_recv: Remote lrmd server disconnected while waiting for reply with id 12.<br><br>(VM):</div></div><div><div>Oct 13 21:27:32 bank systemd: Started Pacemaker Remote Service.</div><div>Oct 13 21:27:32 bank pacemaker_remoted: Cannot change active directory to /var/lib/pacemaker/cores: No such file or directory (2)</div><div>Oct 13 21:27:32 bank pacemaker_remoted[1853]: notice: lrmd_init_remote_tls_server: Starting a tls listener on port 3121.</div><div>Oct 13 21:27:32 bank pacemaker_remoted[1853]: notice: bind_and_listen: Listening on address ::</div><div>Oct 13 21:31:39 bank pacemaker_remoted[1853]: notice: lrmd_remote_listen: LRMD client connection established. 0x1c49d60 id: de49ea57-e94c-45bf-9d2d-d0f36cb2c4f7</div><div>Oct 13 21:31:40 bank pacemaker_remoted[1853]: error: crm_abort: crm_remote_header: Triggered assert at remote.c:118 : endian == ENDIAN_LOCAL</div><div>Oct 13 21:31:40 bank pacemaker_remoted[1853]: error: crm_remote_header: Invalid message detected, endian mismatch: badadbbd is neither 6d726c3c nor the swab'd 3c6</div><div>c726d</div><div>Oct 13 21:31:40 bank pacemaker_remoted[1853]: error: crm_abort: crm_remote_header: Triggered assert at remote.c:118 : endian == ENDIAN_LOCAL</div><div>Oct 13 21:31:40 bank pacemaker_remoted[1853]: error: crm_remote_header: Invalid message detected, endian mismatch: badadbbd is neither 6d726c3c nor the swab'd 3c6c726d</div><div>Oct 13 21:31:40 bank pacemaker_remoted[1853]: error: crm_abort: crm_remote_header: Triggered assert at remote.c:118 : endian == ENDIAN_LOCAL</div><div>Oct 13 21:31:40 bank pacemaker_remoted[1853]: error: crm_remote_header: Invalid message detected, endian mismatch: badadbbd is neither 6d726c3c nor the swab'd 3c6c726d</div><div>Oct 13 21:31:40 bank pacemaker_remoted[1853]: notice: lrmd_remote_client_destroy: LRMD client disconnecting remote client - name: <unknown> id: de49ea57-e94c-45bf-9d2d-d0f36cb2c4f7</div></div><span class="HOEnZb"><font color="#888888"><div><br></div><div><br></div><div><br></div>-- <br>Best regards,<div>Alexandr</div></font></span></div></div>
</blockquote></div><br><br clear="all"><div><br></div>-- <br>С уважением, ААА.
</div></div>