<div dir="ltr"><div>Hello,</div><div><br></div><div>I have 2 active-passive fail over system with corosync and drbd.</div><div>One system using 2 debian server and the other using 2 ubuntu server.</div><div>The debian servers are for web server fail over and the ubuntu servers are for database server fail over.</div><div><br></div><div>I applied the same configuration in the pacemaker. Everything works fine, fail over can be done nicely and also the file system synchronization, but in the ubuntu server, it was always has error after a couple week or month. The pacemaker in ubuntu1 had different status with ubuntu2, ubuntu1 assumed that ubuntu2 was down and ubuntu2 assumed that something happened with ubuntu1 but still alive and took over the resources. It made the drbd resource cannot be taken over, thus no fail over happened and we must manually restart the server because restarting pacemaker and corosync didn't help. I have changed the configuration of pacemaker a couple time, but the problem still exist.</div><div><br></div><div>has anyone experienced it? I use Ubuntu 14.04.1 LTS.</div><div><br></div><div>I got this error in apport.log</div><div><br></div><div><div>ERROR: apport (pid 20361) Fri Dec 19 02:43:52 2014: executable: /usr/lib/pacemaker/lrmd (command line "/usr/lib/pacemaker/lrmd")</div><div>ERROR: apport (pid 20361) Fri Dec 19 02:43:52 2014: is_closing_session(): no DBUS_SESSION_BUS_ADDRESS in environment</div><div>ERROR: apport (pid 20361) Fri Dec 19 02:43:52 2014: wrote report /var/crash/_usr_lib_pacemaker_lrmd.0.crash</div></div><div><br></div>my pacemaker configuration:<div><br></div><div><div>node $id="1" db \</div><div>        attributes standby="off"</div><div>node $id="2" db2 \</div><div>        attributes standby="off"</div><div>primitive ClusterIP ocf:heartbeat:IPaddr2 \</div><div>        params ip="192.168.0.100" cidr_netmask="24" \</div><div>        op monitor interval="30s"</div><div>primitive DBase ocf:heartbeat:mysql \</div><div>        meta target-role="Started" \</div><div>        op start timeout="120s" interval="0" \</div><div>        op stop timeout="120s" interval="0" \</div><div>        op monitor interval="20s" timeout="30s"</div><div>primitive DbFS ocf:heartbeat:Filesystem \</div><div>        params device="/dev/drbd0" directory="/sync" fstype="ext4" \</div><div>        op start timeout="60s" interval="0" \</div><div>        op stop timeout="180s" interval="0" \</div><div>        op monitor interval="60s" timeout="60s"</div><div>primitive Links lsb:drbdlinks</div><div>primitive r0 ocf:linbit:drbd \</div><div>        params drbd_resource="r0" \</div><div>        op monitor interval="29s" role="Master" \</div><div>        op start timeout="240s" interval="0" \</div><div>        op stop timeout="180s" interval="0" \</div><div>        op promote timeout="180s" interval="0" \</div><div>        op demote timeout="180s" interval="0" \</div><div>        op monitor interval="30s" role="Slave"</div><div>group DbServer ClusterIP DbFS Links DBase</div><div>ms ms_r0 r0 \</div><div>        meta master-max="1" master-node-max="1" clone-max="2" clone-node-max="1" notify="true" target-role="Master"</div><div>location prefer-db DbServer 50: db</div><div>colocation DbServer-with-ms_ro inf: DbServer ms_r0:Master</div><div>order DbServer-after-ms_ro inf: ms_r0:promote DbServer:start</div><div>property $id="cib-bootstrap-options" \</div><div>        dc-version="1.1.10-42f2063" \</div><div>        cluster-infrastructure="corosync" \</div><div>        expected-quorum-votes="2" \</div><div>        stonith-enabled="false" \</div><div>        no-quorum-policy="ignore" \</div><div>        last-lrm-refresh="1363370585"</div></div><div><br></div><div>my corosync config:</div><div><br></div><div><div>totem {</div><div>        version: 2</div><div>        token: 3000</div><div>        token_retransmits_before_loss_const: 10</div><div>        join: 60</div><div>        consensus: 3600</div><div>        vsftype: none</div><div>        max_messages: 20</div><div>        clear_node_high_bit: yes</div><div>        secauth: off</div><div>        threads: 0</div><div>        rrp_mode: none</div><div>        transport: udpu</div><div>        cluster_name: Dbcluster</div><div>}</div><div><br></div><div>nodelist {</div><div>  node {</div><div>        ring0_addr: db</div><div>        nodeid: 1</div><div>  }</div><div>  node {</div><div>        ring0_addr: db2</div><div>        nodeid: 2</div><div>  }</div><div>}</div><div><br></div><div>quorum {</div><div>  provider: corosync_votequorum</div><div>}</div><div><br></div><div>amf {</div><div>        mode: disabled</div><div>}</div><div><br></div><div>service {</div><div>        ver:       0</div><div>        name:      pacemaker</div><div>}</div><div><br></div><div>aisexec {</div><div>        user:   root</div><div>        group:  root</div><div>}</div><div><br></div><div>logging {</div><div>        fileline: off</div><div>        to_stderr: yes</div><div>        to_logfile: yes</div><div>          logfile: /var/log/corosync/corosync.log</div><div>        to_syslog: no</div><div>        syslog_facility: daemon</div><div>        debug: off</div><div>        timestamp: on</div><div>        logger_subsys {</div><div>                subsys: AMF</div><div>                debug: off</div><div>                tags: enter|leave|trace1|trace2|trace3|trace4|trace6</div><div>        }</div><div>}</div></div><div><br></div><div>my drbd.conf:</div><div><br></div><div><div>global {</div><div>        usage-count no;</div><div>}</div><div><br></div><div>common {</div><div>        protocol C;</div><div><br></div><div>        handlers {</div><div>                pri-on-incon-degr "/usr/lib/drbd/notify-pri-on-incon-degr.sh; /usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f";</div><div>                pri-lost-after-sb "/usr/lib/drbd/notify-pri-lost-after-sb.sh; /usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ; reboot -f";</div><div>                local-io-error "/usr/lib/drbd/notify-io-error.sh; /usr/lib/drbd/notify-emergency-shutdown.sh; echo o > /proc/sysrq-trigger ; halt -f";</div><div>        }</div><div><br></div><div>        startup {</div><div>                degr-wfc-timeout 120;</div><div>        }</div><div><br></div><div>        disk {</div><div>                on-io-error detach;</div><div>        }</div><div><br></div><div>        syncer {</div><div>                rate 100M;</div><div>                al-extents 257;</div><div>        }</div><div>}</div><div><br></div><div>resource r0 {</div><div>        protocol C;</div><div>        flexible-meta-disk internal;</div><div><br></div><div>        on db2 {</div><div>                address <a href="http://192.168.0.10:7801">192.168.0.10:7801</a>;</div><div>                device /dev/drbd0 minor 0;</div><div>                disk /dev/sdb1;</div><div>        }</div><div>        on db {</div><div>                device /dev/drbd0 minor 0;</div><div>                disk /dev/db/sync;</div><div>                address <a href="http://192.168.0.20:7801">192.168.0.20:7801</a>;</div><div>        }</div><div>        handlers {</div><div>                split-brain "/usr/lib/drbd/notify-split-brain.sh root";</div><div>        }</div><div>        net {</div><div>                after-sb-0pri discard-younger-primary; #discard-zero-changes;</div><div>                after-sb-1pri discard-secondary;</div><div>                after-sb-2pri call-pri-lost-after-sb;</div><div>        }</div><div>}</div></div><div><br></div><div>I have no idea, how to solve this problem. Maybe someone can help me.</div><div><br></div><div>best regards,</div><div><br></div><div>ariee</div></div>