歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
您现在的位置: Linux教程網 >> UnixLinux >  >> Linux基礎 >> 關於Linux

關於RHCS中fence設備的討論

在linux-ha項目中,開始越來越關注io fence設備。
並且在rhes4中ha也支持更多的io fence設備。

1.為什麼要用io fence設備:因為純粹用軟件的方式並不能夠提供完全意義上的HA。所以需要額外的硬件來進行支持。
2.那些設備能作為io fence:
eg: SCSI/FC 磁盤陣列;
   Power swith;
LAN/FC swith;
Network adapter; 等。
3.io fence設備最根本的作用是防止split-brainRHAS4+RHCS4,拔掉電源會資源不切換
hqonline

其他沒什麼可說的,fence device 用的是IBM BMC,用的是IPMI LAN,
現在問題是,拔網線什麼的都能正常切換,備機會將主機重起並把服務和資源接管過來
但是拔掉一台的電源後,顯示:
fence node db2:
然後總顯示
fence node db2 failed,
然後服務也不發生切換
什麼問題呢,謝謝解答,高手幫忙

hqonline

fence device應該沒問題,因為我做拔網線的測試時,拔掉A機的網線,B機會發送fence信號,然後A機會重起,然後B機會正常接管服務的。

hqonline

我用的是主版集成的IPMI設備,可以把fence device選成IPMI LAN,直接用RHAS4。4自帶的IPMI服務就能驅起來,並且能工作,2台機器的IPMI網口直連,另一網口接交換機,
測試時,拔掉A機接交換機的網線,B機能夠用fence信號將A機重起,返回成功信息,並將服務和資源接管過來;A機起來後,同樣拔掉B機接交換機的網線,A機能夠用fence信號將B機重起,返回成功信息,並將服務和資源接管過來;
但是,如果拔掉A機電源線的話,切換就會有問題,B機同樣會發出fence 信號,但是因為A機的電源已斷,不能重起,也不能有成功信號返回,結果備機就會一直顯示fence failed,而不去接管服務,這是不是RHCS的一個BUG呢?還是IPMI device就不支持拔電源呢,樓主請指教。

hqonline

附上cluster.conf文件,幫看一下有沒問題,謝謝斑竹

<?xml version="1.0"?>
<cluster alias="dbcluster" config_version="2" name="alpha_cluster">
<fence_daemon post_fail_delay="0" post_join_delay="3"/>
<clusternodes>
<clusternode name="netview1" votes="1">
<fence>
<method name="1">
<device name="bmc"/>
</method>
</fence>
</clusternode>
<clusternode name="netview2" votes="1">
<fence>
<method name="1">
<device name="bmc"/>
</method>
</fence>
</clusternode>
</clusternodes>
<cman expected_votes="1" two_node="1"/>
<fencedevices>
<fencedevice agent="fence_ipmilan" auth="none" ipaddr="10.10.10.100" login="USERID" name="bmc" passwd="PASSW0RD"/>
</fencedevices>
<rm>
<failoverdomains>
<failoverdomain name="sybase" ordered="0" restricted="1">
<failoverdomainnode name="netview2" priority="1"/>
<failoverdomainnode name="netview1" priority="1"/>
</failoverdomain>
</failoverdomains>
<resources>
<fs device="/dev/sdb1" force_fsck="0" force_unmount="1" fsid="57438" fstype="ext3" mountpoint="/sybasedata" name="shdisk" options="" self_fence="0"/>
<ip address="192.168.10.91" monitor_link="1"/>
<ip address="192.168.16.92" monitor_link="1"/>
<ip address="192.168.16.93" monitor_link="1"/>
<script file="/cluster/dbstart.sh" name="dbscript"/>
</resources>
<service autostart="1" domain="sybase" name="sybase">
<ip ref="192.168.16.93">
<fs ref="shdisk"/>
<script ref="dbscript"/>
</ip>
</service>
</rm>
</cluster>


hqonline

有了結果了

下午找了REDHAT 800,終於問出了個結果,
REDHAT的fence device有兩種,內部fence設備(如IBM RSAII卡,HP的iLO卡,還有IPMI的設備等)和外部fence 設備(如UPS,SAN SWITCH,NETWORK SWITCH等)。
對於外部fence 設備,可以做拔電源的測試,因為備機可以接受到fence device返回的信號,備機可以正常接管服務,
對於內部fence 設備,不能做拔電源的測試,因為主機斷電後,備機接受不到主板芯片做為fence device返備的信號,就不能接管服務,clustat會看到資源的屬主是unknow,查看日志會看到持續報fence failed的信息。
所以以後在做項目時要分清楚,寫測試報告時不要給自己下套,在內部fence時寫拔電源可以切換。

 


RHAS4+RHCS4,問個問題

aquaofchina

做雙機熱備,但現在沒有另加fence設備,是不是只能配成手動模式啊?
還有配成其他模式,一般都需要些什麼設備啊?能否介紹以下,謝謝!

hqonline

最近對fence device看了很多,只講一下自己理解的,
如果沒有fence device就只能配成manual fence,這種fence device在切換側室時,要手動的在備機上輸入fence_man_alk(好象是這個,在日志中能看到,自己確認一下)那個命令,備機才能接管資源,啟動服務。

Copyright © Linux教程網 All Rights Reserved