您现在的位置： Linux教程網 >> UnixLinux > >> Linux基礎 >> Linux技術

linux搭建gfs系統 iscsi+GFS 實現網絡存儲

虛擬機搭建gfs系統

系統環境：CentOS release 5.5 – 2.6.18-194.el5

gfs節點1：192.168.1.231 gfs1

gfs節點2：192.168.1.232 gfs2

gfs節點3：192.168.1.233 gfs3

iscsi-target存儲設備：192.168.1.240 iscsi-storage (IP對應主機名)

GFS 簡要說明，它有兩種：

1. Google文件系統：GFS是GOOGLE實現的是一個可擴展的分布式文件系統，用於大型的、分布式的、對大量數據進行訪問的應用。它運行於廉價的普通硬件上，但可以提供容錯功能。它可以給大量的用戶提供總體性能較高的服務。欲了解更多，可以訪問：http://www.codechina.org/doc/google/gfs-paper/introduction.html

2. Redhat 的GFS（Global File System）

GFS（Global File System）自己以本地文件系統的形式出現。多個Linux機器通過網絡共享存儲設備，每一台機器都可以將網絡共享磁盤看作是本地磁盤，如果某台機器對某個文件執行了寫操作，則後來訪問此文件的機器就會讀到寫以後的結果。可以根據對性能或是可擴展性，或者以經濟性多個原則進行不同方案的部署。

GFS 主要組件，集群卷管理，鎖管理，集群管理，圍欄和恢復，集群配置管理。

本文主要介紹Redhat的GFS系統。

REDHAT CLUSTER SUITEWITH GFS :

RHCS（REDHAT CLUSTER SUITE）是一款能夠提供高性能、高可靠性、負載均衡、高可用性的集群工具集,一個集群通常有兩個或兩個以上的計算機（稱為“節點”或”成員“）共同執行一個任務。

RHCS主要組件：

· 集群架構:

提供一個基本功能使節點作為集群工作在一起：配置文件管理，成員關系管理，鎖管理和柵設備。

· 高可用**管理：

提供節點失敗轉移服務，當一個節點失敗後將服務轉移到另一個節點上。

·集群管理工具：

通過配置和管理工具來配置和管理Red Hat集群。

· Linux Virtual Server (LVS)

LVS提供一個基於IP的負載均衡功能，通過LVS可以將客戶請求均勻的分配到集群節點上。

其它Red Hat集群組件：

· Cluster Logical Volume Manager (CLVM)

提供邏輯卷管理集群存儲。

· 集群管理器：

CMAN是一個分布式集群管理器（DLM），它運行在每一個集群節點上，CMAN通過監視集群節點提供一個法定節點數（quorum），當集群中有多於一半的節點處於活躍狀態時,此時符合法定節點數，集群繼續可用，當只有有一半或少於一半的節點處於活躍狀態是則已達到不到法定節點數，此時整個集群變得不可用。CMAN通過監控集群中節點來確定各節點的成員關系，當集群中的成員關系發生改變，CMAN會通架構中其它組件來進行相應的調整。

· DLM鎖管理：

分布式鎖管理器，它運行在所有的集群節點上，鎖管理是一個公共的基礎結構，為集群提供一種共享集群資源的管理機制，GFS通過鎖管理器使用鎖機制來同步訪問文件系統元數據，CLVM通過鎖管理器來同步更新數據到LVM卷和卷組。

· 數據的完整保證：

RHCS 通過 Fence設備從共享存儲切斷失效節點的I/O以保證數據的完整性。當CMAN確定一個節點失敗後，它在集群結構中通告這個失敗的節點（組播），fenced進程會將失敗的節點隔離，以保證失敗節點不破壞共享數據。

REDHAT集群配置系統：

集群配置文件：(/etc/cluster/cluster.conf) 是一個XML文件，用來描述下面的集群特性：

集群名稱:列出集群名稱、集群配置文件版本和一個隔離時間，隔離相應時間當一個新節點加入或從集群中隔離時。

集群:列出集群中的每一個節點，指定節點名稱，節點ID，法定投票數，和柵模式。

fence設備:定義fence設備。

管理資源:定義創建集群服務需要的資源。管理資源包括失敗轉移域，資源和服務。

iscsi的initiator與target簡要說明：

iSCSI(Internet SCSI)是2003年IETF(InternetEngineering Task Force，互聯網工程任務組)制訂的一項標准，這種指令集合可以實現在IP網絡上運行SCSI協議，使其能夠在諸如高速千兆以太網上進行路由選擇。 SCSI(Small Computer System Interface)是塊數據傳輸協議，在存儲行業廣泛應用，是存儲設備最基本的標准協議。iSCSI協議是一種利用IP網絡來傳輸潛伏時間短的SCSI 數據塊的方法，iSCSI使用以太網協議傳送SCSI命令、響應和數據。iSCSI可以用我們已經熟悉和每天都在使用的以太網來構建IP存儲局域網。通過這種方法，iSCSI克服了直接連接存儲的局限性，使我們可以跨不同服務器共享存儲資源，並可以在不停機狀態下擴充存儲容量。

iSCSI的工作過程：當iSCSI主機應用程序發出數據讀寫請求後，操作系統會生成一個相應的SCSI命令，該SCSI命令在iSCSI Initiator層被封裝成iSCSI消息包並通過TCP/IP傳送到設備側，設備側的iSCSI Target層會解開iSCSI消息包，得到SCSI命令的內容，然後傳送給SCSI設備執行;設備執行SCSI命令後的響應，在經過設備側iSCSI Target層時被封裝成iSCSI響應PDU，通過TCP/IP網絡傳送給主機的iSCSI Initiator層，iSCS Initiator會從iSCSI響應PDU裡解析出SCSI響應並傳送給操作系統，操作系統再響應給應用程序。要實現iSCSI讀寫，除了使用特定硬設備外，也可透過軟件方式，將服務器仿真為iSCSI的發起端（Initiator）或目標端（target），利用既有的處理器與普通的以太網絡卡資源實現iSCSI的連接。

本文均已軟件方式在Centos5.5虛擬機上實現gfs功能！

一、在192.168.1.240上安裝iscsi的target端：

[root@iscsi-storage ~]#yum install scsi-target-utils (注意：scsi前面沒有字母i)

（使用centos默認的yum源，將會安裝軟件scsi-target-utils-0.0-6.20091205snap.el5_5.3）

[root@iscsi-storage ~]#yum install libibverbs-devel libibverbs librdmacm librdmacm-devel

如果沒有安裝以上軟件，則/var/log/messages裡將會有以下報錯：

iscsi-storage tgtd: libibverbs.so: cannot open shared object file: No such file or

directory – iser transport not used

iscsi-storage tgtd:librdmacm.so: cannot open shared object file: No such file or directory – iser

transport not used

磁盤sda裝著系統，磁盤sdb用來存儲，對其進行分區。

[root@iscsi-storage ~]# fdisk /dev/sdb

本人分成/dev/sdb1 3G , /dev/sdb2 7G.

分區完成後不用格式化分區，執行命令partprobe讓系統重新讀取分區表，而不用重啟系統。

[root@iscsi-storage ~]# partprobe

scsi-targe-utils裝完後的服務名為tgtd，啟動它，並設置為開機啟動。

[root@iscsi-storage ~]# service tgtd start

Starting SCSI target daemon: Starting target framework daemon

[root@iscsi-storage ~]# chkconfig tgtd on

接下來建立target device. 在centos5中使用tgtadm指令來設置而不是4當中的 vi /etc/ietd.conf.

tgtadm命令的參數有點難記，但是scsi-target-utils套件中包含了利用tgtadm指令建立target device的步驟，我們可以參照文件來設置：/usr/share/doc/scsi-target-utils-0.0/README.iscsi

本人欲新增iqn名為iqn.2011-01.com.chinaitv:rhcs-storage的target device.

=====================================================================================

iqn (iSCSI Qualified Name)格式通常如下：

格式

意義

范例

yyyy-mm

年份-月份

2011-01

reversed domain name

把域名名稱反過來寫，通常把公司的域名反過來寫

com.chinaitv

identifier

識別字，通常注明這個存儲空間的用途

rhcs-storage

=====================================================================================

新增target device命令如下：

# tgtadm --lld iscsi --op new --mode target --tid 1 -T iqn.2011-01.com.chinaitv:rhcs-storage

執行後，利用如下命令來查看target device：

#tgtadm --lld iscsi --op show --mode target

將起初新建的分區加入target device。

# tgtadm --lld iscsi --op new --mode logicalunit --tid 1 -lun 1 -b /dev/sdb1

查看加入target device後的輸出內容：

# tgtadm --lld iscsi --op show --mode target

設置可以訪問存取此target device的initiator節點。本機允許gfs1 gfs2 gfs3存取，設置如下：

#tgtadm --lld iscsi --op bind --mode target --tid 1 -I 192.168.1.231
#tgtadm --lld iscsi --op bind --mode target --tid 1 -I 192.168.1.232

#tgtadm --lld iscsi --op bind --mode target --tid 1 -I 192.168.1.233 (I為大寫的i)

(如果允許所有的initiators存取的話，可以將ip換成ALL，如下：

#tgtadm --lld iscsi --op bind --mode target --tid 1 -I ALL

如果需要移除則需將bind換成unbind即可，例如

#tgtadm --lld iscsi --op unbind --mode target --tid 1 -I 192.168.1.233)

本次操作只使用sdb1來試驗存儲，因此只加入sdb1，如果需將多個分區用來存儲的話可以如下操作：

tgtadm --lld iscsi --op new --mode target --tid 1 -T iqn.2011-01.com.chinaitv:rhcs-storage

tgtadm --lld iscsi --op new --mode target --tid 2 -T iqn.2011-01.com.chinaitv:rhcs-storage2

tgtadm --lld iscsi --op new --mode logicalunit --tid 1 -lun 1 -b /dev/sdb1

tgtadm --lld iscsi --op new --mode logicalunit --tid 2 -lun 1 -b /dev/sdb2

tgtadm --lld iscsi --op bind --mode target --tid 1 -I ip

tgtadm --lld iscsi --op bind --mode target --tid 2 -I ip

注意：如果重啟tgtd服務的話，上面配置全部將會消失，因此不要隨便重啟，否則需要重新按上面步驟配置，為了在下一次開機自動運行，可以把上面的命令添加到/etc/rc.local文件裡面。

首先在三個節點機hosts文件末尾添加以下內容： 上的

#vi /etc/hosts

二、安裝iscsi-initiator-utils，在節點機上安裝

#yum install iscsi-initiator-utils

安裝需要的軟件包

[root@gfs1 ~]# yum install -y cman gfs-utils kmod-gfs kmod-dlm cluster-snmp lvm2-cluster rgmanager

指定initiator alias name

#echo "InitiatorAlias=gfs1" >> /etc/iscsi/initiatorname.iscsi

創建cluster.conf配置文件，安裝完成後並沒有此文件，需自己創建：

#vi /etc/cluster/cluster.conf

<?xml version="1.0"?>

##這一行定義了cluster的名稱，其中config_version是表示該配置文件被配置的次數

##（在RedHat Cluster中，各個節點是同配置版本數值也就是配置次數最高的配置文件進行學習同步報）

##這一行定義了cluster節點的名稱，節點id以及投票權，節點名一般就是節點的主機名

<fence>

</method>

</fence>

</clusternode>

<fence>

</method>

</fence>

</clusternode>

<fence>

</method>

</fence>

</clusternode>

</clusternodes>

</fencedevices>

<rm>

</rm>

</cluster>

（fence也是RedHat Cluster的產物，沒有它GFS也沒法工作，fence的作用就是當一個節點宕掉(和cluster斷掉聯系)後，其他的正常節點會通過fence設備來把宕掉的設備fence掉，把宕掉的設備踢出cluster保證整個cluster的正常運行，而fence設備一般是服務器自帶硬件設備，如hp的 ilo口，IBM和dell的ipmi等等，由於服務器硬件的不同，導致不同的fence設備的配置方法不同，我這裡為虛擬機沒有fence設備，因此采用fence_manual的方法來手工設置，手工fence的功能是：當一個節點宕掉後我們需要在正常的節點上輸入命令：“# fence_ack_manual -n 宕掉的節點名 ” 來把cluster的主機隔離掉，才能讓正常的節點正常工作。現在本人對cluster.conf了解的也並不是非常的熟悉，故不能給出更詳細的解答，不過可以輸入命令:man 5 cluster.conf查看幫助文件。在各個節點機上都需創建此cluster.conf文件。）

(注：配置文件並不是非常的標准，自己根據需要還可以添加更多的內容與修改，這裡只是一個簡單的例子)

啟動iscsi daemon

#service iscsi start

#chkconfig iscsi on

利用iscsiadm命令探測iscsi device：

# iscsiadm -m discovery -t sendtargets -p 192.168.1.240:3260

192.168.1.240:3260,1 iqn.2011-01.com.chinaitv:rhcs-storage

登入iscsi target

#iscsiadm -m node -T iqn.2011-01.com.chinaitv:rhcs-storage -p 192.168.1.240:3260 -l

Logging in to [iface: default, target: iqn.2011-01.com.chinaitv:rhcs-storage, portal: 192.168.1.240,3260]

登入成功後，利用fdisk -l可以發現多處兩個硬盤分區。

(若想退出則使用：iscsiadm -m node -T iqn.2011-01.com.chinaitv:rhcs-storage -p 192.168.1.240:3260 -u)

在該節點上創建一個名為gfsvg的 LVM 卷組

#pvcreate -ff /dev/sdb

#vgcreate gfsvg /dev/sdb

列出VG大小：

#vgdisplay gfsvg |grep “Total PE “

Total PE 717

創建lv

# lvcreate -l 717 -n gfs gfsvg

Logical volume “gfs” created

# cman_tool status | grep “Cluster Name”

cman_tool: Cannot open connection to cman, is it running ?

原因是沒有啟動服務,啟動服務:

# service cman start

在該節點上創建一個GFS卷，格式化GFS 文件系統，通過命令：

gfs_mkfs -p lock_dlm -t ClusterName:FSName -j Number BlockDevice

格式化gfs文件格式:

-p 這個參數後邊跟的是gfs鎖機制，一般情況下就用lock_dlm

-t 後邊是ClusterName:FSName

其中ClusterName是cluster名，就是cluster.conf配置文件中指定的cluster名，FSName是給新格式化好的gfs分區的名字

-j 代表是journal的個數，一般情況是2個除非一些特殊情況否則不用再單作調整

BlockDevice 就是要被格式化的設備名稱。

下面是一個格式化GFS命令的實例：

#gfs_mkfs -p lock_dlm -t GFSCluster:gfs -j 3 /dev/gfsvg/gfs

載入相應的gfs模塊，並查看lv是否成功

# modprobe gfs
# modprobe gfs2
# chkconfig gfs on
# chkconfig gfs2 on

# chkconfig clvmd on

# /etc/init.d/gfs restart
# /etc/init.d/gfs2 restart
# /etc/init.d/clvmd restart

# lvscan

ACTIVE ‘/dev/gfsvg/gfs’ [2.80 GB] inherit ##表示成功

把新建的邏輯磁盤掛載到本地：

#mount -t gfs /dev/gfsvg/gfs /opt

#df -h

進入/opt目錄，建立新文件（之後到新節點上掛載，以作驗證是否gfs創建並掛載成功）

到gfs2節點和gfs3節點上分別執行以下操作

# modprobe gfs
# modprobe gfs2

# /etc/init.d/gfs restart
# /etc/init.d/gfs2 restart
# /etc/init.d/clvmd restart

#chkconfig –add cman

#chkconfig –add clvmd

#chkconfig –add gfs

#chkconfig –level 35 cman on

#chkconfig –level 35 clvmd on

#chkconfig –level 35 gfs on

# lvscan

#mount /dev/gfsvg/gfs /opt

進入/opt目錄查看是否有之前在gfs1上建立的文件file1

如圖所示成功，可以在/opt目錄裡進行任何操作，三台機器將會保持一致，這樣就達到了在一台機器上操作，其他機器保持同步的目的，用來提高可用性，當gfs1出了問題後，gfs2和gfs3同樣可以用來提供服務！可以在各節點機器上執行命令clustat來查看gfs集群各節點的活動狀態：

同樣可以執行以下命令來檢查是否連接成功

# ccs_test connect

Connect successful.

Connection descriptor = 9600

檢查一下是否正常

#ccs_tool lsnode

#ccs_tool lsfence

#cman_tool services

注：在gfs2和gfs3節點上必須啟動clvmd服務，不然無法掛載/dev/gfsvg/gfs設備。

如果要在存儲服務器上即本實驗的iscsi-storage 上，如果有外部節點連接著此存儲，要想停止tgtd（service tgtd stop）服務，有如下提示：

Stopping SCSI target daemon: Stopping target framework daemon

Some initiators are still connected – could not stop tgtd

表示無法停止，而采取殺掉tgtd的pid的方法來停止時，在此用service tgtd start來啟動tgtd服務的時候，有如下的提示：

實際上tgtd並沒有啟動成功，用ps查看是查看不到tgtd服務進程的，要想解決此問題，是因為有個/var/lock/subsys/tgtd文件存在，只需刪除掉即可。

# rm /var/lock/subsys/tgtd

在節點機上，如果想開機自動掛載則修改/etc/fstab文件，加入以下內容：

/dev/mapper/gfsvg-gfs /opt gfs defaults 0 0

本人在虛擬機上部署此gfs集群存儲的時候，碰到很多問題，在查閱各種資料後才得以實現虛擬機上的gfs，也花費了很長的時間，其中就有很多的報錯，舉個例子：

Jan 19 04:04:00 gfs1 ccsd[19610]: Cluster is not quorate. Refusing connection.

Jan 19 04:04:00 gfs1 ccsd[19610]: Error while processing connect: Connection refused

Jan 19 04:04:01 gfs1 dlm_controld[18685]: connect to ccs error -111, check ccsd or cluster status

此報錯跟fence的啟動有關系，這是因為我在第一個節點上啟動cman的時候fencing無法啟動，原因在於要開啟fence功能，必須多個機器節點都開啟了，單獨開啟一個的時候他是不生效的，也就是說必須有一半的fence都開啟了才能生效，因此需在多台節點上執行service cman start 這樣才能夠快速的解決fenc的啟動問題。

最後疑問：

1 查看target的狀態總是ready而不能得到running狀態