上個月,Sun Microsystems公司正式發布ZFS(Zettabyte File System)文件系統。ZFS是第一個128位的文件系統,同時ZFS又被Sun Microsystems稱作史上最後一個文件系統。因為這個文件系統含有多項創新技術,不僅成功地解決現有文件系統的問題和陋習,而且前瞻性地考量了未來對存儲空間的需求,單個文件系統可以達到256 quadrillion(264) Zettabytes(221)。ZFS不僅符合POSIX文件系統的標准,而且提供了許多高級功能比如:Quota(配額),Reservation(預留), Compression(壓縮), Snapshot(快照),Clone(克隆)等。如果你還在堅持使用現有32位或者64位的文件系統,如果你還在“痛並不快樂著”地用著各式各樣的Volume Manager,那就很值得看看這裡列出的使用ZFS的十條理由。
1. 再也不需要fsck, scandisk
不管你是在用Linux,UNIX還是Windows,相信大家都有過類似的體會:當系統意外斷電或者非法關機,系統重起後發現文件系統有inconsistent的問題,這時 候就需要fsck或者scandisk 來修復,這段時間是非常耗時而且最後不一定能夠修復成功。更糟糕的是,如果這是一台服務器需要做fsck的時候,只能offline(下線),而且現有應用往往都是大硬盤,相應fsck修 復時間也很長,這對許多使用該服務器的用戶來說幾乎不能忍受的。
而使用ZFS後大家可以徹底拋棄fsck這種工具,因為ZFS是一個基於COW(Copy on Write)機制的文件系統。COW是不會對硬盤上現有的文件進行重寫,保證所有硬盤上的文件都是有效的。所以不會有這種inconsistent的概念,自然就不需要這種工具了。
2. 管理簡單
ZFS作為一個全新的文件系統,全面拋棄傳統File System + Volume Manager + Storage的架構,所有的存儲設備是通過ZFS Pool進行管理,只要把各種存儲設備加 入同一個ZFS Pool,大家就可以輕松的在這個ZFS Pool管理配置文件系統。大家再也不用牢記各種專業概念,各種命令newfs, metinit及各種Volume Manager的用法。在ZFS中我們只需要兩個命令,zpool(針 對ZFS Pool管理)和zfs(針對ZFS文件系統的管理),就可以輕松管理128位的文件系統。舉個例子,我們經常會遇到系統數據增長過 快,現有存儲容量不夠,需要添加硬盤,如果依照傳統的Volume Manager管理方式,那我 們需要預先要考慮很多現有因素,還要預先根據應用計算出需要配置的各種參數。在ZFS情況下,我們的系統管理員可以徹底解放,再也不需要這種人為的復雜 考慮和計算,我們可以把這些交給ZFS,因為ZFS Pool會自動調節,動態適應需求。我們只需一個簡單的命令為 這個ZFS Pool加入新的硬盤就可以了:
zpool add zfs_pool mirror c4t0d0 c5t0d0
基於這個動態調節的ZFS Pool之上的所有的文件系統就可以立即使用到這個新的硬盤,並且會自動的選擇最優化的參數。
而且ZFS同時也提供圖形化的管理界面,下面是一個ZFS圖形化管理的一個截屏:
3. 沒有任何容量限制
ZFS(Zettabyte File System)文件系統就如其名字所預示,可以提供真正的海量存儲,在現實中幾乎不可能遇到容量問題。在現有的64位kernel(內 核)下,它可以容納達到16 Exabytes(264)大小的單個文件,可以使用264個存儲設備,可以創建264個文件系統。
4. 完全保證 數據 的正確和完整
由於ZFS所有的數據操作都是基 於Transaction(事務),一組相應的操作會被ZFS解 析為一個事務操作,事務的操作就代表著一組操作要麼一起失敗,要麼一起成功。而且如前所說,ZFS對 所有的操作是基於COW(Copy on Write), 從而保證設備上的數 據始終都是有效的,再也不會因為系統崩潰或者意外掉電導致數據文件的inconsistent。
還有一種潛在威脅 數據的可能是來自於硬件設備的問題,比如磁 盤,RAID卡的硬件問題或者驅動bug。現有文件系統通常遇到這個問題,往往只是簡單的把錯誤數據直接交給上層應用,通常我們把這個問題稱作Silent Data Corruption。而在ZFS中,對所有數據不管是用戶數據還是文件系統自身的metadata數 據都進行256位的Checksum(校 驗),當ZFS在提交數據時會進行校驗,徹底杜絕這種Silent Data Corruption情況。
5. 提供優異 性能和擴展性
和傳統File System + Volume Manager + Storage架構不同,ZFS則是直接基於存儲設備提供所有的功能,因此有自己獨有的創新特性,性能自然非比尋常。
Dynamic Striping vs. Static Striping
由於ZFS是基於COW和一個全局動態的ZFS Pool,任何一次寫 操作,都是對一塊新數據塊(Block)的一次寫操作。ZFS從ZFS Pool中動態挑選出一個最優的設備,並且以一個transaction(事 務)線性寫入,充分有效地利用了現有設備的帶寬,我們把這個特性稱為Dynamic Striping。而相對應的Static Striping則是傳統文件系統所使用的方式,Static Striping需要管理員預先對這組Stripe進行正確地計算人為 設置,而且如果加入新的設備則需要再次人為的計算和設置,更為嚴重的是如果人為計算錯誤,則會直接影響系統的性能。而在使用Dynamic Striping這種特性之後,我們根本不需要人為介入,ZFS會自動調整,智能的為你 提供最佳的設備,最快的操作方式。
支持多種 大小的數據塊(Multiple Block Size)
ZFS支持多種大小的數據塊定義,從512字節到1M字節。和傳統文件系統往往都是固定大小數據塊不同,ZFS則是可以動態的根據不同 大小的文件進行計算,動態的選擇最佳的數據塊。
因為不同大小數據 塊,直接影響到實際使用硬盤容量和讀取速度。如果使用較小的數據塊,存儲文件所導致的碎片則較少,讀寫小文件更快一些,但是會導致需要創建更多的metadata,讀寫大文件則會更費時。如果使用較大的數據塊,使用的metadata較少,更利於讀寫大文件,但是會導致更多的碎片。ZFS根據實際調查現有文件使 用的情況,分析出一個選擇數據塊大小的算法,動態的根據實際文件大小確定最佳的數據塊。所以ZFS是 非常智能的,在不需要系統管理員介入,就可以得到一個自我調優的結果。當然ZFS也支持用戶對單個文件或者整個文件系統 所使用的數據塊大小的自定義設置。
智能預讀取(Intelligent Prefetch)
多數的操作系統都 有這種將數據預先讀取的功能,而ZFS則是建立在文件系統上直接提供的一種更加智能的數據預讀取功能。它不僅可以智能地識別出多種讀取模式, 進 行提前讀取數據,而且可以對每個讀取數據流進行這種預讀取智能識別,這個對許多流媒體提供者來說是件非常好的事情。
在擴展性上,和現有文件系統多是基於一個受限的靜態模型不同,ZFS是采用ZFS Pool這個動態概念,它的metadata也是動態,並且讀寫操作都是可並行的,並且具有優先級概念,所以即使在大數據量,多設備的情況下仍可以保證性能的線性增長。
6. 自我修復功能
ZFS Mirror 和 RAID-Z
傳統的硬盤Mirror及RAID 4,RAID 5陣列方式都會遇到前面提到過的問題:Silent Data Corruption。如果發生了某塊硬盤物理問題導致數據錯誤,現有的Mirror,包括RAID 4,RAID 5陣列會默默地把這個錯誤數據提交給上層應用。如果這個錯誤發生在Metadata中,則會直接導致系統的Panic。 而且還有一種更為嚴重的情況是:在RAID 4和RAID 5陣列中,如果系統正在計算Parity數值,並再次寫入新數據和新Parity值的時候發生斷電,那麼整個陣列的所有存儲的數據都毫無意義了。
在ZFS中則提出了相對應的ZFS Mirror和RAID-Z方式,它在負責讀取數據的時候會自動和256位校驗碼進行校驗,會主動發現這種Silent Data Corruption,然後通過相應的Mirror硬 盤或者通過RAID-Z陣列中其他硬盤得到正確的數據返回給上層應用,並且同時自動修復原硬盤的Data Corruption 。
Fault Manager
在Solaris 10中,包含 一個ZFS診斷引擎和Solaris的 Fault Manager(這也是Solaris 10的 另一個新特性)交互,可以實時地診斷分析並且報告ZFS Pool和存儲設備的錯誤,用戶可以通過Fault Manager及時得到一個非常友善的消息。這個診斷引擎雖然不會采取主動的行為去修復或者解決 問題,但是會在消息中提示系統管理員可采取的動作。類似下面一個ZFS報錯消息,其中REC-ACTION就是建議采取的動作:
SUNW-MSG-ID: ZFS-8000-D3, TYPE: Fault, VER: 1, SEVERITY: Major
EVENT-TIME: Fri Mar 10 11:09:06 MST 2006
PLATFORM: SUNW,Ultra-60, CSN: -, HOSTNAME: neo
SOURCE: zfs-diagnosis, REV: 1.0
EVENT-ID: b55ee13b-cd74-4dff-8aff-ad575c372ef8
AUTO-RESPONSE: No automated response will occur.
IMPACT: Fault tolerance of the pool maybe compromised.
REC-ACTION: Run ’zpool status -x’ and replace the bad device.
7. 安全
在安全上,ZFS支持類似NT風格NFSv4版的ACL(讀取控制列表)。而且前面所提到的256位驗證碼,用戶可選擇多種驗證方式,包括SHA-256驗證算法,從而在物理存儲單元級別上保證數據的安全性。
8. 超強功能
ZFS作為“最後一個文件系統”,涵蓋了基本的文件系統和Volume管理的功能,同時 一並提供許多企業級別的超強功能:Quota(配額),Reservation(預留), Compression(壓 縮), Snapshot(快照),Clone(克隆)。並且速度非常快。有了這個文件系統,大家再也不需要任何Volume Manager了。
兼容性
ZFS是一個完全兼容POSIX規范的文件系統,所以處於上層的應用程序是完全不受影響。ZFS也提供一個Emulated Volume模塊,可以把任何一個ZFS文件系統作為普通的塊設備使用。同時ZFS也可以使用基於Volume Manager構建的Volume作為存儲設備單 元。這樣在不需要修改應用程序,不修改已有文件系統下,給了大家最大的自由度去獲得ZFS提供的各 種特性。
10. 開源