大數據在今天吸引了大量關注,個人、企業和政府機構之間的互動創造了數據的海洋,通過有效識別、訪問、篩選和分析其中部分數據能帶來新的見解和益 處。大數據需要大量的儲存空間,先進的存儲基礎設施必不可少,需要能在多台服務器上伸縮自如的存儲解決方案。有許多優秀的開源文件系統能用於深入分析大數 據,其中包括:
Quantcast File System (QFS) 是一個高性能、容錯、分布式的文件系統,其開發是用於支持 MapReduce 處理或者需要順序讀寫大文件的應用。
Hadoop Distributed File System,簡稱HDFS,是一個分布式文件系統。HDFS有著高容錯性(fault-tolerent)的特點,並且設計用來部署在低廉的(low- cost)硬件上。而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以實現流的形式訪問(streaming access)文件系統中的數據。HDFS開始是為開源的apache項目nutch的基礎結構而創建,HDFS是hadoop項目的一部分,而 hadoop又是lucene的一部分。
Ceph是加州大學Santa Cruz分校的Sage Weil(DreamHost的聯合創始人)專為博士論文設計的新一代自由軟件分布式文件系統。自2007年畢業之後,Sage開始全職投入到Ceph開 發之中,使其能適用於生產環境。Ceph的主要目標是設計成基於POSIX的沒有單點故障的分布式文件系統,使數據能容錯和無縫的復制。2010年3 月,Linus Torvalds將Ceph client合並到內 核2.6.34中。IBM開發者園地的一篇文章探討了Ceph的架構,它的容錯實現和簡化海量數據管理的功能。
Lustre是一個大規模的、安全可靠的,具備高可用性的集群文件系統,它是由SUN公司開發和維護的。
該項目主要的目的就是開發下一代的集群文件系統,可以支持超過10000個節點,數以PB的數據量存儲系統。
GlusterFS 是一個集群的文件系統,支持 PB 級的數據量。GlusterFS 通過 RDMA 和 TCP/IP 方式將分布到不同服務器上的存儲空間匯集成一個大的網絡並行文件系統。
PVFS 是一個高性能、開源的並行文件系統,主要用於並行計算環境中的應用。特別為超大數量的客戶端和服務器端設計。模塊化結構設計,可輕松的添加新的硬件和算法支持。
PVFS 側重高性能訪問大數據集,包含一個服務器進程和客戶端開發庫,完全基於用戶級代碼編寫。
特征: