歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
您现在的位置: Linux教程網 >> UnixLinux >  >> Linux綜合 >> Linux資訊 >> Linux業界

VMware推Hadoop虛擬化開源工具

VMware公司希望所有企業用戶都以虛擬化而非裸機方式運行一切。而且在過去幾年中,該公司也一直在推動Hadoop堆棧的虛擬化概念,旨在使整套堆棧運行更順暢、管理更簡便。為了達成這一目標,VMware推出了Serengeti項目,目前此項目已經獲得一部分功能性調整,欲吸引更多大數據集群制造商加以嘗試。

在本周二公布的Serengeti 0.8.0中,這款專為Hadoop虛擬化打造的開源工具已經能夠支持數個Hadoop發行版,外加多項能夠簡化Hadoop之上HBase數據倉儲設置流程的功能。

此次Seregenti版本更新發布在Richard McDougall的一篇博文中,他是虛擬化巨頭VMware公司CTO辦公室的首席工程師。“大多數大數據環境中包含著混合工作負載,”McDougall解釋道。“Serengeti的任務是讓盡可能多的大數據類工作負載在同一套通用共享型平台上進行運作。”

通過對集群的虛擬化,大家得以在共享硬件中運行各種大數據處理工具的多項功能,根據需要與運行著每種工作負載的虛擬機進行撥號連接,並以可逆方式使其與其它工作負載協同運作。

這一切的核心在於彈性縮放,用戶需要為此交納虛擬化性能稅。由於很多工作負載都要求在服務器中塞入大量運算核心,因此這筆開銷還是可以接受的。

VMware希望在其ESXi服務器虛擬化之上部署大數據工具層

大多數企業可能還沒有想過通過這種方式處理自己的Hadoop集群,也很可能對這種機制的具體功能及表現抱懷疑態度。更令他們擔心的是,批量作業、查詢及其它依賴於此類結果的應用程序在周轉時間方面是否可能受到影響。他們顯然不希望由於虛擬化的介入而在性能方面做出犧牲。

但VMware公司則始終抱持著一往無前的態度,堅信虛擬化將成為足以應所有大數據任務的服務器集群混合模式。有鑒於此,Pivotal公司已經有計劃將Serengeti與Cloud Foundry平台雲、EMC的Greenplum數據倉儲以及Hadoop發行版加以整合,在今年晚些時候為用戶帶來全能型Pivotal產品。

隨著Serengeti 0.8.0版本的發布,Cloudera的CDH4與MapR Technologies的M5 Hadoop發行版如今也已經獲得在虛擬機容器中運行的必要支持。開源Apache 1.0發行版此前已經獲得支持,同樣可運行於虛擬機中的還有EMC的Greenplum HD 1.2、Cloudera CDH 3以及Hortonworks Data Platform 1.0。

在CHD4發行版的輔助下,Serengeti已經能夠識別出我們所使用的HDFS1或HDFS2文件系統,同時也能識別到Cloudera內置在其Hadoop發行版中的聯合NameNode支持,甚至能夠對選項進行配置。

而在MapR發行版的輔助下,Serengeti則獲得了對NFS類文件系統中容器位置數據庫(簡稱CLDB)的識別能力,這是因為MapR將NFS作為HDFS的替代方案。其它新增識別對象包括FileServer、JobTracker以及MapR堆棧中的TaskTracker元素。Serengeti甚至能夠將以上對象打包入虛擬機當中並通過復制副本進行性能擴展。

如果大家正打算設置一套HBase數據倉儲系統,那麼請注意Serengeti 0.8.0發行版中的備注:這款VMware工具能夠創建采用底層HDFS文件系統的HBase集群,並將其與MapReduce數據處理機制對接,同時利用Thrift與RESTful API對HBase加以管理。

Serengeti還懂得如何為數據倉儲系統配置主動及使用頻率較高的HMaster節點副本,並能夠在數據倉儲在HDFS基礎上設置完畢後實現HBase RegionalServers擴展。HBase能夠在Serengeti的幫助下部署在以Apache Hadoop、Cloudera、Hortonworks或Greenplum發行版為基礎的虛擬化方案之中。(但出於某種原因, MapR發行版並未包含在內)

大家現在已經可以在VMware官方網站中下載采用Serengeti 0.8.0的虛擬機方案,而且是免費使用。
Copyright © Linux教程網 All Rights Reserved