歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
您现在的位置: Linux教程網 >> UnixLinux >  >> Linux綜合 >> Linux資訊 >> Linux業界

Facebook打破Hadoop最大容量上限

      你可能會認為,100拍(petabyte)字節對於任何公司來說都是非常大的數據量級了。但是對於社交網站明星Facebook而言,100拍字節的數據根本不算什麼。

      由於擁有10億用戶,以及需要每隔30分鐘分析一次105太(terabyte)以上的字節,Facebook對數據處理的胃口已經堪稱“哥斯拉”級別。為了優化產品性能和廣告業績,臉譜需要關注和分析這些數據中的許多內容,其中包括與27億“喜歡”(Like)按鈕功能有關的數據,以及每天25億被共享的內容項目。Hadoop是Facebook網站使用的一個關鍵工具,其不僅被用於分析,而且還被作為推動Facebook網站內信息傳送等眾多功能的引擎。這一沉重的工作負載迫使Facebook推出了支持地理分布式Hadoop數據存儲的Prism項目。

      得益於諸如在Hadoop上處理A/B測試結果等技術,Facebook能夠確定針對具體地區,或以性別、年齡、興趣愛好等標准劃分的特定群體推出的功能和廣告的效率。通過這些積極的結果,臉譜能夠改進功能,明確目標市場。

      Facebook的業務分析師正在以各種方式拓展公司的業務。他們主要依靠的是可讓他們同時使用Hadoop和標准商業智能工具的Hive,以及由Facebook自主開發的閉源終端用戶工具HiPal。Hive為一個由Facebook推出的開源項目,其被廣泛地使用在企業內部的訪問層,以查詢使用SQL子集的Hadoop。為了讓業務人員更加容易地使用它們,臉譜推出了HiPal。HiPal為一款圖形工具,它能夠與Hive對話,並且具有數據發現、查詢編輯、制圖和儀表盤創建等功能。

      在原生Hadoop容量方面,Facebook已經達到了它們的最高上限。Facebook近期宣布,該公司目前擁有全球最大的Hadoop集群,數據容量達到了100拍字節。不過,Facebook也表示這還不夠大。Prism項目將把Hadoop的容量推向一個新高度。

      目前的問題是,Hadoop必須將數據限制在一個物理數據中心。盡管Hadoop為批處理系統,但是它們還是被緊密耦合在一起。同時,在Hadoop集群的服務器中,它們無法接受超過數毫秒的延遲。通過Prism,系統增加了一個邏輯抽象層,因此Hadoop集群能夠跨多個數據中心運行,從而有效地提升了容量方面的限制量級。

      Facebook表示,他們很快將會把Prism變成一個開源項目。對於企業界而言,這無疑將成為一個可與2006年雅虎公開Hadoop源代碼相媲美的壯舉。雖然目前還不清楚Prism對其他公司具有多大的實用性,但是對於其他大型企業來說,他們剛剛也在Hadoop和NoSQL方面遇到了與Facebook相同的問題。

      Facebook技術研發的背後是該公司業績未達到華爾街預期的緊迫感。不過,近期Facebook移動業務盈收方面的好消息稍微緩解了華爾街對其的失望情緒。事實上,無論Facebook是否能夠持續從移動業務中獲得盈利,還是從免費服務中產生充足的營收,增加廣告宣傳是一個日益緊迫的問題。無論采取哪種模式,基於Hadoop的分析方式將成為Facebook的大數據技術選擇。Prism等新項目則讓幾年前看似無法逾越的限制正在被打破。
Copyright © Linux教程網 All Rights Reserved