當Tom Cignarella來到PlanetOut Inc.公司走馬上任,擔任技術運營副總裁的時候,他的大部分數據中心還在黑暗之中。
媒體和娛樂公司的San Jose數據中心的燈火通明,但是它的網絡監控卻是一片黑暗——只有20%的Cignarella的服務器擁有某種報告或者監控的能力。
“當我2006年第一次到達那裡的時候,那裡只有幾台服務器是在監控中。只有很有限的歷史圖表——我們幾乎是蒙著眼睛在飛行,” Cignarella說。一個客戶構建的應用程序,諸如此類的,正在處理PlanetOut公司的將近40台混雜運行著Solaris和 Red Hat Enterprise Linux 4的服務器的監控和系統管理需求,他說。
那個時候他並不知道,他的幾台Sun Microsystems Inc. T1000 服務器都運行了100%的容量。其它的服務器則在不知道的情況下崩潰了。網絡的緩慢開始影響了業務。但是只有20%的系統是在管理下, Cignarella和他的IT員工真的無處了解這是為什麼。“是客戶告訴我們發生了問題,而我們自己都不知道服務器有問題,”他說。
Nagios的學問
在他到PlanetOut擔任IT職責之前,Cignarella是在Symantec Corp.公司工作,位於加利福尼亞州卡布奇諾,在那裡,他管理一個網絡監控團隊。
在Symantec, Cignarella漸漸熟悉了一個開源監控項目,叫做Nagios。Nagios是在2002年發布的,許可證是GPL。Nagios監控用戶指定的主機和服務,並且在發生問題的時候提出警告,然後在主機和服務恢復之後繼續監控。
“在Symantec的時候,我們對Nagios做了大量的擴展工作,並且能夠將其擴展到整個企業范圍,”Cignarella說。然而,因為 Nagios是Symantec贈予的,所以它需要一位系統管理員專家來充分挖掘它的潛力。“任何系統管理員都可以把Nagios啟動起來,並且將其運行在自己的環境中,但是如果你想要進一步擴展,那麼你就需要一位專家了,”他說。
PlanetOut沒有這樣的專家。幸運的是,Cignarella與其它一個名為GroundWork Open Source的監控公司熟悉,這家公司有一個產品,叫做監控器,由幾個開源項目組成,其中包括Nagios。
“在PlanetOut,服務器環境需要我們能夠快速啟動並且運行起來,”Cignarella說。一個來自“四大”的產品——IBM, CA ,惠普,以及 BMC 軟件公司——也是無法提供的,Cignarella說。“隨著時間一點點過去,我們需要一些可以立即啟動並運行起來的東西,”他說。
所以PlanetOut開始了對GroundWork Monitor 4.5的部署。Cignarella對於這項技術很滿意,並且也很熟悉它的安裝和維護過過程。成本也是一個問題,四大公司所有的產品的成本在每個監控上都要超過幾十萬美元。Cignarella沒有詳細描述他的部署成本是多少,但是說他獲得了來自舊金山的GroundWork的標准支持許可證。
贏得全天候的服務器監控
GroundWork 監控器的安裝是從8月份開始的,版本是4.5,並且在10月份開始使用之前升級到了5.0版本,這個版本可以讓你在一個產品服務器安裝,同時備份的服務器也具有高度的可用性。
Cignarella說,這個應用程序最初監控一個運行Tomcat的網絡服務器,一個防火牆,以及一個運行客戶應用程序的應用服務器。其配置保存為一個測試環境,在裡面可以構建PlanetOut的 Sun T1000s的剩余部分的部署。
“GroundWork的職員進入,並且開始部署,然後我們讓他們為我們看著警報,”Cignarella說。“他們確保每件事情都運行良好 (對於那三個服務器),直到我們將應用程序真正上馬。然後我們開始每5分鐘受到了一個警報。”例如,監控器立即識別出來,磁盤的利用率已經達到100%。
64位的升級噎住了
但2006年8月份部署Monitor 4.5的時候,進行得很順利,在2006年年底升級到5.0的時候,可是走了一段“坎坷路”,Cignarella說。這是因為PlanetOut是 GroundWork第一個64位服務器升級的客戶。許多的挑戰,他說,都是關於PlanetOut的基礎設施在針對特定應用程序的時候產生的。
“我們不得不拿來我們的高可用性機器,並且在基礎上重新再來;我們不得不導出數據庫,並且重新導入。謝天謝地,我們的高可用性機器又好用了,那段時間只用單獨一台服務器可真是難辦,”他說。
最後,升級以多種處理方式重新配置和部署了游泳池系列表上的50個點。GroundWork支持團隊來到現場提供支持,Cignarella說。“我們非常期待達到GroundWork的最終升級目標,安裝一個新的RPM,然後就對了,”他說。
今天,PlanetOut的所有基礎設施都在100%的監控當中,此外還有一點:Cignarella說他甚至在監控數據中心外面的東西,例如遠程辦公室的網絡設備。“我們已經通過了網絡監控的本質的革命(Solaris 和 Linux的混合環境中)。我們從被動飛躍到主動,”Cignarella說。“這不僅僅是啟動幾台機器,這是運行在上面的應用程序在真正地發揮作用。”
from:http://www.chinaunix.net