監測Linux系統 10條最佳成功經驗

1. 定義所獲得的“生產”資源的含義 - 一個服務器，一個應用或一種服務。

　　2. 找出滿足此生產需求的監測方式。

　　3. 執行監測可能性，可以通過手動方式也可以借助開源工具，比如Nagios或其它商業工具。

　　4. 定義那些 “損壞、不存在、警惕” (broken/unavailable/on fire) 的含義 - 通常也被稱之為警告、出錯、危險 (warn/error/critical)。

　　5. 在你的監測系統中執行警報以捕捉這些阈值。

　　6. 定義不同的警報級別所對應的處理流程。

　　7. 確保你的警報處理流程是與那些提示處理流程相符的。

　　8. 為各團隊創建角色和責任來分攤與他們工作特性相符的警報、控制和細節操作。聚焦於個人通常意味著為他們的區域提供更好的績效。

　　9. 為你整個系統中的警報、監測協議、角色等指定少數超級用戶，以確保他們按照單一藍本(blueprint)執行。

　　10. 如需要，則進行修正、清理和重復。