1. 定義所獲得的“生產”資源的含義 - 一個服務器,一個應用或一種服務。
2. 找出滿足此生產需求的監測方式。
3. 執行監測可能性,可以通過手動方式也可以借助開源工具,比如Nagios或其它商業工具。
4. 定義那些 “損壞、不存在、警惕” (broken/unavailable/on fire) 的含義 - 通常也被稱之為 警告、出錯、危險 (warn/error/critical)。
5. 在你的監測系統中執行警報以捕捉這些阈值。
6. 定義不同的警報級別所對應的處理流程。
7. 確保你的警報處理流程是與那些提示處理流程相符的。
8. 為各團隊創建角色和責任來分攤與他們工作特性相符的警報、控制和細節操作。聚焦於個人通常意味著為他們的區域提供更好的績效。
9. 為你整個系統中的警報、監測協議、角色等指定少數超級用戶,以確保他們按照單一藍本(blueprint)執行。
10. 如需要,則進行修正、清理和重復。