任何 IT 專業人員如果使用過監控工具,無論使用時間長短,都很可能對伺服器、路由器及交換機等新裝置的設定得心應手。新增磁碟機及介面等子項目大概也是小菜一碟。他們還很有可能設定自己份內要處理的報告及資料匯出,更不用說設定提醒了。
但是現在必須解決的問題是:如何處理這些提醒?
大多數使用監控工具的 IT 專業人員會設定電子郵件或短訊提醒轉寄,以便使用流動裝置獲得通知。特別諳於此道的 IT 專業人員甚至會在其公司使用的事件系統中設定自動問題單。但是一旦設定好這些,他們通常就收工了。接下來發生的事情很常見:監控工具將偵測到一個錯誤,並發出一則通知,相關人員將介入,採取某種行動,於是問題將(最終)得到解決。
但是為什麼要這麼做呢?如果電腦可以處理這種情況,為什麼要打擾一個正在享受生活、休息、工作或睡覺的人?事實上,監控工具自帶的許多提醒都具有通常可自動化的簡單回應功能,這樣可以節省很多人工時間及資源,換句話說,有助於提高淨收益。
想一想下面這些經常被忽視的簡單例子:
提醒:XXX 服務不可用
自動回應:嘗試重新啟動裝置
提醒:磁碟空間佔用率超過 X%
自動回應:清空標準臨時資料夾
提醒:偵測到 IP 位址衝突
自動回應:關閉較新裝置的連接埠
這樣的例子不勝枚舉。
任何時候,如果自動回應不成功,正常的監控工具將觸發第二級行動 — 透過上文所述的電子郵件、短訊或問題單發出通知。在最糟糕的情況下,電子郵件、短訊或問題單也只會延遲幾分鐘時間,而它們之所以會延遲,是因為監控系統立即採取了技術人員在登入後才會採取的措施。因此,從某種意義上來說,這種解決問題的途徑仍然比沒有自動回應的時候快上數分鐘。
但是自動化能做的事不僅僅是這些。有效的監控工具在發出提醒時,還能夠自動開始收集所需的額外資訊,然後將這些資訊「反饋」給提醒本身。例如:
提醒:CPU 佔用率超過 X%
自動回應:確定 CPU 佔用率最高的 10 個處理程序
提醒:RAM(新聞 – 快訊)佔用率超過 X%
自動回應:確定 RAM 佔用率最高的 10 個處理程序
提醒:虛擬機佔用了超過 X% 的主機資源
自動回應:按名稱確定虛擬機
提醒:清空臨時資料夾後,磁碟空間佔用仍然超過 X%
自動回應:掃描磁碟,確定最近 24 小時內新增或更新的最大的 10 個檔案
但是這類監控自動化真的會影響淨收益嗎?答案是絕對的「會」。
典型案例:某間公司最近只是實施了上文所述的與磁碟相關的自動回應,即清空臨時資料夾,如果磁碟空間仍然較滿,則在 15 分鐘後再次發出提醒,並且將 CPU 佔用率最高的 10 個處理程序新增至高 CPU 佔用提醒中。
結果是,與去年同月相比,提醒數量大約減少了 30% 至 70%。將百分比轉換為實際數字,意味著每月大約減少了 43 至 175 條提醒。另外,支援人員看到結果後可以更快地對剩餘的提醒做出回應,因為他們知道,系統已經自動完成了初步處理。
顯然,與 CPU 相關的提醒沒有減少,但支援人員的回應同樣得到了改善,因為問題單中所含的資訊明確指出了問題所在。在一種情況下,由於公司終於能夠證明軟件長期存在的問題,因此他們可以去找廠商,要求對方提供修補程式。
虛擬化、成本的下降以及值得慶幸的預算投入增加正在推動 IT 環境的發展,在這樣的背景下,利用監控措施來確保運算環境的穩定性已成為一項日益明顯的需求。另一項需求沒有那麼明顯,但是卻具有同樣的重要性及價值,那就是:透過實施促進自動化的監控工具以及切實利用這些自動化功能,來確保將監控所需的人工成本維持在低水平。
作者:SolarWinds 極客達人 Leon Adato
部署監控措施(但不自動化)的成本
https://www.facebook.com/hkitblog