華為云計算與網絡創(chuàng)新Lab

云系統(tǒng)中的告警質量調研和告警優(yōu)化策略

本文發(fā)表于DSN2022（CCF-B），作者為楊天益（香港中文大學博士研究生），相關工作為華為-港中文聯(lián)合實驗室研究中產出。原文鏈接Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems

摘要

告警對于云系統(tǒng)異常時人工接入處理的及時性至關重要。告警的質量會顯著影響云系統(tǒng)可靠性和云服務商的業(yè)務收入。在實踐中，由于云系統(tǒng)海量的告警數(shù)據(jù)中存在一些沒有信息量的、錯誤的、有誤導性的告警，使得oncall的工程師無法快速定位根因和修復故障。我們將這些無效的告警的稱為“告警的anti-pattern”。為了更好地理告警的anti-pattern，并提供可操作的措施來治理anti-pattern，本文首次對工業(yè)云系統(tǒng)中治理告警的anti-pattern的實踐進行了實證研究。我們研究了業(yè)界領先的云服務商華為云的告警策略和告警處理過程，研究結合了兩年內數(shù)百萬個告警的定量分析，以及對18名經驗豐富的運維工程師的調查。因此，我們總結了四種單獨的anti-pattern和兩種集體的anti-pattern。我們還總結了當前治理告警anti-pattern的四種措施，以及告警策略配置的一些建議。最后，我們建議探索告警質量（QoA）的自動評估，包括告警的指示性、精度和可操作性作為未來的研究方向，幫助自動檢測告警的anti-pattern。我們的研究結果對于優(yōu)化云監(jiān)控系統(tǒng)和提高云服務的可靠性具有重要價值。

云系統(tǒng)中海量的告警數(shù)據(jù)中存在一些沒有信息量的、錯誤的、有誤導性的告警。我們統(tǒng)稱這些問題為告警的反模式（反模式），本文主要是針對告警的反模式進行實證分析，并針對實際告警治理的實踐給出一些分析和建議。

針對告警的反模式，本文研究了以下四個研究問題:

告警中存在哪些反模式？
這些反模式是如何影響運維診斷告警的？
目前運維人員對于無效告警的應對方式是什么？
目前如何避免無效告警？

告警中的反模式

單個告警產生的反模式
- 告警描述籠統(tǒng)不清晰，導致運維人員無法得到明確的結論，影響分析
- 告警嚴重性不準確，導致運維人員把時間浪費在處理不重要的告警上。而且由于云系統(tǒng)的迭代更新，嚴重性也會隨之改變
- 不合適的/過期的告警生成規(guī)則。比如系統(tǒng)會對底層基礎架構和上層業(yè)務都進行監(jiān)控并生成告警，雖然底層告警可能是某些故障的根因，但是由于容錯機制的存在，底層的告警一般對服務質量不會有太大的影響。
- 閃斷和震蕩告警。持續(xù)很短時間，或者反復在正常和異常直接切換，通常是因為告警策略太敏感

告警風暴
- 重復告警：由相同告警策略生成，比如下圖中haproxy的告警占到了大約30%

一個告警風暴例子中的重復告警

級聯(lián)告警：由于模塊依賴和調用關系，由告警傳播生成

現(xiàn)有對反模式的回應

當告警數(shù)量比較少的時候，運維人員一般會手工處理每個告警，但是當短時間內生成告警數(shù)量較多的時候，通常會有以下幾種方式：

告警屏蔽：對于噪聲類告警，設置規(guī)則屏蔽瞬時告警、反復切換的告警和重復告警
告警聚合：對于非噪聲類告警, 對告警進行聚合
告警相關性分析：
- 告警策略的依賴：比如一個源告警會出發(fā)生成另一個告警，運維人員會更關注源告警
- 根據(jù)云服務的拓撲進行相關性分析
檢測新出現(xiàn)的告警：采用在線LDA的方式。用LDA主題模型，新興告警通常在過去一段時間沒有出現(xiàn)過，topic表現(xiàn)會不一樣

防止出現(xiàn)反模式告警

華為云采取了一些告警規(guī)約并且定期對告警策略進行回顧，主要從下面三個方面來考慮：
- 監(jiān)控對象是什么？和服務質量強相關的數(shù)據(jù)應該被監(jiān)控
- 什么時候生成告警？
- 告警的屬性對診斷是不是有幫助？
如果嚴格遵守告警規(guī)約，可以有效地減少無效告警，但是是否遵守告警規(guī)約依賴于人工檢查。

未來研究方向

告警質量評估 (QoA) 的幾個維度
- 告警的指示性。這個告警是否可以代表一個故障
- 準確性。告警能否正確反映異常的嚴重性
- 可處理性。告警能否被有效地處理，與告警目標和告警屬性有關
未來工作：
- 結合人工知識和機器學習方法從上述三個角度來評估告警，比如基于人工知識來從上面三個角度給出標注，然后采用機器學習模型來學習，形成閉環(huán)。
- 對于以上三個屬性，可以考慮使用human-in-the-loop的方式訓練模型。具體來講，運維工程師在處理告警時對告警質量的三個維度分別進行打分，有了這些分數(shù)之后，再使用多模態(tài)學習將告警質量分數(shù)與當時系統(tǒng)的監(jiān)控指標進行融合學習，從而得到一個自動化判斷告警質量的模型，并在系統(tǒng)運行時不斷優(yōu)化此模型。

（左）嚴格的告警生成策略

（中）自動化告警質量檢測，不斷利用人的標注訓練機器學習模型

（右）對低質量的告警及時優(yōu)化處理

五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA