五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

云系統(tǒng)中的告警質量調研和告警優(yōu)化策略

本文發(fā)表于DSN2022(CCF-B),作者為楊天益(香港中文大學博士研究生),相關工作為華為-港中文聯(lián)合實驗室研究中產出。原文鏈接Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems

摘要

告警對于云系統(tǒng)異常時人工接入處理的及時性至關重要。告警的質量會顯著影響云系統(tǒng)可靠性和云服務商的業(yè)務收入。在實踐中,由于云系統(tǒng)海量的告警數(shù)據(jù)中存在一些沒有信息量的、錯誤的、有誤導性的告警,使得oncall的工程師無法快速定位根因和修復故障。我們將這些無效的告警的稱為“告警的anti-pattern”。為了更好地理告警的anti-pattern,并提供可操作的措施來治理anti-pattern,本文首次對工業(yè)云系統(tǒng)中治理告警的anti-pattern的實踐進行了實證研究。我們研究了業(yè)界領先的云服務商華為云的告警策略和告警處理過程,研究結合了兩年內數(shù)百萬個告警的定量分析,以及對18名經驗豐富的運維工程師的調查。因此,我們總結了四種單獨的anti-pattern和兩種集體的anti-pattern。我們還總結了當前治理告警anti-pattern的四種措施,以及告警策略配置的一些建議。最后,我們建議探索告警質量(QoA)的自動評估,包括告警的指示性、精度和可操作性作為未來的研究方向,幫助自動檢測告警的anti-pattern。我們的研究結果對于優(yōu)化云監(jiān)控系統(tǒng)和提高云服務的可靠性具有重要價值。

圖片描述

云系統(tǒng)中海量的告警數(shù)據(jù)中存在一些沒有信息量的、錯誤的、有誤導性的告警。我們統(tǒng)稱這些問題為告警的反模式(反模式),本文主要是針對告警的反模式進行實證分析,并針對實際告警治理的實踐給出一些分析和建議。

圖片描述

針對告警的反模式,本文研究了以下四個研究問題:

  1. 告警中存在哪些反模式?
  2. 這些反模式是如何影響運維診斷告警的?
  3. 目前運維人員對于無效告警的應對方式是什么?
  4. 目前如何避免無效告警?
告警中的反模式
  • 單個告警產生的反模式

    • 告警描述籠統(tǒng)不清晰,導致運維人員無法得到明確的結論,影響分析
    • 告警嚴重性不準確,導致運維人員把時間浪費在處理不重要的告警上。而且由于云系統(tǒng)的迭代更新,嚴重性也會隨之改變
    • 不合適的/過期的告警生成規(guī)則。比如系統(tǒng)會對底層基礎架構和上層業(yè)務都進行監(jiān)控并生成告警,雖然底層告警可能是某些故障的根因,但是由于容錯機制的存在,底層的告警一般對服務質量不會有太大的影響。
    • 閃斷和震蕩告警。持續(xù)很短時間,或者反復在正常和異常直接切換,通常是因為告警策略太敏感
  • 告警風暴
    • 重復告警:由相同告警策略生成,比如下圖中haproxy的告警占到了大約30%

圖片描述

一個告警風暴例子中的重復告警

  • 級聯(lián)告警:由于模塊依賴和調用關系,由告警傳播生成
現(xiàn)有對反模式的回應

當告警數(shù)量比較少的時候,運維人員一般會手工處理每個告警,但是當短時間內生成告警數(shù)量較多的時候,通常會有以下幾種方式:

  • 告警屏蔽:對于噪聲類告警,設置規(guī)則屏蔽瞬時告警、反復切換的告警和重復告警
  • 告警聚合:對于非噪聲類告警, 對告警進行聚合
  • 告警相關性分析:
    • 告警策略的依賴:比如一個源告警會出發(fā)生成另一個告警,運維人員會更關注源告警
    • 根據(jù)云服務的拓撲進行相關性分析
  • 檢測新出現(xiàn)的告警:采用在線LDA的方式。用LDA主題模型,新興告警通常在過去一段時間沒有出現(xiàn)過,topic表現(xiàn)會不一樣
防止出現(xiàn)反模式告警
  • 華為云采取了一些告警規(guī)約并且定期對告警策略進行回顧,主要從下面三個方面來考慮:

    • 監(jiān)控對象是什么?和服務質量強相關的數(shù)據(jù)應該被監(jiān)控
    • 什么時候生成告警?
    • 告警的屬性對診斷是不是有幫助?
  • 如果嚴格遵守告警規(guī)約,可以有效地減少無效告警,但是是否遵守告警規(guī)約依賴于人工檢查。

未來研究方向
  • 告警質量評估 (QoA) 的幾個維度
    • 告警的指示性。這個告警是否可以代表一個故障
    • 準確性。告警能否正確反映異常的嚴重性
    • 可處理性。告警能否被有效地處理,與告警目標和告警屬性有關
  • 未來工作:
    • 結合人工知識和機器學習方法從上述三個角度來評估告警,比如基于人工知識來從上面三個角度給出標注,然后采用機器學習模型來學習,形成閉環(huán)。
    • 對于以上三個屬性,可以考慮使用human-in-the-loop的方式訓練模型。具體來講,運維工程師在處理告警時對告警質量的三個維度分別進行打分,有了這些分數(shù)之后,再使用多模態(tài)學習將告警質量分數(shù)與當時系統(tǒng)的監(jiān)控指標進行融合學習,從而得到一個自動化判斷告警質量的模型,并在系統(tǒng)運行時不斷優(yōu)化此模型。

圖片描述

(左)嚴格的告警生成策略

(中)自動化告警質量檢測,不斷利用人的標注訓練機器學習模型

(右)對低質量的告警及時優(yōu)化處理