華為云計(jì)算 云知識(shí) 華為云應(yīng)用運(yùn)維管理平臺(tái)獲評(píng)中國(guó)信通院可觀測(cè)性評(píng)估先進(jìn)級(jí)
華為云應(yīng)用運(yùn)維管理平臺(tái)獲評(píng)中國(guó)信通院可觀測(cè)性評(píng)估先進(jìn)級(jí)

微服務(wù)入口>>

近日,華為云 應(yīng)用運(yùn)維管理 平臺(tái)參與了中國(guó)信息通信研究院(以下簡(jiǎn)稱“中國(guó)信通院”)主辦的“穩(wěn)保行動(dòng)”的可觀測(cè)性平臺(tái)能力評(píng)估。經(jīng)過中國(guó)信通院的檢驗(yàn),華為云應(yīng)用運(yùn)維管理平臺(tái)滿足云上軟件系統(tǒng)穩(wěn)定-可觀測(cè)性平臺(tái)技術(shù)要求,達(dá)到了可觀測(cè)性平臺(tái)技術(shù)檢驗(yàn)的先進(jìn)級(jí)水平。

作為 云計(jì)算 和軟件的權(quán)威評(píng)估機(jī)構(gòu),中國(guó)信通院在可觀測(cè)性平臺(tái)和工具的評(píng)測(cè)中,以通信行業(yè)標(biāo)準(zhǔn)《可觀測(cè)性平臺(tái)技術(shù)要求》為依據(jù),客觀真實(shí)地評(píng)估了廠商的可觀測(cè)能力水平。經(jīng)中國(guó)信通院的細(xì)致評(píng)估,華為云應(yīng)用運(yùn)維管理平臺(tái)在數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)應(yīng)用、平臺(tái)運(yùn)維這4項(xiàng)檢驗(yàn)中,滿足了可觀測(cè)性平臺(tái)先進(jìn)級(jí)能力要求,這也意味著華為云在可觀測(cè)性領(lǐng)域已經(jīng)達(dá)到業(yè)內(nèi)領(lǐng)先水平。

華為云應(yīng)用運(yùn)維管理平臺(tái)是云上應(yīng)用的一站式立體化運(yùn)維管理平臺(tái),實(shí)時(shí)監(jiān)控應(yīng)用及相關(guān)云資源,采集并關(guān)聯(lián)資源的各項(xiàng)指標(biāo)、日志及事件等數(shù)據(jù)共同分析應(yīng)用健康狀態(tài),提供靈活的告警及豐富的 數(shù)據(jù)可視化 功能,幫助用戶及時(shí)發(fā)現(xiàn)故障,全面掌握應(yīng)用、資源及業(yè)務(wù)的實(shí)時(shí)運(yùn)行狀況。

一、牢固的基石——應(yīng)用資源管理和采集管理

應(yīng)用資源管理

傳統(tǒng)信息技術(shù)基礎(chǔ)設(shè)施庫(Information Technology Infrastructure Library,簡(jiǎn)稱ITIL)流程中面向基礎(chǔ)設(shè)施資源的管理方式,易造成各運(yùn)維服務(wù)之間數(shù)據(jù)割裂、信息不一致等問題。華為云應(yīng)用運(yùn)維管理平臺(tái)的應(yīng)用資源管理(簡(jiǎn)稱CMDB)是基于DevOps理念打造的面向應(yīng)用全生命周期的資源管理平臺(tái),是現(xiàn)代 自動(dòng)化 運(yùn)維的基石服務(wù),統(tǒng)一集中管理資源對(duì)象與應(yīng)用之間的關(guān)系。

應(yīng)用資源管理CMDB以應(yīng)用為中心,實(shí)現(xiàn)多層級(jí)應(yīng)用、子應(yīng)用、組件到環(huán)境的模型管理,建立應(yīng)用與云資源依賴關(guān)系。通過應(yīng)用資源管理,可以找到應(yīng)用與下級(jí)微服務(wù)以及部署在不同環(huán)境(開發(fā)環(huán)境、測(cè)試環(huán)境或生產(chǎn)環(huán)境等)下的資源實(shí)例,包括ECS、RDS、ELB、CCE等云服務(wù)實(shí)例,為應(yīng)用監(jiān)控、告警關(guān)聯(lián)分析以及自動(dòng)化運(yùn)維提供配置數(shù)據(jù)。同時(shí)也支持通過開放配置數(shù)據(jù)接口,輔助第三方系統(tǒng)運(yùn)維場(chǎng)景建設(shè)。

采集管理

作為數(shù)據(jù)的來源,采集插件至關(guān)重要。華為云應(yīng)用運(yùn)維管理平臺(tái)提供無侵入式采集插件,用戶無需修改應(yīng)用代碼,只需要部署探針包,修改相應(yīng)的應(yīng)用啟動(dòng)參數(shù),就能對(duì)應(yīng)用進(jìn)行全方位的數(shù)據(jù)采集,以便全面掌握應(yīng)用的運(yùn)行情況,采集范圍包括但不限于:

1.基礎(chǔ)資源:包含云主機(jī)、容器、網(wǎng)絡(luò)等;

2中間件:包含 數(shù)據(jù)庫 、消息隊(duì)列、應(yīng)用容器、存儲(chǔ)、日志等;

3.IOT設(shè)備:包含各種邊緣設(shè)備、采集的數(shù)據(jù)范圍包括指標(biāo)等;

4.前端組件:包含H5、ios、android、小程序等;

5.后端組件:包含java、python、nodejs、c#、go等。

另外華為云應(yīng)用運(yùn)維管理平臺(tái)還提供插件生命周期管理能力,不同的插件分工采集不同的數(shù)據(jù),用戶可以按需安裝、升級(jí)、卸載各類插件。

二、強(qiáng)大的核心——指標(biāo)監(jiān)控、 云日志 應(yīng)用性能管理

隨著 云原生 技術(shù)逐漸普及,傳統(tǒng)監(jiān)控系統(tǒng)正朝可觀測(cè)性系統(tǒng)演進(jìn),業(yè)界對(duì)可觀測(cè)性的共識(shí),是基于可觀測(cè)性的三大支柱“metrics、logging、tracing”。

華為云應(yīng)用運(yùn)維管理平臺(tái)將 云監(jiān)控服務(wù) (Cloud Eye,簡(jiǎn)稱 CES )的指標(biāo)數(shù)據(jù)、云日志服務(wù)(Log Tank Service,簡(jiǎn)稱 LTS )的日志數(shù)據(jù)、應(yīng)用性能管理服務(wù)(Application Performance Management,簡(jiǎn)稱 APM )的性能分析數(shù)據(jù)進(jìn)行統(tǒng)一監(jiān)控,從而提供了對(duì)云資源、應(yīng)用和性能的全面監(jiān)控和診斷。

指標(biāo)—— 云監(jiān)控 服務(wù)CES

云監(jiān)控CES是華為云上資源監(jiān)控的服務(wù),提供80多種云服務(wù)、上千類資源指標(biāo),涵蓋彈性 云服務(wù)器 、帶寬、數(shù)據(jù)庫等服務(wù),滿足用戶各類云上資源監(jiān)控需求。CES可提供多聚合方式、最長(zhǎng)六個(gè)月的歷史監(jiān)控圖表,方便用戶查看近半年業(yè)務(wù)監(jiān)控?cái)?shù)據(jù)。

除了云監(jiān)控提供的云服務(wù)指標(biāo)外,用戶還可以自定義上報(bào)業(yè)務(wù)指標(biāo),通過Open API、SDK方式上報(bào),可更全面、深入地監(jiān)控業(yè)務(wù)運(yùn)行狀況。

日志—— 云日志服務(wù)LTS

在海量數(shù)據(jù)的時(shí)代,讓寶貴的原始日志數(shù)據(jù)躺在磁盤里日漸沉寂,無法在云時(shí)代“一展宏圖”,完全是埋沒了日志數(shù)據(jù)的價(jià)值。而使用華為云日志服務(wù)就可以從項(xiàng)目初始便賦予日志數(shù)據(jù)搜索、分析和探索能力,讓日志數(shù)據(jù)活起來、變有用。華為云日志服務(wù)提供日志采集、秒級(jí)搜索、海量存儲(chǔ)、結(jié)構(gòu)化處理、轉(zhuǎn)儲(chǔ)和可視化圖表等各項(xiàng)能力,可滿足應(yīng)用運(yùn)維、可視化分析、等保合規(guī)等各類應(yīng)用場(chǎng)景。

場(chǎng)景1

日志分析 、保障系統(tǒng)安全:實(shí)時(shí)收集系統(tǒng)產(chǎn)生的日志數(shù)據(jù),對(duì)日志數(shù)據(jù)進(jìn)行分析、歸檔,支持每天百TB級(jí)日志的接入,十億級(jí)日志秒級(jí)搜索

場(chǎng)景2

日志審計(jì):通過實(shí)時(shí)收集日志,避免數(shù)據(jù)被誤刪和被非法入侵者刪除的可能性,同時(shí)將日志轉(zhuǎn)儲(chǔ)長(zhǎng)期存儲(chǔ),滿足合規(guī)要求

場(chǎng)景3

問題診斷:系統(tǒng)出現(xiàn)問題或故障時(shí),通過日志快速查詢、精準(zhǔn)定位問題所在

場(chǎng)景4

系統(tǒng)改進(jìn):通過阻塞記錄發(fā)現(xiàn)站點(diǎn)性能瓶頸,優(yōu)化緩存策略、數(shù)據(jù)傳輸策略

性能——應(yīng)用性能管理服務(wù)APM

在華為內(nèi)部,有上百萬微服務(wù)使用著應(yīng)用性能管理服務(wù)APM,在日常性能診斷、故障定位和排查等場(chǎng)景中,通過使用APM實(shí)現(xiàn)故障1分鐘感知、5分鐘定界、10分鐘恢復(fù)能力的構(gòu)筑。APM有力地支撐了華為云、終端、車、能源等各類型產(chǎn)品的應(yīng)用性能管理和日常運(yùn)維保障。

現(xiàn)在,華為云將內(nèi)部多年積累的應(yīng)用性能管理能力沉淀到華為云應(yīng)用性能管理服務(wù)APM上,向云上用戶提供端到端的全鏈路性能管理服務(wù),包含前端監(jiān)控、應(yīng)用性能監(jiān)控、全面擁抱開源生態(tài),幫助用戶在復(fù)雜的業(yè)務(wù)環(huán)境下快速發(fā)現(xiàn)應(yīng)用性能問題,降低MTTR(平均故障恢復(fù)時(shí)長(zhǎng)),全面掌控應(yīng)用的性能健康狀況。

三、豐富的周邊能力——統(tǒng)一監(jiān)控大盤、容器洞察、告警降噪

華為云應(yīng)用運(yùn)維管理平臺(tái)除了牢固的基石及強(qiáng)大的核心,還提供了豐富的周邊能力。

統(tǒng)一監(jiān)控大盤

集中管理云監(jiān)控、云日志、性能、Prometheus等多維度可觀測(cè)性數(shù)據(jù)源,提供統(tǒng)一監(jiān)控與分析,用戶可以將來自不同數(shù)據(jù)源定義在一張監(jiān)控大屏中顯示,統(tǒng)一管理告警等。

容器洞察

無縫對(duì)接華為云云容器引擎CCE,基于原生Kubernetes容器和集群模型,用戶可通過Cluster、Namespace、Deployment、POD和Container進(jìn)行逐步運(yùn)維分析,包括Prometheus監(jiān)控、日志和性能管理等;支持將Promethues服務(wù)器遠(yuǎn)程接入(Remote-Write)到華為云應(yīng)用運(yùn)維管理平臺(tái),還可通過PromQL查詢?cè)笜?biāo)并配置告警。

告警降噪

華為云應(yīng)用運(yùn)維管理平臺(tái)的告警降噪功能,提供分組、抑制和屏蔽告警降噪策略,大大減少了運(yùn)維人員需要關(guān)注的告警量,增加了關(guān)鍵告警、高優(yōu)先級(jí)問題的關(guān)注度,突出告警的重點(diǎn)問題,提高告警的可靠性,減少誤判和漏警的情況,節(jié)省了人力和時(shí)間成本,提高了工作效率,有效保障系統(tǒng)的穩(wěn)定性和安全性。

如果軟件系統(tǒng)內(nèi)部情況都不可觀測(cè),更無從談起故障分析和系統(tǒng)改進(jìn)等穩(wěn)定性保障手段。依托牢固的基石、強(qiáng)大的核心及豐富的周邊能力,華為云應(yīng)用運(yùn)維管理平臺(tái)助力企業(yè)提高軟件系統(tǒng)的質(zhì)量和效率,提升用戶體驗(yàn)和關(guān)鍵業(yè)務(wù)的穩(wěn)定性,優(yōu)化業(yè)務(wù)流程和方向,提高業(yè)務(wù)決策的質(zhì)量。