華為云計(jì)算 云知識(shí) 華為云Stack全鏈路故障診斷與分析平臺(tái)
華為云Stack全鏈路故障診斷與分析平臺(tái)

網(wǎng)絡(luò)作為 云計(jì)算 的核心支柱之一,經(jīng)歷了從傳統(tǒng)設(shè)備到虛擬化設(shè)備的演進(jìn)歷程,從物理網(wǎng)絡(luò)延伸到更為靈活的云網(wǎng)絡(luò)。云網(wǎng)絡(luò)的網(wǎng)絡(luò)范圍又從傳統(tǒng)的物理網(wǎng)絡(luò),延伸到了邏輯網(wǎng)絡(luò)、虛擬網(wǎng)絡(luò)。

在云網(wǎng)絡(luò)中,邏輯網(wǎng)絡(luò)為用戶提供可配置的網(wǎng)絡(luò)服務(wù),邏輯網(wǎng)絡(luò)中常見的元素有虛擬機(jī)、子網(wǎng)、安全組、VPC、EIP等網(wǎng)絡(luò)服務(wù);虛擬網(wǎng)絡(luò)主要由各類軟網(wǎng)元組成,如虛擬交換機(jī)、虛擬路由器、虛擬防火墻等虛擬網(wǎng)絡(luò)設(shè)備。云網(wǎng)絡(luò)整體架構(gòu)通常分為Overlay和Underlay兩層,虛擬網(wǎng)絡(luò)主要承載Overlay層,物理網(wǎng)絡(luò)主要承載云網(wǎng)絡(luò)中的Underlay層。

當(dāng)前,云網(wǎng)絡(luò)面臨場景多、流量復(fù)雜、軟硬融合和云網(wǎng)協(xié)同場景定界難等問題。云網(wǎng)絡(luò)運(yùn)維也面臨著諸多挑戰(zhàn),如網(wǎng)絡(luò)流量路徑不可視、問題定位周期長、對網(wǎng)絡(luò)運(yùn)維人員的要求不斷提高等。急需一個(gè)切實(shí)可行的網(wǎng)絡(luò)運(yùn)維解決方案,來解決以上問題。

華為云Stack 全鏈路故障診斷與分析平臺(tái)(簡稱全鏈路),以云網(wǎng)絡(luò)中的邏輯網(wǎng)絡(luò)、虛擬網(wǎng)絡(luò)、物理網(wǎng)絡(luò)作為網(wǎng)絡(luò)故障分析診斷切入點(diǎn),以三層網(wǎng)絡(luò)路徑拓?fù)錇楹诵?,端到端?shí)現(xiàn)三層網(wǎng)絡(luò)路徑可視化。三層網(wǎng)絡(luò)路徑之間通過映射規(guī)則,互相關(guān)聯(lián),動(dòng)態(tài)映射,對三層網(wǎng)絡(luò)運(yùn)維進(jìn)行整合,實(shí)現(xiàn)了三層網(wǎng)絡(luò)統(tǒng)一可視、統(tǒng)一運(yùn)維,解決了三層網(wǎng)絡(luò)鏈路相互割裂,獨(dú)立運(yùn)維的弊端。

一、基于靜態(tài)網(wǎng)絡(luò)配置的邏輯網(wǎng)絡(luò)仿真驗(yàn)證

邏輯網(wǎng)絡(luò)仿真對網(wǎng)絡(luò)服務(wù)進(jìn)行統(tǒng)一建模和輕量級(jí)協(xié)議仿真,形成網(wǎng)絡(luò)模型、使用轉(zhuǎn)發(fā)模型映射出實(shí)際的網(wǎng)絡(luò)結(jié)構(gòu)。基于邏輯網(wǎng)絡(luò)仿真驗(yàn)證,對租戶網(wǎng)絡(luò)配置進(jìn)行檢查和核對。一方面,可以檢查源IP和目的IP之間的路徑連通性;第二方面,可以發(fā)現(xiàn)由于網(wǎng)絡(luò)配置錯(cuò)誤導(dǎo)致的連接異常問題;第三方面,還能夠還原源IP與目的IP之間的邏輯網(wǎng)絡(luò)路徑信息,如圖展示了源IP與目的IP之間存在的邏輯網(wǎng)絡(luò)服務(wù)。

圖1 邏輯網(wǎng)絡(luò)路徑展示例子!.png

邏輯網(wǎng)絡(luò)路徑展示

二、邏輯網(wǎng)絡(luò)到虛擬網(wǎng)絡(luò)路徑映射

邏輯網(wǎng)絡(luò)路徑展示了源IP和目的IP之間的網(wǎng)路服務(wù),不同的網(wǎng)絡(luò)服務(wù)對應(yīng)了虛擬網(wǎng)絡(luò)中特定的實(shí)現(xiàn)載體。即邏輯網(wǎng)絡(luò)路徑可以通過特定的映射規(guī)則動(dòng)態(tài)轉(zhuǎn)換得到虛擬網(wǎng)絡(luò)路徑。映射規(guī)則全局具有唯一性,不同流量場景中的一個(gè)或者多個(gè)邏輯網(wǎng)絡(luò)路徑節(jié)點(diǎn),只要匹配了某條映射規(guī)則,則都映射成同一類型的虛擬網(wǎng)絡(luò)節(jié)點(diǎn)。新增網(wǎng)絡(luò)服務(wù)后,若現(xiàn)有的映射規(guī)則不能實(shí)現(xiàn)正確的映射,只需要增加新的映射規(guī)則即可,在設(shè)計(jì)上滿足面向擴(kuò)展開放。如下圖所示,邏輯網(wǎng)絡(luò)路徑通過映射規(guī)則計(jì)算出對應(yīng)的虛擬網(wǎng)絡(luò),圖中的控制面即為邏輯網(wǎng)絡(luò)路徑。

圖2 邏輯網(wǎng)絡(luò)路徑到虛擬網(wǎng)絡(luò)路徑的映射舉例!.png

邏輯網(wǎng)絡(luò)路徑到虛擬網(wǎng)絡(luò)路徑的映射舉例

三、基于虛擬網(wǎng)絡(luò)路徑的數(shù)據(jù)面撥測

撥測是一種探測網(wǎng)絡(luò)路徑連通性和鏈路質(zhì)量的測量手段。對指定虛擬網(wǎng)絡(luò)路徑進(jìn)行撥測,也就是向撥測路徑的起始節(jié)點(diǎn)注入指定數(shù)量的染色撥測報(bào)文,對于中間節(jié)點(diǎn)只需要關(guān)注撥測報(bào)文的數(shù)量和TTL順序是否跟預(yù)期的一致,就能判斷撥測報(bào)文是否經(jīng)過指定的虛擬網(wǎng)絡(luò)路徑。該種撥測方法可以不區(qū)分流量類型,不感知流量類型的組合,實(shí)現(xiàn)一次開發(fā),支持所有組合場景和復(fù)雜場景的撥測。

在軟硬融合、云網(wǎng)協(xié)同場景中,為了追求網(wǎng)關(guān)的高性能、低時(shí)延,頻繁的使用硬件交換機(jī)作為高性能云網(wǎng)關(guān),如華為云Stack L3gw、L2br、裸機(jī)高性能網(wǎng)關(guān)等場景。在虛擬網(wǎng)絡(luò)路徑中,若硬件交換機(jī)網(wǎng)關(guān)作為撥測起點(diǎn)或撥測終點(diǎn),為實(shí)現(xiàn)雙向撥測,則需要向硬件交換機(jī)注入撥測報(bào)文的能力。

針對硬件交換機(jī)網(wǎng)關(guān)撥測全鏈路有自己的解決之道。首先,硬件交換機(jī)與運(yùn)維程序宿主機(jī)建立通信隧道,撥測控制器把撥測報(bào)文通過該隧道發(fā)送到硬件交換機(jī)上。其次,交換機(jī)需要支持基礎(chǔ)的報(bào)文 鏡像 功能,用于把撥測報(bào)文鏡像到撥測分析器;最后,在交換機(jī)網(wǎng)關(guān)上配置出云方向撥測報(bào)文丟棄策略,防止撥測報(bào)文影響用戶業(yè)務(wù)。

若硬件交換機(jī)網(wǎng)關(guān)作為撥測起點(diǎn),則撥測控制器向硬件交換機(jī)網(wǎng)關(guān)注入撥測報(bào)文,發(fā)起撥測;若硬件交換機(jī)網(wǎng)關(guān)作為撥測終點(diǎn),則撥測分析器收到硬件交換機(jī)網(wǎng)關(guān)的上行撥測報(bào)文后,向硬件交換機(jī)網(wǎng)關(guān)注入回程撥測報(bào)文,以完成雙向撥測。

硬件交換機(jī)撥測原理圖

四、物理網(wǎng)絡(luò)路徑展示

探測撥測報(bào)文經(jīng)過的物理交換機(jī),依然可以利用交換機(jī)的報(bào)文鏡像功能這一殺手锏。Underlay層所有交換機(jī)開啟報(bào)文鏡像功能,若撥測報(bào)文經(jīng)過交換機(jī),即可把撥測報(bào)文鏡像到撥測分析器,撥測分析器綜合對虛擬網(wǎng)絡(luò)路徑和交換機(jī)鏡像的撥測報(bào)文TTL等信息進(jìn)行整合分析,還原出撥測報(bào)文經(jīng)過的物理網(wǎng)絡(luò)路徑。

虛擬網(wǎng)絡(luò)路徑中的網(wǎng)元節(jié)點(diǎn)映射到物理網(wǎng)絡(luò)路徑中的網(wǎng)元宿主機(jī),即網(wǎng)絡(luò)節(jié)點(diǎn)。物理網(wǎng)絡(luò)路徑可以直觀展示兩個(gè)網(wǎng)元節(jié)點(diǎn)之間的物理網(wǎng)絡(luò)設(shè)備信息。下圖展示了源IP和目的IP之間的物理網(wǎng)絡(luò)設(shè)備,圖中可以看到計(jì)算節(jié)點(diǎn)和網(wǎng)絡(luò)節(jié)點(diǎn)之間經(jīng)過的交換機(jī)設(shè)備。

圖4 物理網(wǎng)絡(luò)路徑展示例子!.png

物理網(wǎng)絡(luò)路徑展示例子

架構(gòu)簡介

全鏈路故障診斷與分析平臺(tái)的系統(tǒng)架構(gòu)如圖所示。

全鏈路系統(tǒng)架構(gòu)

 

  • 全鏈路展示UI:提供全鏈路任務(wù)創(chuàng)建,任務(wù)展示等操作入口,三層網(wǎng)絡(luò)鏈路界面展示,故障診斷信息界面展示。
  • 任務(wù)管理:生成撥測任務(wù),下發(fā)撥測任務(wù)到撥測節(jié)點(diǎn)。
  • 三層網(wǎng)絡(luò)路徑還原:分析撥測任務(wù)五元組信息,拉取相關(guān)的靜態(tài)網(wǎng)絡(luò)資源配置,仿真驗(yàn)證,還原邏輯網(wǎng)絡(luò)路徑;邏輯網(wǎng)絡(luò)路徑映射到虛擬網(wǎng)路路徑,指定虛擬網(wǎng)絡(luò)路徑撥測;虛擬網(wǎng)元節(jié)點(diǎn)映射到網(wǎng)元宿主機(jī),物理網(wǎng)絡(luò)路徑還原,物理設(shè)備詳細(xì)信息補(bǔ)全。
  • 撥測結(jié)果分析:分析撥測Agent和物理交換機(jī)鏡像的撥測報(bào)文,統(tǒng)計(jì)虛擬網(wǎng)絡(luò)節(jié)點(diǎn)的丟包率、時(shí)延。
  • 對外API: API用于前端界面調(diào)用或者第三方系統(tǒng)調(diào)用。
  • 撥測Agent: 注入染色撥測報(bào)文,鏡像撥測報(bào)文到撥測結(jié)果分析模塊。需要在所有的計(jì)算節(jié)點(diǎn)和網(wǎng)元節(jié)點(diǎn)部署。
  • 報(bào)文鏡像功能: 物理交換機(jī)的基礎(chǔ)能力,開啟后可以把染色的撥測報(bào)文鏡像到撥測結(jié)果分析模塊。

 

全鏈路設(shè)計(jì)關(guān)鍵點(diǎn)

一、三層網(wǎng)絡(luò)路徑統(tǒng)一展示

全鏈路使云網(wǎng)絡(luò)中邏輯網(wǎng)絡(luò)路徑、虛擬網(wǎng)絡(luò)路徑、物理網(wǎng)絡(luò)路徑,三層網(wǎng)絡(luò)端到端的路徑實(shí)現(xiàn)可視化。三層網(wǎng)絡(luò)路徑網(wǎng)絡(luò)資源覆蓋全面,展示了源IP和目的IP之間的所有關(guān)鍵資源信息,包括邏輯網(wǎng)絡(luò)客戶的網(wǎng)絡(luò)服務(wù)配置,虛擬網(wǎng)絡(luò)和物理網(wǎng)絡(luò)節(jié)點(diǎn)信息。三層網(wǎng)絡(luò)層層映射,網(wǎng)絡(luò)資源的關(guān)聯(lián)關(guān)系一目了然。

三層網(wǎng)絡(luò)路徑展示例子

二、基于三層網(wǎng)絡(luò)路徑,實(shí)現(xiàn)高效故障診斷

全鏈路具有網(wǎng)絡(luò)故障診斷定位手段多樣化、故障診斷效率高的特點(diǎn)。

全鏈路故障診斷集成了控制面仿真,數(shù)據(jù)面撥測和客戶網(wǎng)絡(luò)抓包、物理流分析等網(wǎng)絡(luò)故障定位手段,可以實(shí)現(xiàn)云網(wǎng)絡(luò)故障分鐘級(jí)定界定位,根因排查建議集成了豐富的專家經(jīng)驗(yàn)。從出錯(cuò)概率高的控制面入手排查,優(yōu)先檢查關(guān)鍵的虛擬網(wǎng)關(guān),再檢查物理交換機(jī),發(fā)現(xiàn)問題更快速。

全鏈路故障診斷路由表缺失案例

全鏈路故障診斷硬件交換機(jī)網(wǎng)關(guān)路由丟失案例

三、簡單易用

對于使用全鏈路的用戶來說,只需要知道需要探測的源IP和目的IP,選擇撥測協(xié)議類型,如果選擇TCP和UDP協(xié)議,用戶還需要輸入源端口和目的端口。用戶不需要學(xué)習(xí)復(fù)雜的網(wǎng)絡(luò)知識(shí),即可使用全鏈路進(jìn)行網(wǎng)絡(luò)運(yùn)維,非常的簡單和易用。

全鏈路創(chuàng)建撥測任務(wù)界面

用戶創(chuàng)建全鏈路撥測任務(wù)后,在任務(wù)展示頁面可以看到任務(wù)信息。狀態(tài)字段可以展示每一層網(wǎng)絡(luò)路徑的執(zhí)行狀態(tài)信息,如虛擬網(wǎng)絡(luò)路徑相關(guān)狀態(tài)包括:虛擬網(wǎng)絡(luò)任務(wù)執(zhí)行中、虛擬網(wǎng)絡(luò)任務(wù)執(zhí)行成功、虛擬網(wǎng)絡(luò)任務(wù)執(zhí)行失敗。流量類型字段顯示源IP和目的IP之間關(guān)聯(lián)的所有網(wǎng)絡(luò)服務(wù)。

全鏈路任務(wù)列表

 

華為云Stack全鏈路故障診斷與分析平臺(tái)為客戶提供簡單易用的交互界面,用戶輸入探測五元組,即可快速還原邏輯網(wǎng)絡(luò)、虛擬網(wǎng)絡(luò)、物理網(wǎng)絡(luò)路徑,為客戶展示端到端的三層可視化流量路徑。三層網(wǎng)絡(luò)鏈路展示具有網(wǎng)絡(luò)資源覆蓋面廣、定位手段多樣化、故障診斷效率高的特點(diǎn),可以有效提升產(chǎn)品的網(wǎng)絡(luò)運(yùn)維競爭力,降低對網(wǎng)絡(luò)運(yùn)維人員的專業(yè)性要求,提升網(wǎng)絡(luò)故障定位效率,實(shí)現(xiàn)網(wǎng)絡(luò)故障分鐘級(jí)定界。


 
華為云Stack
華為云Stack是部署在政企客戶本地?cái)?shù)據(jù)中心的云基礎(chǔ)設(shè)施,通過持續(xù)創(chuàng)新,打造安全、可靠、高效的混合云,以用戶視角一朵云的能力,助力客戶從業(yè)務(wù)上云邁向深度用云,釋放數(shù)字生產(chǎn)力。