相信大家都聽過網絡環路這個詞吧,網絡環路會對企業網絡存在很大的威脅,它會造成網絡里的廣播風暴,耗盡交換資源,造成交換機癱瘓,最終導致的就是直接的經濟損失。今天我們就來聊聊,環路的產生、排查、解決以及如何防范。
一、什么是環路
以太網交換網絡中為了提高網絡可靠性,通常會采用冗余設備和冗余鏈路,然而現網中由于組網調整、配置修改、升級割接等原因,經常會造成數據或協議報文環形轉發,不可避免的形成環路。如圖所示,三臺設備兩兩相連就會形成環路。當設備未部署環路保護協議或者組網配置發生變更時,環形組網中就可能會產生廣播風暴。
二、環路的危害
二層環路最大的危害就是會產生廣播風暴,以太網是一個支持廣播的網絡,在沒有環路的環境中,廣播包在網絡中以泛洪的形式被送達到網絡的每一個角落,以保證每個設備都能夠接受到它。在帶寬允許的情況下,每個網橋在接收到廣播報文以后,都會向除接收端口以外的其他所有接口轉發這個廣播包,一旦網絡中有環路,這種簡單的廣播機制就會引發災難性后果。
環路中一個廣播報文被反復轉發了千萬次,產生了廣播風暴并且很快達到或接近端口線速,并迅速消耗鏈路帶寬。根據轉發規則,這些廣播報文不僅僅只是在環路上無限轉發,環路設備還會向其他端口轉發一份,這樣整個網絡中都充斥著大量重復廣播報文。
二層網絡設備處于同一個廣播域下,廣播報文在環路中會反復持續傳送,無限循環,形成廣播風暴,引發MAC地址表不穩定等現象描述,進而影響正常業務,導致用戶通信質量較差,甚至通信中斷。
三、如何判斷環路故障
所有這些誘發故障的內在因素絕大多數都有其“外在異常表現”,具體會反映在特定網元的告警、日志、流量統計、端口狀態等信息中。因此故障快速定位的關鍵在于,如何有效而快速的通過事發時間、影響范圍、所做操作及故障網絡范圍的網元基本信息的查看,快速發現這些“外在異常表現”所在的點,進而鎖定故障網元節點,找出原因分析。
四、環路故障診斷步驟
判斷網絡中是否存在二層環路,一般可以使用查看接口帶寬流量、查看MAC漂移告警、部署環路檢測、查看CPU占用率四種方法進行確認。這四種方法沒有嚴格的操作順序,為更加準確判斷故障屬性,可以使用其中的一種或多種方法來進行問題定位。
五、如何快速破環
以太網環路會在短時間內形成數據風暴,當端口的流量達到帶寬的最大負荷,會形成鏈路擁塞,影響網絡業務。因此,在確認現網存在數據環路后,需要第一時間按照如下步驟處理,盡快恢復數據業務。
梳理網絡拓撲并識別環路
環形網絡拓撲一般較為復雜,可以尋求到網絡拓撲結構全圖,具體到網絡的VLAN規劃信息,每臺設備名稱、系統MAC、管理IP,本端端口名稱、對端端口名稱。
完整的拓撲信息是解決環路問題的首要條件,如果沒有拓撲圖,需要從發現環路的設備,通過逐跳登錄,記錄設備信息、端口信息和VLAN信息,手動繪制完整的拓撲。
緊急破環
緊急破環又稱手動破環,當網絡風暴嚴重影響正常的業務時,需要使用此方法盡快恢復業務。
端口退出已成環的VLAN
在已經成環的網絡上,將其中一個端口退出成環VLAN,屬于影響面最小的破環方法。
shutdown已經成環的端口
shutdown已經成環的物理端口,也可以達到破環的效果。需要注意的是執行此動作之前,您需要確保在接口視圖下執行命令shutdown關閉接口后,不會影響正常的數據業務。
拔出成環接口破環
通過拔出成環的端口的連接光纖或網線,也可以緊急破環。該方法可以使用Shutdown端口代替,在設備無法遠程登錄時可以使用。
確認業務已經恢復
通過Ping等操作測證網絡通信質量,并觀察現網業務是否已經恢復。環路拓撲存在冗余鏈路和配置,因此環路破除后業務一般會自行恢復。
六、網絡加固和優化
部署適當的破壞協議
如果當前的環路問題是由于物理環路引入,按照網絡規劃合理部署破環協議。以太網交換機常見的破環協議為STP/RSTP/MSTP/VBST、RRPP、SEP、ERPS等。
部署廣播抑制提升網絡健壯性
為了避免再次成環,成環后再次引入數據風暴,建議在環上設備端口下,部署廣播抑制,按照經驗,部署5%的廣播抑制可以很好的防止廣播風暴,具體抑制的比例值可以按照現網并發廣播流量來評估確認。
優化網絡設計,提升網絡
復雜組網可以通過分層控制,建議合理規劃設計接入層、匯聚層,通過堆疊、集群等橫向虛擬化技術簡化網絡架構。單層組網內設備數量較多時,建議按照邏輯組織和地理分布,劃分不同的域。