時間:2023-10-08 15:32:43
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了七篇網絡故障等級范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
關鍵詞:局域網;網絡故障;性能優化
中圖分類號:TP393 文獻標識碼:A文章編號:1007-9599 (2010) 01-0000-01
局域網是指在某一區域內由多臺計算機互聯成的計算機組,可以實現文件管理、應用軟件共享、打印機共享、工作組內的日程安排、電子郵件和傳真通信服務等功能。局域網是封閉型的,可以由辦公室內的兩臺計算機組成,也可以由一個公司內的上千臺計算機組成。局域網在構建和使用時,難免出現這樣那樣的故障。排除故障、優化系統,是管理局域網最基本的工作之一。本文從排除故障、優化性能的角度出發,簡單歸納了一些局域網維護及優化的經驗和技巧,有助于我們更好的去維護電腦、管理網絡,從而更好的利用網絡去開展的工作。
一、局域網故障分析
(一)確保計算機的硬件設備和網絡配置正確
在局域網中,網絡不通的現象是常有發生,一旦遇到類似這樣的問題時,我們首先應該認真檢查各連入網絡的機器中,網卡設置是否正常。檢查時,我們可以用鼠標依次打開“控制面板/系統/設備管理/網絡適配器”設置窗口,在該窗口中檢查一下有無中斷號及I/O地址沖突,直到網絡適配器的屬性中出現“該設備運轉正?!?并且在“網上鄰居”中至少能找到自己,說明網卡的配置沒有問題。
(二)確認網線和網絡設備工作正常
當我們檢查網卡沒有問題時,此時我們可以通過網上鄰居來看看網絡中的其他計算機,如果還不能看到網絡中的其他機器,這種情況說明可能是由于網絡連線中斷的問題。網絡連線故障通常包括網絡線內部斷裂,雙絞線、RJ-45水晶頭接觸不良,或者是網絡連接設備本身質量有問題,或是連接有問題。這時,我們可以使用測線儀來檢測一下線路是否斷裂,然后用替代的方法來測試一下網絡設備的質量是否有問題。在網線和網卡本身都沒有問題的情況下,我們再看一看是不是軟件設置方面的原因,例如如果中斷號不正確也有可能導致故障出現。
(三)檢查驅動程序是否完好
對硬件進行了檢查和確認后,再檢查驅動程序本身是否損壞,如果沒有損壞,看看安裝是否正確。如果這些可以判斷正常,設備也沒有沖突,就是不能連入網絡,這時候可以將網絡適配器在系統配置中刪除,然后重新啟動計算機,系統就會檢測到新硬件的存在,然后自動尋找驅動程序再進行安裝。
(四)正確對網卡進行設置
在確定網絡介質沒有問題,但還是不能接通的情況下,再返回網卡設置中。看看是否有設備資源沖突,有許多時候沖突也不是都有提示的。
(五)合理設置服務器的硬盤
使用局域網辦公的用戶,經常會使用網絡來打印材料和訪問文件。由于某種原因,網絡訪問的速度可能會不正常,這時我們往往會錯誤地認為導致網速降低的原因可能是網絡中的某些設備發生了瓶頸。因此正確地配置好局域網中服務器的硬盤,將對整個局域網中的網絡性能有很大的改善。
二、局域網性能優化
網絡管理員只有深入地了解網絡的使用情況和性能瓶頸、可能存在的網絡安全問題以及各種網絡性能和安全措施,才能使網絡以最佳狀態運行。網絡性能優化的目的是減少網絡系統的瓶頸,設法提高網絡系統的運行效率。對于不同的網絡硬件和軟件環境,可以存在不同的優化方法和內容。
(一)優化內存
內存是一個操作系統的重要資源,不僅是為了運行操作系統需要它,以及應用程序和服務的各種需要它來運行。從應用的角度來看,系統內存,是一個由重要原因引起的系統問題的各種不合理使用是審議關于優化目標管理員的焦點。
在某些情況下的內存,內存的合理使用可以提高網絡性能。這需要系統管理員必須清楚認識到內存使用情況,對那些不再需要的功能,應用程序或服務,應及時關閉,以釋放內存的其他應用和服務。
(二)優化CPU
從整個網絡考慮,對于CPU的優化除了速度問題,還需要考慮緩存和多處理器支持技術,特別是服務器多處理器支持對于網絡的整體性能的提高非常重要。
1.緩存技術
目前使用的CPU都具有一個所謂的二級緩沖存儲器,主要用來保存CPU最近使用過的數據,為一級緩存傳送數據提供方便。CPU的緩存越大,CPU處理數據的速度就越快。因此,在選購CPU時,特別是為服務器選購CPU時,一定要選擇具有大容量緩存的CPU。
2.多CPU技術
多CPU技術是在一臺計算機系統中安裝多個CPU,使他們協同處理數據的方法。
3.優化磁盤系統
在一個需要頻繁交換數據的網絡中,硬盤的性能是非常重要的。對硬盤進行優化主要應考慮硬盤的技術、硬盤的速度。
(三)優化網絡接口
網絡接口的調整和優化網絡的性能也非常重要,不僅發出訪問網絡數據,而且在服務,設備和整個網絡布線等網絡的構成問題。選擇高性能的網絡卡和驅動程序,并配置網絡服務和協議,我們可以大大提高網絡傳輸速率和穩定性。
(四)優化服務器進程
進程是包含地址空間和程序運行資源的程序請求。當某個應用程序啟動時,系統就創建一個進程。每個進程啟動時都有一個基本的優先級,最多可增加或降低2級。基本優先權等級在進程啟動時建立,但當一個進程運行時,可以通過使用任務管理器來改變基本優先權等級。
三、結束語
分析和排除一個復雜的網絡故障,往往需要廣泛的網絡知識與豐富的工作經驗。在工作中,不斷積累經驗并及時總結,會提高故障診斷與排除的效率,最大限度地保證系統的穩定運行。只有對局域網的性能進行優化,才能使局域網的性能發揮到最大程度,使網絡以最佳狀態運行。
參考文獻:
[1]申媚先,王文祥,梁青建,趙潤萍,樊改娥,邊子建.網絡故障診斷淺析[J].安徽農業科學,2007,19
[2]馮.網絡故障診斷和排除技術研究[J].電腦與電信,2007,10
關鍵詞:數據中心;InfiniBand;故障診斷;貝葉斯分類;增量學習
中圖分類號: TP393.07
0引言
數據中心是Internet的重要基礎設施,是為用戶提供數據存儲、計算和傳輸的核心。隨著互聯網的飛速發展,特別是大數據時代的到來,數據中心在Web服務、搜索引擎、電子商務、社交網絡、網絡游戲及大規模集群計算等領域中的關鍵作用日益顯現[1]。目前數據中心的網絡規模日益龐大,互聯的計算節點數量能達到100000以上的量級,而交換節點的數量也接近10000量級。數據中心性能需求表現為高帶寬、低延遲、低主機開銷和低存儲開銷等特點[2]。InfiniBand(以下簡稱IB)是目前數據中心互聯的主流網絡。2013 年 11 月公布的TOP500高性能計算機排名中,InfiniBand 是最常用的互連技術,在 TOP100 名單中占 48%,TOP200 占 48.5%,TOP300 占 44% 而在 TOP400 系統中則占 42.5%。2010年,Oracle通過在其數據倉庫和數據處理平臺Exadata中使用IB交換,處理性能提升10倍[3]。2010年,Google在其研究工作中采用IB和蝶形網絡拓撲構建數據中心,網絡功耗節約85%[4]。2011年,Microsoft基于IB組建高性能數據中心支持其Bing Maps應用,與傳統基于以太網的架構相比節約80%的功耗和50%的成本[5]。Stanford課題組通過IB互聯分布式DRAM實現了高性能數據中心存儲系統[6]。
在大規模數據中心網絡中,網絡的故障率呈指數增加,長期的實踐[7]表明,故障率隨著網絡中節點數快速增加,例如,從服務節點故障的角度看,服務單點可靠性為99.99%,按照10000級的規模計算則網絡故障率為63%,若單點可靠性為99.9%,則網絡故障率幾乎達到100%。大規模數據中心網絡運行的應用通常對網絡性能要求嚴格,需要管理者能更加實時、精確地掌握全網態勢和端到端的通信性能,在網絡性能下降之后及時發現和定位故障和網絡擁塞, IB網絡在大規模數據中心網絡中的應用越來越廣泛,研究面向大規模IB網絡的故障診斷方法,保持和提高IB網絡運行的健壯性,提高網絡的修復能力,保障網絡上關鍵任務的成功完成非常重要。
1相關研究
近年來針對網絡故障的診斷方法已經進行了大量的研究。出現了以貝葉斯網絡方法、數據挖掘方法等為主的故障診斷方法。文獻[8]提出了一種基于拉格朗日和次梯度法的網絡故障診斷方法(novel location approach based on Lagrangian Relaxation and Subgradient Method,LRSM),該方法對現在的二分圖故障傳播模型進行改進,加入虛假故障因素,在改進二分圖模型的基礎上提出了故障定位問題的01最優化描述,并利用拉格朗日松弛法和次梯度法對問題進行求解,有效提高了分類檢測精度和減少了診斷時間。文獻[9]提出了一種基于譜圖理論的故障診斷算法(Alarm Correlation Algorithm based on Spectral Graph theory,ACASG),建立了時序告警關聯數據模型,將告警數據看作一個高維空間,具有相關特性的告警是隱含在該空間中的局部結構,通過譜圖理論發現高維數據空間中潛在的低維映射結構,通過分析低維空間中點結構之間的相似性,實現告警數據的可視化顯示,該方法不僅可以發現告警的相關性,而且還可以通過分析譜圖的變化預測定位網絡中發生的故障。文獻[10]針對網絡層和數據鏈路層,為簡化故障決策算法、降低誤報率,提出了一種基于粗糙神經網絡的故障診斷算法 (Rough Artificial Neural Network,RANN)和分層故障診斷思想,通過神經網絡來逼近故障診斷這種映射關系,實現對故障的分類,利用正域的概念,去除冗余屬性,求取條件屬性集對于決策故障屬性集的簡化,同時結合分層分布優化的思想,將網絡故障分類,每一類故障診斷系統含有多個反向傳播(Back Propagation, BP)子網絡,通過粗糙集理論逐層分類,構成一個多級復合神經網絡系統,實現故障分類。文獻[11]基于PMC(PreparataMetzeChien)模型,提出了一種適用于當代數據中心網絡的分層式診斷(Hierarchical Fault Diagnosis, HFD)算法,由網絡拓撲結構生成涵蓋所有單元的最小生成樹Xtree,按其路徑組織多次測試。根據測試結果,求出各基本單元組的故障概率,依此將系統中所有單元組劃分為存在故障概率較大的“相對故障單元組”和存在故障概率非常小的“相對正常單元組”兩類。文獻[12]提出了基于貝葉斯征兆解釋度的鏈路故障診斷方法進行網絡的故障診斷。
由于大規模數據中心網絡本身的復雜性、不規律性的特征,網絡故障分類處理過程涉及到多方面的綜合知識,想獲得良好的分類效果,不僅僅是單純的分類算法問題,必須運用多種策略加以解決。目前網絡故障分類方法的研究存在以下幾點不足:
1) 訓練樣本參差不齊,分類方法首先要進行訓練學習,其訓練過程需要一定數量的訓練樣本。而在網絡系統中包含著大量的不確定因素,故障癥狀與故障源之間可能存在非線性映射關系,同一種故障往往有不同的表現,同一癥狀又往往是幾種故障共同作用的結果,多個相關故障可能同時發生。因此,選擇越多的訓練樣本,樣本的代表性越強,訓練效果才會越好,分類性能才能越高。一般情況下,人們比較容易得到一些大致的樣本類別,比如用戶數據報協議(User Datagram Protocol, UDP)報文、傳輸控制協議(Transmission Control Protocol, TCP)報文和Internet控制報文協議(Internet Control Message Protocol, ICMP)報文等等,然而這些訓練樣本集中樣本的質量往往是參差不齊的,有些樣本的表現模棱兩可,有些甚至是錯誤的,若直接在這些樣本上進行學習,將使分類的效果大大降低。可以想象對存在大量不準確的分類樣本地學習是很難獲得良好的分類效果。而且在實際使用過程中,大量高質量的訓練樣本集合的獲得是非常困難的,通過人工的方法對訓練樣本進行篩選也是不現實的。
2) 沒有統一的特征選取標準,構造分類器的關鍵是選擇合適的特征構成特征向量。網絡系統中故障發生時的網絡表現有著很大的差異,代表不同故障的特征也不盡相同,選擇什么樣的特征來構成特征向量,特征向量的長度取多大,都一定程度上影響著網絡管理平臺下故障分類的精度。以簡單貝葉斯分類方法為例,我們知道簡單貝葉斯方法具有簡單和分類精度高的特點,但是如果隨意使用訓練樣本中任意單位作為特征向量的一維,不僅滿足不了簡單貝葉斯方法對特征獨立性的要求,而且會極大地影響分類精度。
3) 學習能力弱,對待分類數據進行分類的階段是一個開環處理過程,分類系統在經過一次訓練之后,將再也無法從實際的分類處理過程中獲得更新信息,這樣缺乏學習能力的分類系統在實際使用過程中不能根據實際情況進行分類模型的調整,從而導致了分類系統隨著運行時間的延長和范圍的擴大,性能逐漸降低,這也是制約分類系統實用化的重要因素。本文提出的大規模IB網絡自學習的故障診斷方法IL_Bayes有以下創新:
1)對現有的訓練樣本進行必要的預處理,從初始的訓練樣本集中去除噪聲樣本,選取高質量的樣本構造分類器,實現良好的分類效果。
2)我們對不同的故障類型選取不同的特征向量,構成特征向量的特征分量要盡可能地反映故障的特征,獲得較高的故障分類精度。
3)通過增加對分類結果的學習能力,使分類系統不斷自我完善和更新,可以應對實際大規模網絡的復雜情況。
2大規模IB網絡自學習的故障診斷方法
2.1相關描述
首先給出本文所提故障診斷方法的相關定義。
定義1C={C1,C2,…,Cm}是一個故障類集合,其中C1,C2,…,Cm分別是該故障類集合的故障類。
定義2d=(x1,x2,…,xn)為新故障樣本,即待分類故障,其中x1,x2,…,xn是新樣本d的n個屬性。
定義3f(xj)為故障d中屬性的評估函數,在P(xj|Ci)f(xj)中, f(xj)越小,屬性xj在分類器中的作用越小。
貝葉斯分類方法起源于貝葉斯統計學,是以概率論為基礎的分類模型,它為不確定知識的表達提供了自然、直觀的方法,是目前非精確知識表達與推理領域最有效的理論模型。貝葉斯分類方法主要有以下3個規則[12]:
1)貝葉斯規則。
P(B|A)=P(A|B)P(B)P(A)(1)
式中:P(B)被稱為先驗概率,即在A狀態未知時B發生的概率; P(B|A)為后驗概率,表示A狀態已知時B發生的概率。貝葉斯規則允許在兩個方向上進行概率推理。
2)獨立性規則。
如果P(A|B)=P(A|B,C),則給定變量B,變量A和變量C是獨立的。即在B已知的情況下,變量C不能改變變量A的概率。
3)鏈式規則。
在P(A|B)中,A具有n個屬性,即A={x1,x2,…,xn},則:
P(A|B)=P((x1,x2,…,xn)|B)=∏ni=1P(xi|B)(2
2.2大規模IB網絡自學習的故障診斷方法IL_Bayes
設故障訓練集樣本有m類,記為C={C1,C2,…,Cm}, 對于給定的新樣本d,其屬于Ci類的條件概率是P(d|Ci)。根據貝葉斯定理,Ci類的后驗概率為P(Ci|d),即:
P(Ci|d)=P(d|Ci)P(Ci)P(d)(3)
其中:P(Ci)、P(d)對于所有的類均為常數,可以忽略,則式(3)可以簡化為:
P(Ci|d)∝P(d|Ci)(4
貝葉斯分類器將新的故障樣本d歸于類Ci的依據就是要求出極大后驗假設,即:
P(Ci|d)=argmax{P(Cj|d)P(Cj)}; j=1,2,…,m(5
新故障d由故障的不同屬性所組成,即d=(x1,x2,…,xn),n是d中的屬性個數,根據樸素貝葉斯分類器的獨立性假設,有:
P(d|Ci)=P((x1,x2,…,xn)|Ci)=∏nj=1P(xj|Ci) (6)
式中P(xj|Ci)表示分配器預測屬性xj在類Ci中發生的概率。
P(xj|Ci)=(1+T1(xj,Ci))/|q|+∑mw=1T1(xj,Cw)
其中:|q|表示屬性總數,T1(xj,Ci)表示屬性xj在Ci類的所有類中出現的頻數之和。
構造每個故障的向量,用n維屬性向量表示A={x1: f(x1),…,xn: f(xn)},xi(i=1,2,…,n)為故障屬性,f(xj)為屬性的評估函數,則式(4)可以改進為:
P(Ci|d)∝∏nj=1P(xj|Ci)f(xj)(7
為未分類故障d分類就是計算P(Ci|d),未分類故障d屬于類別Ci P(Ci|d)>P(Cj|d),i≠j,由式(7)可知,計算P(Ci|d)只需要計算未分類故障d的n個屬性xj在類Ci中的概率即可。
基于上述分析,本文提出面向大規模IB網絡增量學習的故障診斷方法IL_Bayes,在利用貝葉斯分類器處理數據的過程中,難免會遇到訓練集類別里面不存在的其他類,對于這種情況處理過程就會發生錯誤,如果在貝葉斯分類器上建立自學習機制,對于處理過程中產生錯誤的數據,根據數據特征建立新的類別,就可以有效解決這個問題。本方法分為3個階段,即構造和訓練分類器階段、故障分類處理階段和再學習階段。
1)構造和訓練分類器階段。
依次讀取訓練樣本集中的每個故障告警信息,提取故障屬性xj。根據專家知識和經驗,人為地對這訓練集樣本進行故障分類,記為C={C1,C2,…,Cm};
①對樣本集的每個故障和該故障的屬性,分別計算∏nj=1P(xj|Ci)f(xj),根據計算結果判斷未分配故障d屬于哪個故障類,即Ci P(Ci|d)>P(Cj|d), i≠j;
②對于沒有匹配上的故障告警信息,則重復步驟①,建立新的故障類,并加到故障類集合C中,重復步驟②;
③訓練結束,將所分的故障類C添加到分類器中以便處理故障數據。
2)故障告警數據分類處理階段。
①當網絡發生異常時,讀取待處理故障告警信息d的屬性xi,計算∏nj=1P(xj|Ci)f(xj),根據計算結果判斷未分配故障d屬于哪個分類,即Ci P(Ci|d)>P(Cj|d), i≠j;
②對于處理錯誤的告警信息,即故障類集合C中不存在此類故障的分類,則轉入再學習階段。
3)再學習階段。
①讀取故障處理過程中出現錯誤的告警信息,提取故障屬性xj。
②根據故障告警信息的屬性值,建立新的故障類,并加到故障集C中,重復故障告警數據處理階段步驟①;
3實驗分析
為了驗證本文方法,構建了一個基于InfiniBand的高性能計算機互聯結構,其網絡拓撲為胖樹結構,如圖1所示。
其中存在12個邊緣接入的匯聚交換節點(Aggregate Switch),每個接入交換節點支持18臺服務器接入。二級交換采用全相連結構,每個匯聚交換節點通過3個連接和每個核心交換節(Core Switch)互聯,從而構成了非阻塞的網絡結構。鏈路均采用QDR(40Gb/s)傳輸速率。
所有服務器均運行Red Hat Linux 6.1 x86 64位操作系統,采用開源OFED(Open Fabrics Enterprise Distribution)1.5.4驅動和管理HCA設備,通過其中的OpenSM模塊提供了對網絡的管理。
OpenSM是InfiniBand的子網管理軟件,用來管理集群系統中的成百上千個節點,默認的工作模式是發現IB的子網拓撲,初始化子網,然后定期掃描子網的變化。OpenSM運行的日志文件存放在/var/log/message和/var/log/opensm.log中,第1個文件一般存放的是主要的事件日志,第2個文件存放的是系統運行錯誤的詳細情況。
具體內容包括:告警時間、線程id、日志等級和日志具體內容。下面對日志等級進行詳細說明:OpenSM的日志共分為8個等級,具體如下:
0x01 CERROR(error message
0x02 CINFO (basic message, low volume
0x04 CVERBOSE(interesting stuff, mosderate volume
0x08 CDEBUG(diagnostic, high volume
0x10 CFUNCS(function entry/exit, very high volume
0x20 CFRAMES(dumps all SMP and GMP frames
0x40 CROUTING(dump FDB routing information
0x80 Ccurrently unused
在網絡運行過程中日志記錄的比較常見故障類型如表1所示。
故障類型描述
osm_get_port_by_mad_addr當前SM不能識別一些查找請求的LID
pi_rcv_check_and_fix_lid
1.SM質疑一些結束端口的PortInfo和基于LID 0xffff的接收數據
2.SM還未配置的端口,IBA 規則不能識別其LID
3.日志消息屬于某些調試信息
osm_pr_rcv_process1.當前SM不能識別被SA PathRecord請求的端口
2.由于SM沒有作出反應導致結束端口堆棧查詢超時
3.上述兩個錯誤顯示在子網改變期間查詢,結束端口堆棧應該重試查詢
log_trap_info1.流量控制監視程序計數器在監視時超時,SMA交換機發出緊急trap
2.流量控制更新錯誤
3.可能是由于在OperationalVLs上的對等端口不匹配
log_rcv_cb_error1.可能是新的MulticastFDBTop字段選項出問題
2.從SM流入交換機的初始路徑出問題
3.交換機的固件版本不相符
4.在SM中禁止了這些流
sm_mad_ctrl_send_err_cb1.SM沒有收到從SMA的NodeInfo查詢響應
2.檢查VL15的下行計數器
sm_mad_ctrl_send_err_cb1.Mellanox需要FDR10的專有SM MAD支持
2.可能是使用了舊版本的Mellanox固件,如果可能,需要檢查版本和更新
3.替代方法是關閉opensm配置文件中的SM經由FDR10的FDR10支持
perfmgr_mad_send_err_callbackPMA沒有回應PerfMgr的請求(獲取或設置)
Perfmgr_send_mad當發送PerfMgtMAD到PMA時,PerfMgt沒有在“suspended”狀態
osm_get_port_by_mad_addr當前SM不能識別一些查找請求的LID
pi_rcv_check_and_fix_lid1.SM質疑一些結束端口的PortInfo和基于LID 0xffff的接收數據
2.SM還未配置的端口,IBA 規則不能識別其LID
3.日志消息屬于某些調試信息
osm_pr_rcv_process1.當前SM不能識別被SA PathRecord請求的端口
2.由于SM沒有作出反應導致結束端口堆棧查詢超時
3.上述兩個錯誤顯示在子網改變期間查詢,結束端口堆棧應該重試查詢
在一個故障發生的時候,診斷算法應該能夠盡可能準確地定位故障,按照某種故障是否發生以及是否正確診斷出故障,故障診斷算法的精確性表現為4個方面,如表2所示。
故障診斷的精度由公式(A+D)/(A+B+C+D)計算,其中A+B=100%,C+D=100%。在實際的診斷中,人們常常更加關心A類和C類的精度,A類精度代表了一個診斷方法的實際能力,一個故障發生后是否能夠被診斷方法識別和定位,C類精度標志著一個診斷系統的可靠性。
本文選取1500個網絡事件信息作為待分類故障樣本集,根據上述分析,故障樣本集大致可以分為15個故障類,將其中的x個事件作為訓練集,1500-x個事件作為驗證集,將IL_Bayes算法與文獻[12]中提出的基于模糊概率神經網絡的故障分類算法(Fuzzy Probabilistic Neural Network Classifier, FPNNC)在故障A類精度(即診斷精度)和C類精度(即誤診率)兩方面進行了比較,結果如圖2和圖3所示。
由圖2可以看出,兩個分類算法的分類精度隨著訓練集的增大而增加,由于對故障進行了增量學習,IL_Bayes算法比FPNNC算法的分類精度高。
圖3可以看出兩個算法的故障誤診率隨著訓練集的增大而降低,增量再學習機制使得IL_Bayes方法比FPNNC方法的故障誤診率更低。
通過上述實驗證明,IL_Bayes方法具有較高的分類精度和較低的故障誤診率,在一定程度上有效地解決了IB網絡的故障分類問題,為IB網絡故障的診斷提供了一個較為有效的方法,同時在IL_Bayes方法中引入了再學習機制,能對分類器進行修正,不斷完善故障類集合,達到了故障分類性能優化的目的。
4結語
本文針對大規模數據中心網絡中如何有效監控網絡異常事件、發現網絡性能瓶頸和潛在故障點,為網絡性能優化提供支持,深入分析IB網絡的特性,引入了特征選取策略和增量學習策略,提出了一種面向大規模IB網絡增量學習的故障診斷方法IL_Bayes,在天河2真實的網絡環境,并對算法的診斷精度和誤診率進行了驗證。
本文研究了貝葉斯理論在故障診斷中的應用,進一步研究高效率的貝葉斯推理算法和學習算法將是提高故障診斷決策方法效率的關鍵因素和重要研究內容。
參考文獻:
[1]DENG G, GONG Z, WANG H. Characteristics research on modern data center network[J]. Journal of Computer Research and Development, 2014, 51(2):395-407.(鄧罡,龔正虎,王宏. 現代數據中心網絡特征研究[J]. 計算機研究與發展,2014,51(2): 395-407.)
[2]SHEN L. Research and implementation of InfiniBand network interface [D]. Changsha: National University of Defense Technology, 2010: 1-3.(沈力. InfiniBand網絡接口的研究與實現[D]. 長沙:國防科學技術大學,2010: 1-3.)
[3]Oracle Corporation. An oracle white paper: consolidating Oracle applications on exalogic[EB/OL].[20150322].http:/// us/products/middleware/appconsolidationexalogic395610.pdf.
[4]ABTS D, MARTY M R, WELLS P M, et al. Energy proportional datacenter networks[C]// Proceedings of the 37th Annual International Symposium on Computer Architecture. New York: ACM, 2010:338-347.
[5]Mellanox Corporation. Mellanox solution brief: Mellanox low latency, high bandwidth InfiniBand for Web 2.0 and cloud deployments[EB/OL].[20150322].http:///relateddocs/company/MLNX_Corp_Inv_deck.pdf.
[6]OUSTERHOUT J, AGRAWAL P, ERICKSON D, et al. The case for RAM clouds: Scalable high performance storage entirely in DRAM[J]. ACM SIGOPS Operating Systems Review, 2009,243(4): 92-105.
[7]SONG H, QIU L, ZHANG Y. A flexible framework for largescale network measurement[J]. IEEE/ACM Transactions on Networking, 2009, 17(1):106-119.
[8]ZHENG Q, YAO M, QIAN Y. Novel fault location approach based on Lagrangian relaxation and subgradient method[J]. Systems Engineering Theory and Practice, 2008,28(11):155-164.(鄭秋華,姚敏,錢云濤. 基于拉格朗日松弛和次梯度法的網絡故障定位新方法[J]. 系統工程理論與實踐,2008,28(11):155-164.)
[9]XU Q. Study of network fault alarm correlation based on data mining[D]. Beijing: Beijing University of Posts and Telecommunications, 2007: 88-102.(徐前方.基于數據挖掘的網絡故障告警相關性研究[D].北京:北京郵電大學,2007: 88-102.)
[10]QI Y. Computer network intelligent diagnosis technology[D]. Nanjing: Nanjing University of Science and Technology, 2004.(戚涌.計算機網絡智能診斷技術研究[D].南京:南京理工大學,2004.)
[11]XUAN H, ZHANG R, ZUO M, et al. A hierarchical fault diagnosis algorithm for data center network[J]. Acta Electronica Sinica, 2014,42(12): 2536-2542.(宣恒龍,張潤馳,左苗,等.面向數據中心網絡的分層式故障診斷算法[J].電子學報,2014,42(12):2536-2542.)
雖然IP技術占據了電信業務的主要業務領域,但是,IP技術也是一把雙刃劍,在為電信業務帶來便利的同時,該技術也極具復雜性。目前,在基于該技術體系的新運營模 式下的運維管理領域,普遍存在以下三個缺陷:
第一,發生網絡故障后很難被快速定位,降低了解決故障的速率,使得在用戶反映的滿意程度上有很大的難度去突破常規的滿意度降低局面,導致這一現象發生的主要原因是網絡極具靈活性,網絡環節多而且路由的自動計算;
第二,無法掌握網絡性能KPI指標與業務的性能瓶頸,只有一條渠道,即是回訪客戶使用的感受,以至于用戶黏度持續降低,導致這一現象發生的原因是由于網絡模式為共享,導致得到及時精準的網絡與性能數據變得十分困難;
第三,網絡規劃的方法和工具還不夠科學,導致還沒有能力構建更加科學實際的網絡系統,難以保證網絡與業務的健壯性。
綜合以上三個方面,更加凸顯了“醫護專家”運維系統必要性。這樣才能快速的定位故障發生在哪個環節并采取相應的措施來解決,并構建科學的網絡規劃,預見可能發生的故障并準備好應對措施。而華為則從下面幾個方面提供了更好的運營方案促進了運營商的轉型成功。
1 迅速定位網絡故障并進行解決從而提高用戶的滿意程度
華為醫護專家可以迅速定位故障地點的要點是將業務層與網絡層相互聯動,這種聯動使得系統更加智能、科學。逐跳式端到端故障定位、逐層式聯動故障定位形成了華為獨有的矩陣化的故障定位模型,這種模式使得業務與網絡之間可以相互精準的聯動,可以更加精準快速的找到網絡故障環節并進行排除,提高了運維效率。
這里講的逐跳式端到端故障定位是指通過從網絡的接入到匯聚再到核心的端到端逐點跟蹤定位技術實現故障位置的精確定位,可定位到具體設備或路徑。逐層式聯動故障定位是通過豐富的OAM工具實現從接口、路徑、管道、業務到應用的逐層聯動診斷,精確判定IP語音、視頻、數據等業務故障點,定位故障位置;再結合豐富的專家經驗庫,實現精準自動化的故障診斷,給出故障原因、危害等級與恢復措施。
部署方面,提供內置軟件探針和附加硬件探針兩種更加靈活的部署形式。華為不僅利用了內置軟件針的成本廉價的優勢,還突破常規,第一個提出在多廠商設備復雜組織網內加入附加硬件探針,使得華為在各種運營商的競爭中更具技術優勢。
以上種種構建了 “矩陣式、靈活、全方位”故障診斷解決方案,該方案一方面使得運營商的故障診斷工作不再繁冗復雜而變得簡易;另一方面大大提高了故障定位的速率和運營商保證業務質量,提升了用戶滿意度。
2 全方位實時監控預防網路隱患
眾所周知,性能數據的統計與分析直接關系到對當前業務和網絡的評估結果,更為層次化的數據可以為未來的業務和網絡規劃提供決策支持。而華為醫護專家解決方案提供網絡、業務與用戶的全方位實時監控,可以預知網絡運行中的安全隱患,防患于未然:
首先,華為醫護專家通過對網絡與業務的實時性能KPI指標數據的分析,適時修改參數,改善其KPI指標,從而更加便捷的滿足客戶需求;
其次,華為醫護專家提供了完善的SLA管理,可以使運營商的服務更加多元化,實時監控網絡與業務KPI指標同設定指標的對比差異,第一時間發現用戶應用體驗質量的下降,發出SLA質量劣化預警,及時采取質量恢復措施并安撫客戶,從而幫助運營商維護與客戶之間的關系;
再次,提前感知網絡與業務性能瓶頸,精確定位導致瓶頸的相關因素,及時制定預防措施,防患于未然。
3 構建更為科學實際的網絡規劃
舉個例子,通常人們生病后,醫生在開具可以抵抗病人體內病毒的藥劑的同時還會給予一個相應的醫護建議。在這里,一套更加科學實際的網絡規劃便是那個“相應的醫護建議”,它滿足了運營商在需求軟件之后的更深一步的要求,這個網絡規劃要涵蓋仿真、實施、維護的全生命周期;要將側重點放在面向生命周期和業務應用場景的管理模式上。
華為醫護專家提供全面整合、面向全生命周期的網絡規劃解決方案,從網絡前期的規劃到后面的部署,幫助運營商構建科學的網絡,增強網絡健壯性,使得網絡的效率和效益達到最高。
考慮到多場景的業務開發和運營支撐的網絡規劃才可以稱其規劃具有科學性。華為醫護專家解決方案針對多場景的業務管理,在建設的前期進行科學的規劃,可以預見并避免事故的發生,從而提高運維管理效率和運營商的核心競爭力;在網絡建成后,網絡優化成為首要任務,華為醫護專家解決方案提供了靈活易用的網絡優化工具,能夠科學的分析網絡業務的運行情況,利用該工具可以采集真實運營數據進行精確建模,支撐對系統參數和網絡設備做出合情合理的調整,從而幫助網絡運行達到最佳狀態。
在各種力量的推動下,運維管理行業的前景更加趨向于層次多并且面向全生命周期的綜合解決方案。華為IP網絡運維醫護專家可以迅速進行網絡故障的定位與排除,全方位實時監控,更加科學實際的網絡規劃方面為運營商提供高效、整合的解決方案與服務,并已經成功協助CMCC、BT、Telefonica、SingTel、Vodafone等業界領先的運營商建立了獨特的競爭優勢,并將持續協助運營商在ALLIP的戰略轉型中取得新的商業成功。
參考文獻
[1] 萬彭.找準3G業務網絡規劃與營銷的平衡點[N]. 人民郵電. 2009.
總之,網絡急需管理功能。而參與自動化網絡管理的主角,就是網管軟件。
網管軟件的主要任務是針對網絡設備進行監測、配置和故障診斷,它有自動拓撲發現、遠程配置、性能參數監測、故障診斷等功能。網管軟件目前已被企業普遍接受,很多的企業都已經配備或者正準備配備網管軟件。
對大型企業來說,網絡規模較大,網絡結構復雜,一旦網絡出現故障,查找和維護起來都很困難。
對小型企業和SOHO用戶來說,他們技術水平不高,聘請專業網絡管理員費用太高。
因此,網絡管理軟件已成為網絡必不可少的一部分。目前網管軟件的種類很多,不同廠家都紛紛推出自己的網管軟件產品,如何衡量是否是一個好的網管軟件,已成為越來越多的用戶關心的話題。
要素一:支持的網管協議是否完備
目前網管軟件解決的問題各不相同,一個企業很可能會購買多種網管軟件,這樣會導致一個企業內部網中也會有多套網管軟件共存,如果沒有統一的標準,管理人員就不得不通過不同的操作來管理不同系統。未來的趨勢是逐步走向統一,在一個開放的標準下實現各種設備的統一管理。SNMP和RMON就是兩個標準的網管協議。
SNMP(簡單網絡管理協議)是一種網管的標準協議,SNMP使用嵌入到網絡設施中的軟件來收集網絡的通信信息和有關網絡設備的統計數據。SNMP得到了幾乎所有網絡設備供應商的支持,成為使用最廣泛的網絡管理工具。SNMP的成功主要是因為它十分便于安裝和使用,同時在正確使用的情況下,它所增加的網絡負荷是較小的。
為了解決SNMPv1/v2在安全性方面的問題。在1998年出臺了SNMP v3。目前一個明顯的趨勢是,網管軟件對SNMP v3的支持會越來越多,雖然目前有不少網絡設備已經支持SNMP v3,但SNMP v3的應用程度以及網管軟件對該標準的支持還非常有限。
RMON是IETF公布的用來解決SNMP協議在日益擴大的分布式網絡中所面臨的局限性。RMON的目的在于使SNMP更為有效、更為積極主動地監控遠程設備。RMON MIB由一組統計數據、分析數據和診斷數據構成,網管軟件利用RMON可以顯示出這些數據。
要素二:面向業務而非設備
新型網管軟件不再單純地面向設備管理,而是面向業務來為企業網絡管理服務的,在此基礎上,建立起統一的、整合的管理平臺,全面的對業務進行服務。
新一代的網管軟件要具有能夠與IT系統同步持續發展的能力,對于在目前的基礎上擴大規模和容量,網管軟件要能夠繼續滿足新的要求。隨著行業的不斷增長,新一代的網管軟件產品要能夠滿足市場的不斷需要。
要素三:集中遠程管理
集中式遠程管理是以簡化網絡管理為出發點,企業可以通過一個統一平臺掌控遠隔千里的網絡設備、服務器甚至PC,達到簡化網絡管理的目的。
在大型網絡應用環境下,所有機房服務器和網絡設備都可通過帶外管理方式達到網絡運行中心,將設備維護及故障排除集中于網絡操作中心平臺上,簡化運維、提高效率。
在跨地區多中心的網絡應用環境下,通過相對集中的控制、處理系統可實現關鍵設備的異地遠程管理。
要素四:使用和管理簡單
網絡管理不應是在故障或事故發生后才去尋找解決辦法。綜合的網絡管理平臺應該能夠向網絡內各種設備獲取技術參數,進而分析、診斷,以至預警?!吧倒鲜健本W絡管理系統表現在易用性、主動性、預警管理三方面。
“傻瓜式”的網絡管理系統降低網管的門檻,網絡內各種不同的設備都統歸到一個系統平臺上體現監控,并以直觀簡單的方式呈現給用戶,使操作性快捷明了;使更多的網管人員在節約人力及各項資源成本的前提下,保證網絡的通暢使用。
關鍵詞 SDH;維護;故障;定位
中圖分類號TP393 文獻標識碼A 文章編號 1674-6708(2011)37-0233-02
SDH(Synchronous Digital Hierarchy),即同步數字體系,是目前在電力通信行業得到了廣泛運用的技術之一。SDH是一個技術體制,主要涉及為不同速度的數位信號傳輸提供相應等級的信息結構,包括復用方法和映射方法,以及相關的同步方法。
目前在區域電力通信網絡中,SDH網絡基本已經可以覆蓋到整個網絡。為了能夠保證SDH網絡設備能夠更好地服務,確保光纖傳輸網絡的正常運作,需要根據SDH的自身特點,對其進行必要的維護以及檢修和故障排除工作,通常而言,可以將工作內容進行歸納為以下部分:
1)SDH網絡的日常維護工作
對于任何工作設備而言,維護工作都是保證其正常工作的必要環節。對于SDH網絡系統,應當根據整個網絡中不同設備的具體狀況而實施有針對性的維護檢查。
對于SDH網絡的維護工作,可以從兩個方面著手,即相關設備的檢查和相關網管的檢查。其中,相關設備的檢查方面,以SDH網絡涉及的主要設備為主要檢查對象,并根據其自身狀況進行維護。主要包括設備告警以及機柜指示燈檢查,設備告警主要對告警設備以及其發聲狀況進行檢查,由于設備告警關系著對于網絡故障的及時發現,而機柜指示燈則能夠明確標識出機柜的運作狀況,因此每天都應當對其進行檢查。此外,單板指示燈也是一個極為重要的檢查維護環節,應當依據設備狀況及時進行檢查維護,通常采取一天兩次檢查為宜。設備檢查中還應當 包括風扇檢查和防塵網的定期清理,主要依據實際情況,保持設備通風和微環境的散熱通風,通??梢砸园雮€月為一個周期,視塵土的堆積情況進行清理。
網管檢查中應當從SDH網絡的軟環境進行著手,首先是對軟環境的安全管理,應當對登錄口令定期進行更改和備忘登記,通常一個月更換1次~2次,以能夠確保安全為主,同時應當加強對于SDH網絡系統的人員安全管理,防止口令流失。其次,應當從SDH軟環境開始對其內部狀態以及安全運行進行檢測維護,主要包括對于導航樹以及拓撲圖的監視,確保其軟環境的正確識別;以及告警和性能的監視,確保系統內部正常運行。這些都是需要每天對其進行監視維護的,也可以針對系統設計一些簡單的代碼軟件,對整個系統進行實時監控。此外,還需要不定期地針對系統配置以及操作日志進行檢查,同時根據系統的運行狀況進行數據備份,防止意外發生的時候難以快速回復系統運行。
2)SDH網絡的故障維護工作
通常而言,SDH的故障維護并不十分困難,但是在這個過程中,故障的定位是一個十分重要的環節。在實際工作中,需要快速準確地將系統的故障定位到網元。在SDH系統中,由于網元之間的距離巨大,因此有效定位故障,對于提高維護效率有著重大意義。如果反復奔走于不同的網元之間對故障進行測度,將會在人力物力等多方面造成不可低估的浪費。
在對SDH網絡故障進行定位的時候,有如下幾個方面需要優先考慮:首先是SDH設備外部因素,因為相對而言,SDH網絡中更容易發生線路故障或者接頭、電源以及其他接入設備或接口故障。其次,在故障定位的過程中,需要先將故障定位在單站中,然后再逐步具體到單板和網元。此外,對于報警的級別必須予以深入分析,抓網絡中的主要問題,對于較高級的報警應當給予更多的重視,而對于低級別告警,則應當為高級別告警讓路。
常見的故障定位的方法包括:
(1)報警線索分析
對于系統內部的報警信號,相關的網管職能通常都會對報警事件進行記錄,其中包括對于事件發生時間、事件發生前后系統工作狀況數據等。根據這些信息,結合SDH系統幀結構中的相關字節和報警機制,通常就可以對系統中的故障進行初步定位。
需要注意的是,這種方法可能存在一定的誤判,由于報警機制本身的不完善或者是報警設備的局限性,很可能導致對故障定位方向的錯誤,對于這一問題,應當在故障定位的時候多進行主管思考,并且結合以往故障實例進行綜合判斷。因此,對于故障資料進行記錄和整理也是SDH系統維護中的重要工作。此外,能夠參考的數據還包括事件發生前后的系統運作日志數據,這些數據從一定程度上反應著系統的運行狀況,甚至包含有故障的觸發原因,必須予以重視,應當對其整理,記錄并長期觀察。
(2)環回法對于SDH系統故障的定位
環回法是SDH系統中用于定位故障最常用的方法之一,對于分析報警原因失敗的故障常常采用這一方法進行深入定位。
環回法是針對不同故障通路進行檢測的一種故障定位方法,它能夠在報警分析失敗的情況下進行定位,但是對于SDH的運行會有一定的影響。需要注意的是,環回法需要首先對不同的通路進行測試,而不是同時對產生故障的大范圍系統進行測試。對此,需要工作人員首先從產生故障的局部系統中選取一個網元,并且在這個網元中選取不同通路逐一進行測試,這樣才能得到真正有效地測試結果。
應當注意,環回法雖然能夠對SDH故障進行定位而無需報警信號和相關數據的幫助,但是它的精確度卻存在一定不足,并且對于環回法的使用,也存在褒貶不一的論調,主要原因是它的使用會影響SDH系統的正常工作,因此除非大范圍發生故障,通常對這種定位故障的方法不予采用,這也是從一定層面上基于故障排除效率的考慮。
(3)替換法對于SDH系統故障的定位
替換法是在SDH系統發生故障的時候,對于懷疑故障的設備或原件,甚至是目前工作的配置加以更換的測試方法。這種測試方法更多地應用于對于外部小范圍內故障的定位和測試,例如光纖、中繼電纜、交換機以及接口等設備。
1.1網絡安全的需求
對于使用網絡的業務人員來說,良好的網絡應該包括這樣幾個方面:①通過簡單配置甚至無配置即可使用;②通過網絡可以獲取更多的信息,使用更多的應用;③不用擔心病毒、木馬、數據泄露、數據丟失、斷網等故障。而對于網絡的管理維護人員來說,他們更加關注:①易于操作、維護,能夠實現集中操作、自動操作;②系統結構具有足夠的彈性,方便進行擴容或者升級;③可以快速地分析解決故障,并對原因進行分析、追溯;④對病毒、木馬、各種網絡攻擊行為具有良好的抵抗力。
1.2網絡安全策略
基于以上的分析,一套完整可行的網絡安全策略應該包括這樣幾個方面:①利用軟硬件應對病毒、木馬、網絡攻擊、斷網、斷電、火災等設備故障和環境故障;②建立統一的管理平臺,對各種網絡設備進行集中管理、自動掃描,實現可視化操作、提供各種故障警報、攻擊警報,提高故障響應速度;③在不同功能的網絡設備間建立有效隔離,避免彼此之間直接進行數據交換。各種服務的前后臺建立隔離措施,控制非法訪問;④加強合法用戶的權限認證、口令認證,對網上服務請求內容進行控制;⑤加強對各種訪問的審計工作,詳細記錄對網絡、服務器的訪問行為,形成完整的系統日志;⑥強化系統備份,實現系統快速恢復。
2網絡系統安全風險分析及應對
網絡安全通常包括以下五個方面:①物理硬件安全;②結構安全;③系統平臺安全;④應用安全;⑤管理安全。
2.1物理硬件安全風險分析及應對
保證設備的物理安全是系統安全的前提,即保護設備免遭地震、水災、火災等環境事故、突發狀況導致設備破壞等問題。它主要包括三個方面:①環境安全:對系統所在環境的安全保護(參見GB50173-93《電子計算機機房設計規范》、GB9361-88《計算站場地安全要求》);②設備安全:主要包括設備的防盜、防毀、防電磁信息輻射、防線路截獲、抗電磁干擾及電源保護等;③數據安全:包括數據的安全及數據存儲設備本身的安全。應對物理安全風險的基本思路就是“冗余”。隨著網絡機房等級的提升,對設備部件、設備乃至設備機房進行冗余設計,并通過技術手段實現數據同步、自動倒換,以規避物理安全風險。
2.2網絡結構的安全風險分析及應對
網絡結構的安全涉及到拓撲結構、路由狀況。隨著網絡設備的增多,網絡的復雜度是呈幾何級數增長的。良好的網絡拓撲結構、路由設計可以保證維護人員快速、準確的對各種故障進行定位、響應、處理,縮小網絡故障對公司業務的影響,同時提供足夠的彈性以容納新設備的使用。從某種意義上來說,網絡結構的安全風險是不可逆的。必須在網絡設計階段就進行考慮以規避風險。具體來說,包括這樣幾個方面:①專用網和通用網分開,例如監控網絡和辦公網絡的分離;②將網絡設備分為“內網接入”“核心交換”“數據交換”“外網接入”等不同的類別,彼此間均通過核心交換進行互聯,禁止直接數據交換;③對服務器的使用盡量實現前臺訪問響應和后臺數據庫服務、內網應用和外網應用的分離;④在網絡中使用防火墻進行安全控制,使用上網行為管理設備對網絡使用人、業務、時間等進行控制。
2.3系統平臺的安全風險分析及應對
這里所說的系統并不僅僅指通常意義上的用于服務器、計算機等終端的Linux、Windows等操作系統,還包括各種交換機和移動端設備內的操作系統(Android、IOS等)。其中的風險主要在于這類大型軟件普遍存在的系統漏洞、系統后門。雖然這類風險也無法避免,但是我們可以通過建立統一網絡管理軟件平臺,利用網絡安全評估風險軟件對網絡安全進行定期自動掃描,確認網絡狀況,通過權限認證、訪問日志審計、定期備份等管理手段來應對各種網絡故障,提高系統的安全性。網絡安全性評估分析軟件,其功能是用實踐性的方法掃描分析網絡系統,檢查報告系統存在的弱點和漏洞。這類軟件至少應具備以下功能:①網絡監控、分析和自動響應;②漏洞分析和響應;③配置分析和響應;④遠程連接設備。
2.4應用的安全風險分析及應對
應用系統的安全跟具體的應用有關。這導致應用的安全風險是動態的、不斷變化的,通常涉及機密信息泄露、未經授權的訪問、破壞信息完整性和可用性等安全問題。雖然面對多種的應用進行單獨的安全控制是不可能的,不過通過對系統平臺的安全設置,可以對應用的安全風險進行控制,降低其破壞性。這從另一個方面說明了網絡系統安全風險控制的必要性。
2.5管理的安全風險分析及應對
任何軟硬件都是需要人使用及管理,由此推知“管理是網絡安全中最重要的部分”。必須建立各種管理制度來規范對網絡的使用、管理。需要建立諸如《機房出入管理制度》《系統維護制度》《設備操作規程》《故障應急處理預案》《用戶授權實施細則》《口令字及賬號管理規范》《權限管理制度》等管理制度。在制度建立時,需要注意遵循“多人負責原則”“任期有限原則”“職責分離原則”。
3結語
[關鍵詞] 醫院網絡平臺;網絡規劃;網絡管理;安全應急
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 21. 083
[中圖分類號] TP393.0 [文獻標識碼] A [文章編號] 1673 - 0194(2016)21- 0159- 03
1 網絡管理概述
隨著醫院HIS、電子病歷、LIS、PACS等業務系統不斷發展,醫院日常工作已經完全離不開信息化的支持,作為信息化奠基石的醫院網絡管理及網絡安全也越顯重要。從概念上講網絡管理的目標就是通過管理優化,實現網絡的可用時間的最大化, 并提高網絡設備的利用率、網絡性能、服務質量和安全性,降低網絡運行成本, 形成網絡的長期規劃。
2 目前醫院網絡管理的需求突出點
近年來,三甲綜合醫院信息化規模已經完全步入大數據時代,小型局域網擴張成大型園區網絡,網絡終端成倍增長,數量基本已達到2 000以上。伴隨而來的網絡壓力也彰顯,更能考驗醫院網絡管理水平。網絡管理上突顯的主要需求點主要體現如下幾方面:
(1)工作站數量激增,直接增加了網管員的工作量。經統計,造成終端以及網絡出現問題的主要為人為因素,如,誤操作導致網絡配置錯誤、移動介質使用和隨意共享傳播文件導致病毒感染、惡意掃描以及大量網絡傳輸導致網絡帶寬被占用等;
(2)多廠家網絡設備、多網絡互連,增加網絡架構的復雜性和故障風險。網絡建設是需要經過長時間升級完善,網絡設備的多樣化、多品牌化問題突出;業務的多元化給網絡也帶來跨網段、跨區域的特色。
(3)醫院信息系統平臺的大數據應用以及數據備份帶來帶寬不足的凸顯。
(4)網絡規模增長,直接帶來故障率的增高以及排查難度的提高。
3 醫院網絡管理的實用經驗及方法
3.1 故障的快速定位
故障快速定位是快速解決網絡故障的前提,而故障前后的數據對比是故障快速定位的關鍵。因此我們需要熟悉自己的網絡運行狀況,每天做好網絡運行狀況登記,其中應包括:核心網絡設備的性能使用率、運行日志、生成樹狀況、備份狀況、運行配置、主干流量登記、重要端口流量、電源狀況、環境溫濕度等等。尤其是重要端口流量監控,需特別區分常態網絡流量以及突發業務計劃引起的大數據網絡流量。常態做好全網流量監控(無專用設備可安裝抓包軟件進行分析)。醫院網絡故障一般分為三類:①設備硬件故障,特點為定位容易,故障修復時間比較明確;②配置導致的故障,特點較為少見,容易排查;③網絡攻擊或者廣播風暴類故障,特點為隱蔽性,往往容易導致交換機無法遠程管理,且業務影響范圍較廣。根據不同的故障種類,我們應事先制定對應的處理預案。認真做好網絡運行狀況登記,可助我們快速識別當前網絡故障的種類,以便采用相應的處理預案。
3.2 優化網絡主干
提升主干帶寬,一般有三個方法:①升級硬件:如百兆升級到千兆,千兆升級到萬兆,或者做鏈路捆綁,該方法直接涉及網絡成本;②采用虛擬局域網VLAN技術抑制廣播風暴,提高帶寬效率;③針對大數據流量的主干優化。
(1)目前主流局域網技術均采用以太網技術,隨著主機數量的增多、網絡設備增加,原有單一共享網絡的規模不斷擴大,ARP、DHCP、生成樹等等基于廣播或者組播方式的網絡協議帶來大量的廣播流量,直接消耗主干的帶寬以及核心交換機的處理資源,甚至降低該共享網絡中所有終端主機的處理速度。因此,如何抑制廣播風暴以及其他不明流量風暴是提升現有主干傳輸能力的首要方式。
VLAN技術是專門為了解決以太網廣播以及安全性而提出的,是一種將局域網從邏輯上劃分(注意,不是從物理上劃分)成一個個不同的邏輯子網VLAN的實現技術。每個VLAN具有獨立的廣播域,可覆蓋局域網內多個網絡設備,允許不同地理位置的終端用戶加入同一個邏輯子網。VLAN技術實現是在以太網幀的基礎上添加VLAN頭,在二層轉發的過程中根據VLAN ID決定該幀能達到的邏輯子網,而不會轉發到其它VLAN中,實現每個VLAN的廣播和單播流量得到嚴格隔離,從而實現有助于控制流量、簡化網絡管理和提高網絡安全性。當然,不同VLAN彼此之間無法直接訪問,則需支持路由或者三層轉發功能(路由器、三層交換機)設備來完成。目前主流的核心交換機均帶有三層交換引擎。
常用的VLAN劃分手段主要有根據物理端口劃分、根據MAC地址劃分和根據網絡層協議劃分。根據網絡端口劃分,簡單穩定,只需在端口配置上指定該端口的VLAN所屬就可以。根據MAC地址劃分,則相對靈活,端口會根據MAC地址自動劃分到該MAC地址所對應的VLAN中,當然前提是前期需對所有網絡用戶的MAC地址登記和對所有網絡設備配置。根據網絡層協議劃分,相對復雜和耗費交換機性能,效率不高,較為少見。
根據醫院網絡實際應用,應用終端的位置以及業務類型均相對固定,網絡流量主要是來自應用終端與服務器之間互訪流量,即垂直流量占多,而平行流量僅大量存在于服務器與網絡存儲之間。因此,我們選擇了根據網絡端口劃分VLAN。根據網絡端口劃分VLAN一般有兩種劃分手段,一是根據該端口的業務應用類型,如PAC應用、LIS應用、HIS應用等等;二是根據該端口的地理位置,即按樓層劃分。兩種劃分手段各有優勢,前者在同一VLAN內的互訪流量數據傳輸可不必經過三層轉發,效率較高,并可方便使用到一些基于廣播、組播實現的網絡功能,如網絡查找或網絡共享等,因此適合如視頻轉播系統應用、門禁系統、監控系統以及服務器群等。后者則可以嚴格控制該VLAN的廣播、組播流量通過網絡核心設備和主干鏈路,大大降低網絡轉發壓力,從而達到優化網絡主干轉發能力,因此適合普通樓層接入。
(2)針對大數據流量,比如PAC服務器數據之間傳輸、服務器群與NAS等網絡存儲之間盡量采用專用光纖鏈路,盡量避免流經核心網絡設備以及樓層主干。
3.3 終端控制管理
終端管理主要手段有接入控制、應用訪問管理以及病毒防殺等。當然,目前許多終端安全管理軟件已經實現以上三個功能,以下將討論在現在網絡設備上不增加成本實現終端控制管理。
(1)網絡接入控制。常用方式有端口MAC地址綁定、端口MAC地址+IP地址綁定,還有基于802.1x協議的訪問控制。
a.端口MAC地址綁定。根據交換機性能,可以采取靜態綁定MAC地址,動態綁定MAC地址。采用靜態綁定MAC地址,網絡管理員需要事先收集終端的MAC地址,并在交換機上找到對應的端口手動敲入命令,對交換機性能要求不高,但是會給網絡管理員帶來很大的工作量。動態綁定MAC地址,只需要在交換機端口上開啟動態綁定MAC地址的功能,交換機就會自動學習并綁定端口所連接的MAC地址,不過要先確保接入交換機的終端都是合法的。
b.端口MAC地址+IP地址綁定。同樣可以采取靜態綁定與動態綁定兩種方式。采用靜態端口MAC地址+IP地址綁定,網絡管理員需要事先收集終端的MAC地址與IP地址,并在交換機上找到對應的端口手動敲入命令。此方法比只是綁定MAC地址安全性更高,但是會給網絡管理員帶來很大的工作量。采用動態端口MAC地址+IP地址綁定,需要結合DHCP SNOOPING或者DHCP Relay表項進行自動綁定,可以防止用戶篡改IP地址,再配合動態綁定MAC地址,讓交換機學習并綁定MAC地址,實現MAC地址與IP地址的雙重綁定。
c.基于802.1x協議的訪問控制。指定每個合法用戶一個用戶名和密碼,用戶需要接入網絡前,使用用戶名和密碼進行認證,認證通過以后才能訪問網絡,可以防止非法用戶訪問內部網絡。接入交換機需要支持802.1x協議,還要部署RADIUS服務器進行認證。采用此方法,可以避免非法用戶通過修改MAC地址與IP地址來進入網絡,安全性更高。
(2)應用訪問管理。鑒于醫院網絡業務大多數為垂直型分布,即終端直接訪問服務器群。因此可在三層網絡設備上做三層網絡轉發識別和過濾,減輕主干轉發壓力以及服務器網絡壓力。比如一般對內存儲設備的保護、只開放數據庫端口、開發應用服務器端口以及遠程管理端口等。
(3)病毒防殺。醫院內部的終端無法連接互聯網,無法及時獲取殺毒軟件病毒庫和系統補丁的更新,容易感染計算機病毒,造成安全隱患??梢酝ㄟ^組建殺毒軟件與系統補丁升級系統對終端進行病毒庫與系統補丁的更新。這個病毒防殺系統采用C/S架構,包括服務器和終端兩部分。服務器與終端都在醫院內部網絡。如果服務器可以直接連接互聯網,服務器可以采用方式,下載終端需要升級的文件數據,為終端提供及時的升級。如果服務器無法接入互聯網,可以在一臺能上網的機器上下載好升級的文件數據,再放在服務器上,用方式讓終端升級。
3.4 網絡隔離
上下級單位之間、醫院園區之間、特殊業務等等業務交互導致醫院網絡不再是以往單一的、物理獨立的局域網,而是一張多出口、多業務甚至多協議的復雜網絡。如何較好地劃分、控制每個邏輯子網也成了當前醫院網絡安全工作的重中之中,也是安全等級保護自查的一個重要項目。
對外來接入網絡,應定位為不安全網絡,應采取邏輯隔離、嚴格控制接入權限以及做訪問審計等手段。
(1)邏輯隔離:禁止二層直接接入,采用三層互聯技術,控制廣播域,并做好防毒防攻擊。
(2)嚴格控制接入權:使用網絡安全設備對前置機或者專線嚴格控制準入權,只允許訪問指定服務器或者網段。
(3)做安全審計:增加安全審計設備對入口流量進行訪問審計記錄,做到每個應用訪問可查可追蹤。