淺談數(shù)據(jù)中心冗余技術(shù)的利與弊
表1:各行業(yè)數(shù)據(jù)中心故障損失統(tǒng)計表
中國目前有將近54萬個數(shù)據(jù)中心在運營,并正以每年18%的復(fù)合增長率高速增長,與數(shù)據(jù)中心相關(guān)的基礎(chǔ)設(shè)施建設(shè)市場以達到千億的規(guī)模。這么多的數(shù)據(jù)中心,幾乎天天都會有大大小小的故障出現(xiàn)。可實際這么多的故障并沒有造成多么嚴重的損失,這主要是因為幾乎所有的數(shù)據(jù)中心都采用了各種冗余備份技術(shù),從而當故障發(fā)生時,業(yè)務(wù)能及時切換到正常的運轉(zhuǎn)層面,維持數(shù)據(jù)中心的正常運轉(zhuǎn)。當排查完故障后,再將業(yè)務(wù)切回正常運轉(zhuǎn)的層面。
一般數(shù)據(jù)中心的故障來源有:硬件故障、軟件故障、鏈路故障、電源/環(huán)境故障、資源利用問題、網(wǎng)絡(luò)設(shè)計問題六個方面。減少這些故障的最簡單方式就是冗余技術(shù),可以通過對設(shè)備、鏈路、服務(wù)器提供冗余備份,從而將故障對用戶業(yè)務(wù)的影響降低到最小。
根據(jù)數(shù)據(jù)中心中業(yè)務(wù)的網(wǎng)絡(luò)層級,可將冗余技術(shù)具體分為四大類:
表2:數(shù)據(jù)中心冗余技術(shù)
ISO 4~7層冗余技術(shù)
我們知道OSI協(xié)議參考模型定義了7層網(wǎng)絡(luò)結(jié)構(gòu),其中四層以上都屬于應(yīng)用層,應(yīng)用層具有區(qū)別各種高層應(yīng)用和識別內(nèi)容的能力。數(shù)據(jù)中心通過引入負載均衡技術(shù),可對數(shù)據(jù)中心服務(wù)器群訪問實現(xiàn)冗余備份,還可以完成網(wǎng)絡(luò)加速,流量工程等一系列優(yōu)化功能。數(shù)據(jù)中心可以采用兩臺負載均衡設(shè)備互為冗余備份。設(shè)備正常運行過程中可以手動同步配置信息和自動同步會話信息。當一臺設(shè)備發(fā)生故障時,另一臺設(shè)備可以快速感知設(shè)備故障,接管故障設(shè)備的業(yè)務(wù),保證故障設(shè)備的當前業(yè)務(wù)不中斷。
網(wǎng)絡(luò)層冗余技術(shù)
數(shù)據(jù)中心可以引入網(wǎng)絡(luò)級的關(guān)鍵設(shè)備冗余備份技術(shù)來減小宕機對整個系統(tǒng)的影響。RFC 3623定義了OSPF 的Graceful Restart標準,GR是網(wǎng)絡(luò)設(shè)備主備切換時的協(xié)議冗余技術(shù),GR冗余技術(shù)可以極大的縮短主備切換導(dǎo)致的路由中斷時間。ECMP也是一種路由冗余技術(shù),當路由的某條路徑出現(xiàn)故障時,故障路徑上的流量被重新分布到其他等價路徑。EMCP有很好的收斂速度,在數(shù)據(jù)中心中,如果是基于純IP架構(gòu),那么使用ECMP冗余技術(shù)是很好的一個選擇。VRRP全稱Virtual Router Redundancy Protocol(虛擬路由冗余協(xié)議),是一種網(wǎng)關(guān)冗余技術(shù)。VRRP可保證當主機的下一跳設(shè)備壞掉時,可以及時的由另一臺設(shè)備來代替,從而保持通訊的連續(xù)性和可靠性。
鏈路層冗余技術(shù)
鏈路層的冗余技術(shù)主要有:服務(wù)器網(wǎng)卡冗余技術(shù);鏈路聚合;環(huán)路監(jiān)測;環(huán)路協(xié)議保護等技術(shù)。服務(wù)器網(wǎng)卡通過冗余技術(shù)可將多塊網(wǎng)卡組合起來形成一個網(wǎng)卡組,網(wǎng)卡組內(nèi)的網(wǎng)卡之間冗余備份,網(wǎng)卡組提供多種運行模式完成用戶的不同需求。鏈路聚合Link aggregation是將兩臺設(shè)備間的數(shù)條物理鏈路“組合”成邏輯上的一條數(shù)據(jù)通路,提高鏈路的可用性,提高鏈路帶寬。只要還存在能正常工作的成員,整個傳輸鏈路就不會失效,通過鏈路聚合實現(xiàn)了鏈路冗余。Loopback-detection工作在鏈路層。通過loopback-detection可以及時發(fā)現(xiàn)單端口環(huán)路,減小環(huán)路對數(shù)據(jù)中心的影響。STP、RRPP、RPR、TRILL等都是鏈路層的環(huán)路保護協(xié)議,通過這些協(xié)議可以實現(xiàn)鏈路的冗余備份。
設(shè)備級冗余技術(shù)
數(shù)據(jù)中心組網(wǎng)時一般會用到較多的設(shè)備。在實際運行過程中,各設(shè)備均面臨著軟件異常、硬件故障甚至外界影響(如:供電電路故障、自然災(zāi)禍)等各種意外的威脅。設(shè)備級的冗余設(shè)計可以通過關(guān)鍵部件冗余,靈活快速的故障偵測和恢復(fù)來盡量減小故障造成的影響。
目前數(shù)據(jù)中心的設(shè)備多個硬件部件都是支持冗余備份的,比如設(shè)備的電源、業(yè)務(wù)板、風扇、主控板等等。當一個部件故障時,另外的部件馬上可以工作,并且所有的硬件部件都支持帶電插拔。除了硬件冗余技術(shù),更主要的部分是軟件冗余技術(shù)。IRF是一種網(wǎng)絡(luò)設(shè)備虛擬化技術(shù)。通過IRF技術(shù)可以容許全局范圍內(nèi)的跨設(shè)備鏈路聚合,提供了全面的鏈路級冗余保護。同時IRF技術(shù)還實現(xiàn)了跨設(shè)備的三層路由冗余,可以支持多種單播路由協(xié)議、組播路由協(xié)議的分布式處理,實現(xiàn)了多種路由協(xié)議的冗余備份技術(shù)。目前很多設(shè)備也支持不中斷業(yè)務(wù)升級的冗余備份技術(shù),即ISSU,在設(shè)備正常運轉(zhuǎn)的情況下就可以完成軟件升級。軟件冗余技術(shù)還包括支持設(shè)置主備兩個啟動文件。設(shè)備啟動時可以根據(jù)優(yōu)先級(主優(yōu)于備)選擇啟動文件,在軟件異常時啟動備用軟件。防火墻設(shè)備一般都支持HRP協(xié)議,這是實現(xiàn)在主備防火墻設(shè)備之間的軟件冗余協(xié)議。
以上簡單介紹了數(shù)據(jù)中心各種常用的冗余技術(shù),當然采用冗余技術(shù)的同時可能也會增加了網(wǎng)絡(luò)的復(fù)雜度、增加了運營資金的投入。所以也不能一味的增加冗余設(shè)計,過于復(fù)雜的冗余設(shè)計反而會降低數(shù)據(jù)中心的可用性,增加數(shù)據(jù)中心的運營成本。數(shù)據(jù)中心究竟可采用哪種冗余技術(shù),需要綜合分析,結(jié)合自身業(yè)務(wù)運營的特點,合理地實施。
責任編輯:和碩涵
-
發(fā)電電力輔助服務(wù)營銷決策模型
2019-06-24電力輔助服務(wù)營銷 -
電力線路安全工作的組織措施和技術(shù)措施分別是什么?
-
兩會保電進行時丨陜西電力部署6項重點任務(wù)
-
發(fā)電電力輔助服務(wù)營銷決策模型
2019-06-24電力輔助服務(wù)營銷 -
繞過安卓SSL驗證證書的四種方式
-
網(wǎng)絡(luò)何以可能
2017-02-24網(wǎng)絡(luò)