微信光纜被挖斷 探討信息化安全軟肋
一次城建工人的失誤,造成了微信史上最大規模的一次宕機,也讓這個擁有4億用戶的超級即時通訊工具面對了自上線以來的最大危機。
從通訊中斷后的修護時間之長,到光纜被挖斷后的應急方案之弱,都讓外界注意到,微信乃至中國互聯網產業體系中曾被忽視的安全軟肋。
宕機之后,微信團隊恢復通訊的時間是6個小時,這在互聯網乃至通信行業里都極為罕見,尤其是曾被認為需要向互聯網學習的通信運營商,重新成為騰訊需要學習的對象。
“網絡再爛的運營商,也基本不會出現全網中斷;即使有局部地區短信中斷或話路中斷,基本也很少超過一個小時。甚至在雅安地震這樣的災難事件中,運營商也做到了在一小時內恢復75%的通信。”一位運營商人士告訴記者。
危機6小時
7月22日上海浦東新區康橋鎮秀浦路,一大早,上海城建隧道股份有限公司浦東分公司的工地上就已忙碌起來。在這個被戲稱為“上海史上最熱”的炎夏,天氣最涼爽的清晨是室外市政施工最寶貴的時間。但8點剛過,他們不得不把手里的活兒全部停了下來,因為他們挖斷了光纜。
這是一次意外的事故,各路管網交來的圖紙顯示,地深5米處,應該沒有通訊設施。但實際的情況是,地下被挖斷的光纜甚至超過了10根,其中2根就是運營商為微信提供的光纜,同時還有其他世界500強企業也因此通訊中斷。
最先發現異常的是運營商,它們的網絡監測系統第一時間發現區域內管線出現問題,并立刻聯系在當地施工的城建公司和電力公司展開排查。
此時,從上海到北京、浙江、廣東,到更多地區,越來越多的微信用戶發現,自己無法登錄微信。他們開始在各個社交網站發問,“微信怎么了”,“我和我的小伙伴失去了聯系”……短短數小時內,幾個微博平臺,與微信故障有關的微博就已達到上億條,甚至出現了“微信遭受了上海等黑客團隊的攻擊”等流言。
騰訊對記者表示,負責微信機房的工作人員也發現了數據異常,且與運營商發現問題的時間基本一致。但直到9點26分,也就是光纜中斷1個半小時之后,微信團隊才對外發布第一條微博,稱“由于服務器基礎網絡故障,您的微信暫時可能出現收發問題。我們正在玩命恢復中,請各位小主耐心等待”。
又一個1個半小時后,騰訊微信團隊11點在官方微博上公布了宕機原因:
“機房兩路光纜出現硬件故障,導致部分用戶無法正常登陸和收發信息”。據記者了解,在光纜被挖斷之后,微信團隊做出的補救方案,是進行數據遷移。30%的用戶數據被遷移到其他的機房,但由于華東、華南地區的機房冗余不足,不堪重負,撲天蓋地而來的數據請求,讓各地機房的數據處理能力也迅速達到飽和,最終導致了微信業務的幾乎全線崩潰。此時,唯一的解決辦法,只剩下了全力搶修更換光纜,并通過技術手段逐步恢復用戶使用。當天下午14點23分,微信團隊終于發布微博表示,全面恢復通訊。
微信為何中斷
實際上,這并不是微信第一次發生宕機事故。4月10日,微信曾因機房故障發生10分鐘的中斷。
但與上一次的短暫中斷不同,此次長達6小時的嚴重事故,具有更大的影響與意義,僅其引發的7月23日股價波動,就讓騰訊蒸發了近百億市值。
作為中國最大的互聯網公司之一,騰訊究竟為微信配置了怎樣的基礎架構,是如何保證機房數據安全、順暢的?為何因為2根光纜的中斷,就出現如此致命的網絡問題?
記者了解到,騰訊在上海設有多處機房,分別與不同運營商合作,出于成本考慮,這些機房既有合建,亦有自建。微信機房采用分布式架構,通過云平臺實現多機房互聯。此次被挖斷的光纜正是連接微信在華東區核心服務器所在機房,另一頭連接著具有索引功能的機房。
實際上,微信在全國的機房架構均是遵循交互式的布局方式,因為不能將所有的雞蛋都放置到同一個籃子里。面對4億用戶群體,微信不可能、也不會將所有的用戶集中在一家服務器上。也就是說北京的用戶數據不全存儲在北京的機房里上,有可能存儲在上海、廣東等地的機房。而上海的光纜斷了,會影響到存儲到本地的北京、上海、廣東、浙江等地的用戶。
一般來說,大型公司為保證機房數據安全會設置光纖通信雙保護,一旦其中一條光纜出現故障,可迅速切入另一條光纜,以保證數據傳輸?!敦斀泧抑芸酚浾吡私獾剑舜危v訊與上海運營商合作,已明確要求使用雙光纜。
但從此次的宕機故障來看,這兩條光纜卻還是被放在了同一個管道中,變成了“雙光纜、單路由”。
這就好比為了防止堵車,運營商應該為騰訊提供兩條不同的路,一旦A車被堵在了A路上,任務可由B車通過B路完成。但現在,兩條路卻重疊在了一起,并且同時中斷。
據悉,之前因為雙光纜單路由的設置,曾導致QQ連接故障,所以騰訊一些重要的機房被改為雙光纜雙路由。但這個經驗顯然未被復制到微信上。“同時受到光纜被砍斷影響的業務還有QQ的其他一些業務。”騰訊公關部總經理助理張軍電話里對記者說。
對于用戶規模越來越大的騰訊,其在基礎設施的花費也變得龐大起來。騰訊財報顯示,“移動及電信收費以及頻寬及服務器托管費”位列開支項目中前三。從2004年到2012年期間,增長超過10倍,從3.16億元增至34.08億元。
宕機后遺癥
微信宕機事件,再一次為互聯網企業們拉響了警鐘。
當前,在信息化浪潮的沖擊下,每個國家的政治、軍事、經濟、民生,乃至每個人的生活與娛樂,都越來越依賴互聯網,一旦互聯網自身出現安全問題,所造成的影響將在更大的領域擴散,甚至可能引發更大危機。
事實上,騰訊不是第一個、也絕不可能是最后一個出現宕機現象的互聯網公司。在此之前,新浪微博就曾兩度出現宕機現象,而Google、維基百科也曾因各種原因數度宕機。
對互聯網公司來說,每一次宕機,都有可能導致大量的用戶離開。據IDC調查顯示,1990-2000年間,美國發生過數據災難的公司中,55%當時倒閉,29%在兩年內倒閉,生存下來的僅占16%。
調研機構Qualix Group的一組數字,更說明了不同行業關鍵業務中斷帶來的金錢損失:服務器宕機1分鐘,平均會使運輸業損失15萬美元,銀行業損失27萬美元,通信業損失35萬美元,制造業損失42萬美元,證券業損失45萬美元……
而涉及到政府、國防、安全、電信、金融、交通和醫療等關系到國計民生的行業的關鍵業務,需要遵循“5個9(99.999%)”、“6個9”、甚至是“7個9”的標準。這意味著一臺服務器每年的非計劃停機時間分別只有5分鐘、30秒和3秒鐘。
綜合來看,目前出現的各類宕機,可以歸結為六大類:網絡故障、應用系統本身產生的問題、基礎設施問題、系統部署方案不合理,人為原因(如黑客攻擊)以及硬件故障。
易觀國際分析師閆小佳表示,在IT行業出現宕機并不鮮見,關鍵是要看企業能否在第一時間及時發現和解決問題,要看企業平時是否能建立一個良好的應急機制。此外,宕機也從一個側面揭示出,包括帶寬、云存儲等在內的國內互聯網的“基礎設施建設”目前仍跟不上用戶及市場發展的需要,這應成為今后行業需要加快發展的又一重點。(記者 徐英)
責任編輯:黎陽錦
-
發電電力輔助服務營銷決策模型
2019-06-24電力輔助服務營銷 -
繞過安卓SSL驗證證書的四種方式
-
網絡何以可能
2017-02-24網絡