智能時(shí)代,運(yùn)維工程師該談什么?
每家公司對(duì)于所謂運(yùn)維團(tuán)隊(duì)到底應(yīng)該做些什么,都有各自的看法。本文首先由阿里巴巴的運(yùn)維團(tuán)隊(duì)在整個(gè)阿里巴巴的業(yè)務(wù)里承擔(dān)的責(zé)任為切入點(diǎn)...
在變更這個(gè)領(lǐng)域我們覺(jué)得首先是效率問(wèn)題。阿里巴巴現(xiàn)在大概有幾萬(wàn)的研發(fā)人員,我們又把運(yùn)維這個(gè)工作交給研發(fā)了,那怎么讓研發(fā)在這個(gè)過(guò)程中,把變更這件事情做得更有效率和更沒(méi)有感覺(jué),是阿里巴巴現(xiàn)在追求的一個(gè)重點(diǎn)。這個(gè)重點(diǎn)我們認(rèn)為,智能化是可以發(fā)揮巨大的幫助的。上面講的第一個(gè)案例是講的文件分發(fā)過(guò)程當(dāng)中的智能的流控。比如一次發(fā)布要一個(gè)小時(shí),那意味著多數(shù)研發(fā)是需要去盯一個(gè)小時(shí)的,他雖然不一定要一直看著,但是到發(fā)完之后是要去看一下,這挺耗精力的。另外一個(gè)方向是現(xiàn)在業(yè)界很火的無(wú)人值守,怎么做到在發(fā)布過(guò)程中,對(duì)于研發(fā)來(lái)講最好是無(wú)感,我制定了在某天發(fā),只要測(cè)試通過(guò)了我就可以自動(dòng)完成這個(gè)過(guò)程,有問(wèn)題稍微控制一下就好了,沒(méi)有問(wèn)題就當(dāng)這件事情沒(méi)發(fā)生。這對(duì)于有眾多研發(fā)團(tuán)隊(duì),或者當(dāng)然,如果你有運(yùn)維團(tuán)隊(duì)在做這件事情,對(duì)運(yùn)維團(tuán)隊(duì)來(lái)講就更有幫助了,意味著運(yùn)維很多人可能就去掉了一大塊活。所以,變更這個(gè)領(lǐng)域,我們最希望做的是朝這個(gè)方向去發(fā)展。目前來(lái)看阿里巴巴的嘗試,我們可以看到變更引發(fā)的故障比率是最高的,目前已經(jīng)鋪的這個(gè)領(lǐng)域中,可以下降 30% 因?yàn)樽兏鸬墓收希瑪r截主要是用來(lái)攔截問(wèn)題。
監(jiān)控 AI 化
智能報(bào)警
這個(gè)領(lǐng)域現(xiàn)在是 AI 進(jìn)入運(yùn)維行業(yè)中最火的領(lǐng)域,所有公司都在做。第一個(gè)是阿里在做的,阿里也不例外,我們也同樣在做。第一個(gè)是智能,大家比如說(shuō)做運(yùn)維的都知道,你寫完了一個(gè)業(yè)務(wù),要配監(jiān)控報(bào)警的閾值的,比如說(shuō) CPU 到多少應(yīng)該報(bào)警,然后響應(yīng)時(shí)間到多少應(yīng)該報(bào)警。阿里在嘗試的一個(gè)方向是讓你不要去配,阿里根據(jù)分析來(lái)決定什么情況下需要報(bào)警,這對(duì)于研發(fā)來(lái)講有巨大的幫助。
異常檢測(cè)直接影響到效率
第二點(diǎn)是異常檢測(cè),這是很多公司都在做的。異常檢測(cè)之所以要做,最大的原因就是因?yàn)樾剩绻蛔觯鋵?shí)也 ok,但是要投入非常大的人力。比如說(shuō)交易跌了,那到底是,比如對(duì)于我們來(lái)講,交易跌了,只要跌了就需要分析到底什么因素。而這個(gè)因素很有可能,最后你發(fā)現(xiàn)根本跟我們沒(méi)關(guān)系,可能是外部原因,國(guó)家節(jié)日等等,各種各樣的因素造成的。尤其是小規(guī)模的業(yè)務(wù),比如我們的海外業(yè)務(wù),波動(dòng)非常大,如果一波動(dòng)就認(rèn)為是問(wèn)題,這對(duì)于整個(gè)公司的效率來(lái)講是巨大的影響。所以我們認(rèn)為,如果異常檢測(cè)做得非常好,對(duì)我們的效率會(huì)有非常大的幫助。這張圖是通常來(lái)講,做異常檢測(cè),運(yùn)維的數(shù)據(jù)都是時(shí)序化,根據(jù)時(shí)序有各種各樣的算法,上面列了業(yè)界常用的算法。最左上角的算法是阿里巴巴自己研究的算法,從我們目前的測(cè)試情況來(lái)看,我們可以看到阿里巴巴自己研究的算法的準(zhǔn)確率等等,得比業(yè)界高非常多。細(xì)節(jié)我不講了,最重要的原因是這個(gè)東西馬上會(huì)在某個(gè)會(huì)議上發(fā)表一篇論文,大家以后會(huì)看到。
穩(wěn)定性是以效率為原則
故障修復(fù)要精準(zhǔn)且快速
穩(wěn)定性對(duì)我們來(lái)講最重要的是效率問(wèn)題。第一個(gè)是故障的修復(fù),故障出現(xiàn)在越大的公司越大的規(guī)模越復(fù)雜的業(yè)務(wù)場(chǎng)景中,出現(xiàn)是不可避免的,一定會(huì)出現(xiàn),關(guān)鍵是出現(xiàn)之后怎么盡快把故障修復(fù)掉。故障修復(fù)這個(gè)領(lǐng)域,阿里巴巴嘗試了非常多的方案,也嘗試了很多年。很多的案例都是,這個(gè)過(guò)程需要慢慢的積累,原因在于信任感地當(dāng)故障出現(xiàn)的時(shí)候,我們都說(shuō)公司的很多團(tuán)隊(duì)都處于高度緊張的狀態(tài),這個(gè)時(shí)候有一套系統(tǒng)拋出了,現(xiàn)在多數(shù)這種系統(tǒng)都是拋出三個(gè)決定,給你三個(gè)建議,然后你來(lái)選。有時(shí)候經(jīng)驗(yàn)豐富的處理故障的人一看,你拋出的三個(gè)建議都不靠譜。當(dāng)十個(gè)故障中,有八次,不用八次,如果有個(gè)四五次都是這樣的,以后所有人都不會(huì)看這套系統(tǒng)了,太不靠譜了,還不如人來(lái)判斷。這個(gè)系統(tǒng)難度非常高,需要整個(gè)公司堅(jiān)定地朝這個(gè)方向走,并且更好的積累很多的數(shù)據(jù)。
故障修復(fù),阿里現(xiàn)在只嘗試了一些非常簡(jiǎn)單的案例,對(duì)于阿里來(lái)講,比如一個(gè)機(jī)房出故障,因?yàn)檎麄€(gè)阿里巴巴交易體系的架構(gòu)是支持多點(diǎn)的,對(duì)于我們來(lái)講如果在某種情況下,我們判斷一個(gè)機(jī)房出故障,我們可以自動(dòng)的做一些流量的切換等等。但阿里現(xiàn)在也認(rèn)為,智能化在穩(wěn)定性,尤其故障修復(fù)這種動(dòng)作上,還是要非常小心,萬(wàn)一沒(méi)事切出了問(wèn)題,這影響更大。
用智能化做好故障定位
免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
-
從SCADA入手強(qiáng)化工控系統(tǒng)安全風(fēng)險(xiǎn)
-
展望2018 AI芯片領(lǐng)域:眾多廠商追隨深度學(xué)習(xí)
-
企業(yè)沒(méi)有專注于其最大的IT安全威脅的6個(gè)原因
-
展望2018 AI芯片領(lǐng)域:眾多廠商追隨深度學(xué)習(xí)
-
區(qū)塊鏈概念大熱的背后,真正的價(jià)值在這里
-
【觀點(diǎn)】區(qū)塊鏈的火熱,是不是一場(chǎng)錯(cuò)覺(jué)游戲