基于大數(shù)據(jù)的網(wǎng)絡(luò)異常行為建模方法
0 引言
隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)空間安全形勢嚴峻,攻擊方式復(fù)雜多變,如各種病毒、木馬、拒絕服務(wù)、欺騙等攻擊。同時,隨著大數(shù)據(jù)時代的到來,惡意攻擊行為被掩蓋在數(shù)量龐大的正常網(wǎng)絡(luò)訪問行為之下。若想從海量數(shù)據(jù)中檢測識別出隱藏的攻擊行為,首先要能夠快速、準確地區(qū)分正常網(wǎng)絡(luò)行為和異常網(wǎng)絡(luò)行為。
傳統(tǒng)的檢測技術(shù)是基于特征簽名或規(guī)則的,對于已知的攻擊行為能夠高效、精確,但無法應(yīng)對新出現(xiàn)的未知攻擊模式。因此,基于誤用和基于異常的檢測技術(shù)被提出,即通過對網(wǎng)絡(luò)行為進行建模來區(qū)分正常的網(wǎng)絡(luò)訪問和異常的網(wǎng)絡(luò)攻擊。這2類技術(shù)的核心均是對某類網(wǎng)絡(luò)訪問行為建模,本文將這2類技術(shù)統(tǒng)稱為網(wǎng)絡(luò)行為建模與異常檢測技術(shù)。行為建模與異常檢測技術(shù)可以彌補傳統(tǒng)基于特征簽名或規(guī)則檢測技術(shù)在未知攻擊識別方面的不足,此外,大數(shù)據(jù)時代下所積累的數(shù)據(jù)量也有利于對網(wǎng)絡(luò)行為建模。
1 網(wǎng)絡(luò)異常行為檢測技術(shù)
1.1 基于核心算法的異常檢測方法
異常檢測是從數(shù)據(jù)中發(fā)現(xiàn)與預(yù)期的正常行為不符合的行為模式,而安全異常則可能是由攻擊者采取的惡意行動所造成的。根據(jù)采用的核心算法不同,異常檢測可分為以下6種方法。
1)統(tǒng)計方法。將給定的數(shù)據(jù)(通常為正常行為數(shù)據(jù))擬合成一個統(tǒng)計模型,對新觀察項應(yīng)用假設(shè)檢驗等統(tǒng)計檢驗手段來判斷其是否符合統(tǒng)計模型。如果計算結(jié)果低于閾值,則異常。該方法的優(yōu)點是無需正常網(wǎng)絡(luò)行為的經(jīng)驗知識而能自主學(xué)習(xí),缺點是假設(shè)檢驗方法和參數(shù)選擇較為困難,易被將攻擊模擬成正常流量的偽裝繞過等。典型的方法包括有HIDE[1]、LERAD[2]、PAYL[3]等。
2)基于分類的方法。通過構(gòu)建一個顯式或隱式的分類模型,將網(wǎng)絡(luò)流量模式劃分成若干類,它的突出特點是需要標注數(shù)據(jù)進行行為模型的訓(xùn)練,這個過程對資源的需求較高。這類方法通常使用包括k-近鄰、決策樹、支持向量機器等機器學(xué)習(xí)分類算法。該方法的優(yōu)點是能夠使用新數(shù)據(jù)靈活更新擴展檢測系統(tǒng),缺點主要是訓(xùn)練所需的成本較高,且對新攻擊模型無檢測能力。典型的方法包括有ADAM[4]、DGSOT[5]、DNIDS[6]等。
3)基于聚類和離群點的方法。聚類是指將對象劃分成組(稱為簇)的過程,目標是使得位于同一個簇內(nèi)的對象相似度高,而位于不同簇內(nèi)的對象相似度低。常用的聚類算法包括K-Means、DBSCAN等。基于正常網(wǎng)絡(luò)訪問行為量遠大于異常行為量的假設(shè),這些離群點和一些包含數(shù)據(jù)點較少的簇被認為是異常。聚類算法的優(yōu)點是不需要標注數(shù)據(jù),計算開銷,且性能表現(xiàn)穩(wěn)定,缺點是動態(tài)更新的復(fù)雜度較高,距離量度方式對結(jié)果影響大,且大多僅適用于連續(xù)性數(shù)值屬性(如實數(shù)型)。這類方法的典型代表有MINDS[7]、ADMIT[8]、PAIDS[9]等。
4)基于軟計算的方法。基因遺傳算法、人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯、蟻群算法、人工免疫算法等都在此類方法之列,這些方法的不確定性和不精確性與網(wǎng)絡(luò)異常檢測問題的特征恰好符合,能夠良好應(yīng)對數(shù)據(jù)樣本中存在的不一致性問題,而缺點在于大多數(shù)方法存在可擴展性問題。這類方法的典型代表包括GBID[10]、RT-UNNID[11]、FIRE[12]等。
5)基于知識的方法。每起網(wǎng)絡(luò)事件都會與一系列預(yù)先定義的規(guī)則或攻擊模式進行匹配檢查,目標是能夠?qū)⒁阎羰褂靡环N泛化式的表達來覆蓋,這類方法包括有專家系統(tǒng)方法、基于本體的方法、基于邏輯的方法、基于規(guī)則的方法和狀態(tài)轉(zhuǎn)移分析方法等。這些方法的優(yōu)點是檢測率高、健壯性高、靈活性高,主要缺點是需花費大量時間才能產(chǎn)生有價值的知識經(jīng)驗,對于有偏差的數(shù)據(jù)可能會產(chǎn)生大量誤報,動態(tài)更新知識庫難度大等。典型的代表方法包括Snort[13]、KBTA[14]等。
6)基于組合學(xué)習(xí)的方法。組合學(xué)習(xí)是指綜合使用多種技術(shù)的方法總稱,主要包含集成方法、融合方法和混合方法3個子類別。集成方法的基本思想是構(gòu)建若干個獨立的分類器,再對它們各自的結(jié)果進行加權(quán)組合得出最終的結(jié)論。組合的方法主要有3種,即裝袋 、提升和疊加 。融合方法主要針對于多數(shù)據(jù)源的場景,可以對來自不同源的數(shù)據(jù)進行綜合處理、分析與決策。典型代表方法包括有McPAD[15]、HMMPayl[16]、RT-MOVICAB-IDS[17]等。
1.2 基于HTTP流量的異常檢測方法
基于HTTP流量的異常檢測方法主要是基于對提取出的HTTP數(shù)據(jù)包的分析,可以分為兩大類:一類是基于知識的方法,也就是將已知的攻擊使用某種方式進行有效表達,檢測過程即為知識庫匹
配[18];另一類是基于分類或軟計算的方法,主要是使用一些機器學(xué)習(xí)算法或軟計算方法對提取出的HTTP數(shù)據(jù)包特征進行分類檢測模型的訓(xùn)練構(gòu)建[19]。對HTTP流量提取這些特征后,基于標注數(shù)據(jù)集使用決策樹、支持向量機、人工神經(jīng)網(wǎng)絡(luò)、模糊邏輯等算法進行檢測分類模型的離線訓(xùn)練構(gòu)建,即可用于在線的異常檢測。
1.3 基于NetFlow流量的異常檢測方法
基于NetFlow流量的異常檢測中最簡單同時也最常用的方法就是基于閾值的方法,只要統(tǒng)計的結(jié)果超過預(yù)先設(shè)定的閾值,則認為是異常流量。閾值的設(shè)定直接影響檢測的效果,不適當(dāng)?shù)脑O(shè)置可能會造成大量漏報或誤報。為了減少錯誤,通常輔助以基于特征比對的方法和基于連接狀態(tài)的方法。
1)基于特征比對的方法通過觀察每一種異常行為并歸納其攻擊特征,從而指導(dǎo)設(shè)定相應(yīng)的閾值。如當(dāng)某個IP地址符合特征的數(shù)量超過預(yù)設(shè)的閾值時,即判定為異常。
2)基于連接狀態(tài)的方法是指對網(wǎng)絡(luò)整體的連接狀態(tài)進行分析,其出發(fā)點是蠕蟲、病毒和DDoS 攻擊等都會在短時間內(nèi)產(chǎn)生出大量的連接以實現(xiàn)傳播感染,而在新主機遭受感染后又會重復(fù)同樣的傳播行為再次產(chǎn)生大量連接,因此可以利用這個整體連接特征進行分析,找出網(wǎng)絡(luò)中存在的異常流量。
1.4 自適應(yīng)的異常檢測方法
自適應(yīng)可以分為兩大類,分別是指閾值自適應(yīng)和模型自適應(yīng)。前者是指根據(jù)實際的網(wǎng)絡(luò)環(huán)境動態(tài)調(diào)整異常判定的閾值,而后者是指檢測模型可以根據(jù)新出現(xiàn)的攻擊行為進行自適應(yīng)學(xué)習(xí)和更新。
1)閾值自適應(yīng)方法的主要出發(fā)點是網(wǎng)絡(luò)流量動態(tài)多變,一個網(wǎng)絡(luò)不同時段的流量是不同的,但是各個時段又呈現(xiàn)出一定的周期性。閾值自適應(yīng)方法的典型代表是基于時間序列的方法[20],包括有自回歸和移動平均模型ARIMA、Hot-Winters線性平滑模型、卡爾曼濾波平滑模型等。
2)模型自適應(yīng)方法的主要特點是檢測模型可以根據(jù)網(wǎng)絡(luò)流量數(shù)據(jù)進行自學(xué)習(xí)和更新,從而能夠適應(yīng)動態(tài)變化的網(wǎng)絡(luò)環(huán)境,提高對新攻擊的檢測能力[21],因此,所有基于學(xué)習(xí)的方法均可劃分到這個類別中。
2 網(wǎng)絡(luò)行為大數(shù)據(jù)異常行為建模
2.1 建模流程
網(wǎng)絡(luò)行為大數(shù)據(jù)異常行為建模檢測分若干個階段連續(xù)運行,分析在固定長度的連續(xù)時間窗口內(nèi)抓取的網(wǎng)絡(luò)流量。
2.1.1 數(shù)據(jù)收集
1)首先是使用部署在網(wǎng)絡(luò)中的設(shè)備對網(wǎng)絡(luò)流量進行抓取,并根據(jù)HTTP流量、NetFlow記錄等數(shù)據(jù)格式的不同需求進行數(shù)據(jù)包的解析或匯總。為了適應(yīng)大數(shù)據(jù)處理的需要,抓取的網(wǎng)絡(luò)流量數(shù)據(jù)將直接輸出到分布式處理平臺(如Apache Hadoop)以便后續(xù)的高效計算處理。同時網(wǎng)絡(luò)流量數(shù)據(jù)是一種數(shù)據(jù)流,可以借助如Apache Kafka等工具對其進行組織,形成從數(shù)據(jù)源(流量采集設(shè)備)到分布式處理平臺的數(shù)據(jù)管道。
2)抓取到原始流量數(shù)據(jù)后,將按連續(xù)的固定長度時間窗口對數(shù)據(jù)進行多分辨率流聚合。以NetFlow數(shù)據(jù)為例,Flow將在不同級別進一步聚合,從粗粒度到細粒度可以包含的級別有:時間窗口內(nèi)的所有流量、同源端網(wǎng)絡(luò)前綴、同目的端網(wǎng)絡(luò)前綴、同源端IP地址、同目的端IP地址等。對聚合后的數(shù)據(jù)采用基于時間序列分析的技術(shù),即變化檢測(change detection)算法來判斷某個時間窗口是否存在異常。
2.1.2 特征提取
在上一步驟中被判定為存在異常的時間窗口包含的所有流量數(shù)據(jù)將作為后續(xù)步驟的輸入,按照源端IP地址和目的端IP地址2種聚合鍵對流量數(shù)據(jù)進行聚合及特征提取,且這2個聚合鍵的選取對應(yīng)著兩大類的網(wǎng)絡(luò)異常:“1-to-
對于每種聚合的網(wǎng)絡(luò)流量數(shù)據(jù),定義并計算提取的特征分別為:對于HTTP流量,可以是HTTP請求/響應(yīng)數(shù)、請求參數(shù)個數(shù)/長度、請求參數(shù)字符分布熵等;對于NetFlow,可以是源/目的IP地址數(shù)、數(shù)據(jù)包數(shù)、數(shù)據(jù)包總字節(jié)數(shù)、數(shù)據(jù)包長度分布熵等。為適應(yīng)大數(shù)據(jù)場景,采用分布式計算引擎(如MapReduce或Spark)來完成這些特征的計算提取。
2.1.3 網(wǎng)絡(luò)行為建模
提取特征后,即可應(yīng)用聚類算法處理以形成網(wǎng)絡(luò)流量的分簇并計算相應(yīng)的異常度值,從而完成對正常網(wǎng)絡(luò)行為和異常網(wǎng)絡(luò)行為的建模。本文將采用子空間聚類算法來產(chǎn)生不同的數(shù)據(jù)劃分,再在子空間上應(yīng)用基于密度的聚類算法,在離群點的排序中采用證據(jù)積累聚類技術(shù)。
2.1.4 異常檢測
在得到各個離群點的不相似性度量及排序之后,異常檢測將通過基于閾值的方法完成,閾值的確定可以采用如下方法。
1)選用固定不相似性度量值,即通過經(jīng)驗設(shè)置某個預(yù)定的不相似度量值作為閾

責(zé)任編輯:售電衡衡
- 相關(guān)閱讀
- 泛在電力物聯(lián)網(wǎng)
- 電動汽車
- 儲能技術(shù)
- 智能電網(wǎng)
- 電力通信
- 電力軟件
- 高壓技術(shù)
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計 -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計 -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市