基于機(jī)器學(xué)習(xí)的數(shù)據(jù)脫敏系統(tǒng)研究與設(shè)計(jì)
0 引言
近年來,隨著國家電網(wǎng)公司“三集五大”體系的推進(jìn),以及SG186、SG-ERP工程的建設(shè),公司信息化實(shí)現(xiàn)了由分散到集中、由孤島到共享的轉(zhuǎn)變,積累了生產(chǎn)運(yùn)行數(shù)據(jù)和經(jīng)營管理數(shù)據(jù)約5 PB,每月平均增長數(shù)據(jù)量約46 TB,為數(shù)據(jù)集中共享和大數(shù)據(jù)分析、價值挖掘提供了有利條件[1]。但是,數(shù)據(jù)資源中往往攜帶著有關(guān)用戶與企業(yè)的敏感、隱私信息,一旦遭遇泄露、篡改,將給個人及公司甚至國家造成無法挽回的損失。因此,在數(shù)據(jù)共享使用過程中,如何準(zhǔn)確定位敏感數(shù)據(jù),合理制定脫敏策略,以達(dá)到數(shù)據(jù)安全可信、受控使用的目標(biāo),是一項(xiàng)亟待解決的技術(shù)問題。
數(shù)據(jù)安全問題的形勢越來越嚴(yán)峻,數(shù)據(jù)脫敏逐漸受到企業(yè)的重視。傳統(tǒng)的數(shù)據(jù)脫敏研究大多側(cè)重于脫敏方法的實(shí)現(xiàn)[2-4],缺少權(quán)限判決、敏感識別等功能,系統(tǒng)化水平不夠高。同時,脫敏算法的選擇多為人工指定和自定義配置,智能化水平不夠高。此外,模式識別的發(fā)展對實(shí)現(xiàn)脫敏信息的自動識別提供了技術(shù)支持[5],但在敏感信息分類定級問題上缺少對企業(yè)需求的考慮,專業(yè)化水平不高。
為解決數(shù)據(jù)脫敏的系統(tǒng)化、智能化、專業(yè)化水平不足等弱點(diǎn),本文提出了一種獨(dú)立于其他專業(yè)系統(tǒng)之外的數(shù)據(jù)脫敏系統(tǒng)。該系統(tǒng)同時集成了權(quán)限判決、數(shù)據(jù)分類、敏感信息識別、脫敏任務(wù)執(zhí)行等功能;在敏感信息識別、敏感算法選擇等關(guān)鍵環(huán)節(jié)采用文本分類、決策樹等機(jī)器學(xué)習(xí)方法,可輔助人工實(shí)現(xiàn)脫敏策略制定;采用兩層分類方式分類定級敏感信息,第一層按數(shù)據(jù)的專業(yè)和類型分類,第二層按規(guī)則進(jìn)行分類定級。相較于傳統(tǒng)數(shù)據(jù)脫敏方式,本文提供了一種智能化設(shè)計(jì)數(shù)據(jù)脫敏系統(tǒng)的新思路。
1 數(shù)據(jù)脫敏簡介
數(shù)據(jù)脫敏又可稱為數(shù)據(jù)去隱私化、數(shù)據(jù)變形,是指在保留數(shù)據(jù)初始特征的條件下,按需制定脫敏策略和任務(wù),對敏感數(shù)據(jù)進(jìn)行變換、修改的技術(shù)機(jī)制,可以在很大程度上解決敏感數(shù)據(jù)在非安全環(huán)境下使用的問題[6]。數(shù)據(jù)脫敏實(shí)現(xiàn)的難點(diǎn)在于如何同時保障數(shù)據(jù)的安全及其可用性,其關(guān)鍵就是脫敏算法的選擇,就現(xiàn)階段而言更多的是一種經(jīng)驗(yàn)決策。根據(jù)不同的作用位置和實(shí)現(xiàn)原理,脫敏任務(wù)可分為靜態(tài)脫敏(Static Data Masking,SDM)和動態(tài)脫敏(Dynamic Data Masking,DDM)。SDM一般用于非生產(chǎn)環(huán)境,在應(yīng)用開發(fā)、測試、培訓(xùn)等場合中,為規(guī)避泄露風(fēng)險,數(shù)據(jù)必須脫敏后才能被存儲及使用。DDM常用于生產(chǎn)環(huán)境,當(dāng)敏感數(shù)據(jù)被分析工具在線訪問時,脫敏系統(tǒng)可以按照策略執(zhí)行相應(yīng)的脫敏算法。簡言之,DDM與SDM的區(qū)別在于是否是在使用敏感數(shù)據(jù)時才進(jìn)行脫敏。
圖1 數(shù)據(jù)脫敏系統(tǒng)應(yīng)用框圖Fig.1 Application block diagram for data masking system
數(shù)據(jù)脫敏系統(tǒng)應(yīng)用框圖如
2 脫敏策略制定
從源系統(tǒng)抽取數(shù)據(jù)后,脫敏系統(tǒng)要為這些數(shù)據(jù)制定合適的脫敏策略。在策略制定階段,系統(tǒng)需要著力解決敏感數(shù)據(jù)如何定級、是否需要脫敏、如何脫敏等一系列問題。
2.1 源數(shù)據(jù)分類及預(yù)處理
2.1.1 源數(shù)據(jù)分類
脫敏策略制定流程如
圖2 脫敏策略制定流程Fig.2 Flow chart of masking strategy formulation
2.1.2 數(shù)據(jù)預(yù)處理
對源數(shù)據(jù)進(jìn)行預(yù)處理以提取數(shù)據(jù)特征,通過數(shù)據(jù)特征匹配實(shí)現(xiàn)敏感信息識別[9]。脫敏系統(tǒng)采用自動化方式采集關(guān)系型數(shù)據(jù)庫和非結(jié)構(gòu)化系統(tǒng)的數(shù)據(jù)樣本和元數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)以數(shù)據(jù)字典(包括表名和字段名、類型、注釋)的形式進(jìn)行采集,并通過數(shù)據(jù)表遍歷的方法從業(yè)務(wù)數(shù)據(jù)表中采集一定數(shù)量的樣本數(shù)據(jù)。文本數(shù)據(jù)采用文本分詞的方法對樣本進(jìn)行切割與合并,構(gòu)建文本文件特征。對于圖片、語音、視頻數(shù)據(jù),則通過相應(yīng)領(lǐng)域的模式識別方法進(jìn)行元數(shù)據(jù)和樣本提取。元數(shù)據(jù)和樣本采樣完成后樣本質(zhì)量往往不佳,需要對其進(jìn)行過濾和泛化處理,剔除數(shù)據(jù)“雜質(zhì)”,以降低敏感信息識別與分類過程中的計(jì)算量[10]。
2.2 敏感數(shù)據(jù)識別定級
敏感數(shù)據(jù)識別是實(shí)現(xiàn)數(shù)據(jù)脫敏的關(guān)鍵前提。針對不同文件格式的數(shù)據(jù),其敏感特征的檢測方法會有所差異,數(shù)據(jù)脫敏系統(tǒng)應(yīng)對其樣本數(shù)據(jù)和元數(shù)據(jù)進(jìn)行分類訓(xùn)練,最后分類建立敏感信息庫。
敏感信息識別過程如
圖3 敏感信息識別過程Fig.3 Sensitive information recognition process
2.3 脫敏策略制定
2.3.1 常用的脫敏方法
1)替換。替換(Replacement,RP)是指利用偽裝數(shù)據(jù)對源數(shù)據(jù)中的敏感數(shù)據(jù)進(jìn)行完全替換。為保證安全,一般替換用的數(shù)據(jù)都不具可逆性。
2)加密。加密(Encryption,EC)是指對待脫敏的數(shù)據(jù)進(jìn)行加密處理,使外部用戶或系統(tǒng)只能夠接觸無意義的加密數(shù)據(jù)。在特定場景下,系統(tǒng)可以提供解密能力,分發(fā)密鑰給相關(guān)方以恢復(fù)原始數(shù)據(jù)。
3)遮掩。遮掩(Masking,MK)是指利用掩飾符號對敏感數(shù)據(jù)的部分內(nèi)容進(jìn)行統(tǒng)一替換,使得敏感數(shù)據(jù)保持部分內(nèi)容公開。
4)刪除。刪除(Deletion,DL)是指直接刪除敏感數(shù)據(jù)或?qū)⑵渲脼榭铡?/span>
5)變換。變換(Change,CG)是指通過隨機(jī)函數(shù)對數(shù)值和日期類型等源數(shù)據(jù)進(jìn)行可控調(diào)整,以便在保持原始數(shù)據(jù)相關(guān)統(tǒng)計(jì)特征的同時,完成對具體數(shù)值的偽裝。
6)混洗。混洗(Shuffle,SF)主要是指通過對敏感數(shù)據(jù)采取跨行隨機(jī)互換來打破其與本行其他數(shù)據(jù)的關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)脫敏。
2.3.2 數(shù)據(jù)脫敏需考慮的因素
數(shù)據(jù)脫敏的最大難點(diǎn)在于平衡隱私保護(hù)和數(shù)據(jù)挖掘需求,脫敏算法適當(dāng)與否直接影響到脫敏效果。為了制定合適的脫敏算法,結(jié)合具體應(yīng)用場景,本文重點(diǎn)考慮了以下幾個因素[12]。
1)可用性。即脫敏后的數(shù)據(jù)應(yīng)能滿足分析應(yīng)用需求,若脫敏后的數(shù)據(jù)無法用于目標(biāo)分析及應(yīng)用,就不具備使用價值。在特定應(yīng)用場景中,可能需要保留部分非關(guān)鍵信息(如身份證號碼、手機(jī)號碼的部分字段等)才能滿足分析需求。
2)關(guān)聯(lián)性。對于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),在同一數(shù)據(jù)表中某字段與另外字段有對應(yīng)關(guān)系,如果脫敏算法破壞了這種關(guān)系,該字段的使用價值將不復(fù)存在。通常在進(jìn)行數(shù)據(jù)統(tǒng)計(jì)需要參考量的情況下,對數(shù)據(jù)的關(guān)聯(lián)性要求較高。
3)真實(shí)性。脫敏后的數(shù)據(jù)對原始數(shù)據(jù)邏輯特征和統(tǒng)計(jì)分布特征的保留程度。為滿足這種特性,數(shù)據(jù)的原始值需要盡可能地被保留。
4)時效性。數(shù)據(jù)提供需要有一定的及時性,超過一定時間后脫敏數(shù)據(jù)可能就不再具有進(jìn)一步分析挖掘的意義。因此,應(yīng)盡量避免使用耗時的脫敏算法,比如加密算法。
5)可重現(xiàn)。即相同源數(shù)據(jù)在配置相同算法和參數(shù)的情況下,脫敏后的數(shù)據(jù)應(yīng)保持一致,隨機(jī)類的算法應(yīng)避免使用。
6)可配置。主要是指可以靈活配置、組合脫敏算法,可以結(jié)合不同需求生成個性化的脫敏數(shù)據(jù)。
由于上述各因素需要付諸實(shí)際應(yīng)用才有意義,脫敏算法與脫敏效果之間的關(guān)系只能作定性分析。決策樹是一種簡單而又被廣泛使用的分類器,具有描述性,有助于人工分析,同時決策樹只需一次構(gòu)建,可反復(fù)使用[13]。對敏感級值和6個因素進(jìn)行量化,以具有代表性的應(yīng)用場景來構(gòu)建選擇脫敏算法所需的訓(xùn)練集,形成決策樹。利用決策樹可以高效地對脫敏數(shù)據(jù)進(jìn)行算法推薦,輔助系統(tǒng)用戶進(jìn)行算法選擇。新的脫敏應(yīng)用發(fā)生后,其敏感級值和算法選擇結(jié)果將加入訓(xùn)練集,逐步對決策樹進(jìn)行完善,從而提高決策樹的魯棒性。

責(zé)任編輯:售電衡衡
- 相關(guān)閱讀
- 泛在電力物聯(lián)網(wǎng)
- 電動汽車
- 儲能技術(shù)
- 智能電網(wǎng)
- 電力通信
- 電力軟件
- 高壓技術(shù)
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵“光儲充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實(shí)踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵“光儲充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市