欧美日操-欧美日韩91-欧美日韩99-欧美日韩ay在线观看-xxxx色-xxxx视频在线

基于機(jī)器學(xué)習(xí)的數(shù)據(jù)脫敏系統(tǒng)研究與設(shè)計(jì)

2018-03-20 15:54:05 電力信息與通信技術(shù)  點(diǎn)擊量: 評論 (0)
近年來,國家電網(wǎng)公司各專業(yè)信息系統(tǒng)建設(shè)不斷完善,為了保障數(shù)據(jù)在各類應(yīng)用場景中安全使用,提出了一種基于機(jī)器學(xué)習(xí)的數(shù)據(jù)脫敏系統(tǒng)設(shè)計(jì)方案,重點(diǎn)針對敏感數(shù)據(jù)識別、定級,敏感算法制定,以及脫敏任務(wù)配置的實(shí)現(xiàn)方式進(jìn)行研究。結(jié)合用戶欠費(fèi)信息的脫敏分析,驗(yàn)證了該方案具有自定義定級

0 引言

近年來,隨著國家電網(wǎng)公司“三集五大”體系的推進(jìn),以及SG186、SG-ERP工程的建設(shè),公司信息化實(shí)現(xiàn)了由分散到集中、由孤島到共享的轉(zhuǎn)變,積累了生產(chǎn)運(yùn)行數(shù)據(jù)和經(jīng)營管理數(shù)據(jù)約5 PB,每月平均增長數(shù)據(jù)量約46 TB,為數(shù)據(jù)集中共享和大數(shù)據(jù)分析、價值挖掘提供了有利條件[1]。但是,數(shù)據(jù)資源中往往攜帶著有關(guān)用戶與企業(yè)的敏感、隱私信息,一旦遭遇泄露、篡改,將給個人及公司甚至國家造成無法挽回的損失。因此,在數(shù)據(jù)共享使用過程中,如何準(zhǔn)確定位敏感數(shù)據(jù),合理制定脫敏策略,以達(dá)到數(shù)據(jù)安全可信、受控使用的目標(biāo),是一項(xiàng)亟待解決的技術(shù)問題。

數(shù)據(jù)安全問題的形勢越來越嚴(yán)峻,數(shù)據(jù)脫敏逐漸受到企業(yè)的重視。傳統(tǒng)的數(shù)據(jù)脫敏研究大多側(cè)重于脫敏方法的實(shí)現(xiàn)[2-4],缺少權(quán)限判決、敏感識別等功能,系統(tǒng)化水平不夠高。同時,脫敏算法的選擇多為人工指定和自定義配置,智能化水平不夠高。此外,模式識別的發(fā)展對實(shí)現(xiàn)脫敏信息的自動識別提供了技術(shù)支持[5],但在敏感信息分類定級問題上缺少對企業(yè)需求的考慮,專業(yè)化水平不高。

為解決數(shù)據(jù)脫敏的系統(tǒng)化、智能化、專業(yè)化水平不足等弱點(diǎn),本文提出了一種獨(dú)立于其他專業(yè)系統(tǒng)之外的數(shù)據(jù)脫敏系統(tǒng)。該系統(tǒng)同時集成了權(quán)限判決、數(shù)據(jù)分類、敏感信息識別、脫敏任務(wù)執(zhí)行等功能;在敏感信息識別、敏感算法選擇等關(guān)鍵環(huán)節(jié)采用文本分類、決策樹等機(jī)器學(xué)習(xí)方法,可輔助人工實(shí)現(xiàn)脫敏策略制定;采用兩層分類方式分類定級敏感信息,第一層按數(shù)據(jù)的專業(yè)和類型分類,第二層按規(guī)則進(jìn)行分類定級。相較于傳統(tǒng)數(shù)據(jù)脫敏方式,本文提供了一種智能化設(shè)計(jì)數(shù)據(jù)脫敏系統(tǒng)的新思路。

 1 數(shù)據(jù)脫敏簡介

數(shù)據(jù)脫敏又可稱為數(shù)據(jù)去隱私化、數(shù)據(jù)變形,是指在保留數(shù)據(jù)初始特征的條件下,按需制定脫敏策略和任務(wù),對敏感數(shù)據(jù)進(jìn)行變換、修改的技術(shù)機(jī)制,可以在很大程度上解決敏感數(shù)據(jù)在非安全環(huán)境下使用的問題[6]。數(shù)據(jù)脫敏實(shí)現(xiàn)的難點(diǎn)在于如何同時保障數(shù)據(jù)的安全及其可用性,其關(guān)鍵就是脫敏算法的選擇,就現(xiàn)階段而言更多的是一種經(jīng)驗(yàn)決策。根據(jù)不同的作用位置和實(shí)現(xiàn)原理,脫敏任務(wù)可分為靜態(tài)脫敏(Static Data Masking,SDM)和動態(tài)脫敏(Dynamic Data Masking,DDM)。SDM一般用于非生產(chǎn)環(huán)境,在應(yīng)用開發(fā)、測試、培訓(xùn)等場合中,為規(guī)避泄露風(fēng)險,數(shù)據(jù)必須脫敏后才能被存儲及使用。DDM常用于生產(chǎn)環(huán)境,當(dāng)敏感數(shù)據(jù)被分析工具在線訪問時,脫敏系統(tǒng)可以按照策略執(zhí)行相應(yīng)的脫敏算法。簡言之,DDM與SDM的區(qū)別在于是否是在使用敏感數(shù)據(jù)時才進(jìn)行脫敏。

圖1 數(shù)據(jù)脫敏系統(tǒng)應(yīng)用框圖Fig.1 Application block diagram for data masking system

數(shù)據(jù)脫敏系統(tǒng)應(yīng)用框圖如圖1所示,本文構(gòu)想了數(shù)據(jù)脫敏系統(tǒng)在國家電網(wǎng)公司的應(yīng)用場景。用戶或外部系統(tǒng)通過已集成的賬號進(jìn)入數(shù)據(jù)脫敏系統(tǒng)后,脫敏系統(tǒng)首先判斷賬號所具有的權(quán)限,并分配相應(yīng)功能[7]。脫敏系統(tǒng)根據(jù)用戶需求從各專業(yè)系統(tǒng)及公共系統(tǒng)抽取數(shù)據(jù)(包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)),并對抽取的源數(shù)據(jù)進(jìn)行分類、預(yù)處理、敏感識別定級以及選擇脫敏算法和參數(shù),完成脫敏策略制定。在變更脫敏任務(wù)時,用戶可選擇脫敏執(zhí)行方式,其中靜態(tài)脫敏可用于開發(fā)、測試以及數(shù)據(jù)遷移和存儲;動態(tài)脫敏通過代理方式可為全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心等數(shù)據(jù)分析系統(tǒng)提供脫敏服務(wù)。如果沒有新的數(shù)據(jù)或配置要求,脫敏策略和脫敏任務(wù)可以在脫敏系統(tǒng)中保存,以備后續(xù)調(diào)用及執(zhí)行。

 2 脫敏策略制定

從源系統(tǒng)抽取數(shù)據(jù)后,脫敏系統(tǒng)要為這些數(shù)據(jù)制定合適的脫敏策略。在策略制定階段,系統(tǒng)需要著力解決敏感數(shù)據(jù)如何定級、是否需要脫敏、如何脫敏等一系列問題。

2.1 源數(shù)據(jù)分類及預(yù)處理
2.1.1 源數(shù)據(jù)分類

脫敏策略制定流程如圖2所示。由于不同類型數(shù)據(jù)的敏感信息識別方法不同,系統(tǒng)需要對源數(shù)據(jù)分門別類。另外,同時識別多個專業(yè)的敏感信息也會為識別過程帶來大量干擾,嚴(yán)重影響敏感信息識別的準(zhǔn)確率[8]。根據(jù)文件格式類型,源數(shù)據(jù)可被分類為結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)、圖片、語音及視頻數(shù)據(jù)。根據(jù)源業(yè)務(wù)系統(tǒng)不同,源數(shù)據(jù)可被分類為人財(cái)物、規(guī)劃、建設(shè)、運(yùn)行、檢修及營銷等數(shù)據(jù)。為了便于分類,本文系統(tǒng)分別為文本格式及業(yè)務(wù)系統(tǒng)分類設(shè)置了相應(yīng)代碼。

圖2 脫敏策略制定流程Fig.2 Flow chart of masking strategy formulation

2.1.2 數(shù)據(jù)預(yù)處理

對源數(shù)據(jù)進(jìn)行預(yù)處理以提取數(shù)據(jù)特征,通過數(shù)據(jù)特征匹配實(shí)現(xiàn)敏感信息識別[9]。脫敏系統(tǒng)采用自動化方式采集關(guān)系型數(shù)據(jù)庫和非結(jié)構(gòu)化系統(tǒng)的數(shù)據(jù)樣本和元數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)以數(shù)據(jù)字典(包括表名和字段名、類型、注釋)的形式進(jìn)行采集,并通過數(shù)據(jù)表遍歷的方法從業(yè)務(wù)數(shù)據(jù)表中采集一定數(shù)量的樣本數(shù)據(jù)。文本數(shù)據(jù)采用文本分詞的方法對樣本進(jìn)行切割與合并,構(gòu)建文本文件特征。對于圖片、語音、視頻數(shù)據(jù),則通過相應(yīng)領(lǐng)域的模式識別方法進(jìn)行元數(shù)據(jù)和樣本提取。元數(shù)據(jù)和樣本采樣完成后樣本質(zhì)量往往不佳,需要對其進(jìn)行過濾和泛化處理,剔除數(shù)據(jù)“雜質(zhì)”,以降低敏感信息識別與分類過程中的計(jì)算量[10]

2.2 敏感數(shù)據(jù)識別定級

敏感數(shù)據(jù)識別是實(shí)現(xiàn)數(shù)據(jù)脫敏的關(guān)鍵前提。針對不同文件格式的數(shù)據(jù),其敏感特征的檢測方法會有所差異,數(shù)據(jù)脫敏系統(tǒng)應(yīng)對其樣本數(shù)據(jù)和元數(shù)據(jù)進(jìn)行分類訓(xùn)練,最后分類建立敏感信息庫。

敏感信息識別過程如圖3所示,通過訓(xùn)練集獲得文本、音頻的語料庫和圖像視頻的特征數(shù)據(jù)庫,由安全部門和業(yè)務(wù)人員共同對語料庫和特征數(shù)據(jù)庫進(jìn)行識別和分類[11],選取其中具有代表意義的,可被標(biāo)識為敏感信息的詞、圖像塊、音頻幀,形成敏感信息庫,結(jié)合敏感信息模式匹配和源業(yè)務(wù)系統(tǒng)的重要程度,由人工輔助設(shè)定敏感級值,用于敏感信息定級。對預(yù)處理后的目標(biāo)數(shù)據(jù)進(jìn)行特征提取,將提取的特征值與敏感信息庫的特征值進(jìn)行匹配,當(dāng)匹配命中時系統(tǒng)自動記錄當(dāng)前敏感信息的敏感級值。最后通過識別質(zhì)量評估對錯誤分類進(jìn)行糾正,并對未能識別的敏感信息進(jìn)行補(bǔ)充。

圖3 敏感信息識別過程Fig.3 Sensitive information recognition process

2.3 脫敏策略制定
2.3.1 常用的脫敏方法

1)替換。替換(Replacement,RP)是指利用偽裝數(shù)據(jù)對源數(shù)據(jù)中的敏感數(shù)據(jù)進(jìn)行完全替換。為保證安全,一般替換用的數(shù)據(jù)都不具可逆性。

2)加密。加密(Encryption,EC)是指對待脫敏的數(shù)據(jù)進(jìn)行加密處理,使外部用戶或系統(tǒng)只能夠接觸無意義的加密數(shù)據(jù)。在特定場景下,系統(tǒng)可以提供解密能力,分發(fā)密鑰給相關(guān)方以恢復(fù)原始數(shù)據(jù)。

3)遮掩。遮掩(Masking,MK)是指利用掩飾符號對敏感數(shù)據(jù)的部分內(nèi)容進(jìn)行統(tǒng)一替換,使得敏感數(shù)據(jù)保持部分內(nèi)容公開。

4)刪除。刪除(Deletion,DL)是指直接刪除敏感數(shù)據(jù)或?qū)⑵渲脼榭铡?/span>

5)變換。變換(Change,CG)是指通過隨機(jī)函數(shù)對數(shù)值和日期類型等源數(shù)據(jù)進(jìn)行可控調(diào)整,以便在保持原始數(shù)據(jù)相關(guān)統(tǒng)計(jì)特征的同時,完成對具體數(shù)值的偽裝。

6)混洗。混洗(Shuffle,SF)主要是指通過對敏感數(shù)據(jù)采取跨行隨機(jī)互換來打破其與本行其他數(shù)據(jù)的關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)脫敏。

2.3.2 數(shù)據(jù)脫敏需考慮的因素

數(shù)據(jù)脫敏的最大難點(diǎn)在于平衡隱私保護(hù)和數(shù)據(jù)挖掘需求,脫敏算法適當(dāng)與否直接影響到脫敏效果。為了制定合適的脫敏算法,結(jié)合具體應(yīng)用場景,本文重點(diǎn)考慮了以下幾個因素[12]

1)可用性。即脫敏后的數(shù)據(jù)應(yīng)能滿足分析應(yīng)用需求,若脫敏后的數(shù)據(jù)無法用于目標(biāo)分析及應(yīng)用,就不具備使用價值。在特定應(yīng)用場景中,可能需要保留部分非關(guān)鍵信息(如身份證號碼、手機(jī)號碼的部分字段等)才能滿足分析需求。

2)關(guān)聯(lián)性。對于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),在同一數(shù)據(jù)表中某字段與另外字段有對應(yīng)關(guān)系,如果脫敏算法破壞了這種關(guān)系,該字段的使用價值將不復(fù)存在。通常在進(jìn)行數(shù)據(jù)統(tǒng)計(jì)需要參考量的情況下,對數(shù)據(jù)的關(guān)聯(lián)性要求較高。

3)真實(shí)性。脫敏后的數(shù)據(jù)對原始數(shù)據(jù)邏輯特征和統(tǒng)計(jì)分布特征的保留程度。為滿足這種特性,數(shù)據(jù)的原始值需要盡可能地被保留。

4)時效性。數(shù)據(jù)提供需要有一定的及時性,超過一定時間后脫敏數(shù)據(jù)可能就不再具有進(jìn)一步分析挖掘的意義。因此,應(yīng)盡量避免使用耗時的脫敏算法,比如加密算法。

5)可重現(xiàn)。即相同源數(shù)據(jù)在配置相同算法和參數(shù)的情況下,脫敏后的數(shù)據(jù)應(yīng)保持一致,隨機(jī)類的算法應(yīng)避免使用。

6)可配置。主要是指可以靈活配置、組合脫敏算法,可以結(jié)合不同需求生成個性化的脫敏數(shù)據(jù)。

由于上述各因素需要付諸實(shí)際應(yīng)用才有意義,脫敏算法與脫敏效果之間的關(guān)系只能作定性分析。決策樹是一種簡單而又被廣泛使用的分類器,具有描述性,有助于人工分析,同時決策樹只需一次構(gòu)建,可反復(fù)使用[13]。對敏感級值和6個因素進(jìn)行量化,以具有代表性的應(yīng)用場景來構(gòu)建選擇脫敏算法所需的訓(xùn)練集,形成決策樹。利用決策樹可以高效地對脫敏數(shù)據(jù)進(jìn)行算法推薦,輔助系統(tǒng)用戶進(jìn)行算法選擇。新的脫敏應(yīng)用發(fā)生后,其敏感級值和算法選擇結(jié)果將加入訓(xùn)練集,逐步對決策樹進(jìn)行完善,從而提高決策樹的魯棒性。

大云網(wǎng)官方微信售電那點(diǎn)事兒

責(zé)任編輯:售電衡衡

免責(zé)聲明:本文僅代表作者個人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個贊
?
主站蜘蛛池模板: 色手机在线 | 国产自产第一区c国产 | 国产日韩欧美亚洲青青草原 | 亚洲免费色 | 91啦在线播放 | 好吊色网站 | 日本不卡中文字幕 | 国产精品短视频 | 免费国产不卡午夜福在线 | 麻豆精品国产免费观看 | 五月婷婷综合在线 | 91久久老司机福利精品网 | 天堂在线观看视频观看www | 77788色淫免费网站视频 | 亚洲国产精品免费在线观看 | 欧美三级在线看 | a毛片网站 | 你操综合| ww国产| 日日爱爱| 日本精品视频一区 | 日韩欧美综合在线二区三区 | 精品成人一区二区三区免费视频 | 日韩在线视频免费不卡一区 | 亚洲操操操 | 午夜诱惑福利 | 亚洲欧美日韩视频一区 | 日日射射 | 久久国产免费一区二区三区 | 91一区二区三区四区五区 | 97精品在线观看 | 欧美日本中文 | 久久精品免费大片国产大片 | 亚洲网站免费观看 | 欧美大片无尺码在线观看 | 国产亚洲精彩视频 | 国产全黄a一级毛片视频 | 狠狠色丁香久久婷婷综合_中 | 草草影院第一页yycccom | 99视频在线精品免费观看18 | 日韩欧美亚洲国产一区二区三区 |