中國電力科學研究院劉鳳魁等.基于改進快速密度峰值聚類算法的電力大數據異常值檢測
劉鳳魁, 鄧春宇, 王曉蓉, 等. 基于改進快速密度峰值聚類算法的電力大數據異常值檢測[J]. ,2017,15(6): 36-41.
LIU Feng-kui, DENG Chun-yu,WANG Xiao-rong, et al. Outlier Detection of Smart Grid Big Data Based on Improved Fast Search and Find Density Peaks Clustering Algorithm[J]. Electric Power Information and Communication Technology, 2017,15(6):36-41.
第一作者 劉鳳魁
劉鳳魁(1990-),女,河北石家莊人,工學碩士,研究方向為電力大數據分析。作者所在的中國電科院大數據研究團隊成立于2014年初,采用跨專業聯合攻關模式,以電力大數據應用為核心、面向價值實現,從數據獲取與管理、大數據處理技術、分析挖掘算法、電力業務大數據應用四個方面重點突破,打造核心競爭力。
研究背景
由于數據來源不同、統計口徑不同、一線人員數據錄入、異常行為等問題以及缺乏相應的數據質量管控體系,常常會導致異常數據產生。異常數據包含了系統異常情況出現的相關信息,因此異常數據背后潛藏著巨大的研究價值,可為實際應用提供幫助。在電力行業,異常值檢測可用于電網故障檢測、設備故障檢測、用電異常檢測等領域。
快速密峰值聚類算法
快速密度峰值聚類算法是2014年 Rodriguez 等人發表在Sciences上的一篇論文中所提出的較新穎的聚類算法。該算法主要基于兩個設想:一是聚類中心被具有較低密度的鄰居包圍;二是聚類中心與其他具有較高密度的任何點的距離都相對較大。對于每個樣本點,需要計算兩個參數:
局部密度:
距離:
以局部密度為橫坐標,距離為縱坐標,繪制決策圖,同時具有較大局部密度和距離的點會被識別為聚類中心,然后將聚類中心的類標依次傳遞給距離最近的點完成聚類過程。
基于KNN的快速密峰值異常值檢測算法
本文針對快速密度峰值聚類算法沒有考慮數據集局部特征且算法精度依賴于截斷距離dc的不足,提出一種基于KNN 的快速密度峰值異常值檢測算法。該算法的核心是用KNN 思想計算樣本的局部密度:
KNN距離:
基于KNN 的局部密度和距離在計算時既考慮了數據集的全局特征,也考慮了數據集的局部特點。計算出樣本的之后,確定數據集中的異常值,數據集中局部密度較小、距離較大的點有可能是異常值,因為其周圍的鄰居較少且與其他樣本的距離較大。本文認為異常樣本滿足如下條件:
局部密度,且距離
時,則該樣本點可以判定為異常值。其中,局部密度閾值
的定義為:
距離閾值 的定義為:
實驗案例
案例所用數據為某省某臺交流10 kV 配電變壓器2014年1月1日至2014年4月30日共120天的日負荷數據,其采集頻率為1 h,因此日負荷曲線為24個數據點。日負荷數據標準化后的曲線如圖1所示,可以看出該變壓器的常規運行模式,而有些曲線較大程度地偏離了正常運行模式。
利用文中所提算法,對該數據集進行異常值檢測,其異常值決策圖如圖2所示。
檢測出的異常值如圖3所示。
對比圖1與圖3可以看出,本文所提算法已將圖1中的少數不同于正常運行模式的曲線檢測出來。在總共120條曲線中共篩出7條異常曲線。這7條曲線的時間分布見表1所列。2014年1月31日為中國農歷新年,異常值所在的時間恰為春節假期,這也說明了所提算法能夠有效檢測出異常的用電模式。
解決的問題和意義
1)從異常值檢測角度改進快速密度峰值聚類算法。利用KNN的思想重新定義局部密度和距離,改善了原始算法沒有考慮數據局部特點以及依賴于截斷距離的不足,并定義了判斷異常值的規則,從異常值檢測角度對其進行優化。
2)異常值檢測有重要應用價值。異常值檢測一方面可以作為數據預處理的一部分,解決因數據采集,或人工錄入等原因導致的數據異常問題;另一方面可以進行異常用電行為分析,支撐竊電嫌疑、風險預警等應用。

-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報告 | 基于分類監管與當量協同的碳市場框架設計方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉型與經濟發展并進
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
2020年二季度福建省統調燃煤電廠節能減排信息披露
2020-07-21火電環保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規范法律問題研究(上)
2019-10-31能源替代規范法律 -
區域鏈結構對于數據中心有什么影響?這個影響是好是壞呢!