《電力大數(shù)據(jù)》引發(fā)技術(shù)變革的電力大數(shù)據(jù)
3 引發(fā)技術(shù)變革的電力大數(shù)據(jù)
3.1 數(shù)據(jù)規(guī)模大,數(shù)據(jù)處理時效性要求高——傳統(tǒng)技術(shù)手段不能經(jīng)濟(jì)地滿足業(yè)務(wù)性能需求
3.1.4實(shí)際案例:基于大數(shù)據(jù)的短期負(fù)荷預(yù)測
4.具體案例
為了體現(xiàn)該方案在負(fù)荷預(yù)測過程中呈現(xiàn)的良好效果,將該部分結(jié)合一個實(shí)際算例來做出分析。目標(biāo)電網(wǎng)為國內(nèi)配備用戶用電信息采集系統(tǒng)的某市級電網(wǎng),該市級電網(wǎng)的用戶數(shù)為120萬,用電信息采集頻率為每15分鐘一次。在具體案例的介紹中,主要分為兩大部分:第一部分主要介紹該方案中數(shù)據(jù)挖掘算法在用戶用電行為分析及預(yù)測模型上的應(yīng)用;第二部分則主要介紹該方案如何移植到大數(shù)據(jù)平臺上完成數(shù)據(jù)的存儲和計(jì)算。
第一部分:基于數(shù)據(jù)挖掘算法在用戶用電行為分析及預(yù)測模型;
在形成與預(yù)測日曲線類型、負(fù)荷水平以及影響因素相近的相似日時,需要對大量的歷史數(shù)據(jù)集進(jìn)行有效的歸類和分析。由于原始數(shù)據(jù)集的簇結(jié)構(gòu)以及與影響因素的耦合關(guān)系均未知,因此需要結(jié)合數(shù)據(jù)挖掘算法予以解決。
☆凝聚層次聚類算法對歷史樣本分類
對于每一個用戶來說,其歷史負(fù)荷曲線因?yàn)樘鞖狻⒐?jié)假日等影響會產(chǎn)生走勢各異的不同曲線類型對其進(jìn)行有效的聚類,可以幫助縮小待預(yù)測日的相似日數(shù)據(jù)樣本集規(guī)。凝聚層次聚類算法在這里被采用來獲取良好的預(yù)測結(jié)果,層次聚類算法是一種自下而上的歸并算法,通過計(jì)算每個樣本之問的歐式距離.來實(shí)現(xiàn)最終歸類的效果。
計(jì)算任意兩個歷史負(fù)荷樣本的歐式距離;
設(shè)n維樣本空間s中任意兩個數(shù)據(jù)序列X、Y分別為:X={x1、x2、x3…xn},Y={y1、y2、y3、yn},其歐式距離為:
設(shè)定閾值合并相近的類。
設(shè)定曲線間的距離閾值為d,在S中有N條負(fù)荷曲線序列{L1、L2、L3…Ln},任意取出曲線Ln并計(jì)算與其他曲線間的歐式距離,合并最近的兩個簇,直到達(dá)到預(yù)定的分類目標(biāo)即可停止。我們在第一部分?jǐn)?shù)據(jù)挖掘算法的描述中都采用目標(biāo)電網(wǎng)中的一個用戶做出分析,該用戶記為用戶1.對用戶1的2012年365天的數(shù)據(jù)聚類結(jié)果如圖—3所示。
圖3-3 2012年1月1日到2012年12月31日期間的用戶1日負(fù)荷曲線
在經(jīng)過凝聚層次聚類算法的處理分析后,圖3-3中用戶I全年的負(fù)荷數(shù)據(jù)可以歸類為圖3-4中的六類負(fù)荷曲線。可以看出六類負(fù)荷曲線在幅值大小及曲線走勢上均存在較大的差異、同時在表3-2中,可以看出類3和類4主要為工作日負(fù)荷,類2主要為周末負(fù)荷,進(jìn)一步分析其節(jié)假屬性,發(fā)現(xiàn)第六類中含有大量的節(jié)假日如國慶節(jié)等的負(fù)荷,而第一類中則主要為節(jié)假日前一天的負(fù)荷、分析表明,該算法成功完成了分類的任務(wù)。
表3-2每一類中各類型日的數(shù)量
圖3-4用戶1的六類負(fù)荷曲線圖
☆灰色關(guān)聯(lián)分析選取關(guān)鍵影響因素
通過對用戶1的歷史負(fù)荷數(shù)據(jù)及歷史天氣數(shù)據(jù)進(jìn)行灰色關(guān)聯(lián)分析,可以得出影響用戶1負(fù)荷變化規(guī)律的關(guān)鍵影響因素,有利于縮減樣本集的數(shù)據(jù)維度,進(jìn)一步提高準(zhǔn)確度。對用戶I的灰色關(guān)聯(lián)度,計(jì)算結(jié)果見表3-3
表3-3
其中,可以看出最高氣溫、平均氣溫、日類型、平均濕度對負(fù)荷變化趨勢的影響較大.為關(guān)鍵影響因素,在后續(xù)的分析中主要關(guān)注這幾項(xiàng)影響囡素值。
☆CART決策樹建立分類規(guī)則
這一步的計(jì)算結(jié)果需要在前兩步的計(jì)算結(jié)果上完成。CART決策樹算法根據(jù)信息增益度將樣本按其若干影響屬性値不斷劃分,最后歸入指定的類。而用CART決策樹來建立分類規(guī)則的思想如圖3-5所示。
圖3-5分類規(guī)則建立圖
中間為決策樹的箅法模型、左側(cè)輸入為日屬性向量集,即2012年每一天對應(yīng)的負(fù)荷影響因素?cái)?shù)據(jù)集合。右側(cè)輸入為在層次聚類分析后得到的若干個類別。通過CART算法對用戶1的數(shù)據(jù)進(jìn)行若干次分裂,即可得到如圖3-6所示的分類規(guī)則。
圖3-6用戶1決策樹分類規(guī)則圖
根據(jù)決策樹算法對用戶1的負(fù)荷曲線進(jìn)行分析,得到圖3-6所示的決策圖。該樹也是久特變負(fù)荷曲線分類規(guī)則.同時也表征了負(fù)荷聚類結(jié)果與關(guān)鍵。影響因素值的定量關(guān)系。舉例如下:
2UI3年4月29日影響負(fù)荷的關(guān)鍵因素值如下表。
表3-4某日影響負(fù)荷的關(guān)鍵因素
由圖3-6中黑色實(shí)線所示,該日被最終歸入了第二類。而由聚類分析得出的第二類負(fù)荷在曲線特征上極其相似,這樣就給出了負(fù)荷的分類規(guī)則。
☆找到待預(yù)測的同類型日數(shù)據(jù)集
我們已知了待預(yù)測日的相關(guān)因素?cái)?shù)據(jù),在圖3-6所示的分類規(guī)則中可以將待預(yù)測日分到與之對應(yīng)的類中,結(jié)果見表3-5
表3-5
☆針對每一類訓(xùn)練対應(yīng)的支持向量機(jī)模型
支持向量機(jī)因其對非線性數(shù)據(jù)集較好的數(shù)據(jù)擬合能力而受到眾多研究學(xué)者的青睞,本書采用支持向量機(jī)算法完成最終的負(fù)荷預(yù)測工作。支持向量機(jī)有幾個關(guān)鍵參數(shù)會對最終的預(yù)測結(jié)果產(chǎn)生較大的影響,通過遺傳算法對六類歷史數(shù)據(jù)集分別進(jìn)行尋優(yōu)和計(jì)算,可以得到最為匹配的參數(shù)組合,詳見表3-6
表3-6六類歷史數(shù)據(jù)集的最優(yōu)支持向量機(jī)參數(shù)組合
☆對用戶1的預(yù)測結(jié)果如圖3-7所示。
圖3-7用戶1的2013年4月29日的負(fù)荷預(yù)測結(jié)果對比圏
第二部分:在Hadoop大數(shù)據(jù)平臺上完成系統(tǒng)負(fù)荷預(yù)測
由于上述案例僅針對120萬用戶中的用戶1做了預(yù)測,而為了得到系統(tǒng)總負(fù)荷,則需要對每個用戶執(zhí)行上述操作,這個過程我們在Hadoop平臺上給以實(shí)現(xiàn)。整個技術(shù)框架分為數(shù)據(jù)存儲、數(shù)據(jù)管理,數(shù)據(jù)計(jì)算三個部分。
☆數(shù)據(jù)存儲
在Hadoop的底層數(shù)據(jù)層中,分布式文件系統(tǒng)HDFS負(fù)責(zé)用戶負(fù)荷及影響因素的分布式存儲。
☆數(shù)據(jù)管理
HBase在分布式文件系統(tǒng)基礎(chǔ)上,對底層的數(shù)據(jù)進(jìn)行數(shù)據(jù)管理。HBase是采用KeyValue的列存儲,Rowkey是KeyValue的Key,表示唯一一行。Rowkey是一段二進(jìn)制碼流,最大值為64KB,內(nèi)容由用戶自定義。數(shù)據(jù)的加載根據(jù)Rowkey的二進(jìn)制序由小到大進(jìn)行排序。HBase根據(jù)數(shù)據(jù)的規(guī)模將數(shù)據(jù)自動分切到多個Region的多個HFile中。
HBase的基本存儲單元為列簇(columnfamily)。HBase數(shù)據(jù)選輯由行和列組成二維矩陣存儲。其中由HBase列簇、列組成了一維矩陣中的一維,由Rowkey組成了另一維,每-個非空的行列節(jié)點(diǎn)稱為一個Cell,Cell是HBase最小的邏輯存儲單元。
圖3-8為負(fù)荷數(shù)據(jù)的存儲結(jié)構(gòu)圖,鍵值(key)代表的是對應(yīng)時間點(diǎn),從0點(diǎn)到23點(diǎn)45分,一天共96個點(diǎn)。圖3-9中Value值為對應(yīng)時間點(diǎn)的負(fù)荷值。UserId為用戶的編號,而data則表示是該用戶對應(yīng)的某一天數(shù)據(jù)。
圖3-8HBase邏輯存儲架構(gòu)
圖3-9負(fù)荷數(shù)據(jù)存儲結(jié)構(gòu)圖
☆數(shù)據(jù)計(jì)算
MapReduce具有分布式計(jì)算框架,以及頂層的應(yīng)用集成和相關(guān)的協(xié)調(diào)功能。對于大數(shù)據(jù)方案來說,該負(fù)荷預(yù)測方案具體的分布式實(shí)現(xiàn)是我們關(guān)注的重點(diǎn)。因此,這里主要介紹該大數(shù)據(jù)預(yù)測方案的MapReduce分布式實(shí)現(xiàn)思想。圖3-10是MapReduce的邏輯圖。
圖3-10MapReduce邏輯處理圖
其中,每一個Split代表的是一個數(shù)據(jù)段,讀數(shù)據(jù)段為存儲一個用戶的全年歷史負(fù)荷數(shù)據(jù)及相關(guān)因素?cái)?shù)據(jù);每一個MaP進(jìn)程負(fù)責(zé)對每個用戶進(jìn)行步驟1~4的計(jì)算和分析;在Reduce環(huán)節(jié),則完成對120萬用戶的數(shù)據(jù)整合,得出整個系統(tǒng)的總體負(fù)荷預(yù)測結(jié)果。
通過以上兩部分的計(jì)算,得出的最終預(yù)測結(jié)果如圖3-1所示
圖3-11系統(tǒng)負(fù)荷預(yù)測結(jié)果
對上述120萬個用戶的負(fù)荷預(yù)測結(jié)果進(jìn)行累加,即可得到最終的系統(tǒng)負(fù)荷,結(jié)果如圖3-11所示。傳統(tǒng)方法的最大相對誤差為3.36%,最小相對誤差為0,51%,平均相對誤差為1.68%;而采用大數(shù)據(jù)方案得到的預(yù)測結(jié)果為:最大相対誤差為1.35%,最小相對誤差為O.O7%,平均相對現(xiàn)差為1.68%。因此,可以得出本方案取得了較傳統(tǒng)方案好的預(yù)測結(jié)果。
書名:電力大數(shù)據(jù):能源互聯(lián)網(wǎng)時代的電力企業(yè)轉(zhuǎn)型與價值創(chuàng)造
ISBN:978-7-111-51693-4
作者:賴征田
出版日期:2016-01
出版社:機(jī)械工業(yè)出版社
責(zé)任編輯:繼電保護(hù)
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵“光儲充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實(shí)踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵“光儲充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市