【知識(shí)】正則化與過(guò)擬合
- 過(guò)擬合怎么理解?如何解決?
- 正則化怎么理解?如何使用?
在機(jī)器學(xué)習(xí)中有時(shí)候會(huì)出現(xiàn)過(guò)擬合,為了解決過(guò)擬合問(wèn)題,通常有兩種辦法,第一是減少樣本的特征(即維度),第二就是我們這里要說(shuō)的“正則化”(又稱為“懲罰”,penalty)。
從多項(xiàng)式變換和線性回歸說(shuō)起
在非線性變換小節(jié)中,我們有討論Q次多項(xiàng)式變換的定義和其包含關(guān)系,這里如果是10次多項(xiàng)式變換,那么系數(shù)的個(gè)數(shù)是11個(gè),而2次多項(xiàng)式的系數(shù)個(gè)數(shù)是3。從中我們可以看出,所有的2次多項(xiàng)式其實(shí)是10次多項(xiàng)式加上一些限制,即w3=w4=...=w10=0。
基于上面的討論,我們希望能將二次多項(xiàng)式表示成十次多項(xiàng)式再加上一些約束條件,這一步的目的是希望能拓寬一下視野,在推導(dǎo)后面的問(wèn)題的時(shí)候能容易一些。
這個(gè)過(guò)程,我們首先要將二次多項(xiàng)式的系數(shù)w拓展到11維空間,加上w3=w4=...=w10=0這個(gè)條件得到假設(shè)集合H2;然后為了進(jìn)一步化簡(jiǎn),我們可以將這個(gè)條件設(shè)置的寬松一點(diǎn),即任意的8個(gè)wi為0,只要其中有三個(gè)系數(shù)不為0就行,得到一組新的假設(shè)空間H2',但這個(gè)問(wèn)題的求解是一個(gè)NP-hard的問(wèn)題,還需要我們修正一下;最后,我們還需要將這個(gè)約束條件進(jìn)一步修正一下得到假設(shè)集合H(C),給系數(shù)的平方的加和指定一個(gè)上限,這個(gè)假設(shè)集合H(C)和H2'是有重合部分的,但不相等。
最后,我們把H(C)所代表的假設(shè)集合稱為正則化的假設(shè)集合。
下圖表示了這個(gè)約束條件的變化:
正則化的回歸問(wèn)題的矩陣形式
由上圖所示,我們現(xiàn)在要求解的是在一定約束條件下求解最佳化問(wèn)題,求解這個(gè)問(wèn)題可以用下面的圖形來(lái)描述。
本來(lái)要求解Ein的梯度,相當(dāng)于在一個(gè)橢圓藍(lán)色圈中求解梯度為零的點(diǎn),而下面這個(gè)圖表示,系數(shù)w在半徑是根號(hào)C的紅色球里面(w需要滿足的約束條件),求解藍(lán)色區(qū)域使得梯度最小的點(diǎn)。
那么,最優(yōu)解發(fā)生在梯度的反方向和w的法向量是平行的,即梯度在限制條件下不能再減小。我們可以用拉格朗日乘數(shù)的方法來(lái)求解這個(gè)w。
Ridge Regression
Ridge Regression是利用線性回歸的矩陣形式來(lái)求解方程,得到最佳解。
Augmented Error
我們要求解這個(gè)梯度加上w等于0的問(wèn)題,等同于求解最小的Augmented Error,其中wTw這項(xiàng)被稱為regularizer(正則項(xiàng))。我們通過(guò)求解Augmented Error,Eaug(w)來(lái)得到回歸的系數(shù)Wreg。這其實(shí)就是說(shuō),如果沒(méi)有正則項(xiàng)的時(shí)候(λ=0),我們是求解最小的Ein問(wèn)題,而現(xiàn)在有了一個(gè)正則項(xiàng)(λ>0),那么就是求解最小的Eaug的問(wèn)題了。
不同的λ造成的結(jié)果
從上圖可以看出,當(dāng)λ=0的時(shí)候就會(huì)發(fā)生過(guò)擬合的問(wèn)題,當(dāng)λ很小時(shí)(λ=0.0001),結(jié)果很接近理想的情況,如果λ很大(λ=1),會(huì)發(fā)生欠擬合的現(xiàn)象。所以加一點(diǎn)正則化(λ很小)就可以做到效果很好。
正則化和VC理論
我們要解一個(gè)受限的訓(xùn)練誤差Ein的問(wèn)題,我們將這個(gè)問(wèn)題簡(jiǎn)化成Augmented Error的問(wèn)題來(lái)求解最小的Eaug。
原始的問(wèn)題對(duì)應(yīng)的是VC的保證是Eout要比Ein加上復(fù)雜度的懲罰項(xiàng)(penalty of complexity)要小。而求解Eaug是間接地做到VC Bound,并沒(méi)有真正的限制在H(C)中。
wTw可以看成是一個(gè)假設(shè)的復(fù)雜度,而VC Bound的Ω(H)代表的是整個(gè)假設(shè)集合有多么的復(fù)雜(或者說(shuō)有多少種選擇)。
這兩個(gè)問(wèn)題都好像是計(jì)算一個(gè)問(wèn)題的復(fù)雜度,我們?cè)撛趺绰?lián)系著兩種復(fù)雜度的表示方式呢?其理解是,一個(gè)單獨(dú)的很復(fù)雜的多項(xiàng)式可以看做在一類很復(fù)雜的假設(shè)集合中,所以Eaug可以看做是Eout的一個(gè)代理人(proxy),這其實(shí)是我們運(yùn)用一個(gè)比原來(lái)的Ein更好一點(diǎn)點(diǎn)代理人Eaug來(lái)貼近好的Eout。
一般性的正則項(xiàng) L1 Regularizer
L1 Regularizer是用w的一范數(shù)來(lái)算,該形式是凸函數(shù),但不是處處可微分的,所以它的最佳化問(wèn)題會(huì)相對(duì)難解一些。
L1 Regularizer的最佳解常常出現(xiàn)在頂點(diǎn)上(頂點(diǎn)上的w只有很少的元素是非零的,所以也被稱為稀疏解sparse solution),這樣在計(jì)算過(guò)程中會(huì)比較快。
L2 Regularizer
L2 Regularizer是凸函數(shù),平滑可微分,所以其最佳化問(wèn)題是好求解的。
最優(yōu)的λ
噪聲越多,λ應(yīng)該越大。由于噪聲是未知的,所以做選擇很重要,我將在下一小節(jié)中繼續(xù)接受有關(guān)參數(shù)λ選擇的問(wèn)題。
總結(jié)
過(guò)擬合表現(xiàn)在訓(xùn)練數(shù)據(jù)上的誤差非常小,而在測(cè)試數(shù)據(jù)上誤差反而增大。其原因一般是模型過(guò)于復(fù)雜,過(guò)分得去擬合數(shù)據(jù)的噪聲和異常點(diǎn)。正則化則是對(duì)模型參數(shù)添加先驗(yàn),使得模型復(fù)雜度較小,對(duì)于噪聲以及outliers的輸入擾動(dòng)相對(duì)較小。
正則化符合奧卡姆剃刀原理,在所有可能選擇的模型,能夠很好的解釋已知數(shù)據(jù)并且十分簡(jiǎn)單才是最好的模型,也就是應(yīng)該選擇的模型。從貝葉斯估計(jì)的角度看,正則化項(xiàng)對(duì)應(yīng)于模型的先驗(yàn)概率,可以假設(shè)復(fù)雜的模型有較小的先驗(yàn)概率,簡(jiǎn)單的模型有較大的先驗(yàn)概率。
參考資料
機(jī)器學(xué)習(xí)中的范數(shù)規(guī)則化之(一)L0、L1與L2范數(shù)
http://blog.csdn.net/zouxy09/article/details/24971995
機(jī)器學(xué)習(xí)中的范數(shù)規(guī)則化之(二)核范數(shù)與規(guī)則項(xiàng)參數(shù)選擇
http://blog.csdn.net/zouxy09/article/details/24972869
作者Jason Ding
http://blog.csdn.net/jasonding1354/article/details/44006935#comments

責(zé)任編輯:售電衡衡
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國(guó)自主研制的“人造太陽(yáng)”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實(shí)踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個(gè)行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動(dòng)化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國(guó)自主研制的“人造太陽(yáng)”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長(zhǎng)期助力儲(chǔ)能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市
-
山西省首座電力與通信共享電力鐵塔試點(diǎn)成功
-
中國(guó)電建公司公共資源交易服務(wù)平臺(tái)摘得電力創(chuàng)新大獎(jiǎng)
-
電力系統(tǒng)對(duì)UPS的技術(shù)要求