跳至內容

過適

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書
綠線代表過適模型,黑線代表正則化模型。雖然綠線完美的符合訓練數據,但調適得太過緊密或精確;並且與黑線相比,在新的測試資料上會有更高的錯誤率。

統計學中,過適(英語:overfitting,或稱擬合過度)是指過於緊密或精確地匹配特定資料集,以致於無法良好地擬合其他資料或預測未來的觀察結果的現象[1]過擬合模型指的是相較有限的數據而言,參數過多或者結構過於複雜的統計模型[2]發生過擬合時,模型的偏差小而方差大。過擬合的本質是訓練算法從統計噪聲中不自覺獲取了信息並表達在了模型結構的參數當中。[3]:45相較用於訓練的資料總量來說,一個模型只要結構足夠複雜或參數足夠多,就總是可以完美地適應資料的。過適一般可以視為違反奧卡姆剃刀原則。

與過擬合相對應的概念是欠擬合(英語:underfitting,或稱:擬合不足);它是指相較於數據而言,模型參數過少或者模型結構過於簡單,以至於無法捕捉到數據中的規律的現象。發生欠擬合時,模型的偏差大而方差小。

機器學習人工神經網路中,過擬合與欠擬合有時也被稱為「過訓練(英語:overtraining)」和「欠訓練(英語:undertraining)」。

之所以存在過擬合的可能,是因為選擇模型的標準和評價模型的標準是不一致的。舉例來說,選擇模型時往往是選取在訓練數據上表現最好的模型;但評價模型時則是觀察模型在訓練過程中不可見數據上的表現。當模型嘗試「記住」訓練數據而非從訓練數據中學習規律時,就可能發生過擬合。一般來說,當參數的自由度或模型結構的複雜度超過資料所包含資訊內容時,擬合後的模型可能使用任意多的參數,這會降低或破壞模型泛化的能力。

在統計學習和機器學習中,為了避免或減輕過適現象,須要使用額外的技巧(如模型選擇交叉驗證提前停止正則化剪枝貝葉斯信息量準則赤池信息量準則dropout)。在treatment learning中,使用最小最佳支援值(英語:minimum best support value)來避免過適。[來源請求]這些方法大致可分為兩類:1. 對模型的複雜度進行懲罰,從而避免產生過於複雜的模型;2. 在驗證數據上測試模型的效果,從而模擬模型在實際工作環境的數據上的表現。

機器學習

監督學習(例如神經網絡)中的過擬合/過訓練。訓練誤差用藍色表示,驗證誤差用紅色表示。二者均為訓練迭代次數的函數。若訓練誤差穩定下降,但驗證誤差上升,則說明可能出現過擬合。最佳模型應當是驗證誤差位於最低點時的模型。

機器學習模型的典型產出過程是由機器學習算法訓練集上進行訓練,希望得到的模型能夠在訓練過程中不可見的驗證集上表現良好。過擬合現象發生在使用違反奧卡姆剃刀原則的模型或算法時:當引入相較數據集而言過多的參數時,或使用相較數據集而言過於複雜的模型時。

假設有一個訓練集,其基準真相 y 可以用一個二元線性函數很好地預測出來。顯而易見,該函數只有3個參數:一個截距,兩個斜率。將該函數替換成更為複雜的二次函數或更多元的線性函數的風險在於:奧卡姆剃刀表明,相較於給定的簡單函數,任何給定的複雜函數的預測都更不可靠。[4]:358如果最終選擇了複雜函數而非簡單函數;並且在擬合訓練數據時相較簡單函數,複雜函數帶來的收益沒有抵消模型複雜度的增加,那麼複雜函數就過擬合了數據。此時,儘管複雜函數在訓練集上的表現與簡單函數相同甚至更好,但在訓練數據之外的驗證數據上的表現,複雜函數可能會更糟糕。[5]

在確定模型複雜度時,簡單地計算各模型中參數的數量是不可靠的,還需要考慮參數的表達方式。舉例來說,直接比較帶有 m 個參數的神經網絡(它能夠跟蹤非線性關係)和帶有 n 個參數的回歸模型是非平凡的。[5]

過擬合尤其容易在訓練迭代次數相對有限訓練樣本過多的時候。此時,模型會擬合訓練數據中特徵的隨機噪聲,而這些與目標函數之間並無因果關係。在這種過擬合的過程中,模型在訓練樣本上的效果會持續提升,但在訓練中不可見的數據(通常是驗證集)上的效果會變得更差。舉個簡單的例子:假設有一個數據集,其中包含了零售的物品、買家、購買日期、購買時間。人們很容易在這個數據集上構造模型,來根據購買日期和購買時間預測其他屬性;但該模型在新數據上沒有任何泛化性能,因為過去的時間再也不會出現了。

概括地說,機器學習算法在已知數據上很精確但在新數據上不精確的情形,可以稱之為過擬合。人們可以這樣在直覺上理解過擬合:「過去的經驗可被分為兩個部分:與將來有關的數據、與將來無關的數據(噪聲)」。在其他條件都相同的情況下,預測的難度越大(不確定性越高),則過去信息中需要被當做噪聲忽略的部分就越多。問題的難點在於,如何確定哪些數據應當被忽略。

能夠避免擬合噪聲的機器學習算法是健壯的算法。

後果

過擬合最顯著的後果就是在驗證集上的效果很差;其他後果羅列如下:[5]

  • 相較擬合恰當的模型而言,擬合過度的模型傾向於從驗證集的每個樣本中獲取更多信息;收集這些不必要的信息可能代價是高昂的,或者具有錯誤傾向的。當這些信息需要人工觀察或者標註時,這種代價尤其明顯。
  • 擬合過度的複雜模型相較簡單模型的可移植性更差。極端地說,一元線性回歸模型可移植性非常好,甚至,但凡必要時,甚至可以用徒手進行計算。另一方面,極端複雜的模型只能在原始數據集上復現,這給模型的重用和理論研究的復現帶來了困難。

擴展閱讀

參考文獻

  1. ^ OxfordDictionaries.comoverfitting頁面存檔備份,存於網際網路檔案館)的統計學定義。
  2. ^ Everitt B.S., Skrondal A. (2010), Cambridge Dictionary of Statistics, Cambridge University Press.
  3. ^ Burnham, K. P.; Anderson, D. R., Model Selection and Multimodel Inference 2nd, Springer-Verlag, 2002 . (This has over 44000 citations on Google Scholar.)
  4. ^ Francesco Pezzella, Mahvash Tavassoli, David Kerr. Oxford Textbook of Cancer Biology. Oxford University Press. 
  5. ^ 5.0 5.1 5.2 Hawkins, Douglas M. (2004), "The problem of overfitting", Journal of Chemical Information and Modeling, 44.1: 1–12.

外部連結