决策树剪枝

本页使用了标题或全文手工转换
维基百科,自由的百科全书

剪枝(英語:pruning)是机器学习搜索算法当中通过移除决策树中分辨能力较弱的節點而减小决策树大小的方法。剪枝降低了模型的复杂度,因此能够降低过拟合风险,从而降低泛化误差

在决策树算法中,决策树过大会有过拟合的风险,从而在新样本上的泛化性能很差;决策树过小则无法从样本空间中获取重要的结构化信息。然而,由于很难判断新增一个额外的分裂结点能否显著降低误差,人们很难判断何时停止决策树的生长是恰当的。该问题被称为视界限制效应英语Horizon_effect。一个通用的策略是让决策树一直生长,直到每个叶子结点都包含足够少量的样本,而后通过剪枝的方法,移除分辨能力较弱的结点。[1]

剪枝過程应当在减小决策树大小的同时,保证交叉验证下的精度不降低。

参考文献

  1. ^ Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The Elements of Statistical Learning. Springer: 2001, pp. 269-272