【机器学习自学笔记】决策树剪枝

决策树如果任其自由生长,很容易产生过拟合。因此,我们有必要对决策树进行剪枝。

CART 剪枝算法从"完全生长"的决策树的底端剪去一些子树,使决策树变小(模型变简单),从而能够对未知数据有更准确的预测。

CART 剪枝

CART 剪枝的思想:

  • 从完全生长的整体树 的最底端开始不断剪枝
  • 直至剪到 的根结点为止,形成子树序列 {}
  • 通过交叉验证法在独立的验证集上对子树序列进行测试,选出最优子树
阅读更多

【机器学习自学笔记】决策树

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

阅读更多