GBDT/XGBoost 备忘

last modify

概述

  • 演进路线: Boosting -> Gradient Boosting -> GDBDT -> XGBoost

常见面试问题

GBDT 为什么用 CART 回归树做基学习器?

回归树的优点

  • 决策树可以认为是 if-then 规则的集合, 可解释性强, 计算速度快;

  • 更少的特征工程: 不用做特征标准化, 可以很好的处理字段缺失的数据, 不用关心特征间是否相互依赖等;

  • 能够自动组合多个特征 (非参数化的处理特征间的交互关系);

    • 不用担心异常值或者数据是否线性可分;

  • 回归树的缺点:

    • 容易过拟合;

    • 解决方法: 抑制决策树的复杂性, 降低单决策树的拟合能力, 再通过梯度提升的方法集成多个决策树;

      • 限制树的个数;

      • 限制树的最大深度;

      • 限制叶子节点的最少样本数量;

      • 限制节点分裂时的最少样本数量;

      • 吸收 bagging 思想对训练样本采样;

      • 在学习单颗决策树时只使用一部分训练样本;

      • 借鉴随机森林的思路在学习单颗决策树时只采样一部分特征;

      • 在目标函数中添加正则项惩罚复杂的树结构等.

XGBoost 和 GBDT 的区别

TODO

参考

Last updated