GBDT/XGBoost 备忘
Last updated
Last updated
演进路线: Boosting
-> Gradient Boosting
-> GDBDT
-> XGBoost
回归树的优点
决策树可以认为是 if-then 规则的集合, 可解释性强, 计算速度快;
更少的特征工程: 不用做特征标准化, 可以很好的处理字段缺失的数据, 不用关心特征间是否相互依赖等;
能够自动组合多个特征 (非参数化的处理特征间的交互关系);
不用担心异常值或者数据是否线性可分;
回归树的缺点:
容易过拟合;
解决方法: 抑制决策树的复杂性, 降低单决策树的拟合能力, 再通过梯度提升的方法集成多个决策树;
限制树的个数;
限制树的最大深度;
限制叶子节点的最少样本数量;
限制节点分裂时的最少样本数量;
吸收 bagging 思想对训练样本采样;
在学习单颗决策树时只使用一部分训练样本;
借鉴随机森林的思路在学习单颗决策树时只采样一部分特征;
在目标函数中添加正则项惩罚复杂的树结构等.
TODO