Ctrlk

GBDT/XGBoost 备忘

概述

演进路线: Boosting -> Gradient Boosting -> GDBDT -> XGBoost

常见面试问题

GBDT 为什么用 CART 回归树做基学习器？

回归树的优点

决策树可以认为是 if-then 规则的集合, 可解释性强, 计算速度快;
更少的特征工程: 不用做特征标准化, 可以很好的处理字段缺失的数据, 不用关心特征间是否相互依赖等;
能够自动组合多个特征 (非参数化的处理特征间的交互关系);
- 不用担心异常值或者数据是否线性可分;
回归树的缺点:
- 容易过拟合;
- 解决方法: 抑制决策树的复杂性, 降低单决策树的拟合能力, 再通过梯度提升的方法集成多个决策树;
  - 限制树的个数;
  - 限制树的最大深度;
  - 限制叶子节点的最少样本数量;
  - 限制节点分裂时的最少样本数量;
  - 吸收 bagging 思想对训练样本采样;
  - 在学习单颗决策树时只使用一部分训练样本;
  - 借鉴随机森林的思路在学习单颗决策树时只采样一部分特征;
  - 在目标函数中添加正则项惩罚复杂的树结构等.

XGBoost 和 GBDT 的区别

TODO

参考

GBDT/XGBOOST面试总结 - 知乎

PreviousTransformer/BERT 常见变体 Next从暴力递归到动态规划

Last updated 3 years ago