Boosting(XGBoost、LightGBM以及CatBoost)
创始人
2025-06-01 01:12:00
0
1.Boosting
  • 基本思想: 根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,将训练好的弱分类器以累加的形式结合到现有模型中。这个过程会不断减小损失函数,使模型偏差不断降低。
2.XGBoost

优势:(相对于GBDT)

  • 正则化: 防止模型过拟合
  • 并行处理: 在选取叶子节点分裂特征的时候可以并行,速度快很多
  • 自动处理缺失数据: 会把缺失值放进左右子树看效果
  • 剪枝策略: 普通的提升采用贪心算法,只有不再有增益的时候才会停止分裂,XGBoost有一个阈值,可以调节
  • 更加高效的拟合误差: 对目标函数进行了二阶泰勒展开
  • 支持对数据进行采样,支持列抽样: 降低过拟合,减少计算
  • 支持多种类型的基分类器: GBDT只支持CART
  • 对特征进行预排序: 能够快速,精确的找到分割点

缺点:

  • 内存消耗大: 因为要存储预排序的结果
  • 调参困难: 越复杂的模型参数越多
3.LightGBM

优势:(相对于XGBoost)

  • 直方图优化: 其实就是一种数据离散化,将数据按照范围进行分箱,是存储空间减小,运算更快将特征值转化为binbinbin值
  • 直方图做差加速: 一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到
  • 提出带深度限制的Leaf-wise: 以前主要使用的是按层生长(level-wise),Leaf-wise可以更好的拟合数据,得到更高的精度,但同时也会发生过拟合,因此带有深度限制
  • 提出了单边梯度采样算法: 保留a∗100%a*100\%a∗100%训练不足的样本 (梯度大的),对小梯度样本采样 b∗100%b*100\%b∗100%,为了尽可能小的改变样本分布,将小梯度样本的权重扩大(1−a)/b(1-a)/b(1−a)/b 。
  • 提出了互斥特征捆绑算法: 将稀疏的高维数据进行降维,不丢失信息的同时减少了特征的数量,降低内存消耗
  • 直接支持类别特征

缺点:

  • 特征被离散化后,找到的不是很精确的分割点,有时会对结果产生影响,但这是一种防止过拟合
  • leaf-wise策略可能会过拟合
4.Stacking
  • 基本思想: 使用训练数据训练多个模型,然后将多个模型的训练结果作为特征,去训练第二层模型,最后输出结果
  • 第二层一般用比较简单的模型,防止模型过拟合。分类用逻辑回归,回归用线性回归

Stacking流程:

  • 以XGBoost举例,首先数据分为训练集和测试集。我们采用五折交叉验证的方式,将训练集分为五份,分别拿出其中的一折作为验证集,用于训练模型,同时每次训练好的模型在验证集部分的预测结果将作为最终在训练集上预测结果的1/5。五次组装起来就成了最终对训练集的预测结果。这将用于第二层模型的训练集的一个特征(一列),同时每次训练好的模型都会在测试集上预测,五次的平均值作为第二层模型测试集的一个特征(一列)
  • 其他的模型训练同上,最终第二层模型的训练集就是所有第一层模型训练集的预测结果(有几个模型就有几列)+训练集的真实标签,测试集就是所有第一层模型的测试集的预测结果拼接起来

Stacking优点

  • 提高模型预测精度: 通过组合多个模型的预测结果,可以获得更准确和稳定的预测结果。Stacking通常比单个模型更准确,因为它可以利用不同模型的优点。因为每个模型都可能注重于不同的特征,通过Stacking可以将这些特征都利用起来,效果可能更好,也有可能变差

  • 减少过拟合风险: 由于Stacking结合了多个模型的预测结果,它通常比单个模型更具有泛化能力,因此过拟合的风险更小

5.leaf-wise和level-wise的区别和特点
  • Level-wise:基于层进行生长,直到达到停止条件;
  • Leaf-wise:每次分裂增益最大的叶子节点,直到达到停止条件。

XGBoost 采用 Level-wise 的增长策略,方便并行计算每一层的分裂节点,提高了训练速度,但同时也因为节点增益过小增加了很多不必要的分裂,降低了计算量;LightGBM 采用 Leaf-wise 的增长策略减少了计算量,配合最大深度的限制防止过拟合,由于每次都需要计算增益最大的节点,所以无法并行分裂。

相关内容

热门资讯

开年,“爆款”! 增量资金入市步伐显著加速。 近日,记者从业内人士处获悉,百亿级私募复胜资产发行颇为火热,新发规模单日...
光大证券:热度短期有望延续短期 光大证券研报认为,市场热度仍有望持续,不过需要关注1月中旬之后到春节前市场逐步降温的可能。一方面,政...
马斯克突发!旗下产品或被多国封... 来源:证券时报 马斯克突发。 参考消息援引新加坡《联合早报》网站1月11日报道称,英国加大威胁称,可...
脑机接口获20亿融资 行情里的... 最近刷到条挺实在的新闻——脑机接口领域的"独角兽"强脑科技刚完成20亿融资,投资方里有IDG、华登国...
原创 黄... 今天是2026年1月6日, 人民币计价黄金及中国黄金实物金价走低, 国内金价回落到988.9元/克,...
原创 黄... “前阵子抢都抢不到的黄金,现在居然降价了!”2026开年,持续火热的黄金市场迎来降温,国际现货黄金在...
原创 黄... 2026年1月8日清晨,黄金市场突然上演“高空跳水”。 现货黄金价格一度暴跌超2%,击穿4450美元...
长安银行获国资输血定增百亿补充... 来源:长江商报 长江商报消息 ●长江商报记者 徐佳 陕西省属城商行长安银行股份有限公司(以下简称“...
A股头条:证监会最新发声!推动... 资讯速递 1、国常会:部署实施财政金融协同促内需一揽子政策 国务院总理李强1月9日主持召开国务院常务...
2025年物价低位温和回升 国家统计局发布最新数据显示,2025年12月份,居民消费价格指数(CPI)环比上涨0.2%,同比上涨...
蓝盒子(轩博精酿)正式上市递表... 来源:黄冈新闻网 因抓住了中国啤酒消费升级的结构红利,精酿替换存量工业啤酒大势下,蓝盒子公司(轩博精...
智谱成为全球大模型第一股,外国... 出品|虎嗅科技组 作者|赵致格 编辑|苗正卿 头图|视觉中国 1月8日,北京智谱华章科技股份有限公司...
埃克森石油公司研究重返委内瑞拉... 来源:环球市场播报 埃克森美孚首席执行官达伦-伍兹(Darren Woods)周五表示,美国石油巨头...
原创 特... 一个数据可以翻篇,也可以揭露一场政治与经济的戏码,2025年10月美国对外贸易数字一下子给出了一个让...
五千亿赛道争夺战:中式汉堡如何... 当塔斯汀在2025年以“手擀现烤中国汉堡”的定位闯入万店俱乐部时,国内汉堡市场的竞争格局已然改写。这...
原创 稀... 稀土“卖成白菜价”的那些年,其实一点都不风光 很多人第一次听到“稀土比铜还便宜”,都会下意识觉得不合...
开年大涨,2026黄金还将“狂... 2026年开年首个交易周结束,黄金价格再现大涨。 北京时间1月9日晚,在美国公布12月非农数据后,蓄...
原创 中... 特朗普政府在2026年初推动了一项针对俄罗斯能源出口的立法行动,明确将中国、印度、巴西等七个国家列为...
马斯克:白领劳动力将最先消失,... 大象新闻2026-01-10 08:38:28 近日,马斯克在播客节目中表示,AI将率先取代白领岗位...
场景化体验式 北京全时活跃消费... 1月10日至11日,全国商务工作会议在京召开,其中明确提出加快培育服务消费新增长点、释放服务消费潜力...