Boosting(XGBoost、LightGBM以及CatBoost)
创始人
2025-06-01 01:12:00
0
1.Boosting
  • 基本思想: 根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,将训练好的弱分类器以累加的形式结合到现有模型中。这个过程会不断减小损失函数,使模型偏差不断降低。
2.XGBoost

优势:(相对于GBDT)

  • 正则化: 防止模型过拟合
  • 并行处理: 在选取叶子节点分裂特征的时候可以并行,速度快很多
  • 自动处理缺失数据: 会把缺失值放进左右子树看效果
  • 剪枝策略: 普通的提升采用贪心算法,只有不再有增益的时候才会停止分裂,XGBoost有一个阈值,可以调节
  • 更加高效的拟合误差: 对目标函数进行了二阶泰勒展开
  • 支持对数据进行采样,支持列抽样: 降低过拟合,减少计算
  • 支持多种类型的基分类器: GBDT只支持CART
  • 对特征进行预排序: 能够快速,精确的找到分割点

缺点:

  • 内存消耗大: 因为要存储预排序的结果
  • 调参困难: 越复杂的模型参数越多
3.LightGBM

优势:(相对于XGBoost)

  • 直方图优化: 其实就是一种数据离散化,将数据按照范围进行分箱,是存储空间减小,运算更快将特征值转化为binbinbin值
  • 直方图做差加速: 一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到
  • 提出带深度限制的Leaf-wise: 以前主要使用的是按层生长(level-wise),Leaf-wise可以更好的拟合数据,得到更高的精度,但同时也会发生过拟合,因此带有深度限制
  • 提出了单边梯度采样算法: 保留a∗100%a*100\%a∗100%训练不足的样本 (梯度大的),对小梯度样本采样 b∗100%b*100\%b∗100%,为了尽可能小的改变样本分布,将小梯度样本的权重扩大(1−a)/b(1-a)/b(1−a)/b 。
  • 提出了互斥特征捆绑算法: 将稀疏的高维数据进行降维,不丢失信息的同时减少了特征的数量,降低内存消耗
  • 直接支持类别特征

缺点:

  • 特征被离散化后,找到的不是很精确的分割点,有时会对结果产生影响,但这是一种防止过拟合
  • leaf-wise策略可能会过拟合
4.Stacking
  • 基本思想: 使用训练数据训练多个模型,然后将多个模型的训练结果作为特征,去训练第二层模型,最后输出结果
  • 第二层一般用比较简单的模型,防止模型过拟合。分类用逻辑回归,回归用线性回归

Stacking流程:

  • 以XGBoost举例,首先数据分为训练集和测试集。我们采用五折交叉验证的方式,将训练集分为五份,分别拿出其中的一折作为验证集,用于训练模型,同时每次训练好的模型在验证集部分的预测结果将作为最终在训练集上预测结果的1/5。五次组装起来就成了最终对训练集的预测结果。这将用于第二层模型的训练集的一个特征(一列),同时每次训练好的模型都会在测试集上预测,五次的平均值作为第二层模型测试集的一个特征(一列)
  • 其他的模型训练同上,最终第二层模型的训练集就是所有第一层模型训练集的预测结果(有几个模型就有几列)+训练集的真实标签,测试集就是所有第一层模型的测试集的预测结果拼接起来

Stacking优点

  • 提高模型预测精度: 通过组合多个模型的预测结果,可以获得更准确和稳定的预测结果。Stacking通常比单个模型更准确,因为它可以利用不同模型的优点。因为每个模型都可能注重于不同的特征,通过Stacking可以将这些特征都利用起来,效果可能更好,也有可能变差

  • 减少过拟合风险: 由于Stacking结合了多个模型的预测结果,它通常比单个模型更具有泛化能力,因此过拟合的风险更小

5.leaf-wise和level-wise的区别和特点
  • Level-wise:基于层进行生长,直到达到停止条件;
  • Leaf-wise:每次分裂增益最大的叶子节点,直到达到停止条件。

XGBoost 采用 Level-wise 的增长策略,方便并行计算每一层的分裂节点,提高了训练速度,但同时也因为节点增益过小增加了很多不必要的分裂,降低了计算量;LightGBM 采用 Leaf-wise 的增长策略减少了计算量,配合最大深度的限制防止过拟合,由于每次都需要计算增益最大的节点,所以无法并行分裂。

相关内容

热门资讯

走进小城看消费丨江西资溪:低碳...   夏日时节下午4点,江西省抚州市资溪县大觉山景区漂流终点依然热闹。来自南昌的游客余鑫漂流结束后没有...
【中原晨会0625】市场分析专... 来源:市场资讯 (来源:中原证券研究所) 本期重点研报目录 【中原策略】市场分析:电子半导体领涨 ...
南向资金连买4日!低费率+可月... 6月25日早盘,港股红利资产震荡整理。截至11时14分,港股红利低波ETF招商(520550)下跌0...
618成交破百万!紫荆花用一套... 一年一度的618年中大促,是消费市场的晴雨表,也是品牌间最激烈的角力场。当各大品牌在直播间里铆足了劲...
原创 黄... 2026年6月25日的国际金价已经从前期的5500美元高点跌到4200美元下方,累计跌幅超过22%,...
英伟达CEO:Vera Rub... 截至9:38,中证半导体材料设备主题指数(931743)涨2.36%创新高;权重股中,中微公司涨3....
再被催债16亿!“钢铁大王”戴... 澎湃新闻记者 贺梨萍 因“铁本事件”入狱五年的戴国芳重返钢铁行业,但他并没有完成从阶下囚再到“钢铁大...
周三原油价格下跌 随着美国和伊朗在和平谈判中取得进展,越来越多的油轮公开穿越霍尔木兹海峡,原油在战时的价格上涨已经蒸发...
这种蛋白是大脑衰老的开关 这种蛋白是大脑衰老的开关 清晨,假设一位五十岁左右的王女士发现自己常常把手机放在熟悉的抽屉里又找不到...
信通院牵头算力Token出海生... 盘面上,截至11:04,中证科创创业50指数(931643)涨1.68%,创历史新高;权重股中,芯原...
海外 774 亿营收背后:日本... 文 | 游戏价值论 6月23日,彭博社报道了腾讯正在围绕出售多家日本游戏工作室少数股权开展谈判,包...
餐饮“抢人”大战:把店开到公交... 作者 |餐饮老板内参 内参君 医院、公交站、演唱会…餐饮品牌,正在无孔不入 在北京儿童医院,肯德基...
快讯 | 外资扫货!陈翊庭:港... 港交所行政总裁陈翊庭在接受《中国证券报》专访时指出,国际资本对中国资产的看法已彻底扭转,布局中国市场...
2777.77元!A股“股王”... 25日早盘,昨天创下历史新高的A股“股王”联讯仪器,今天上午继续走强,盘中股价再度刷新历史新高。 截...
原创 今... 欧洲自己的媒体直接下结论,欧盟衰退躲不掉,内部分裂拦不住,现在就连欧洲顶尖工业巨头,都偷偷在用中国的...
黄仁勋股东大会放言:本轮AI基... 在当地时间6月24日的英伟达(NVDA.O)2026年度股东大会上,股东批准了该公司全部10名董事会...
国际油价大跌 新华社消息, 纽约原油期货主力合约价格24日盘中跌破每桶70美元,为伊朗战事爆发以来首次。 市场分析...
马云带队插秧,什么信号? 一场别开生面的“务农”,让外界看到了一个不一样的阿里巴巴。 近日,阿里巴巴合伙人、高德董事长刘振飞在...
全球最大产能,最高丰度达99.... 本文转自【科技日报】; 6月23日,高丰度硼-10同位素技术暨产业化成果发布会在山东省东营市举办,全...
黄金大跳水!金饰克价年内暴跌近... 25日,现货黄金盘中震荡,截至发稿,报3985.070美元/盎司,跌0.17%。 当地时间24日,...