Boosting(XGBoost、LightGBM以及CatBoost)
创始人
2025-06-01 01:12:00
0
1.Boosting
  • 基本思想: 根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,将训练好的弱分类器以累加的形式结合到现有模型中。这个过程会不断减小损失函数,使模型偏差不断降低。
2.XGBoost

优势:(相对于GBDT)

  • 正则化: 防止模型过拟合
  • 并行处理: 在选取叶子节点分裂特征的时候可以并行,速度快很多
  • 自动处理缺失数据: 会把缺失值放进左右子树看效果
  • 剪枝策略: 普通的提升采用贪心算法,只有不再有增益的时候才会停止分裂,XGBoost有一个阈值,可以调节
  • 更加高效的拟合误差: 对目标函数进行了二阶泰勒展开
  • 支持对数据进行采样,支持列抽样: 降低过拟合,减少计算
  • 支持多种类型的基分类器: GBDT只支持CART
  • 对特征进行预排序: 能够快速,精确的找到分割点

缺点:

  • 内存消耗大: 因为要存储预排序的结果
  • 调参困难: 越复杂的模型参数越多
3.LightGBM

优势:(相对于XGBoost)

  • 直方图优化: 其实就是一种数据离散化,将数据按照范围进行分箱,是存储空间减小,运算更快将特征值转化为binbinbin值
  • 直方图做差加速: 一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到
  • 提出带深度限制的Leaf-wise: 以前主要使用的是按层生长(level-wise),Leaf-wise可以更好的拟合数据,得到更高的精度,但同时也会发生过拟合,因此带有深度限制
  • 提出了单边梯度采样算法: 保留a∗100%a*100\%a∗100%训练不足的样本 (梯度大的),对小梯度样本采样 b∗100%b*100\%b∗100%,为了尽可能小的改变样本分布,将小梯度样本的权重扩大(1−a)/b(1-a)/b(1−a)/b 。
  • 提出了互斥特征捆绑算法: 将稀疏的高维数据进行降维,不丢失信息的同时减少了特征的数量,降低内存消耗
  • 直接支持类别特征

缺点:

  • 特征被离散化后,找到的不是很精确的分割点,有时会对结果产生影响,但这是一种防止过拟合
  • leaf-wise策略可能会过拟合
4.Stacking
  • 基本思想: 使用训练数据训练多个模型,然后将多个模型的训练结果作为特征,去训练第二层模型,最后输出结果
  • 第二层一般用比较简单的模型,防止模型过拟合。分类用逻辑回归,回归用线性回归

Stacking流程:

  • 以XGBoost举例,首先数据分为训练集和测试集。我们采用五折交叉验证的方式,将训练集分为五份,分别拿出其中的一折作为验证集,用于训练模型,同时每次训练好的模型在验证集部分的预测结果将作为最终在训练集上预测结果的1/5。五次组装起来就成了最终对训练集的预测结果。这将用于第二层模型的训练集的一个特征(一列),同时每次训练好的模型都会在测试集上预测,五次的平均值作为第二层模型测试集的一个特征(一列)
  • 其他的模型训练同上,最终第二层模型的训练集就是所有第一层模型训练集的预测结果(有几个模型就有几列)+训练集的真实标签,测试集就是所有第一层模型的测试集的预测结果拼接起来

Stacking优点

  • 提高模型预测精度: 通过组合多个模型的预测结果,可以获得更准确和稳定的预测结果。Stacking通常比单个模型更准确,因为它可以利用不同模型的优点。因为每个模型都可能注重于不同的特征,通过Stacking可以将这些特征都利用起来,效果可能更好,也有可能变差

  • 减少过拟合风险: 由于Stacking结合了多个模型的预测结果,它通常比单个模型更具有泛化能力,因此过拟合的风险更小

5.leaf-wise和level-wise的区别和特点
  • Level-wise:基于层进行生长,直到达到停止条件;
  • Leaf-wise:每次分裂增益最大的叶子节点,直到达到停止条件。

XGBoost 采用 Level-wise 的增长策略,方便并行计算每一层的分裂节点,提高了训练速度,但同时也因为节点增益过小增加了很多不必要的分裂,降低了计算量;LightGBM 采用 Leaf-wise 的增长策略减少了计算量,配合最大深度的限制防止过拟合,由于每次都需要计算增益最大的节点,所以无法并行分裂。

相关内容

热门资讯

王凤英入职小鹏3年终获股权,此... 5月7日消息,小鹏汽车披露的监管及年报信息显示,公司总裁王凤英已正式进入股东名册,入职小鹏3年后股权...
五块钱红酒卖断货,便宜红酒为何... 最近一段时间,中国的酒类消费市场可以说是显得格外奇怪,一方面,各种高端酒特别是白酒的消费量出现了明显...
财联社C50风向指数调查:4月... 财联社5月8日讯(记者 夏淑媛)新一期财联社“C50风向指数”结果显示,市场机构对4月新增人民币贷款...
央视硬刚国际足联拒掏20亿,背... 作者| 史大郎&猫哥 来源| 是史大郎&大猫财经Pro 央视这次太刚了,离世界杯开幕还有1个月,死活...
新CEO上任直接放大招!Air... 快科技5月8日消息,苹果即将上任的CEO John Ternus对未来一系列新产品充满信心,称这些设...
“特朗普拟邀英伟达、波音等CE... 据路透社当地时间5月7日报道,特朗普政府正邀请英伟达、苹果、埃克森美孚、波音等大公司首席执行官,于下...
世界杯,还能看到直播吗? 2026年美加墨世界杯距离开幕,仅剩一个多月时间。多方信息显示,中央广播电视总台(以下简称“央视”)...
机构警告AI芯片热潮风险,超威... 5月7日,据央视财经,隔夜超威半导体公司(AMD)股价飙升近19%,带动AI芯片热潮持续升温。AMD...
银行员工转走储户1800万最新... 银行员工转走储户1800万最新进展:2名储户已收到银行全部款项
原创 中... 1994年,安徽省的经济格局曾发生过一次戏剧性的转折。在那一年,一座名为安庆的城市,其国内生产总值(...
昆都仑区:政策“蓄力”消费焕新 “一台5000多元的空调,叠加‘国补’和商场的以旧换新活动,能优惠1000元左右,旧机还能免费上门拆...
乐悦置业竞得佛山顺德乐从镇一商... 观点网讯:5月6日,佛山市顺德区乐从镇一商业地块成功出让,由广东省乐悦置业有限公司竞得,乐从南区·邻...
原创 亦... 《爱情没有神话》这部剧,一开始的命运颇为多舛,经历了几次撤档的波折后,终于在观众面前亮相,但其首播的...
美联储34年最大分歧叠加油价飙... 美联储按预期维持利率不变,但内部出现34年来最严重分歧,叠加布油创2022年6月以来新高,美债遭抛售...
支付宝消费券回收后,资金是否支... 摘要: 支付宝消费券回收变现后,资金能否直接转入信用卡?本文解答到账方式的相关规则,帮助用户了解资金...
中医介绍5个化痰穴位!收藏这篇... 很多人忽略了“痰”的危害,觉得咳几下就没事,殊不知,肺里的痰长期堆积,只会一步步加重身体负担。 中医...
黄金平台“杰我睿”涉嫌经济犯罪... 红星资本局5月7日消息,深圳水贝知名金店“杰我睿”兑付困难事件有了新进展。日前,深圳市公安局罗湖分局...
多地出台购房新政促楼市升温 记... 今年的“五一”假期,伴随着多个城市楼市新政密集落地,在叠加市场信心持续修复的作用下,房地产市场热度持...
谁是五一“吸金王”?这5座城市... 来源:市场资讯 (来源:21城市观) 哪座城市成为“五一”假期的大赢家? 图源:摄图网 作者|赵晓...
“低招低裁”格局稳固劳动力市场... 智通财经APP获悉,美国上周初请失业金人数在经历前一周回落至近几十年来最低水平后出现小幅反弹,表明尽...