Boosting(XGBoost、LightGBM以及CatBoost)
创始人
2025-06-01 01:12:00
0
1.Boosting
  • 基本思想: 根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,将训练好的弱分类器以累加的形式结合到现有模型中。这个过程会不断减小损失函数,使模型偏差不断降低。
2.XGBoost

优势:(相对于GBDT)

  • 正则化: 防止模型过拟合
  • 并行处理: 在选取叶子节点分裂特征的时候可以并行,速度快很多
  • 自动处理缺失数据: 会把缺失值放进左右子树看效果
  • 剪枝策略: 普通的提升采用贪心算法,只有不再有增益的时候才会停止分裂,XGBoost有一个阈值,可以调节
  • 更加高效的拟合误差: 对目标函数进行了二阶泰勒展开
  • 支持对数据进行采样,支持列抽样: 降低过拟合,减少计算
  • 支持多种类型的基分类器: GBDT只支持CART
  • 对特征进行预排序: 能够快速,精确的找到分割点

缺点:

  • 内存消耗大: 因为要存储预排序的结果
  • 调参困难: 越复杂的模型参数越多
3.LightGBM

优势:(相对于XGBoost)

  • 直方图优化: 其实就是一种数据离散化,将数据按照范围进行分箱,是存储空间减小,运算更快将特征值转化为binbinbin值
  • 直方图做差加速: 一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到
  • 提出带深度限制的Leaf-wise: 以前主要使用的是按层生长(level-wise),Leaf-wise可以更好的拟合数据,得到更高的精度,但同时也会发生过拟合,因此带有深度限制
  • 提出了单边梯度采样算法: 保留a∗100%a*100\%a∗100%训练不足的样本 (梯度大的),对小梯度样本采样 b∗100%b*100\%b∗100%,为了尽可能小的改变样本分布,将小梯度样本的权重扩大(1−a)/b(1-a)/b(1−a)/b 。
  • 提出了互斥特征捆绑算法: 将稀疏的高维数据进行降维,不丢失信息的同时减少了特征的数量,降低内存消耗
  • 直接支持类别特征

缺点:

  • 特征被离散化后,找到的不是很精确的分割点,有时会对结果产生影响,但这是一种防止过拟合
  • leaf-wise策略可能会过拟合
4.Stacking
  • 基本思想: 使用训练数据训练多个模型,然后将多个模型的训练结果作为特征,去训练第二层模型,最后输出结果
  • 第二层一般用比较简单的模型,防止模型过拟合。分类用逻辑回归,回归用线性回归

Stacking流程:

  • 以XGBoost举例,首先数据分为训练集和测试集。我们采用五折交叉验证的方式,将训练集分为五份,分别拿出其中的一折作为验证集,用于训练模型,同时每次训练好的模型在验证集部分的预测结果将作为最终在训练集上预测结果的1/5。五次组装起来就成了最终对训练集的预测结果。这将用于第二层模型的训练集的一个特征(一列),同时每次训练好的模型都会在测试集上预测,五次的平均值作为第二层模型测试集的一个特征(一列)
  • 其他的模型训练同上,最终第二层模型的训练集就是所有第一层模型训练集的预测结果(有几个模型就有几列)+训练集的真实标签,测试集就是所有第一层模型的测试集的预测结果拼接起来

Stacking优点

  • 提高模型预测精度: 通过组合多个模型的预测结果,可以获得更准确和稳定的预测结果。Stacking通常比单个模型更准确,因为它可以利用不同模型的优点。因为每个模型都可能注重于不同的特征,通过Stacking可以将这些特征都利用起来,效果可能更好,也有可能变差

  • 减少过拟合风险: 由于Stacking结合了多个模型的预测结果,它通常比单个模型更具有泛化能力,因此过拟合的风险更小

5.leaf-wise和level-wise的区别和特点
  • Level-wise:基于层进行生长,直到达到停止条件;
  • Leaf-wise:每次分裂增益最大的叶子节点,直到达到停止条件。

XGBoost 采用 Level-wise 的增长策略,方便并行计算每一层的分裂节点,提高了训练速度,但同时也因为节点增益过小增加了很多不必要的分裂,降低了计算量;LightGBM 采用 Leaf-wise 的增长策略减少了计算量,配合最大深度的限制防止过拟合,由于每次都需要计算增益最大的节点,所以无法并行分裂。

相关内容

热门资讯

雅江超级工程核心受益标的建材E... 受“雅江”1.2万亿超级工程利好催化,建材ETF(159745)今日开盘再度大涨近3%,昨日收盘也同...
刚一字涨停,又曝利好! 【导读】刚因雅下水电概念涨停,中国电建公告上半年水电新签合同额暴增66% 中国基金报记者 南深 7月...
银行板块短线跳水,厦门银行跌超... 银行板块短线跳水, 厦门银行跌超4%, 渝农商行跌超3%, 西安银行、 江苏银行、 重庆银行、 民生...
【网金基金研究中心】壹佰金每周... 壹佰金一周基金市场动态 1、核心资讯一览 Wind数据显示,截至7月18日17时,A股共有1540家...
1.25万亿份,净申购! 【导读】今年二季度基金整体净申购1.25万亿份,货基和债基为主力军 中国基金报记者 张燕北 公募二季...
骑士乳业及董事长党涌涛等被罚3... 具体来看,2024年,骑士乳业开展了豆粕、白糖、尿素等期货交易业务。截至2024年1月17日,骑士乳...
现货黄金突破3400美元关口 ... 财联社7月22日讯(编辑 牛占林)周一美盘交易时段,现货黄金突破3400美元/盎司,为6月17日以来...
摩根大通:人工智能和动量交易过... 市场中最具投机性的领域可能变得过于热门,且热度攀升速度过快。 摩根大通在周一发布的一份研究报告中警告...
“金融科技第一股”退市加速 记者丨曹媛 编辑丨孙超逸 “金融科技第一股”金融壹账通(6638.HK/OCFT.N)正加速退市。 ...
公募管理规模历史首破34万亿! 公募基金2025年二季报披露完毕。 天相投顾数据显示,公募基金二季度末管理规模历史首次超过34万亿元...
京东旗下首家自营外卖门店“七鲜... 观点网讯:7月21日消息,京东集团旗下首家自营外卖门店“七鲜小厨”已于7月20日在北京正式开业,标志...
企业居民融资成本处低位 7月L... 7月21日,中国人民银行授权全国银行间同业拆借中心公布,1年期贷款市场报价利率(LPR)为3.0%,...
港股“双重优势”吸引QDII基... 本报记者 彭衍菘 随着公募基金二季报陆续披露,QDII基金的区域配置策略调整引发市场关注。Wind资...
夯筑起应对复杂变局的坚实依托 安六高速铁路上的动车组列车驶过贵州省安顺市普定县化处镇。新华社记者 陶亮 摄 ...
“强实名”仍一票难求?遏制技术... 暑期来临,演唱会、音乐节、话剧等演出活动热度飙升。无论手速多快,总是一票难求,让众多消费者叫苦不迭。...
上证红利回报指数上涨0.83%... 金融界7月21日消息,上证指数高开高走,上证红利回报指数 (上红回报,H50019)上涨0.83%,...
为啥股票与基金的走势相反? 虚位以待! 平姐姐摄于毛里求斯网红酒店 昨天的文章,标题就很明确,那就是《准备出击》,在半年报不少上...
美加密货币相关法案落地引发三连... 当地时间7月18日,美国总统特朗普在白宫正式签署《指导与建立美国稳定币国家创新法案》(简称《天才法案...
股市必读:湖南黄金(00215... 截至2025年7月21日收盘,湖南黄金(002155)报收于18.33元,上涨2.57%,换手率3....
四川发布六大红色旅游新线路 四川发布六大红色旅游新线路 “锦绣天府·安逸四川”之红色旅游央地媒体联动采访启动 “锦绣天府·安...