每日学术速递3.20
创始人
2025-05-31 04:00:37
0

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CL

1.ART: Automatic multi-step reasoning and tool-use for large language models

标题:ART:大型语言模型的自动多步推理和工具使用

作者:Bhargavi Paranjape, Scott Lundberg, Sameer Singh, Hannaneh Hajishirzi, Luke Zettlemoyer, Marco Tulio Ribeiro

文章链接:https://arxiv.org/abs/2303.09014

摘要:

        大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。我们介绍了自动推理和工具使用 (ART),这是一个使用冻结的 LLM 自动生成中间推理步骤作为程序的框架。给定一个要解决的新任务,ART 从任务库中选择多步推理和工具使用的演示。在测试时,只要调用外部工具,ART 就会无缝地暂停生成,并在恢复生成之前整合它们的输出。ART 在 BigBench 和 MMLU 基准测试中对未见任务的小样本提示和自动 CoT 进行了实质性改进,并且在大多数这些任务上与手工制作的 CoT 提示的性能相匹配。ART 也是可扩展的,并且使人类可以轻松地通过纠正特定任务程序中的错误或合并新工具来提高性能,我们通过在最少的人工干预下显着提高选定任务的性能来证明这一点。

Subjects: cs.LG

2.SemDeDup: Data-efficient learning at web-scale through semantic deduplication

标题:SemDeDup:通过语义重复数据删除进行网络规模的数据高效学习

作者:Amro Abbas, Kushal Tirumala, Dániel Simig, Surya Ganguli, Ari S. Morcos

文章链接:https://arxiv.org/abs/2303.09540

摘要:

        机器学习的进步在很大程度上是由数据的大量增加推动的。然而,像 LAION 这样的大型网络规模的数据集除了搜索精确的重复项外,基本上没有经过整理,可能会留下很多冗余。在这里,我们介绍 SemDeDup,这是一种利用预训练模型的嵌入来识别和删除语义重复项的方法:语义相似但不完全相同的数据对。删除语义重复项可以保持性能并加快学习速度。通过分析 LAION 的一个子集,我们表明 SemDeDup 可以删除 50% 的数据,而性能损失最小,从而有效地将训练时间减半。此外,性能会因分布而增加。此外,通过分析在 C4(部分精选的数据集)上训练的语言模型,我们表明 SemDeDup 比之前的方法有所改进,同时提供了效率提升。SemDeDup 提供了一个示例,说明如何使用利用质量嵌入的简单方法来使模型用更少的数据更快地学习。

Subjects: cs.CV

3.Efficient Diffusion Training via Min-SNR Weighting Strategy

标题:通过 Min-SNR 加权策略进行有效的扩散训练

作者:Tiankai Hang, Shuyang Gu, Chen Li, Jianmin Bao, Dong Chen, Han Hu, Xin Geng, Baining Guo

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://github.com/ysig/learnable-typewriter

摘要:

        去噪扩散模型一直是图像生成的主流方法,但是,训练这些模型通常会收敛缓慢。在本文中,我们发现缓慢收敛的部分原因是时间步之间的优化方向相互冲突。为了解决这个问题,我们将扩散训练视为一个多任务学习问题,并引入了一种简单而有效的方法,称为 Min-SNR- γ 。该方法根据钳位信噪比调整时间步长的损失权重,有效地平衡了时间步长之间的冲突。我们的结果表明收敛速度有了显着提高,比以前的加权策略快 3.4 倍 。它也更有效,使用比以前最先进的架构更小的架构在 ImageNet 256×256 基准测试中取得了 2.06 的新纪录 FID 分数。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

相关内容

热门资讯

走进小城看消费丨江西资溪:低碳...   夏日时节下午4点,江西省抚州市资溪县大觉山景区漂流终点依然热闹。来自南昌的游客余鑫漂流结束后没有...
【中原晨会0625】市场分析专... 来源:市场资讯 (来源:中原证券研究所) 本期重点研报目录 【中原策略】市场分析:电子半导体领涨 ...
南向资金连买4日!低费率+可月... 6月25日早盘,港股红利资产震荡整理。截至11时14分,港股红利低波ETF招商(520550)下跌0...
618成交破百万!紫荆花用一套... 一年一度的618年中大促,是消费市场的晴雨表,也是品牌间最激烈的角力场。当各大品牌在直播间里铆足了劲...
原创 黄... 2026年6月25日的国际金价已经从前期的5500美元高点跌到4200美元下方,累计跌幅超过22%,...
英伟达CEO:Vera Rub... 截至9:38,中证半导体材料设备主题指数(931743)涨2.36%创新高;权重股中,中微公司涨3....
再被催债16亿!“钢铁大王”戴... 澎湃新闻记者 贺梨萍 因“铁本事件”入狱五年的戴国芳重返钢铁行业,但他并没有完成从阶下囚再到“钢铁大...
周三原油价格下跌 随着美国和伊朗在和平谈判中取得进展,越来越多的油轮公开穿越霍尔木兹海峡,原油在战时的价格上涨已经蒸发...
这种蛋白是大脑衰老的开关 这种蛋白是大脑衰老的开关 清晨,假设一位五十岁左右的王女士发现自己常常把手机放在熟悉的抽屉里又找不到...
信通院牵头算力Token出海生... 盘面上,截至11:04,中证科创创业50指数(931643)涨1.68%,创历史新高;权重股中,芯原...
海外 774 亿营收背后:日本... 文 | 游戏价值论 6月23日,彭博社报道了腾讯正在围绕出售多家日本游戏工作室少数股权开展谈判,包...
餐饮“抢人”大战:把店开到公交... 作者 |餐饮老板内参 内参君 医院、公交站、演唱会…餐饮品牌,正在无孔不入 在北京儿童医院,肯德基...
快讯 | 外资扫货!陈翊庭:港... 港交所行政总裁陈翊庭在接受《中国证券报》专访时指出,国际资本对中国资产的看法已彻底扭转,布局中国市场...
2777.77元!A股“股王”... 25日早盘,昨天创下历史新高的A股“股王”联讯仪器,今天上午继续走强,盘中股价再度刷新历史新高。 截...
原创 今... 欧洲自己的媒体直接下结论,欧盟衰退躲不掉,内部分裂拦不住,现在就连欧洲顶尖工业巨头,都偷偷在用中国的...
黄仁勋股东大会放言:本轮AI基... 在当地时间6月24日的英伟达(NVDA.O)2026年度股东大会上,股东批准了该公司全部10名董事会...
国际油价大跌 新华社消息, 纽约原油期货主力合约价格24日盘中跌破每桶70美元,为伊朗战事爆发以来首次。 市场分析...
马云带队插秧,什么信号? 一场别开生面的“务农”,让外界看到了一个不一样的阿里巴巴。 近日,阿里巴巴合伙人、高德董事长刘振飞在...
全球最大产能,最高丰度达99.... 本文转自【科技日报】; 6月23日,高丰度硼-10同位素技术暨产业化成果发布会在山东省东营市举办,全...
黄金大跳水!金饰克价年内暴跌近... 25日,现货黄金盘中震荡,截至发稿,报3985.070美元/盎司,跌0.17%。 当地时间24日,...