刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习 刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
admin
2024-03-15 15:24:46
0


新智元报道

编辑:LRS

【新智元导读】StepCoder将长序列代码生成任务分解为代码完成子任务课程来缓解强化学习探索难题,对未执行的代码段以细粒度优化;还开源了可用于强化学习训练的APPS+数据集。

大型语言模型(LLMs)的发展极大地推动了代码生成领域的发展,之前有工作将强化学习(RL)与编译器的反馈信号集成在一起,用于探索LLMs的输出空间,以提高代码生成质量。

但当下还存在两个问题:

1. 强化学习探索很难直接适配到「复杂的人类需求」,即要求LLMs生成「长序列代码」;

2. 由于单元测试可能无法覆盖复杂的代码,因此使用未执行的代码片段来优化LLMs是无效的。

为了解决这些挑战,复旦大学、华中科技大学、皇家理工学院的研究人员提出了一种用于代码生成的新型强化学习框架StepCoder,由两个主要组件组成:

1. CCCS通过将长序列代码生成任务分解为代码完成子任务课程来解决探索挑战;

2. FGO通过屏蔽未执行的代码段来优化模型,以提供细粒度优化。


论文链接:https://arxiv.org/pdf/2402.01391.pdf

项目链接:https://github.com/Ablustrund/APPS_Plus

研究人员还构建了用于强化学习训练的APPS+数据集,手动验证以确保单元测试的正确性。

实验结果表明,该方法提高了探索输出空间的能力,并在相应的基准测试中优于最先进的方法。

StepCoder

在代码生成过程中,普通的强化学习探索(exploration)很难处理「奖励稀疏且延迟的环境」和涉及「长序列的复杂需求」。


在CCCS(Curriculum of Code Completion Subtasks)阶段,研究人员将复杂的探索问题分解为一系列子任务。利用标准解(canonical solution)的一部分作为提示(prompt),LLM可以从简单序列开始探索。

奖励的计算只与可执行的代码片段相关,因此用整个代码(图中红色部分)来优化LLM是不精确的(图中灰色部分)。

在FGO(Fine-Grained Optimization)阶段,研究人员对单元测试中未执行的tokens(红色部分)进行遮罩,只使用已执行的tokens(绿色部分)计算损失函数,从而可以提供细粒度的优化。

预备知识

假定是用于代码生成的训练数据集,其中x、y、u分别表示人类需求(即任务描述)、标准解和单元测试样本。

是通过自动分析标准解yi的抽象语法树得出的条件语句列表,其中st和en分别表示语句的起始位置和结束位置。

对于人类需求x,其标准解y可表示为;在代码生成阶段,给定人类需求x,最终状态是通过单元测试u的代码集合。

方法细节

StepCoder集成了两个关键组件:CCCS和FGO,其中CCCS的目的是将代码生成任务分解为代码完成子任务的课程,可以减轻RL中的探索挑战;FGO专为代码生成任务而设计,通过只计算已执行代码片段的损失来提供细粒度优化。

CCCS

在代码生成过程中,要解决复杂的人类需求,通常需要策略模型采取较长的动作序列。同时,编译器的反馈是延迟和稀疏的,也就是说,策略模型只有在生成整个代码后才会收到奖励。在这种情况下,探索非常困难。

该方法的核心是将这样一长串探索问题分解为一系列简短、易于探索的子任务,研究人员将代码生成简化为代码补全子任务,其中子任务由训练数据集中的典型解决方案自动构建。

对于人类需求x,在CCCS的早期训练阶段,探索的起点s*是最终状态附近的状态。

具体来说,研究人员提供人类需求x和标准解的前半部分,并训练策略模型来根据x'=(x, xp)完成代码。

假定y^是xp和输出轨迹τ的组合序列,即yˆ=(xp,τ),奖励模型根据以y^为输入的代码片段τ的正确性提供奖励r。


研究人员使用近端策略优化(PPO)算法,通过利用奖励r和轨迹τ来优化策略模型πθ 。

在优化阶段,用于提供提示的规范解代码段xp将被屏蔽,这样它就不会对策略模型πθ更新的梯度产生影响。

CCCS通过最大化反对函数来优化策略模型πθ,其中π^ref是PPO中的参考模型,由SFT模型初始化。


随着训练的进行,探索的起点s*会逐渐向标准解的起点移动,具体来说,为每个训练样本设置一个阈值ρ,每当πθ生成的代码段的累计正确率大于ρ时,就将starting point向beginning移动。

在训练的后期阶段,该方法的探索过程等同于原始强化学习的探索过程,即s*=0,策略模型仅以人类需求为输入生成代码。

在条件语句的起始位置对初识点s*进行采样,以完成剩余的未写代码段。

具体来说,条件语句越多,程序的独立路径就越多,逻辑复杂度也就越高,复杂性要求更频繁地采样以提高训练质量,而条件语句较少的程序则不需要那么频繁地采样。

这种采样方法可以均衡地抽取具有代表性的代码结构,同时兼顾训练数据集中复杂和简单的语义结构。

为了加速训练阶段,研究人员将第i个样本的课程数量设置为,其中Ei是其条件语句的数量。第i个样本的训练课程跨度为,而不是1。

CCCS的主要观点可归纳如下:

1. 从接近目标的状态(即最终状态)开始探索很容易;

2. 从距离目标较远的状态开始探索具有挑战性,但如果能利用已经学会如何达到目标的状态,探索就会变得容易。

FGO

代码生成中奖励与行动之间的关系不同于其他强化学习任务(如Atari),在代码生成中,可以排除一组与计算生成代码中的奖励无关的动作。

具体来说,对于单元测试,编译器的反馈只与执行的代码片段,然而,在普通RL优化目标中,轨迹上的所有动作都会参与到梯度计算中,而梯度计算是不精确的。

为了提高优化精度,研究人员屏蔽了单元测试中未执行的行动(即tokens),策略模型的损失。


实验部分

APPS+数据集

强化学习需要大量高质量的训练数据,在调研过程中,研究人员发现在目前可用的开源数据集中,只有APPS符合这一要求。

但APPS中存在一些不正确的实例,例如缺少输入、输出或标准解,其中标准解可能无法编译或无法执行,或者执行输出存在差异。

为了完善APPS数据集,研究人员过滤掉了缺少输入、输出或标准解的实例,然后对输入和输出的格式进行了标准化,以方便单元测试的执行和比较;然后对每个实例进行了单元测试和人工分析,剔除了代码不完整或不相关、语法错误、API误用或缺少库依赖关系的实例。

对于输出中的差异,研究人员会手动审核问题描述,纠正预期输出或消除实例。

最后构建了得到APPS+数据集,包含了7456个实例,每个实例包括编程问题描述、标准解决方案、函数名称、单元测试(即输入和输出)和启动代码(即标准解决方案的开头部分)。


实验结果

为了评估其他LLM和StepCoder在代码生成方面的性能,研究人员在APPS+数据集上进行了实验。

结果表明,基于RL的模型优于其他语言模型,包括基础模型和SFT模型。


研究人员有理由推断,强化学习可以在编译器反馈的指导下,更有效地浏览模型的输出空间,从而进一步提高代码生成的质量。

此外,StepCoder超越了所有基线模型,包括其他基于RL的方法,获得了最高分。

具体来说,该方法在「入门」(Introductory)、「面试」(Interview)和「竞赛」(Competition)级别的测试题目中分别获得了59.7%、23.5%和 8.6%的高分。

与其他基于强化学习的方法相比,该方法通过将复杂的代码生成任务简化为代码完成子任务,在探索输出空间方面表现出色,并且FGO过程在精确优化策略模型方面发挥了关键作用。

还可以发现,在基于相同架构网络的APPS+数据集上,StepCoder的性能优于对微调进行有监督的LLM;与骨干网相比,后者几乎没有提高生成代码的通过率,这也直接表明,使用编译器反馈优化模型的方法比代码生成中的下一个token预测更能提高生成代码的质量。

参考资料:

https://arxiv.org/pdf/2402.01391.pdf

相关内容

热门资讯

建设银行[601939]日常公... 本版导读 2026-02-28 2026-02-28 2026-02-28 2026...
国际油价27日上涨 △资料图 国际油价27日上涨。截至当天收盘,纽约商品交易所4月交货的轻质原油期货价格上涨1.81美元...
深夜,全线大涨!中东局势,骤然... 中东紧张局势骤然升级。 今日晚间,国际黄金、白银、原油价格全线大涨,现货白银大涨超4%,WTI原油、...
*ST东易:公司及管理人已完成... 有投资者向*ST东易(002713.SZ)提问,贵公司的债转股的全部完成了吗? 2月27日,公司回答...
26日起登记领取国投白银LOF... 愉记早前专栏追踪了《国投瑞银白银 LOF 风波:当“程序正确”撞上信任危机》,我们后台收到了百余条留...
GLP-1药物广告为何应重视音... 引言 近年来,随着人们对健康管理的重视,GLP-1类药物逐渐成为糖尿病和肥胖症治疗的热门选择。然而,...
马年新春鄂州城区三大地标联动点... 马年春节假期,南浦路、庾楼、武昌门三大文旅地标联动推出特色新春活动,通过线上线下同频发力、多点联动,...
加拿大第四季度GDP萎缩0.6... 来源:环球市场播报 加拿大经济年末表现趋弱,企业库存大幅下降,推动第四季度实际国内生产总值(GDP)...
原创 美... 美国海关这次突然宣布取消对中国商品的部分关税,你说,这到底是他们为了谁? 是为了美国老百姓,还是为了...
臻宝科技科创板IPO将于3月5... 北京商报讯(记者 马换换 李佳雪)2月27日晚间,上交所官网显示,重庆臻宝科技股份有限公司(以下简称...
【加密货币支持的规则扩大信托银... 【加密货币支持的规则扩大信托银行服务获得美国最终批准】美国银行业监管机构正在扩大贷款机构在国家信托牌...
覆铜板量价齐升 生益科技202... 面对每天上千份上市公司公告该看哪些?重大事项公告动辄几十页几百页重点是啥?公告里一堆专业术语不知道算...
3 个穴位,调帕金森,不费力也... 3 个穴位,调帕金森,不费力也不花钱。只要你手抖、肢体僵硬、走路不稳的时候,按这 3 个穴位,就能舒...
“以租代买”为何受青睐?“万物... 最近一段时间,在最长春节假期的带动下,我国的消费市场活力十足。然而,在“买买买”之外,也有些人把“租...
新一批香港互认基金获批 【导读】新一批香港互认基金获批 中国基金报记者 格林 中国基金报记者获悉,摩根亚洲股票高息基金、富达...
春节假期产销两旺 “白沙好物”... 2月27日,记者从白沙电商中心获悉,今年春节假期,在浓厚的节日消费氛围带动下,“白沙好物”市场持续火...
损失4万5,和解金4100多,... 【文/羽扇观金工作室 陶立烽】 损失将近4万5,和解金才4100多,亏的越多补偿越少?国投瑞银白银...
雷军直播新一代SU7门把手:增... 红星资本局2月28日消息 2月27日,小米创办人、董事长兼CEO雷军在小米汽车工厂里进行直播,与多位...
迎接50万亿存款迁徙|搬家的钱... 开栏语:一场规模高达50万亿的存款迁徙正蓄势待发。站在财富配置的历史拐点,如何审视这波天量资金的洪流...
大连航天医院费用公开透明|下肢... 大连航天医院静脉曲张专科学科带头人杨红东:下肢静脉曲张在人群中发病率大概在7%左右。下肢静脉曲张最主...