GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动 gpt-4v能力 gpt-4多强
admin
2024-02-12 18:01:19
0


新智元报道

编辑:桃子

【新智元导读】最近,UIUC苹果华人提出了一个通用智能体框架CodeAct,通过Python代码统一LLM智能体的行动。

一直以来,LLM智能体被众多业界AI大佬看好,甚至有望成为将人类从琐碎工作中解放出来的利器。

但是,它们该如何与世界进行最佳互动?

最近,来自UIUC和苹果的华人研究员,提出了一种全新的智能体框架——CodeAct。

它通过采用可执行的Python代码,来统一LLM智能体的行动。


论文地址:https://arxiv.org/pdf/2402.01030.pdf

与多数现有的LLM智能体不同的是,CodeAct的突出之处在于:能够充分利用现有LLM对代码数据的预训练,以实现低成本高效的采用。

而且本质上可以通过控制和数据流支持复杂的操作,还可以使用广泛的软件包来扩展行动空间和自动反馈。

对此,作者还构建了一个CodeActAgent工具,在Mistral 7B模型之上搭建,能够通过对话完成代码任务。

比如,「你能创建100个随机数据点(每个数据点的维度为 2)并创建散点图吗?运行 k-means 对它们进行聚类并可视化」。


让LLM成为最优智能体

当允许访问API的行动模块进行增强时,LLM的行动空间可以扩展到传统的文本处理之外。

从而让LLM获得工具调用和内存管理等功能,并冒险进入现实世界的任务,例如控制机器人并进行科学实验 。

那么,如何有效拓展LLM智能体解决复杂现实问题的行动空间?


如下图1左上,许多现有研究已经检验了使用文本,或JSON来生成行动。

然而,这两种方法通常都受到行动空间范围的限制(行动通常是针对特定任务定制的)和灵活性有限(例如无法在单个行动中组合多个工具)。

另外一些研究展示了,使用LLM生成代码来控制机器人或游戏角色的潜力。

然而,它们通常依赖于预先指定的控制原语和手工设计的提示,更重要的是,它们很难根据新的环境观察和反馈动态调整或发出行动。


对此,这项研究提出了一个通用框架CodeAct,允许LLM生成可执行的Python代码作为行动(图1右上)。

CodeAct旨在处理各种应用程序,并具有独特的优势:

(1) CodeAct与Python解释器集成,可以执行代码行动,并动态调整先前的行动,或根据通过多轮交互(代码执行)收到的观察结果发出新行动。

(2) 代码行动允许LLM利用现有软件包。CodeAct可以使用现成的Python包来扩展行动空间,而不是手工制作的特定于任务的工具。它还允许大模型使用大多数软件中实现的自动反馈(例如错误消息),通过自我调试其生成的代码来改进任务解决。

(3) 代码数据广泛应用于当今大模型的预训练中。这些模型已经熟悉结构化编程语言,因此可以经济高效地采用 CodeAct。

(4) 与JSON和预定义格式的文本相比,代码本质上支持控制和数据流,允许将中间结果存储为变量以供重用,并用一段代码允许组合多个工具来执行复杂的逻辑操作(例如,if-语句、for循环),从而释放大模型预训练的编程知识来处理复杂任务的潜力。

在图1中,使用CodeAct(右上角)的法学硕士可以通过for循环将相同的工具序列应用到所有输入,只需一个行动。而文本或JSON必须对每个输入采取行动。

CodeAct框架

在图2中,首先介绍了LLM智能体在现实世界中使用的一般多轮交互框架,该框架考虑了三个角色:

智能体、用户、环境。

研究人员将交互定义为智能体与外部实体(用户或环境)之间的信息交换。

在每一轮交互中,智能体从用户(如自然语言指令)或环境(如代码执行结果)接收观察结果(输入),通过思维链(CoT)选择性地规划其行动,并以自然语言或环境向用户发出行动(输出)。

CodeAct采用Python代码来整合智能体与环境交互的所有操作。

在CodeAct中,向环境发出的每个动作都是一段Python代码,而智能体将收到代码执行的输出(如结果、错误)作为观察结果。


CodeAct作为强大工具使用框架的前景

研究中,作者进行了一项对照实验,以了解哪种格式(文本、JSON、CodeAct)更有可能引导LLM生成正确的原子工具调用。

本实验的表现,反映了LLM对相应格式的熟悉程度。

研究人员假设使用CodeAct调用工具是为模型使用工具的更自然的方式,模型通常在训练期间广泛接触代码数据。

对于大多数LLM,即使在其控制和数据流强度被削弱的原子操作(简单化的工具使用场景)中,CodeAc也能实现相当或更好的性能。

与闭源LLM相比,CodeAct的改进在开源模型中更为突出。

此外,对于微调开源LLM来说,代码数据通常比专门JSON或文本工具调用格式更容易访问。尽管JSON始终弱于其他开源模型方法,但它在闭源LLM中实现了不错的性能,这表明这些闭源模型可能已经针对其JSON功能进行了有针对性的微调。

这些结果表明,对于开源大模型来说,针对CodeAct进行优化是比其他方法更好的途径来提高其工具使用能力,因为由于在预训练期间广泛接触代码数据,它们已经表现出了良好的初始CodeAct能力。

CodeAct以更少的交互完成更多工作

除此之外,作者研究了LLM智能体是否可以,从需要复杂工具使用模式的问题上的代码控制和数据流中受益。

这里,研究人员策划了一个基准来评估LLM解决通常需要多次调用多个工具的复杂任务的能力。

作者在表3中列出了全部结果,在图1中列出了可视化结果子集。

CodeAct通常具有更高的任务成功率(17个已评估LLM中有12个)。此外,使用CodeAct执行任务所需的平均交互轮数也较低。

比如,与次佳操作格式(文本)相比,最佳模型gpt-4-1106-preview实现了20.7%的绝对改进,同时平均减少了2.1个交互回合。

然而,就CodeAct的绝对性能而言,开源和闭源LLM之间仍存在显著差距,最佳开源模型的绝对性能提高了13.4%,而最佳闭源模型gpt-4-1106-preview的绝对性能提高了74.4%。

这可能是由于开源模型的任务解决能力较弱,无法在没有演示的情况下遵循复杂指令,这表明迫切需要改进开源 LLM,以在零样本设置下完成实际任务。


CodeAct受益于多轮交互和现有软件包

研究人员还展示了LLM智能体如何与Python集成,并使用现有软件在多轮交互中执行复杂的任务。

得益于在预训练期间学到的丰富的Python知识,LLM智能体可以自动导入正确的Python库来解决任务,而不需要用户提供的工具或演示。

如图3所示,CodeActAgent可以使用Pandas下载和处理表格数据,使用Scikit-Learn进行机器学习训练-测试数据分割和回归模型训练,并使用Matplotlib用于数据可视化。

此外,使用交互式Python解释器执行代码可以自动显示错误消息,帮助LLM智能体在多轮交互中「自我调试」其操作,并最终正确完成人类用户的请求。


构建开源LLM智能体

CodeAct所展示潜力的结果,激励研究人员构建一个开源的LLM智能体,可以通过CodeAct与环境交互,又可以使用语言与人类进行交流。

为了提高开源LLM的CodeAct能力,作者介绍了CodeActInstruct,这是一个包含智能体与环境交互轨迹的指令微调数据集。

如表4,是CodeActInstruct的数据组成,以及与先前工作的对比。


接下来,研究人员对Llama-2 7B和Mistral 7B的CodeActInstruct和一般对话进行了微调,进而获得CodeActAgent

CodeActAgent在CodeAct任务中表现出色。

如表5所示,CodeActAgent(两种变体)在MINT的域内和域外子集上都比所有评估的开源LLM表现更好。

在上,作者发现CodeActAgent(Mistral)的性能优于类似规模(7B和13B)的开源LLM,甚至达到了与70B模型相似的性能。

令人惊讶的是,Llama-2变体没有观察到任何改进。

CodeActAgent概括为文本操作。

当对域外文本操作进行评估时,从未针对文本操作进行过优化的CodeActAgent (LLaMA2, 7B) 实现了与对文本操作进行显式调整的AgentLM-7B相当的性能。

在表5中,还发现CodeActAgent保持或提高了一般LLM任务的性能。

在表 5 中,研究人员还发现CodeActAgent(两个变体)在测试的一般LLM任务中表现更好,除了CodeActAgent(Mistral-7B)在MMLU上略有下降。


参考资料:

https://twitter.com/xingyaow_/status/1754556835703751087

相关内容

热门资讯

原创 中... 很多人可能到现在都没意识到,中国刚刚悄无声息地做了一件大事——我们彻底停止了从俄罗斯进口电力。 你没...
“五个最”战略 仁怀的底气和路... 当下,白酒行业正经历深度调整期,市场从“增量共享”转向“存量博弈”,产区间的系统性竞争日趋白热化。作...
A股发展能力百强榜出炉,谁是未... 如果说规模实力决定企业的当下地位,那么发展能力就决定了它的未来高度。 在资本市场,增长可以靠并购短期...
操纵股票被罚10亿,“超级牛散... 雷达财经出品 文|丁禹 编|孟帅 开年尚不足一月,证监会便开出了2026年的首张“罚单”。当事人余韩...
首进华南三店齐开!盒马“平价超... 1月23日早上,东莞大朗镇松佛路与长富西路交会处的超盒算NB卓为城店还未到8点营业时间,门口已排起数...
十大券商看后市|A股上涨惯性有... 进入1月最后一个交易周,A股行情将作何表现? 澎湃新闻搜集了10家券商的观点,大部分券商认为,虽然行...
非遗赋能新消费 国货品牌探索“... 人民网北京1月26日电 (记者焦磊)当前,我国经济正由高速增长阶段转向高质量发展阶段,消费作为经济增...
太惨了!新股上市一年多从361... 2024年9月26日,无线传媒(301551)带着9.40元的发行价登陆创业板,谁也没想到这只看似普...
突发疫情!印度,尼帕病毒突袭!... 医药股,集体异动! 今日(1月26日)午后,医药股大幅走强,生物疫苗、体外诊断、肝炎等方向领涨。其中...
我市多措并举助推电商产业“加速... 1月22日,记者从市商务局获悉,2025年我市电商产业保持快速发展态势,直播经济成为拉动消费、推广特...
A股表现分化,6只基金单日涨超... 1月26日,市场全天震荡调整,大小指数分化明显,深成指、创业板指高开低走,盘中均跌超1%。板块来看,...
港股风向标|恒指于27000点... 财联社1月26日讯(编辑 冯轶)今日港股三大指数走势分化,整体呈现震荡走势。截至收盘,恒指小幅上涨0...
和讯投顾金永虎:1.26盘前思... 从周末的消息来看,市场确实有不少利好因素,尤其是在商业航天、太空光伏、AI 应用、机器人以及存储芯片...
大连4家私募基金2025年已被... 2026年1月7日,大连证监局在官方网站上公示出4家2025年度已被注销的私募基金管理人名单。大连证...
豪掷10亿元红包!马化腾,最新... 马化腾在腾讯2026年员工大会上最新发声,透露AI和社交新打法。 1月26日,在腾讯2026年员工大...
特朗普抵京前,美国先通知中国,... 美国这波操作,真是有些耐人寻味。特朗普虽然人未到,话却先甩了出来,表示不打算讨论技术竞争和稀土供应链...
被曝坚果礼盒中坚果占比不到4%... 近日,有网友发帖称,百草味售卖的一款价格为32.9元的坚果礼盒,重量为958克,但是其中饮料坚果乳重...
现货黄金冲破5000美元/盎司... 数据来源:Wind,截至2026/1/26 下午14:15 现货黄金价格首次突破5100美元/盎司整...
洛阳钼业收购金矿项目完成交割,... 来源:证券时报e公司 洛阳钼业(603993)1月25日晚公告,公司此前曾披露通过控股子公司收购加拿...
【社论】从离境退税激增看中国消... 国家税务总局近日公布的数据显示,2025年办理离境退税的境外旅客数量同比激增305%,退税商品销售额...