AI取代人类从网购/刷短视频开始!CMU发布多模态Web Agent基准,让大模型冲浪比你还溜 AI取代人类从网购/刷短视频开始!CMU发布多模态Web Agent基准,让大模型冲浪比你还溜
admin
2024-02-11 14:35:29
0


新智元报道

编辑:alan

【新智元导读】大模型的新考验来了!近日,来自卡内基梅隆大学的研究人员发布了评估LLM多模态Web代理性能的基准测试。

大模型(LLM)的多模态和Agent能力被做成基准测试了!

以后哪个LLM再掌握不了多模态,干不了Agent,都不好意思出门了。

近日,来自卡内基梅隆大学(CMU)的研究人员发布了一个评估多模态Web代理性能的基准测试。


论文地址:https://arxiv.org/pdf/2401.13649.pdf

代码和任务集:https://github.com/web-arena-x/visualwebarena

多模态和代理都是AI的发展趋势,我们之前也报道过很多相关工作,

比如帮助人类处理网上购物、会议等日常任务,比如帮助人类考试「作弊」,还有近来风头正盛的AI机器人,也是人类在物理世界的代理。


而为了训练AI掌握这项能力,研究人员花费了很多心血,比如联合世界各地的著名实验室,共享机器人的训练和操作数据,比如开发了对应于真实世界的模拟器用来训练Agent。

而这次,CMU的研究人员带来了LLM的考试标准,VisualWebArena。

VisualWebArena由一组基于Web的多样化和复杂的任务组成,这些任务评估自主多模式代理的各种功能:


如上图所示,这个基准测试中引入了910个新任务,这些任务来自于分类广告、购物和Reddit网站上。

分类网站是一个新环境(具有真实世界的数据),而购物和Reddit网站与WebArena中使用的网站相同。

为了执行这个基准测试,代理(LLM)需要准确处理图像文本输入,解释自然语言指令,并在网站上执行操作以实现用户定义的目标。

比如在维基百科中搜索:


在Reddit上搜索、浏览和评论:


在交易网站上查阅和咨询想要购买的商品,同时小手一抖,给个五星:


比如一条龙完成线上购物:


新的基准测试引入的任务需要视觉理解,能够评估基于Web的环境中自主代理的视觉和推理技能。

为了评估VisualWebArena的性能,研究人员在WebArena的功能评估范式中引入了新的基于视觉的评估指标。


上图展示了几个评估示例,通过运行基于执行的测试,可以全面评估开放式视觉基础任务上代理轨迹的正确性。

受Set-of-Mark提示的启发,研究人员使用JavaScript自动注释网页上的每个可交互元素来执行初始预处理步骤,包含边界框和唯一ID。


如上图所示,使用包含边界框和ID的带注释屏幕截图,以及SoM的文本表示形式,作为多模态模型的输入。

下图的结果表明,SoM表示提高了可导航性,并在VisualWebArena上实现了更高的成功率。


研究人员对几个最先进的LLM和基于VLM提示的代理进行了基准测试,发现所有现有的模型都明显低于人类的表现。

尽管多模态模型通常会提高VisualWebArena的性能,但仍有很大的差距需要弥合。


VisualWebArena

为了确保可重复性、真实性和确定性,VisualWebArena框架中的所有网站都可作为独立的开源Web应用程序使用。

网站中可用的文本和视觉内容是从现实世界获取的,而代码则基于现实世界应用程序中常用的开源框架。

环境和智能体可以建模为部分可观察的马尔可夫决策过程(POMDP):E =(S,A,Ω,T),其中S表示状态集,A表示行动集,Ω表示观测值集。

转移函数定义为T:S × A → S,状态之间的确定性转换以动作为条件。在每个时间步骤t中,环境都处于某种状态s(比如特定页面),并具有部分观察o∈ Ω。

代理以o为条件发出操作a ∈ A,这将导致新状态s ∈ S,以及结果页面的新部分观察o ∈ Ω。

操作可以是在网页上执行的操作,也可以只是信息搜索任务的字符串输出。

最后,定义奖励函数R :S × A → {0, 1}来衡量任务执行的成功。在VisualWebArena中,如果状态转换与任务目标的期望一致(即目标已实现),则奖励函数在最后一步返回1,否则返回0。


比如在上图的第一个任务中,奖励函数评估订单是否正确下达到输入图像中提供的确切地址,并包含正确的项目。

观察空间

观察空间Ω以真实的Web浏览体验为模型。观察结果包括网页URL、打开的选项卡(可能是不同网站的多个选项卡)以及重点选项卡的网页内容。

在大约 25% 的任务中,目标也会涉及到图像(比如上图的第一个和第三个任务)

网页内容可以用几种不同的方式表示:

原始网页HTML作为文档对象模型(DOM)树,通常用于以前的自治Web代理工作。 网页截图,表示为RGB阵列,在之前的视觉代理工作中已经证明了有效性。 辅助功能树,提供了针对辅助技术优化的网页内容的结构化和简化表示,是WebArena用于其基线LLM代理的主要表示。 本文引入的一种新的视觉表示,灵感来自标记集(SoM)提示。对于网页上的每个可交互元素,用边界框和ID标记它,生成一个屏幕截图,允许可视化代理通过其唯一ID引用页面上的元素。
操作空间

下表总结了所有操作类型。操作的参数是当前观测值o中的唯一元素ID。


相比于预测(x, y)坐标,这种表示的一个优点是,它允许专注于高级推理而非低级控制,因为许多SOTA的VLM和LLM都没有经过明确训练,以如此精细的粒度引用元素。


对于具有可访问性树表示的代理,参数是树中的元素ID。对于SoM表示,使用当前页面中分配的唯一ID。

评估

为了评估VisualWebArena的性能,我们在WebArena的功能评估范式中引入了新的基于视觉的评估指标。这些使我们能够全面评估开放式视觉基础任务的执行轨迹的正确性。每个任务的奖励都是使用下面描述的基元手工设计的函数。


上表为分配奖励r(s,a)∈ R :S × A → {0, 1} 的各种评估指标。

基于执行的奖励原语使我们能够对多样化、现实和开放式的任务进行基准测试。

根据不同的任务场景,目标的评测可以是「完全匹配」、「必须包括」、「必须不包括」、或者「模糊匹配」。

人类表现

对比实验测量了7名大学生(熟悉网站的商业版本)在VisualWebArena任务上的成功率。

不过因为其中的一些人还协助创建了任务,为了避免数据泄露,这里确保他们不会被分配到自己创建的任务。

实验对每个模板一个任务进行采样,收集了具有代表性的230个任务。结果发现人类在这项任务上做得很好,总体成功率为88.7%。


而在剩下的11.3%的任务中,人类犯的错误通常是轻微的,例如没有正确阅读任务或错过了目标的一部分。

当然也有另一种失败模式,比如受试者在搜索5-10分钟后找不到合适的帖子并放弃,认为任务无法完成。

参考资料:

https://arxiv.org/abs/2401.13649

相关内容

热门资讯

消息称百度旗下昆仑芯瞄准500... 6 月 29 日消息,据《The Information》昨日援引知情人士消息,百度旗下 AI 芯片...
打造夏日消费新场景 第35届北... 北京商报讯(记者 翟枫瑞)6月29日消息,第35届北京国际燕京啤酒文化节新闻发布会在京举行。本届啤酒...
社保基金持仓数据出炉,一季度增... 最近各大上市公司一季度财报都公开了,咱们国家社保基金的持仓数据也全部曝光。目前社保拿着比亚迪价值44...
36氪首发 | 海思、中兴团队... 作者 | 乔钰杰 编辑 | 袁斯来 硬氪获悉,广州宸思通讯科技有限公司(以下简称“宸思科技”)近日完...
两天蒸发47亿市值!一纸税务通... 一纸税务通知书,能让一家百亿龙头两天蒸发47亿市值。 6月22日,北大荒(600598.SH)公告称...
SK海力士将投资1100万亿韩... SK集团会长崔泰源6月29日在韩国“三大重大计划”发布会上宣布,公司将投资1100万亿韩元扩大半导体...
两只A股,终止上市! 两家A股公司,即将摘牌。 6月29日,退市沪科(600608.SH)公告称,上海证券交易所将在202...
原创 M... 一家成立近十年的自动驾驶公司,在IPO时吸引了14家基石投资者认购近一半的发行股份,其中不乏奔驰、比...
基金忠言|国寿安保滤镜碎,三年... 图片来源:视觉中国 蓝鲸新闻6月29日讯(记者 祁和忠)保险系基金公司国寿安保总经理换人了。 6月2...
三星电机计划加码玻璃基板!相关... 6月29日,玻璃基板概念股午后有所回升, 华工科技(000988.SZ)逼近涨停, 彩虹股份(600...
拉萨海关持续壮大外贸经营主体 ...   新华网拉萨6月28日电(记者蒋梦辰)近日,记者从拉萨海关获悉,今年前5个月,西藏有进出口实绩的外...
机构:二季报临近,医药生物板块... 6月29日,华源证券发布了一篇医药生物行业的研究报告,报告指出,业绩期临近,产业链景气度有望再次迎来...
每日收评科创50放量涨超4.5... 财联社6月29日讯,三大指数全线收红,创业板指探底回升,科创50指数大涨4.61%。沪深两市成交额3...
6月多地土拍结构性升温:深圳单... 进入2026年6月,不少城市核心区地块集中诞生高溢价宗地,热度突出的城市包含深圳、杭州、长沙。 其中...
业绩炸裂!盛达资源半年预盈3.... 6月29日,贵金属矿山龙头盛达资源(000603.SZ)发布 2026 年半年度业绩预告,上半年业绩...
A股午后拉升三大股指收涨:半导... A股三大股指6月29日开盘涨跌互现。早盘沪强深弱,创指一度跌超2%。半导体午后拉升,带动两市上涨,沪...
原创 空... 前言 大家好,我是老金。 这几天,两幅极度割裂的画面放在一起,把我看笑了。 一边是在持续的热浪下,欧...
澳大利亚审慎监管局拟放宽银行风... 澳大利亚审慎监管局(APRA)6月29日就修改 银行信用风险资本设定公开征求意见,旨在加大信贷投放以...
全民炒股,急踩刹车!韩国股市突... 屈红燕/证券时报网 全民狂欢、交易高度拥挤、杠杆资金猛增、新入市投资者表现激进、大型IPO吸金等现象...