向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了 向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了
admin
2024-03-13 15:53:07
0

机器之心发布

机器之心编辑部



Video: Cradle从头开始完成主线任务

视频链接:https://mp.weixin.qq.com/s/q_lgeiXFzTU4WEt9wpUG3w

通用计算机控制

信息革命产生了数字世界,数字世界为大模型的诞生提供了数据,也最容易实现通用人工智能(AGI)。



向数字世界 AGI 迈进,北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制 General Computer Control (GCC),即智能体需要像人一样看屏幕,通过键盘、鼠标完成计算机上的所有任务。在过去很长一段时间里,人工智能研究以游戏为场景,而 GCC 将为通用人工智能研究提供场景,也将进一步促进大模型和 AI Agents 的落地与产业化。

为此,研究团队提出通用计算机控制智能体框架 Cradle,使智能体不依赖任何内部 API 直接控制键盘、鼠标和任何软件交互,无论开源还是闭源,甚至能玩《荒野大镖客 2》这样的商业 3A 游戏大作!



论文标题:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study论文链接:https://arxiv.org/abs/2403.03186项目主页:https://baai-agents.github.io/Cradle/代码链接:https://github.com/BAAI-Agents/Cradle

随着大模型的发展,越来越多的智能体(AI Agents)研究关注计算机控制,包括浏览网页、操作智能手机、玩游戏等。然而,已有研究依赖内部 API 获取输入,并输出预先定义好的动作。要构建能完成计算机上一切任务的通用智能体,必须使用最通用和最标准的输入输出与计算机进行交互。因此,通用计算机控制使用统一的输入和输出,从而让智能体的通用性变为可能。

但通用性带来了操作上的难度:(1)使用计算机屏幕作为输入对智能体的视频理解能力提出了更高的要求,例如由于没有内部 API,需要通过视觉信息判断动作是否执行成功;(2)使用键盘和鼠标操作作为输出使得智能体需要更高的时空操作精度,比如键盘按键和鼠标点击通常额外涉及时间维度。如何解决这些难题是构建通用计算机控制智能体 (GCC Agents)的挑战!

Cradle:操控一切软件



「计算机指任何以用户为中心的计算设备,包括 PC、智能手机和平板电脑等。尽管 Cradle 着重于键盘和鼠标操作,但可以很容易扩展到控制手柄和触摸屏等」

通用计算机控制智能体框架 Cradle 主要由 6 个模块组成:信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块。Cradle 高度的通用性来源于其对和计算机交互过程中的原始输入输出的合理封装和抽象。以从屏幕中显示的视频作为输入,提取其中的文本和视觉信息进行决策,并且输出底层操作系统中控制键盘和鼠标的信号去和计算机交互,使得其可以不依赖于任何假设与所有软件进行交互。



「Cradle 主要由信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块等 6 个模块组成,其强大的决策推理来自于 “反思过去,总结现在,规划未来”」

同时 Cradle 强大的决策推理模块让其得以自发和软件进行交互并且完成任务,这个过程可以被简单地总结为:反思过去,总结现在,规划未来

反思过去:使用执行过往动作过程的视频作为输入,分别提取出其中关键的文本和视觉信息,通过反思来判断上一步动作是否执行成功、任务是否完成以及如何改进。总结现在:反思完之后,总结当前情况,并且以此为依据来决定是否更换任务目标或是修改任务内容。规划未来:最后根据当前任务和现状生成或者更新技能,并且从已学会的技能中检索与当前任务相关的技能作为备选,然后从中选取合适的技能实例化为动作去执行。

在决策推理的同时,Cradle 会周期性地总结和维护储存在情境记忆中的历史信息以及储存在长期记忆中的技能。这一过程的大脑是多模态大模型,如 GPT-4V,但是 Cradle 为其添加了总结、反思以及记忆等功能,形成了完整的面向通用计算机控制的智能体框架,有效解决了通用性所带来的难题。

Cradle:带你从头开始探索《荒野大镖客 2》

为了证明框架的通用性和强大的决策能力,研究团队选择将 Cradle 部署到最为困难以及鲜有人探索的的商业 3A 游戏大作《荒野大镖客 2》。他们认为作为操作最为困难的软件,假如 Cradle 能够在 3A 游戏上自由探索甚至完成主线剧情,那么说明该框架有巨大潜力泛化到其他游戏和软件上。



「与 Minecraft 这样的开源游戏不同,大多数商业游戏特别是 3A 游戏并不提供内部 API 接口,使得类似 Voyager 这样的依赖内部 API 获取输入并输出预定义动作的框架无法迁移到其他游戏中」

以 GPT-4V 为基础,Cradle 能直接根据游戏内的提示和教程生成对应的可执行代码作为技能,一步步丰富自己的技能库, 并在之后的游戏中重复使用这些技能。



在执行了错误动作之后,Cradle 能够有效地通过反思来发现并且纠正错误。



Cradle 不仅能从头开始跟随游戏指引生成相应技能,完成长达 40 分钟时的主线剧情,还能在开放世界自由探索,骑马,打猎,战斗,与 NPC 对话,使用道具,操作地图,甚至商店购物,均不在话下。这是首个能长时间游玩商业 3A 游戏的智能体。





结束语

开源的 Cradle 代码可以很容易扩展到其他软件和游戏。研究团队表示,为了能够实现真正的通用计算机控制,后续 Cradle 还将移植到更多软件和游戏上,也鼓励相关研究团队 / 工业界开展进一步研究与探索。目标是让智能体可以与无论是开源还是闭源的所有软件进行交互并持续自我提升,实现通用性,最终成为通用人工智能诞生的摇篮。

"GCC is a cradle for AGI."

相关内容

热门资讯

卷入“关联交易”风波,陆金所换... 作者 |付影 来源 | 独角金融 正处于“多事之春”的陆金所控股(6623.HK;LU.US),再现...
珠海华润银行更名为广东华润银行... 珠海华润银行完成更名。 2月28日,珠海华润银行(下称华润银行)发布公告称,根据该行董事会、股东大会...
五粮液一把手被查,离退休仅两年 来源:21世纪经济报道 记者丨肖夏 编辑丨高梦阳 朱益民 刘雪莹 央视新闻2月28日晚间披露,四川省...
佛山综保区有了“国际驿站” 2月28日,佛山综合保税区管理局与佛山市贸促会(佛山国际商会)展开交流并进行签约,由佛山市贸促会(佛...
微软与OpenAI重申合作:相... 来源:环球网 【环球网科技综合报道】2月28日消息,据多家外媒报道,融资消息曝出后,微软与Open...
供给趋紧需求爆发 小金属上演“... 本报记者 李立平 近日,素有“工业维生素”之称的小金属板块,成为资金追捧的焦点。2月27日,小金属板...
险资开年调研1319次,覆盖4... 图源:图虫创意 2026年以来,保险资金调研热情持续高涨,成为A股市场的重要风向标。 时代周报记者据...
原创 丑... 特朗普访华前夕,中国警告美国不要挑事。美国当地时间2月24日,美国贸易代表格里尔在接受媒体采访时,公...
老铺黄金只剩“铺”了?记者实探... 来源:21金融圈 2月28日,现货黄金一度攀升至5278美元/盎司,多家品牌金饰价格应声突破1600...
“大病保险”怎么报?看这篇→ 遭遇大病高额医疗费? 别发愁! 大病保险帮您减轻负担。 它究竟如何参保? 如何报销? 答案就在这里!...
财说| 怡亚通超额担保埋雷,坏... 界面新闻记者 | 袁颖琪 作为“A股供应链第一股”,怡亚通(002183.SZ)近年来一直走在转型...
沪锡期价一周飙涨近20%!原因... 春节假期后,沪锡期货主力合约录得“四连阳”,周五截至收盘上涨8.38%,突破45万元/吨大关,本周累...
高端白酒价格“失守”,行业风向... 春节向来是白酒行业的年度“第一考”。2026年春节,在酒企狂撒红包、扫码促销的喧嚣背后,白酒市场交出...
英科再生资源股份有限公司 20... 证券代码:688087 证券简称:英科再生 公告编号:2026-007 英科再生资源股份有限公司 2...
原创 特... 在美国政治的舞台上,特朗普似乎总是能够吸引眼球,无论是他霸气外露的言辞,还是他时常令人瞩目的政策变动...
过渡期最后一天,银行“踩点”任... 2月27日,建设银行(601939.SH)、交通银行(601328.SH)、浙商银行(601916....
墨西哥防长:缴获贩毒集团使用的... 墨西哥国防部长特雷维利亚(资料图) 当地时间2月23日,墨西哥国防部长特雷维利亚在晨间新闻发布会上表...
以史观今,美以突袭伊朗对A股影... 2月28日,以色列对伊朗发动了先发制人的打击,以消除对以色列的威胁,行动代号为“咆哮的狮子”。一名以...
钱、资源、工厂,深圳“草根”创... 在深圳,一个没有大厂背景的普通创业者,仅靠一个想法,就能快速完成融资、产品测试、量产、产品上市等多个...
中国证监会发布《私募投资基金信... 新华社北京2月27日电(记者刘慧、刘羽佳)中国证监会2月27日发布了《私募投资基金信息披露监督管理办...