用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM 用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM
admin
2024-04-17 17:00:51
0


新智元报道

编辑:LRS

【新智元导读】本文分享论文GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot,由西湖大学和浙江大学联合提出一种基于混合专家模型进行强化学习的通用机器人策略。

多任务机器人学习在应对多样化和复杂情景方面具有重要意义。然而,当前的方法受到性能问题和收集训练数据集的困难的限制。

这篇论文提出了GeRM(通用机器人模型),研究人员利用离线强化学习来优化数据利用策略,从演示和次优数据中学习,从而超越了人类演示的局限性。


作者:宋文轩,赵晗,丁鹏翔,崔灿,吕尚可,范亚凝,王东林

单位:西湖大学、浙江大学

论文地址:https://arxiv.org/abs/2403.13358

项目地址:https://songwxuan.github.io/GeRM/

之后采用基于Transformer的视觉-语言-动作模型来处理多模态输入并输出动作。

通过引入专家混合结构,GeRM实现了更快的推理速度和更高的整体模型容量,从而解决了强化学习参数量受限的问题,提高了多任务学习中的模型性能,同时控制了计算成本。

通过一系列实验证明,GeRM在所有任务中均优于其他方法,同时验证了其在训练和推理过程中的效率。

此外,研究人员还提供了QUARD-Auto数据集以支持训练,该数据集的构建遵循文中提出的数据自动化收集的新范式,该方法可以降低收集机器人数据的成本,推动多任务学习社区的进步。

主要贡献:

1. 首次提出了用于四足强化学习的混合专家模型,其在混合质量的数据上进行训练,从而具备习得最优策略的潜力。

2. 与现有方法相比,GeRM在只激活自身1/2参数的情况下展现出更高的成功率,激活了涌现能力,同时在训练过程中展现了更优的数据利用策略。

3.提出了一个全自动机器人数据集收集的范式,并收集了一个大规模开源数据集。

方法

GeRM网络结构如图1所示,包含示范数据和失败数据的视觉-语言输入,分别经过编码器和tokenizer后输入到8层混合专家结构的decoder中,并生成动作token,最终转化为离散的机器人动作数据并通过底层策略部署到机器人上,此外我们用强化学习的方式进行训练。


图1 GeRM网络结构图

GeRM Decoder是一个包含 Transformer Decoder架构模型,其中前馈网络(FFN)从一组 8 个不同的专家网络中选择。

在每一层,对于每一个标记,门控网络选择两个专家来处理token,并将它们的输出加权组合。

不同的专家擅长不同的任务/不同的动作维度,以解决不同场景中的问题,从而学习跨多个任务的通用模型。该架构扩大了网络参数量,同时保持计算成本基本不变。


图2 Decoder结构图

我们提出了一个自动的范式来收集机器人多模态数据。通过这种方式,我们构建了一个大规模的机器人数据集QUARD-Auto,其中包含演示和次优数据的组合。它包括5个任务和99个子任务,总共有257k条轨迹。我们将进行开源以促进机器人社区发展。


表1 数据集介绍


图3 数据量统计

实验

我们进行了一系列全面而可靠的实验,涵盖了所有 99 个子任务,每个子任务进行了 400 条轨迹的精心测试。

如表1所示,GeRM在所有任务中具有最高的成功率。与 RT-1 和其他GeRM 的变体相比,它有效地从混合质量的数据中学习,优于其他方法,并在多任务中展现出优越的能力。与此同时,MoE 模块通过在推理时激活部分参数来平衡计算成本和性能。


表2 多任务对比实验

GeRM表现出令人称赞的训练效率。与其他方法相比,GeRM 仅需极少的batch就获得了极低的Loss和较高的成功率,凸显了GeRM优化数据利用策略的能力。


图4 成功率/Loss变化曲线

GeRM 在动态自适应路径规划方面展现出了涌现能力。如视频所示,四足机器人在初始位置视野受限,难以确定移动方向。为了避开障碍物,它随机选择向左转。

随后,在遇到错误的视觉输入后,机器人执行了大幅度的重新定向,以与原始视野之外的正确目标对齐。然后,它继续向目的地驶去,最终完成任务。

值得注意的是,这样的轨迹不属于我们的训练数据集分布之内。这表明 GeRM 在场景背景下的动态自适应路径规划方面具有涌现能力,即它能够根据视觉感知进行决策、规划未来路径,并根据需要改变下一步行动。


图5 涌现能力

参考资料:

https://arxiv.org/abs/2403.13358



相关内容

热门资讯

原创 俄... 俄罗斯的向东看战略下,中俄能源合作,究竟是俄罗斯被迫的短期选择,还是两国长期战略互补的结果?许多西方...
原创 美... 最近,常有人问,既然美国在全球范围内不断挑起冲突,为什么我们却说它已经走投无路了?实际上,只要我们算...
春节外围波动,下周大A,悬了? 2026年春节A股休市期间,外围海外市场并非风平浪静。 美股科技板块的深度调整,以及港股市场的大跌,...
蚂蚁集团:春节期间支付宝“AI... IT之家 2 月 23 日消息,蚂蚁集团今日宣布,春节期间,支付宝“AI 付”用户数突破 1 亿,蚂...
中国再次成为德国最大贸易伙伴 参考消息网2月20日报道据德新社2月20日报道,中国再次超越美国,成为德国最重要的贸易伙伴。 根据德...
原创 价... 2026年开年,什么资产最疯狂?不是黄金,而是白银! 如果你还只盯着金价看,那你可能已经错过了这一轮...
春节要闻与市场主线:特朗普关税... 来源:华泰证券固收研究 核心观点 报告核心观点 春节期间出行数据偏强,IEEPA关税裁决、中东局势升...
原创 打... 作品声明:内容仅供参考,如有不适及时就医 双相情感障碍是一种以情绪极端波动为特征的慢性精神病,其复...
春节不打烊,海内外发生了什么? 来源:谭谈债市 摘 要 海外宏观动态跟踪 (1)海外资产:金油上涨,美债上行,美股企稳 截至2月20...
奥特曼批评马斯克太空数据中心愿... 2月23日消息,据印度媒体报道,OpenAI首席执行官萨姆·奥特曼(Sam Altman)认为,鉴于...
彭太委员:充分释放民间资本活力 “民营经济是龙江经济增长的重要引擎,激活民间资本活力,才能为高质量发展注入持久动力。”今年全省两会期...
【资讯】德国涂料和油墨行业:2... 德国油漆和油墨行业正在努力应对宏观经济挑战。销售量和收入大幅下降,而只有少数行业显示出希望的迹象。德...
刚刚,利好来了!A股龙头,订单... 春节假期,A股光模块龙头传来利好消息。 今日,据“中国光谷”消息,春节期间,A股光模块龙头——华工科...
多学科专家支招: 新春健康全攻... 新春佳节之际,阖家团圆,走亲访友、出游踏春……年味正浓,但健康不能“放假”!每逢春节,肠胃不适、皮肤...
原创 春... 春节长假结束了,A股市场即将重新开张。 但今年节后的气氛,和往年有些不一样。 投资者们还没来得及从...
原创 王... 最近这一期的《你好星期六》,真是让人又笑又摇头。节目本身内容丰富,设计的游戏新颖又有趣,特别是文韬和...
原创 熙... 公元1069年,宋神宗为了应对国内的矛盾,推动了一个名为中兴之世的改革计划,并任命了主张变法的王安石...
2023攀枝花智能直播新纪元:... 引言:攀枝花直播电商的机遇与挑战 在数字经济浪潮席卷全国的背景下,攀枝花这座以阳光和钒钛闻名的城市...
【锋行链盟】A股借壳上市流程及... A股借壳上市是指非上市公司通过收购、资产置换等方式取得上市公司控制权,将自身优质资产注入上市公司,实...