3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑 3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
admin
2024-03-23 15:36:54
0


新智元报道

编辑:LRS 好困

【新智元导读】具身基础模型突破2D,全新生成式视觉-语言-行动模型3D-VLA,在多项任务中显著提高了推理、多模态生成和规划的能力。

在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。

此外,现有的模型通过学习「感知到动作的直接映射」来进行动作预测,忽略了世界的动态性,以及动作和动态之间的关系。

相比之下,人类在思考时会引入世界模型,可以描绘除对未来情景的想象,从而对下一步的行动进行规划。

为此,来自马萨诸塞州大学阿默斯特分校、MIT等机构的研究人员提出了3D-VLA模型,通过引入一类全新的具身基础模型(embodied foundation models),可以根据生成的世界模型无缝连接3D感知、推理和行动。


项目主页:https://vis-www.cs.umass.edu/3dvla/

论文地址:https://arxiv.org/abs/2403.09631

具体而言,3D-VLA构建在基于3D的大型语言模型(LLM)之上,并引入一组交互token来参与具身环境中。

为了将生成能力注入模型,淦创团队训练了一系列具身扩散模型,并将其对齐到LLM中以预测目标图像和点云。

为了对3D-VLA模型进行训练,通过从现有的机器人数据集中提取大量的3D相关信息来构建出一个大规模的3D具身指令数据集。

实验结果表明,3D-VLA显着提高了在具身环境中推理、多模态生成和规划的能力,展示出其在现实世界中的应用潜力。

三维具身指令调整数据集(3D Embodied Instruction Tuning Dataset)

得益于互联网上数十亿规模的数据集,VLM在各种任务中表现出了非凡的性能,百万级的视频动作数据集也为机器人控制的具身VLM奠定了基础。

但当前的数据集大多不能在机器人操作中提供深度或3D标注和精确控制,需要包含3D空间推理和交互:如果没有3D信息,机器人很难理解和执行需要3D空间推理的命令,比如「把最远的杯子放在中间的抽屉里」。


为了弥补这一差距,研究人员构建了一个大规模的3D指令调优数据集,该数据集提供了足够的「3D相关信息」以及「相应的文本指令」以训练模型。

研究人员设计了一个pipeline从现有的具身数据集中提取3D语言动作对,获得点云、深度图、3D边界框、机器人的7D动作和文本描述的标注。

3D-VLA基础模型

3D-VLA是一个用于在具身环境(embodied environment)中进行三维推理、目标生成和决策的世界模型。


首先在3D-LLM之上构建主干网络,并通过添加一系列交互token来进一步增强模型与3D世界交互的能力;再通过预训练扩散模型并使用投影来对齐LLM和扩散模型,将目标生成能力注入3D-VLA

骨干网络

在第一阶段,研究人员按照3D-LLM的方法开发3D-VLA基础模型:由于收集到的数据集没有达到从头开始训练多模态LLM所需的十亿级规模,因此需要利用多视图特征生成3D场景特征,使得视觉特征能够无缝集成到预训练VLM中,不需要自适应。

同时,3D-LLM的训练数据集主要包括对象(objects)和室内场景,与具体设置不直接一致,所以研究人员选择使用BLIP2-PlanT5XL作为预训练模型。

在训练过程中,解冻token的输入和输出嵌入,以及Q-Former的权重。

交互tokens

为了增强模型对3D场景的理解与环境中的交互,研究人员引入了一组全新的交互tokens

首先,输入中加入了object tokens,包含解析句子中的对象名词(如 a chocolate bar [loc tokens] on the table),这样模型就能更好地捕捉到被操作或提及的对象。

其次,为了更好地用语言表达空间信息,研究人员设计了一组位置token ,用 AABB 形式的六个标记来表示三维边界框。

第三,为了更好地进行动态编码,框架中引入了来包含静态场景的嵌入:通过对场景token进行组合,3D-VLA 可以理解动态场景,并管理交错三维场景和文本的输入。

通过扩展代表机器人动作的专用标记集,进一步增强了该架构。机器人的动作有 7 个自由度,用 、 和 等离散token来表示手臂的预定绝对位置、旋转和抓手张开度,每个action由 EP> token进行分隔。

注入目标生成能力

人类能够对场景的最终状态进行预先可视化(pre-visualize),以提升动作预测或决策的准确性,也是构建世界模型的关键方面;在初步实验中,研究人员还发现提供真实的最终状态可以增强模型的推理和规划能力。

但训练MLLM来生成图像、深度和点云并不简单:

首先,视频扩散模型并不是为具身场景量身定制的,比如Runway在生成「打开抽屉」的未来帧时,场景中会发生视图变化、对象变形、怪异的纹理替换以及布局失真等问题。

并且,如何将各种模态的扩散模型整合到一个单一的基础模型中仍然是一个难题。

所以研究人员提出的新框架,首先根据图像、深度和点云等不同形式对具体的扩散模型进行预训练,然后在对齐阶段将扩散模型的解码器对齐到3D-VLA的嵌入空间。


实验结果

3D-VLA是一个多功能的、基于3D的生成式世界模型,可以在3D世界中执行推理和定位、想象多模态目标内容,并为机器人操作生成动作,研究人员主要从三个方面对3D-VLA进行了评估:3D推理和定位、多模态目标生成和具身行动规划。

3D推理和定位

3D-VLA在语言推理任务上优于所有2D VLM方法,研究人员将其归因于3D信息的杠杆作用,3D信息为推理提供了更准确的空间信息。


此外,由于数据集中包含一组3D定位标注,3D-VLA学习定位相关对象,有助于模型更专注于关键对象进行推理。

研究人员发现3D-LLM在这些机器人推理任务中表现不佳,证明了在机器人相关的3D数据集上收集和训练的必要性。


并且3D-VLA在定位性能方面表现出明显优于2D基线方法,这一发现也为标注过程的有效性提供了令人信服的证据,有助于模型获得强大的3D定位能力。

多模态目标生成

与现有的零样本迁移到机器人领域的生成方法相比,3D-VLA在大多数指标方面实现了更好的性能,证实了使用「专门为机器人应用设计的数据集」来训练世界模型的重要性。


即使在与Instruct-P2P*的直接比较中,3D-VLA也始终性能更优,结果表明,将大型语言模型集成到3D-VLA中可以更全面、更深刻地理解机器人操作指令,从而提高目标图像生成性能。

此外,当从输入提示符中排除预测的边界框时,可以观察到性能略有下降,证实了使用中间预测边界框的有效性,可以帮助模型理解整个场景,允许模型将更多的注意力分配到给定指令中提到的特定对象,最终增强其想象最终目标图像的能力。


点云生成的结果对比中,具有中间预测边界框的3D-VLA性能最好,证实了在理解指令和场景的背景下结合大型语言模型和精确对象定位的重要性。

具身行动规划

3D-VLA在RLBench动作预测中的大多数任务中超过了基线模型的性能,显示了其具有规划能力。


值得注意的是,基线模型需要用到历史观察、对象状态和当前状态信息,而3D-VLA模型只通过开环控制执行。


此外,模型的泛化能力在捡杯(pick-up-cup)任务中得到了证明,3D-VLA在CALVIN中也取得了较好的结果,研究人员将这种优势归因于定位感兴趣的对象和想象目标状态的能力,为推断动作提供了丰富的信息。

参考资料:

https://vis-www.cs.umass.edu/3dvla/

相关内容

热门资讯

贷款也“拼团” 银行抢单忙 购物能“拼团”,贷款也能! 近日,一场“拼团融资”的银企对接活动在省工业和信息化厅拉开帷幕。 “贷款...
逛花展、赶市集、嗨直播!202... 5月23日 “2026北京直播电商购物月” 在丰台区丽泽金融商务区·2026北京国际花展 正式拉开帷...
2026中关村毕业季|AI“吃... “上帝会掷骰子吗?” 在联想未来中心的“与智者同场”展区,一位海淀学子对着屏幕问道。 爱因斯坦微微前...
原创 今... 今日为5月23日,国际现货黄金价格在4500美元/盎司整数关口附近徘徊不前,日内最低触及4480美元...
三连亏后变为“无主”状态,农尚... 从吴亮手中接盘农尚环境(300536)不足三年后,林峰如今让出了公司控制权,上市公司进入“无主”状态...
55岁湖南女首富出手!豪掷13... 快科技5月24日消息,与马斯克、库克并肩而坐,刚参加完国宴的湖南女首富周群飞就买了家上市企业。 近日...
外资加仓A股,岂是跟风这么简单... 熬过忙碌的交易日,在周末安静时段,理清接下来布局方向。本篇为大家准备了5条要闻,涵盖市场动态、行业变...
原创 俄... 在全球能源的残酷牌桌上,手里攥着石油,腰杆子才能硬气。长期以来,中东的沙漠、俄罗斯的冰原、美国的页岩...
喜力啤酒有产品将涨价,华润啤酒... 来源:红星新闻 红星资本局5月22日消息,今日,红星资本局从雪花啤酒(厦门)有限公司、华润啤酒方面获...
原创 金... 心理预期调整刻不容缓,五月二十二日,黄金价格或将重现十五年前的历史性低迷。 近期若您密切关注着黄金市...
原创 马... 埃隆·马斯克如果能让SpaceX实现“科幻小说”级别的目标,他可能获得1万亿美元的收入。 埃隆·马斯...
涨涨涨!放开限制、可加杠杆!这... 韩国股市站在风口上! 据最新消息,为吸引更多海外资金进入股市,韩国政府计划放开限制,允许境外投资者直...
下周9家上会丨科创板首单IPO... IPO及再融资上会预告 据交易所官网审核动态信息,下周(5.25-5.29)IPO上会审核6家企业,...
富途、老虎市值蒸发1/4!或被... 来源:金融时报 5月22日,中国证监会宣布依法对Tiger Brokers (NZ) Limited...
马爸爸的好兄弟钱多多搞了杀猪盘... *此图由AI生成 作者| 史大郎&猫哥 来源| 是史大郎&大猫财经Pro 上周四,港股经纬天地大崩盘...
原创 壳... 编辑:XL 国际能源圈最近炸开了锅,壳牌这家百年石油巨头在2026年3月与委内瑞拉政府正式签署多项油...
存储热潮愈演愈烈!奖金拿到手软... 财联社5月24日讯(编辑 卞纯)在席卷全球的存储芯片热潮中,韩国“存储芯片双雄”SK海力士和三星无疑...
揽牌、合作、生态,跨境支付头部... 近日,国内头部跨境支付机构密集落地海外重要布局,一方面,连连数字、PingPong两家公司相继在中东...
原创 帮... 老铁们,周末好!我是帮主郑重。刚扫了一眼下周的财经日历,好家伙,事件一个接一个,堪称“消息面轰炸周”...
海南省住建厅与中国石化海南石油... 5月22日,中国石化海南石油分公司代表、党委书记李新强、总经理蔡文东一行赴海南省住建厅拜访交流。省住...