Transformer解码真实场景!Meta推出70M参数SceneScript模型 transformer深度剖析 transformer视频编解码
admin
2024-04-26 20:18:34
0


新智元报道

编辑:alan

【新智元导读】近日,来自Meta的研究人员将Transformer用于解码真实世界的场景,并转化为几何表示,效果超越了传统的点云、网格或辐射场,只需70M参数,就能完成虚拟叠加现实的炫酷效果。

抛弃传统方法,只采用Transformer来解码真实场景!

近日,来自Meta的研究人员推出了SceneScript,只需要70M参数,仅采用编码器解码器架构,就能将真实世界的场景转化为几何表示。


论文地址:https://arxiv.org/pdf/2403.13064.pdf

SceneScript是一种用于表示和推断场景几何图形的方法,使用自回归结构化语言模型和端到端学习。

SceneScript可以助力AR和AI设备理解物理空间的几何形状,比如下面这个演示,利用Aria眼镜拍摄的素材,SceneScript可以获取视觉输入并估计场景元素(墙壁、门窗等)。


是不是感觉一下子走到了虚拟和现实的交界?

用这个技术来帮助开发AR或者MR游戏应该是妥妥的,小编表示期待地搓搓手。

再看下面这个,将SceneScript技术叠加到Meta Quest的显示画面上,现实世界瞬间变得方方正正,还挺萌的。


同时我们也可以发现,SceneScript预测的场景元素可以任意扩展,不断包含进来新的建筑特征、对象,甚至还可以将对象进行分解。


SceneScript是Meta RealityLabs Research的一个研究项目,整个模型分为编码器和解码器两个部分。

其中,点云编码器由一系列3D稀疏卷积块组成,这些卷积块将大点云汇集到少量特征中。

随后,Transformer解码器利用编码器的特征作为交叉注意力的上下文,自回归生成token。


编码器和解码器都只有大约35M参数,整个模型训练了3天,大约200k次迭代。

模型在实际应用中的推理速度也很不错,即使直接使用PyTorch中原始的Transformer(未经优化),解码256个token(相当于一个包含墙壁、门、窗和对象边界框的中等大小的场景),也只需要大约2-3秒。

SceneScript是完全在模拟器中训练的,使用Project Aria眼镜上捕获的内容序列,而没有使用真实世界的数据。训练完成之后,模型又在真实场景中进行了验证。

另外,在适应其他设备时,也可以针对不同类型镜头的不同相机型号对模型进行微调。

不过作者也表示,SceneScript仅在室内场景中进行了训练,因此对室外场景的推断可能会导致不可预测的输出。

目前,SceneScript仅供Meta的内部研究团队使用。

SceneScript

区别于传统的将场景描述为网格(meshes),体素网格(voxel grids),点云(point clouds)或辐射场(radiance fields)的传统方法,

SceneScript使用场景语言编码器-解码器架构,直接从编码的视觉数据中推断出结构化语言命令集。

工作流程


如上图所示,给定一个以自我为中心的环境视频,SceneScript直接预测由结构化场景语言命令组成的3D场景表示。

第一行表示整个工作流程,放大一下就是下面这样子:

SceneScript先从VR眼镜等设备中,拿到图像或点云表示的视觉信息,


然后将视觉信息编码为描述物理空间的潜在表示形式,


再将潜在表示解码为简洁、参数化且可解释的语言(类似CAD),


最后,3D解释器将上面的语言转换为物理空间的几何表示。


优势

SceneScript以纯文本形式自回归地预测手工设计的结构化语言命令,这种形式有几个明显的优点:

首先,作为纯文本,占用空间很小,将大型场景的内存要求降低到只需要几个字节。

其次,这种命令旨在产生清晰且定义明确的几何图形,并且,模型所使用的make_door(*door_parameters)等高级参数命令,在设计上是可解释、可编辑和语义丰富的。

另外,可以通过简单地向语言中添加新的结构化命令,来无缝集成新的几何实体。

最后,这种解决方式也为未来一些潜在的新应用提供了参考,例如编辑场景、查询场景或者聊天交互。

另外,由于语言模型需要大量数据来训练响应的结构化语言命令,而对于当前应用没有合适的数据集。

为了训练SceneScript,研究人员于是自己造了一个名为Aria Synthetic Environments的大规模合成数据集,该数据集由100k个高质量的室内场景组成,包括以自我为中心的逼真场景演练和对应的标签。

对于每个场景,使用来自Project Aria的一整套传感器数据来模拟以自我为中心的轨迹,还包括深度和实例分割,而架构布局的基本事实采用上面提到的自定义的结构化语言命令给出。


上图展示了Aria生成场景的随机样本,显示了布局、灯光和物体放置的多样性,以及俯视图、模拟轨迹(蓝色路径)、深度、RGB和对象实例的渲染,最后是场景点云。

SceneScript可以轻松扩展到新任务,同时保持视觉输入和网络架构的固定性。

网络架构

SceneScript 的管道是一个简单的编码器-解码器体系结构,它使用视频序列并以标记化格式返回SceneScript语言。

作者研究了三种编码器变体:点云编码器、摆姿势图像集编码器和组合编码器,结果表明,解码器在所有情况下都保持不变。

编码器从场景的视频演练中以1D序列的形式计算潜在场景代码。解码器设计为将这些1D序列用作输入。这样就可以在一个统一的框架内整合各种输入模式。


上图展示了SceneScript的核心管线。原始图像和点云数据被编码为潜在代码,然后自回归解码为描述场景的一系列命令。使用自定义构建的解释器显示可视化效果。

值得注意的是,对于本文中的结果,点云是使用Aria MPS从图像中计算出来的,没有使用专用的RGB-D / 激光雷达传感器。

实验结果


上图为在Aria Synthetic Environments测试集上,SceneScript模型和SOTA方法之间的定性比较。

像SceneCAD这样的分层方法会受到错误级联的影响,这会导致边缘预测模块中缺少元素。而RoomFormer(一种拉伸为3D的2D方法)主要受到轻微捕获的场景区域的影响,这些区域在密度图中留下了不明显的信号。


表中数据给出了Aria合成环境的布局估计,SceneScript方法与近期相关工作之间的定量比较。

参考资料:

https://www.projectaria.com/scenescript/

相关内容

热门资讯

金价大涨!有商场1000克金条... 2月18日晚,国际贵金属价格持续走高,现货黄金再度站上5000美元/盎司,日内涨幅超2.5%。 金...
国际油价18日显著上涨 国际油价2月18日显著上涨。截至当天收盘,纽约商品交易所3月交货的轻质原油期货价格上涨2.86美元,...
马斯克:X平台的“为你推荐”功... 每经AI快讯,2月19日,马斯克称X平台的“为你推荐”功能可能推迟至本周末发布。 每日经济新闻
英伟达清仓Arm股份,套现超1... 2月18日消息,据彭博社报道,英伟达(NVIDIA)公司已经清仓了其对于Arm公司的最后持股。 根据...
原创 特... 近日,一条消息在能源圈掀起了不小的波澜。美国能源部长透露,中国已经购买了部分美国政府出售的委内瑞拉石...
基石资本张维:投资于每个时代的... 过去一年,牛市重启,科技领航。 正如我在2024年10月所说的那样,“9·24”的行情并不是一个反弹...
上线仅数月,亚马逊仓库机器人“... 来源:市场资讯 (来源:IT之家) IT之家 2 月 19 日消息,亚马逊在其仓库中部署了数十万机器...
原创 新... 正当家家户户沉浸在2026年马年春节的团圆喜庆里,大年初一凌晨,外汇市场却传来了重磅消息,离岸人民币...
别只会说“想开点” 学会有效陪... 当下,焦虑、抑郁、内耗等情绪困扰很常见,身边亲友可能正深陷其中——沉默寡言、回避社交、难以自拔。“加...
原创 俄... 在俄乌战争的谈判桌上,欧洲是否正悄然退居局外?在今年的慕尼黑安全会议上,中国代表团的一句直白表态,直...
原创 恒... 春节期间一家科技公司的产品发布,竟被包装成港股下跌的“元凶”,一场精心策划的舆论围猎正在浮出水面。 ...
原创 美... 近年来,中美两国关系愈发复杂,尤其是在美国的角度上,他们似乎始终难以接受中国的飞速崛起。美国始终觉得...
原创 莫... 2026年初,委内瑞拉的石油出口格局悄然发生了转变。在中国减少采购之后,印度顺势进入了谈判视野。对于...
原创 泽... 2026年2月,原本由西方国家主导的慕尼黑安全会议,突然间发生了一次令人震惊的转折:乌克兰外长瑟比加...
原创 大... 大年初二,全国金店的柜台前挤满了人,但气氛和春节前完全不一样。 前几天还是“不问价直接下手”的抢购潮...
超越比尔盖茨!Meta CEO... 快科技2月19日消息,之前比尔盖茨宣布,将自己个人的大部分财富捐出引起了不小的关注,而现在又一位大佬...
南昌第五医院甲状腺科江辉:关于... 甲状腺疾病在内分泌系统疾病中位居第二大危害,因此,在孕前检查中应将其作为重点关注对象。女性甲状腺疾病...
电影、长剧、短剧,决战2026... 文 | 文娱先声 马年春节倒计时,2026年春节档战况持续胶着中。 尤其是今年的春假假期长达9天(...