“谷歌版Sora”被嘲画质好糊,但在世界模拟器上又前进了一步 sora模拟器 sora模拟
admin
2024-02-29 05:28:47
0

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌110亿参数Genie,用来打造交互虚拟世界,它来了!

划重点:不受视频监督训练;只用给它单张图像,就能提示生成可玩的2D虚拟世界;这个交互式的虚拟世界还自主可控

但令人撇嘴的点,就是Genie最后出的效果,画质太糊了。

像这样:



或者这样:



团队也站出来承认,Genie目前确实还有限制,现在只能以1FPS制作游戏。

看得网友忍不住吐槽,不说和Sora的效果比了,就算和别的文生视频或者文生图相比,都是“2K”和“480p”的差距。

看起来挺令人兴奋的,但emmm怎么说呢,画质和风格都像个上世纪80年代的游戏。



但也有人站出来为Genie说话。

比如英伟达科学家Jim Fan,就明确表示:

与Sora不同,Genie实际上是个能推断动作、用正确动作驱动世界模型。



Genie团队负责人Tim Rocktäschel激情开麦,称认为这(Genie)是迈向AGI通用世界模型的充满希望的一步。

他援引了世界模型第一推崇者Yann LeCun的推特,称:

“诚然, OpenAI的Sora惊艳世界,但正如杨立昆所说,世界模型一定需要动作。”



画质就一个字,糊

书归正传。

咱们从视觉上来感受一下Genie的神奇魔法,直接上效果图。

这是官方给出的例子——

现实世界的照片,喂给Genie,就能动起来,变成无限的虚拟世界。

Like this,小黄狗逛公园:



还有古堡武士向前冲:



Genie团队用Imagen2生成图像,然后把图像喂给Genie。Genie把图像作为起始帧,生成以下效果。



团队表示,Genie不仅仅能用AI绘画来作为驱动的起始帧,随便拿张人类大作,也可以达到同样的效果。

比如这是个小朋友的画作:



丢给Genie后,能得到老鹰起飞的效果:



这也是一张小朋友涂鸦,经由Genie处理后得到的:



可以明显看到,上面给出的这些官方效果,明显画质参差不齐。

难怪有的网友称,这些demo看上去有一种700度近视眼摘掉眼镜看世界的美



不少人提问为什么不用超高清分辨率输出,目前还没得到回应。



除了画质太糊,Genie的另一个点,就是网友们觉得demo都太短太短了。

平均每个时长不到2s。

好多人都急了:

能不能放出来1分钟时长的demo啊???或者至少让咱看看,超过3秒钟,会是啥样子吧。



然而,虽然肉眼可见的画质糊、时长短,Genie仍然是令人惊呼的新研究。

毕竟,任何人,包括幼儿园阶段的小朋友,都可以绘出一个世界,然后加入其中,开始探索。

有小伙伴已经在畅想,日后能用Genie制造“一个让每个人都感到满足和满足、永无止境的生成世界”。

眨眼间,AI就从生成下一个word发展到了生成下一个world。



Genie,一种通用方法

令人欣慰,谷歌DeepMind放出了关于Genie的论文,《Genie: Generative Interactive Environments》。

论文显示,Genie是一个11B参数的交互式环境生成模型,能够从互联网视频中无监督地学习并生成可交互的虚拟世界。

并且,Genie可以通过文本、图像、照片甚至手绘草图生成最终的交互式虚拟世界。



整个Genie包含三个关键组件:

潜在动作模型(Latent Action Model ,LAM);视频分词器(Tokenizer);潜在动态模型(Dynamics Model)。



其中,潜在动作模型用于推理每对帧之间的潜在动作。

为了让视频生成可控,谷歌DeepMind用前一帧所采取的动作来预测未来帧。

由于此类动作标签在互联网视频中可用的很少,同时获取动作注释的成本超级高,因此,团队以完全无监督的方式学习潜在动作。

也就是说,Genie的训练使用了大量公开的互联网视频数据集,而没有使用任何动作标签数据。



视频分词器的作用则是把原始视频帧转换为离散token。



三组件之中的第三样,潜在动态模型,作用是给定潜在动作和过去帧的token,用来预测视频的下一帧。



论文介绍,在训练过程中,使用超200000小时的互联网游戏视频,作为其训练数据。

这些数据集经过筛选,且包含了2D平台游戏的视频片段。

最终,其推理过程如下:



值得引起注意的是,Genie允许用户通过潜在动作在生成的环境中进行交互。

这些动作是通过一个因果动作模型学习得到的,这个模型允许用户通过指定潜在动作来控制视频的生成过程。

用户通过潜在动作与生成的环境进行交互,从而创造出新的、动态的视频内容。



这也是谷歌认为Genie是实现通用Agent的基石之作的原因之一。

此前研究表明,游戏环境可以成为开发AI Agent的有效测试平台,但实际情况中常常受到可用游戏数量的限制。

借助 Genie,未来的AI Agent可以在新生成的世界中,进行永无休止的训练。

多说一句,论文中进行了一个概念证明,即“Genie学到的潜在动作可以转移到真实的人类环境中”,不过,这都是未来可能发生的事情了。

谷歌还明确表达了自己的态度:Genie是一种通用方法

也就是说,虽然Genie的训练数据多是2D的游戏视频or机器人视频,但不需要任何额外的领域知识,Genie就可以在多个领域中应用。

为了验证这个观点,谷歌在RT1的无动作视频上训练了一个较小的模型,只有2.5B。

结果发现,具有相同潜在动作序列的轨迹通常会表现出相似的行为,也就是说,Genie能够学习一致的动作空间。

这对训练机器人甚至具身智能来说,都是大大的利好消息。



最后来看一眼Genie的研究团队~

团队人员不少,共同一作就有六位,分别是Jake Bruce,Michael Dennis,Ashley Edwards,Jack Parker-Holder,Yuge( Jimmy)Shi,以及Tim Rocktäschel。

Yuge(Jimmy)Shi是华人,本科毕业于澳大利亚国立大学,2023年在牛津大学拿下机器学习博士学位。

她在2023年3月加入谷歌DeepMind,此前还在Meta AI实习过。



此外,研究团队不少人都是谷歌DeepMind的开放性团队(Open-Endedness Team)成员。

研究团队中,有位不列颠哥伦比亚大学的计算机科学副教授,他同时是谷歌DeeoMind的高级研究顾问。

他在推特上敲了敲小黑板,称:

咳咳,注意了,现在看到的Genie是最糟糕的情况!
相信用不了多久它就会变得完美。



参考链接:
[1]https://sites.google.com/view/genie-2024/home
[2]https://arxiv.org/pdf/2402.15391.pdf

相关内容

热门资讯

华安基金:黄金短期波动加剧 关... 来源:新浪基金 黄金行情回顾及主要观点: 近期全球黄金市场经历了一场载入史册的剧烈震荡。伦敦金价在...
万和电气卢宇聪:以“四个结构重... 乐居财经 李兰 近日,万和电气董事长卢宇聪在公司2026经营管理年会上发表内部演讲。他指出,低碳健康...
A股收评:探底回升!深证成指涨... 2月3日,A股三大指数早盘走低,午后集体走高;截至收盘,沪指涨1.29%报4067点,深证成指涨2....
原创 黄... 这次金价暴跌是一次堪比2008年金融危机级别的系统性绞杀,是黄金过去40年来最大跌幅的崩盘现场,也是...
周生生足金挂坠检出铁和银,“含... ▲广东清远的李女士向央广网啄木鸟消费者投诉平台反映,她新购买的周生生足金福袋挂坠佩戴一天后即被刮花,...
收盘丨沪指探底回升涨1.29%... 2月3日,A股三大指数震荡上行,截至收盘,沪指涨1.29%,深成指涨2.19%,创业板指涨1.86%...
1110亿元!自动驾驶开年最大... 当地时间2月2日,谷歌母公司Alphabet旗下自动驾驶公司Waymo在其官方博客宣布,已完成160...
原创 笑... 欧盟与印度在2026年1月27日宣布,经过漫长的谈判,终于达成协议,结束了自由贸易协定的谈判历程。从...
视频丨韩股大跌后触发熔断机制 ... 韩国股市2月2日遭遇重挫,主要股指韩国综合股价指数大幅下跌超5%,触发熔断机制,暂停交易5分钟。韩国...
卡塔尔资本首投中国消费IPO,... 《星岛》记者 钟凯 广州报道 汕尾商人林木勤,带着功能饮料巨头正式完成了“A+H”双平台上市目标。 ...
华为云CEO周跃峰:聚产业之力... 2月1日,医疗人工智能协同创新论坛暨医疗人工智能联盟(筹)2026年第一次学术会议在上海练秋湖华为研...
马斯克说在中国你可以只用微信生... 说起大名鼎鼎的硅谷钢铁侠埃隆·马斯克,大家肯定都是耳熟能详,这几年更是经常出现在各个媒体的头版头条,...
卡奥斯57岁董事长陈录城曾是海... 瑞财经 吴文婷近日,卡奥斯物联科技股份有限公司(以下简称“卡奥斯”)在港交所递交招股书,中金公司、汇...
突发!寒武纪大跌近13%,市值... 2月3日,寒武纪-U(SH688256)盘中大幅跳水,截至中午休市股价跌近13%,总市值回落到450...
桑植县总医院 “科普+义诊”联... 大众卫生报·新湖南客户端2月2日讯(通讯员 梅勇 赵红艳)2月2日,一场别开生面、温暖人心的儿童生长...
武进这家企业二期项目即将投产! 江苏智马科技有限公司位于湖塘科技产业园,作为常州市五一劳动奖状获得企业,始终致力于打造高端制造业伺服...
深圳水上乐园规划设计行业报告(... 一、行业现状与核心需求 深圳作为滨海城市,水上乐园建设与城市文旅产业深度融合,成为推动区域经济与休闲...
抖音为什么每隔一段时间冒出一个... 来源|深氪新消费 唐纳德 春节临近,短视频平台即将引来流量高峰期。但是,先问大家一个问题,你有没有想...
国元证券再发辅导报告:紫金钢管... 《星岛》见习记者 洪雨欣 深圳报道 2月2日,国元证券股份有限公司(以下 简称“国元证券”)在中国证...
原创 内... 文| 肖笙 来源/商讯杂志 近日,有报道称,内蒙古呼伦贝尔扎兰屯市11名储户相继发现,其在中国邮政储...