OpenAI推出视频生成模型Sora,一句文本描述即可生成17秒樱花视频 OpenAI推出视频生成模型Sora,一句文本描述即可生成17秒樱花视频
admin
2024-02-16 20:06:44
0

当地时间 2 月 15 日,OpenAI 发布了一个名为 Sora 的新型视频生成模型。它可以根据简短的文字提示(prompt),将其转化为长达一分钟的高清视频,镜头感堪比电影。


图 | Sora 所生成视频的截图(来源:Sora)

在新闻公布之前,OpenAI 给《麻省理工科技评论》发送了四份样片。这家总部位于旧金山的公司已然再次定义了“文本到视频生成”的可能性:这是一个热门的研究方向,《麻省理工科技评论》将其视为 2024 年值得关注的科技发展趋势之一。

OpenAI 的科学家蒂姆·布鲁克斯(Tim Brooks)说:“我们认为,建立能够理解视频的模型,并理解我们世界中所有这些非常复杂的交互,对于未来所有的人工智能系统而言,是非常重要的一步。”

但 OpenAI 给我们分享的视频附加了严格的保密条件。如果我们想提前看到有关 Sora(日语苍穹的意思)的信息,就必须等到该模型的消息公开发表之后,才能咨询和征求外部专家的意见。

OpenAI 尚未发布有关 Sora 的详细技术报告,也未解释或证明该模型如何有效。它还表示不会很快向公众发布 Sora。以下是我们收到的视频片段:

第一个可以从文本中生成视频的生成式人工智能模型出现在 2022 年末。但 Meta、谷歌和一家名为 Runway 的初创公司的早期成果充满了各种小问题,看起来也比较粗糙。

自那以后,这项技术发展得很快。Runway 在 2023 年发布的 Gen-2 模型可以制作质量接近大型工作室动画的短片。但大多数成果仍然只有几秒钟长。

而 OpenAI Sora 的演示视频是高清的,充满了丰富的细节。OpenAI 还表示,它可以生成长达一分钟的视频。

一段东京街头场景的视频显示,Sora 已经学会了三维世界中的物体是如何组合在一起的:当一对夫妇路过一排商店时,摄像机会切入这个场景并跟随他们。

OpenAI 还表示 Sora 能够很好地处理遮挡。现有模型的一个问题是,当一些物体从视线中消失后,它们可能无法继续跟踪这些物体。例如,如果一辆卡车从路牌前面经过,路牌可能就彻底消失了。

在一段纸制水下场景的视频中,Sora 在不同镜头之间进行了无缝转换,模型在它们之间保持了一致的风格。

当然,Sora 生成的视频还不完美。在东京的视频中,左边的汽车看起来比旁边的人还小。它们也会在树枝之间进进出出。

布鲁克斯说:“在长期一致性方面,肯定还有一些工作要做。例如,如果有人长时间离开视线,他们就不会再出现了。模型有点忘记了他们应该出现在那里。”

尽管我们看到的视频片段很惊艳,但这些展示视频无疑是经过精心挑选的,以展示 Sora 的最佳表现。

如果没有更多详细信息,我们很难知道它们在多大程度上代表了模型的平均水平。

我们可能还需要一段时间才能清楚地知道 Sora 的水平。OpenAI 今天宣布的有关 Sora 的消息,更像是一次科技圈的造势。

该公司表示,目前没有向公众发布 Sora 的计划,但它将首次开始与第三方安全测试人员共享该模型。

该公司尤其担心,这些看起来很逼真的视频可能被滥用。OpenAI 的科学家阿迪蒂亚·拉梅什(Aditya Ramesh)表示:“我们在这一点上非常谨慎,我们必须确保在将其交付给公众之前已做好铺垫。”此前他曾创建了该公司的文本到图像模型 DALL-E。

但 OpenAI 正计划在未来某个时候进行一次产品发布。除了安全测试人员,该公司还与一些视频制作者和艺术家分享了这款模型,希望搞清楚 Sora 如何更好地帮助专业创意人士,发挥更大的价值。

拉梅什说:“(此时公布新闻的)另一个目标是向每个人展示即将到来的东西,一窥这些模型的能力。”

为了构建 Sora,该团队调整了 DALL-E 3 背后的技术,这是 OpenAI 最强文本到图像模型的最新版本。

像大多数文本到图像模型一样,DALL-E 3 使用了所谓的扩散模型。经过训练后,它们可以将随机而模糊的像素变成图片。

Sora 也采用了同样的方法,只不过是将其应用于视频而非静态图片上。但研究人员也在其中加入了另一种技术。

与 DALL-E 或大多数其他视频生成模型不同,Sora 结合了扩散模型与 Transformer 神经网络。

Transformer 非常擅长处理长序列的数据,比如单词。这使它们成为 OpenAI GPT-4 和谷歌 Gemini 等大型语言模型中的灵魂。但视频不是由文字构成的。

因此,研究人员必须找到一种方法,将视频分割成块,并让 Transformer 将其视为文字一样的东西。

他们想出的方法是,在空间和时间上对视频进行分割。布鲁克斯说:“这就像你把所有的视频帧堆在一起,然后从中切下一个一个小方块。”

Sora 使用的 Transformer 可以处理这些视频数据块,其方式与大型语言模型中 Transformer 处理文本块中的单词的方式非常相似。

研究人员表示,这使他们用来训练 Sora 的视频类型更加丰富,比其他文本到视频模型更多,包括不同的分辨率、持续时间、纵横比和方向。

布鲁克斯说:“这真的对模型有帮助。这是我们在现有工作上还没看到的事情。”

“从技术角度来看,这似乎是一个非常重大的飞跃。”专门研究视频技术使用和滥用的人权组织 Witness 的执行董事山姆·格雷戈里(Sam Gregory)说,“但凡事都有两面性,这种表达能力为更多人提供了使用视频讲故事的潜力,但也存在潜在的滥用可能。”

OpenAI 非常清楚视频生成模型所带来的风险。我们已经看到深度伪造图像的大规模滥用,逼真的(虚假)视频很可能将这一问题提升到另一个层次。

格雷戈里指出,你可以使用这样的技术来误导人们关于冲突地区或抗议活动的信息。他说,视频生成风格的种类范围也很有趣。如果你能制作出不稳定的镜头,看起来像是用手机拍摄的,那么它会显得更真实。

我们的技术水平还没发展到那里,但人工智能视频生成技术在短短 18 个月内就从零发展到了 Sora。格雷戈里说:“我们将进入一个宇宙,在这个宇宙里,将有完全合成的内容、人类生成的内容以及两者的混合。”

OpenAI 团队计划借鉴 2023 年为 DALL-E 3 进行的安全测试。Sora 已经内嵌一个过滤器,可以筛选发送给模型的所有提示,该过滤器将阻止对暴力、性、仇恨和已知人物图像的请求。

另一个过滤器将查看生成的视频帧,并屏蔽违反 OpenAI 安全政策的内容。

OpenAI 表示,它还将把为 DALL-E 3 开发的虚假图像检测器用到 Sora 上。该公司将把行业标准的 C2PA 标签,即说明图像是如何生成的元数据,嵌入到 Sora 输出的所有内容中。

但这些措施远非万无一失。虚假图像检测器可能会犯错,元数据也很容易删除,因为大多数社交媒体网站默认会将其从上传的图像中删除。

拉梅什说:“在我们向公众正式发布这款模型之前,我们肯定需要获得更多的反馈,了解更多与视频有关的风险类型。”

布鲁克斯对此表示赞同。他说:“我们现在谈论这项研究的部分原因是,我们可以开始获得所需的投入,从而开展必要的工作,找出安全部署它的方式。”

作者简介:威尔·道格拉斯·海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(C)科技与地缘政治网站 Future Now 的创始编辑,也是New Scientist杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。

BB

支持:Ren

运营/排版:何晨龙

相关内容

热门资讯

国资委谈央企重组:减少行业内卷 关于央企重组最新动向,今天(1月28日),国务院国资委企业改革局局长林庆苗在国新办发布会上透露,下一...
想“金蝉脱壳”卖身美国?中国养... 吃尽中国红利,却卸磨杀驴卖身美国,商务部摁死的AI白眼狼一点都不冤 蝴蝶效应科技一家靠中国土壤扶植...
遭商誉反噬!电魂网络迎上市首亏... 深圳商报·读创客户端记者 陈琳琳 2026年1月28日,电魂网络披露《股东及董事、高管减持股份结果公...
一度突破5300美元/盎司!现... 本报(chinatimes.net.cn)记者周梦婷 北京报道 国际现货黄金价格再攀新高。1月28日...
连续三年破万亿 深圳发布未来三... 来源:21世纪经济报道 21世纪经济报道记者李金萍 深圳报道 深圳稳坐“万亿消费之城”。2025年,...
超500家A股公司年报预亏 5... 当前正值上市公司年报预告披露期,不同于以往的绩优股抢先发布业绩,今年财报季里,一批亏损公司正在密集“...
马斯克突然变卦!SpaceX准... 王爷说财经讯: 史上最大IPO来袭! 你敢信吗?那个曾经发誓“绝不上市”、把季度财报视为“地狱之火”...
两家上市公司同时公告将2025... 来源:会计雅苑 公司原审计机构立信所因审计工作人员变动和整体工作安排等综合原因, 预计无法为公司提...
2026年深圳首家A股上市企业... 深圳商报·读创客户端记者 吴素红 李丹 1月28日,深圳市恒运昌真空技术股份有限公司在上海证券交易所...
【2026最新】现货黄金交易十... 在2026年全球经济错综复杂的背景下,避险情绪再度升温,现货黄金(伦敦金)凭借其高流动性和双向交易机...
原创 2... 你或许从未留意过车灯。 汽车产业卷到白热化的今天,连最不起眼的车灯,都成了兵家必争的黄金赛道,甚至开...
原创 白... 最近的白银价格大家看了吗? 现货白银的价格已经突破了100美元一盎司了,这个价格简直太离谱了。 上个...
传感器技术如何赋能智慧医疗?(... 编者按:传感器作为“信息时代的神经末梢”,已渗透到社会经济的每一个关键领域。2025年10月以来,《...
资源板块成“香饽饽”!成交额占... 财联社1月28日讯(编辑 梓隆),今日(1月28日),资源类板块成为市场关注焦点,其中,有色金属、石...
我国公募基金总规模逼近38万亿 1月28日,中基协发布的公募基金市场数据显示,截至2025年12月底,我国境内公募基金管理机构共16...
二度折戟!阳光诺和12亿关联收... (图片来源:视觉中国) 蓝鲸新闻1月28日讯(记者 邵雨婷)1月27日晚间,阳光诺和(688621....
泰国新出黄金交易限制措施 泰国皇家公报公布的新规规定,过去5年间年均黄金交易额达到或超过100亿泰铢(约合3.23亿美元)的黄...
SpaceX估值1.5万亿背后... 当特斯拉股价还在震荡时,埃隆·马斯克又给资本市场投下一枚"星际炸弹"——SpaceX计划于6月IPO...