OpenAI推出视频生成模型Sora,一句文本描述即可生成17秒樱花视频 OpenAI推出视频生成模型Sora,一句文本描述即可生成17秒樱花视频
admin
2024-02-16 20:06:44
0

当地时间 2 月 15 日,OpenAI 发布了一个名为 Sora 的新型视频生成模型。它可以根据简短的文字提示(prompt),将其转化为长达一分钟的高清视频,镜头感堪比电影。


图 | Sora 所生成视频的截图(来源:Sora)

在新闻公布之前,OpenAI 给《麻省理工科技评论》发送了四份样片。这家总部位于旧金山的公司已然再次定义了“文本到视频生成”的可能性:这是一个热门的研究方向,《麻省理工科技评论》将其视为 2024 年值得关注的科技发展趋势之一。

OpenAI 的科学家蒂姆·布鲁克斯(Tim Brooks)说:“我们认为,建立能够理解视频的模型,并理解我们世界中所有这些非常复杂的交互,对于未来所有的人工智能系统而言,是非常重要的一步。”

但 OpenAI 给我们分享的视频附加了严格的保密条件。如果我们想提前看到有关 Sora(日语苍穹的意思)的信息,就必须等到该模型的消息公开发表之后,才能咨询和征求外部专家的意见。

OpenAI 尚未发布有关 Sora 的详细技术报告,也未解释或证明该模型如何有效。它还表示不会很快向公众发布 Sora。以下是我们收到的视频片段:

第一个可以从文本中生成视频的生成式人工智能模型出现在 2022 年末。但 Meta、谷歌和一家名为 Runway 的初创公司的早期成果充满了各种小问题,看起来也比较粗糙。

自那以后,这项技术发展得很快。Runway 在 2023 年发布的 Gen-2 模型可以制作质量接近大型工作室动画的短片。但大多数成果仍然只有几秒钟长。

而 OpenAI Sora 的演示视频是高清的,充满了丰富的细节。OpenAI 还表示,它可以生成长达一分钟的视频。

一段东京街头场景的视频显示,Sora 已经学会了三维世界中的物体是如何组合在一起的:当一对夫妇路过一排商店时,摄像机会切入这个场景并跟随他们。

OpenAI 还表示 Sora 能够很好地处理遮挡。现有模型的一个问题是,当一些物体从视线中消失后,它们可能无法继续跟踪这些物体。例如,如果一辆卡车从路牌前面经过,路牌可能就彻底消失了。

在一段纸制水下场景的视频中,Sora 在不同镜头之间进行了无缝转换,模型在它们之间保持了一致的风格。

当然,Sora 生成的视频还不完美。在东京的视频中,左边的汽车看起来比旁边的人还小。它们也会在树枝之间进进出出。

布鲁克斯说:“在长期一致性方面,肯定还有一些工作要做。例如,如果有人长时间离开视线,他们就不会再出现了。模型有点忘记了他们应该出现在那里。”

尽管我们看到的视频片段很惊艳,但这些展示视频无疑是经过精心挑选的,以展示 Sora 的最佳表现。

如果没有更多详细信息,我们很难知道它们在多大程度上代表了模型的平均水平。

我们可能还需要一段时间才能清楚地知道 Sora 的水平。OpenAI 今天宣布的有关 Sora 的消息,更像是一次科技圈的造势。

该公司表示,目前没有向公众发布 Sora 的计划,但它将首次开始与第三方安全测试人员共享该模型。

该公司尤其担心,这些看起来很逼真的视频可能被滥用。OpenAI 的科学家阿迪蒂亚·拉梅什(Aditya Ramesh)表示:“我们在这一点上非常谨慎,我们必须确保在将其交付给公众之前已做好铺垫。”此前他曾创建了该公司的文本到图像模型 DALL-E。

但 OpenAI 正计划在未来某个时候进行一次产品发布。除了安全测试人员,该公司还与一些视频制作者和艺术家分享了这款模型,希望搞清楚 Sora 如何更好地帮助专业创意人士,发挥更大的价值。

拉梅什说:“(此时公布新闻的)另一个目标是向每个人展示即将到来的东西,一窥这些模型的能力。”

为了构建 Sora,该团队调整了 DALL-E 3 背后的技术,这是 OpenAI 最强文本到图像模型的最新版本。

像大多数文本到图像模型一样,DALL-E 3 使用了所谓的扩散模型。经过训练后,它们可以将随机而模糊的像素变成图片。

Sora 也采用了同样的方法,只不过是将其应用于视频而非静态图片上。但研究人员也在其中加入了另一种技术。

与 DALL-E 或大多数其他视频生成模型不同,Sora 结合了扩散模型与 Transformer 神经网络。

Transformer 非常擅长处理长序列的数据,比如单词。这使它们成为 OpenAI GPT-4 和谷歌 Gemini 等大型语言模型中的灵魂。但视频不是由文字构成的。

因此,研究人员必须找到一种方法,将视频分割成块,并让 Transformer 将其视为文字一样的东西。

他们想出的方法是,在空间和时间上对视频进行分割。布鲁克斯说:“这就像你把所有的视频帧堆在一起,然后从中切下一个一个小方块。”

Sora 使用的 Transformer 可以处理这些视频数据块,其方式与大型语言模型中 Transformer 处理文本块中的单词的方式非常相似。

研究人员表示,这使他们用来训练 Sora 的视频类型更加丰富,比其他文本到视频模型更多,包括不同的分辨率、持续时间、纵横比和方向。

布鲁克斯说:“这真的对模型有帮助。这是我们在现有工作上还没看到的事情。”

“从技术角度来看,这似乎是一个非常重大的飞跃。”专门研究视频技术使用和滥用的人权组织 Witness 的执行董事山姆·格雷戈里(Sam Gregory)说,“但凡事都有两面性,这种表达能力为更多人提供了使用视频讲故事的潜力,但也存在潜在的滥用可能。”

OpenAI 非常清楚视频生成模型所带来的风险。我们已经看到深度伪造图像的大规模滥用,逼真的(虚假)视频很可能将这一问题提升到另一个层次。

格雷戈里指出,你可以使用这样的技术来误导人们关于冲突地区或抗议活动的信息。他说,视频生成风格的种类范围也很有趣。如果你能制作出不稳定的镜头,看起来像是用手机拍摄的,那么它会显得更真实。

我们的技术水平还没发展到那里,但人工智能视频生成技术在短短 18 个月内就从零发展到了 Sora。格雷戈里说:“我们将进入一个宇宙,在这个宇宙里,将有完全合成的内容、人类生成的内容以及两者的混合。”

OpenAI 团队计划借鉴 2023 年为 DALL-E 3 进行的安全测试。Sora 已经内嵌一个过滤器,可以筛选发送给模型的所有提示,该过滤器将阻止对暴力、性、仇恨和已知人物图像的请求。

另一个过滤器将查看生成的视频帧,并屏蔽违反 OpenAI 安全政策的内容。

OpenAI 表示,它还将把为 DALL-E 3 开发的虚假图像检测器用到 Sora 上。该公司将把行业标准的 C2PA 标签,即说明图像是如何生成的元数据,嵌入到 Sora 输出的所有内容中。

但这些措施远非万无一失。虚假图像检测器可能会犯错,元数据也很容易删除,因为大多数社交媒体网站默认会将其从上传的图像中删除。

拉梅什说:“在我们向公众正式发布这款模型之前,我们肯定需要获得更多的反馈,了解更多与视频有关的风险类型。”

布鲁克斯对此表示赞同。他说:“我们现在谈论这项研究的部分原因是,我们可以开始获得所需的投入,从而开展必要的工作,找出安全部署它的方式。”

作者简介:威尔·道格拉斯·海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(C)科技与地缘政治网站 Future Now 的创始编辑,也是New Scientist杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。

BB

支持:Ren

运营/排版:何晨龙

相关内容

热门资讯

什么情况?白银突然暴涨7%逼近... 贵金属市场本周开局表现强劲。尽管围绕美伊和平谈判的最新进展再度受挫,白银价格仍升至两个月高位。 现货...
芯原股份20cm涨停,寒武纪涨... 半导体板块全线走强。芯原股份20cm涨停,寒武纪涨超17%,科创人工智能ETF易方达、科创人工智能E...
现金、动销与未来:五粮液的转身... 2026年4月30日,年报最后截止日,五粮液一纸会计差错更正公告,将2025前三季度营收从609.4...
动荡中的“压舱石”:顶级豪宅为... 文/乐居财经 严明会 “我们梳理了九大‘不确定因素’场景。虽然它们不在基准预测之列,但任何一个若兑现...
AI“三剑客”压阵!小摩:下半... 自2025年以来,新兴市场股市相对发达市场的超额收益已达25%。 这可能仅仅是开始。摩根大通认为,本...
【IPO追踪】胜宏科技(024... 5月11日,AI PCB龙头胜宏科技(02476.HK)大涨13.67%创上市以来新高,市值一举突破...
一周融资汇总:热度不减,11家... 上周(5.5-5.11)机器人行业持续迎来资本热潮。《智能新观察》基于公开信息的不完全统计,梳理出5...
原创 股... 股息到账的喜悦还未褪去,手机突然弹出一条银行扣款短信——“红利差异税扣缴xxx元”。不少股民都经历过...
注意!“三类情形”不合规发票不... “三类情形”不合规发票不能报销,这些风险点要避开! 不符合规定的发票不可以作为报销凭证,任何单位和个...
4月份CPI同比上涨1.2% 5月11日,河北石家庄,顾客在一超市内购买蔬菜。5月11日,国家统计局发布数据显示,4月份,受国际原...
轻舟智航CEO于骞:有智驾的车... 【CNMO科技消息】近日,轻舟智航联合创始人、董事长兼CEO于骞在与凤凰网财经《发现新势力》对话时,...
“双十”增长开局!宁波银行20... 近日,随着宁波银行2026年一季报及2025年年报的相继披露,这家城商行“领头羊”展现出强劲的发展韧...
原创 火... 斑马消费 范建 火锅主业增长触顶,影响资本市场信心。海底捞将破局筹码,押在了多品牌孵化之上。 202...
原创 夯... 作者|娅沁 声明|题图来源于网络。惊蛰研究所原创文章,如需转载请留言申请开白。 近两年,年轻人中开始...
美伊谈判再挫金价,市场转向交易... 据央视新闻,当地时间5月10日,美国总统特朗普在社交媒体表示,伊朗方面的回应“完全不可接受”。据新华...
宗馥莉罢免销售负责人 图片拍摄:界面新闻 赵晓娟 界面新闻记者 |赵晓娟 界面新闻编辑 |牙韩翔 娃哈哈和宏胜饮料...
直击茅台业绩说明会!回应营收确... 【导读】贵州茅台5月11日召开业绩说明会 中国基金报记者 郑俊婷 5月11日下午,贵州茅台在线上召开...
大跌41.8% 智能音箱市场遇... 快科技5月11日消息,最新行业数据显示,2026年第一季度国内智能音箱线上市场行情很冷,整体销量直接...
贵州茅台业绩会直面营利波动,王... 茅台直面了外界关注的诸多核心问题。 图片来源:贵州茅台官微 5月11日,贵州茅台酒股份有限公司(6...
2026合肥贷款中介深度评测:... 合肥专业贷款中介深度评测:合规选品,融资成功率提升65% #### 合肥贷款中介行业格局与核心挑战...