OpenAI发布“一镜到底”文生视频大模型 人人都能创作短片 OpenAI发布“一镜到底”文生视频大模型 人人都能创作短片
admin
2024-02-16 17:40:33
0

一夜过去,AI行业又迎来了重大技术突破,这次有可能被“颠覆”的是视频和电影制作。

北京时间2月16日凌晨,OpenAI在官网正式发布了文生视频大模型Sora,其可以根据用户提示生成长达一分钟的视频,同时保持视频中出现的人物、景色的连贯性,甚至即便切换镜头,人物依然能够保持一致。

OpenAI首席执行官山姆奥特曼在社交平台下场,对网友放言“留下想看什么的评论,我为你生成视频”,并在两小时内“现点现做”放出了十多条视频。这立刻引发了科技圈和影视圈的双重“震撼”,油管粉丝高达2.39亿的顶流网红“野兽先生”直接在山姆奥特曼的社交账号下哀求“求求你了山姆,不要让我没有工作。”

2月16日,DCCI互联网研究院院长刘兴亮在接受贝壳财经记者采访时表示,Sora无疑是人工智能领域的一次重大突破。这一技术不仅展示了AI在理解和创造复杂视觉内容方面的先进能力,而且对内容创作、娱乐和影视制作行业提出了前所未有的挑战和机遇。

天图万境创始人、导演图拉古则告诉贝壳财经记者,Sora 的潜力并不是代替拍摄或者创作,而是让每一个人成为创作者,这必然会产生新的业态。

这个电影预告片是AI做的?音视频行业迎来“iPhone”时刻

“一部电影预告片,讲述了30岁的太空人戴着红色羊毛编织的摩托车头盔、蓝天、盐漠、电影风格的冒险故事,用35毫米胶片拍摄,色彩生动。”

这是OpenAI官网展示的诸多视频生成提示语句之一,贝壳财经记者发现,根据该提示语句生成的视频不仅达到了语句的内容预期,还创造性地出现了多个镜头的切分,而且神奇的是,在不同角度的镜头中,视频主角“太空人”可以看出是同一人。



图片来源:OpenAI官网

这在此前的AI生成技术中是无法实现的。有AI从业者表示,此前的AI视频往往都是单镜头生成,因为一旦镜头切换,角色可能就会发生变化,这对于AI图片生成同理。

贝壳财经记者曾使用AI大模型技术生成图片的技术辅助视频制作,但其中的痛点之一就是,如果想要让AI生成多个图片,比如同一个人物在不同场景下的不同动作,每当输入新的提示词,人物往往也会发生变化,让人觉得“不是同一个人”,因此AI难以直接取代传统方式的视频或者漫画制作。

但随着Sora的横空出世,这一切将可能迎来改变。

在另一个OpenAI提供的例子中,输入提示词“中国龙的农历新年庆祝视频”,就生成了一段人们舞龙的视频,贝壳财经记者发现,这段视频包含了庞大的庆祝队伍和人群,但他们也都能保持前后的一致和连贯。


OpenAI表示,该模型对语言有深刻的理解,使其能够准确地解释提示并生成表达生动情感的引人注目的角色,“Sora还可以在单个生成的视频中创建多个镜头,以准确保留角色和视觉风格。”

刘兴亮表示,Sora模型的发布标志着AI技术在内容创作领域的一个新纪元,“通过简短的文本提示或一张静态图片,Sora能够生成持续一分钟左右的1080P高清视频,涵盖多个角色、不同类型的动作和背景细节等,几乎达到了电影级别的逼真场景。这种能力不仅为内容创作者提供了前所未有的工具,使他们能够以更低的成本和更快的速度将创意变为现实,而且为观众带来了更丰富和多样化的视觉体验。技术创新的这一巨大飞跃,预示着AI在未来人类生活的各个方面都将发挥更加重要的作用。”

不过,据贝壳财经记者观察,目前Sora生成的还基本限于“短视频”,如果生成带剧情的长篇故事似乎还有更多挑战。

对此,图拉古告诉记者,Sora更大的潜力在于传递蒙太奇故事,而不是准确和具有节奏的叙事,“它准确地传递某一个人的百分之百的意图还是差一点,不过大部分创作者不会在意这些。也就是说,它其实能够传递某一个人90%的情绪感觉或者表达这已经足够了。”

Sora的发布让图拉古十分激动,他目前正在打造一个被称为“超感影游”的沉浸式线下体验项目,在他看来,未来很多人都可以成为创作者,而不仅仅局限于现在的专业人士,电影的“KTV时代”,随着AI的到来即将到来。

“技术总是跨越式进步,后面可能会更超乎我们的想象。”图拉古说。

“尽管Sora的技术创新带来了巨大的潜力,但它也对传统的影视制作行业提出了转型的压力。AI生成的视频可能减少了对人类演员、导演和其他创意角色的需求,从而影响到这个行业的就业。此外,随着AI技术的进步,传统的影视制作流程和商业模式也可能面临重塑。然而,这种转型并不意味着传统影视行业的消亡,而是需要与AI技术融合,探索新的艺术形式和表达方式。这种转型压力,虽然带来了挑战,但也为行业的创新和发展提供了机遇。”刘兴亮告诉贝壳财经记者。

如何克服一致性难题?让模型预见多帧内容 奥特曼:专注打造通用人工智能

那么,OpenAI是如何做到克服AI生成视频的一致性难题的呢?

根据OpenAI的技术解读文件,Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频,不仅能够一次性生成完整的视频,还能延长已生成的视频,“通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。”

与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。具体来看,OpenAI把视频和图像分解为较小的数据单元——“patches(小块)”,每个“patches”相当于GPT中的一个token(语句)。这种统一的数据表示方法能够在更广泛的视觉数据上训练模型,覆盖了不同的持续时间、分辨率和纵横比,而这一技术在之前不可能做到。

此外,Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。

OpenAI特别表示,Sora是能够理解和模拟现实世界的模型的基础,“我们相信这一能力将是实现通用人工智能的重要里程碑。”

例如,当输入提示语句“动画场景的特写镜头,一个毛茸茸的小怪物跪在一根融化的红蜡烛旁边。艺术风格3D、逼真,重点是照明和纹理,情绪包括惊奇和好奇……”时,Sora创造出了一个类似皮克斯和梦工厂电影中的动画小怪物镜头。


值得注意的是,该视频中,小怪物的毛发纹理极其自然。此前,移动中的毛发纹理效果往往会耗费动画公司极大精力,如皮克斯的《怪兽公司》中,技术团队为毛发纹理耗费了几个月的时间,但Sora仅仅依靠AI就生成出来。对此,OpenAI科学家Tim Brooks表示,Sora通过观察大量数据学会了关于3D几何形状和一致性的知识,“通用人工智能将能够模拟物理世界,而Sora是朝这个方向迈出的关键一步。”

北京时间2月16日早上8点,山姆奥特曼“趁热”在社交平台发布了招人公告,“OpenAI团队是我见过的最有才华、最友善的一群人,致力于解决最困难、最有趣和最重要的问题。我们所有关键资源均已到位,专注于打造通用人工智能,你或许应该考虑加入我们。”

不过,OpenAI也坦承,目前Sora模型也有弱点,“它可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例。例如,一个人可能会咬一口饼干,但之后,饼干可能没有咬痕。同时,该模型还可能混淆提示的空间细节,例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。”

在刘兴亮看来,Sora模型及其带来的技术进步,也引发了一系列伦理和社会挑战,“随着AI生成内容与现实之间的界限变得越来越模糊,如何确保内容的真实性和透明性成为了一个重要问题。此外,版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战,通过制定相关政策、法律和伦理准则来确保技术的健康发展,同时保护个人和社会的利益不受侵害。”

目前,OpenAI已经将Sora提供给了一些艺术家用于创作,但距离面向公众发行还需要一段时间,“我们将采取几个重要的安全措施,并进行对抗性测试,一旦公开发布,我们的文本分类器将检查违反使用政策的文本输入提示,例如极端暴力、色情内容、名人肖像等。”OpenAI表示。

“OpenAI的Sora模型不仅是技术创新的象征,也是对传统行业转型的推动力和伦理挑战的触发点。面对这些变化,社会需要采取积极的态度,拥抱技术带来的机遇,同时警惕和解决伴随而来的挑战,以确保技术进步能够惠及全人类。”刘兴亮告诉贝壳财经记者。

记者联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经记者 罗亦丹

编辑 韦博雅

校对 刘越

相关内容

热门资讯

什么情况?白银突然暴涨7%逼近... 贵金属市场本周开局表现强劲。尽管围绕美伊和平谈判的最新进展再度受挫,白银价格仍升至两个月高位。 现货...
芯原股份20cm涨停,寒武纪涨... 半导体板块全线走强。芯原股份20cm涨停,寒武纪涨超17%,科创人工智能ETF易方达、科创人工智能E...
现金、动销与未来:五粮液的转身... 2026年4月30日,年报最后截止日,五粮液一纸会计差错更正公告,将2025前三季度营收从609.4...
动荡中的“压舱石”:顶级豪宅为... 文/乐居财经 严明会 “我们梳理了九大‘不确定因素’场景。虽然它们不在基准预测之列,但任何一个若兑现...
AI“三剑客”压阵!小摩:下半... 自2025年以来,新兴市场股市相对发达市场的超额收益已达25%。 这可能仅仅是开始。摩根大通认为,本...
【IPO追踪】胜宏科技(024... 5月11日,AI PCB龙头胜宏科技(02476.HK)大涨13.67%创上市以来新高,市值一举突破...
一周融资汇总:热度不减,11家... 上周(5.5-5.11)机器人行业持续迎来资本热潮。《智能新观察》基于公开信息的不完全统计,梳理出5...
原创 股... 股息到账的喜悦还未褪去,手机突然弹出一条银行扣款短信——“红利差异税扣缴xxx元”。不少股民都经历过...
注意!“三类情形”不合规发票不... “三类情形”不合规发票不能报销,这些风险点要避开! 不符合规定的发票不可以作为报销凭证,任何单位和个...
4月份CPI同比上涨1.2% 5月11日,河北石家庄,顾客在一超市内购买蔬菜。5月11日,国家统计局发布数据显示,4月份,受国际原...
轻舟智航CEO于骞:有智驾的车... 【CNMO科技消息】近日,轻舟智航联合创始人、董事长兼CEO于骞在与凤凰网财经《发现新势力》对话时,...
“双十”增长开局!宁波银行20... 近日,随着宁波银行2026年一季报及2025年年报的相继披露,这家城商行“领头羊”展现出强劲的发展韧...
原创 火... 斑马消费 范建 火锅主业增长触顶,影响资本市场信心。海底捞将破局筹码,押在了多品牌孵化之上。 202...
原创 夯... 作者|娅沁 声明|题图来源于网络。惊蛰研究所原创文章,如需转载请留言申请开白。 近两年,年轻人中开始...
美伊谈判再挫金价,市场转向交易... 据央视新闻,当地时间5月10日,美国总统特朗普在社交媒体表示,伊朗方面的回应“完全不可接受”。据新华...
宗馥莉罢免销售负责人 图片拍摄:界面新闻 赵晓娟 界面新闻记者 |赵晓娟 界面新闻编辑 |牙韩翔 娃哈哈和宏胜饮料...
直击茅台业绩说明会!回应营收确... 【导读】贵州茅台5月11日召开业绩说明会 中国基金报记者 郑俊婷 5月11日下午,贵州茅台在线上召开...
大跌41.8% 智能音箱市场遇... 快科技5月11日消息,最新行业数据显示,2026年第一季度国内智能音箱线上市场行情很冷,整体销量直接...
贵州茅台业绩会直面营利波动,王... 茅台直面了外界关注的诸多核心问题。 图片来源:贵州茅台官微 5月11日,贵州茅台酒股份有限公司(6...
2026合肥贷款中介深度评测:... 合肥专业贷款中介深度评测:合规选品,融资成功率提升65% #### 合肥贷款中介行业格局与核心挑战...