OpenAI发布“一镜到底”文生视频大模型 人人都能创作短片 OpenAI发布“一镜到底”文生视频大模型 人人都能创作短片
admin
2024-02-16 17:40:33
0

一夜过去,AI行业又迎来了重大技术突破,这次有可能被“颠覆”的是视频和电影制作。

北京时间2月16日凌晨,OpenAI在官网正式发布了文生视频大模型Sora,其可以根据用户提示生成长达一分钟的视频,同时保持视频中出现的人物、景色的连贯性,甚至即便切换镜头,人物依然能够保持一致。

OpenAI首席执行官山姆奥特曼在社交平台下场,对网友放言“留下想看什么的评论,我为你生成视频”,并在两小时内“现点现做”放出了十多条视频。这立刻引发了科技圈和影视圈的双重“震撼”,油管粉丝高达2.39亿的顶流网红“野兽先生”直接在山姆奥特曼的社交账号下哀求“求求你了山姆,不要让我没有工作。”

2月16日,DCCI互联网研究院院长刘兴亮在接受贝壳财经记者采访时表示,Sora无疑是人工智能领域的一次重大突破。这一技术不仅展示了AI在理解和创造复杂视觉内容方面的先进能力,而且对内容创作、娱乐和影视制作行业提出了前所未有的挑战和机遇。

天图万境创始人、导演图拉古则告诉贝壳财经记者,Sora 的潜力并不是代替拍摄或者创作,而是让每一个人成为创作者,这必然会产生新的业态。

这个电影预告片是AI做的?音视频行业迎来“iPhone”时刻

“一部电影预告片,讲述了30岁的太空人戴着红色羊毛编织的摩托车头盔、蓝天、盐漠、电影风格的冒险故事,用35毫米胶片拍摄,色彩生动。”

这是OpenAI官网展示的诸多视频生成提示语句之一,贝壳财经记者发现,根据该提示语句生成的视频不仅达到了语句的内容预期,还创造性地出现了多个镜头的切分,而且神奇的是,在不同角度的镜头中,视频主角“太空人”可以看出是同一人。



图片来源:OpenAI官网

这在此前的AI生成技术中是无法实现的。有AI从业者表示,此前的AI视频往往都是单镜头生成,因为一旦镜头切换,角色可能就会发生变化,这对于AI图片生成同理。

贝壳财经记者曾使用AI大模型技术生成图片的技术辅助视频制作,但其中的痛点之一就是,如果想要让AI生成多个图片,比如同一个人物在不同场景下的不同动作,每当输入新的提示词,人物往往也会发生变化,让人觉得“不是同一个人”,因此AI难以直接取代传统方式的视频或者漫画制作。

但随着Sora的横空出世,这一切将可能迎来改变。

在另一个OpenAI提供的例子中,输入提示词“中国龙的农历新年庆祝视频”,就生成了一段人们舞龙的视频,贝壳财经记者发现,这段视频包含了庞大的庆祝队伍和人群,但他们也都能保持前后的一致和连贯。


OpenAI表示,该模型对语言有深刻的理解,使其能够准确地解释提示并生成表达生动情感的引人注目的角色,“Sora还可以在单个生成的视频中创建多个镜头,以准确保留角色和视觉风格。”

刘兴亮表示,Sora模型的发布标志着AI技术在内容创作领域的一个新纪元,“通过简短的文本提示或一张静态图片,Sora能够生成持续一分钟左右的1080P高清视频,涵盖多个角色、不同类型的动作和背景细节等,几乎达到了电影级别的逼真场景。这种能力不仅为内容创作者提供了前所未有的工具,使他们能够以更低的成本和更快的速度将创意变为现实,而且为观众带来了更丰富和多样化的视觉体验。技术创新的这一巨大飞跃,预示着AI在未来人类生活的各个方面都将发挥更加重要的作用。”

不过,据贝壳财经记者观察,目前Sora生成的还基本限于“短视频”,如果生成带剧情的长篇故事似乎还有更多挑战。

对此,图拉古告诉记者,Sora更大的潜力在于传递蒙太奇故事,而不是准确和具有节奏的叙事,“它准确地传递某一个人的百分之百的意图还是差一点,不过大部分创作者不会在意这些。也就是说,它其实能够传递某一个人90%的情绪感觉或者表达这已经足够了。”

Sora的发布让图拉古十分激动,他目前正在打造一个被称为“超感影游”的沉浸式线下体验项目,在他看来,未来很多人都可以成为创作者,而不仅仅局限于现在的专业人士,电影的“KTV时代”,随着AI的到来即将到来。

“技术总是跨越式进步,后面可能会更超乎我们的想象。”图拉古说。

“尽管Sora的技术创新带来了巨大的潜力,但它也对传统的影视制作行业提出了转型的压力。AI生成的视频可能减少了对人类演员、导演和其他创意角色的需求,从而影响到这个行业的就业。此外,随着AI技术的进步,传统的影视制作流程和商业模式也可能面临重塑。然而,这种转型并不意味着传统影视行业的消亡,而是需要与AI技术融合,探索新的艺术形式和表达方式。这种转型压力,虽然带来了挑战,但也为行业的创新和发展提供了机遇。”刘兴亮告诉贝壳财经记者。

如何克服一致性难题?让模型预见多帧内容 奥特曼:专注打造通用人工智能

那么,OpenAI是如何做到克服AI生成视频的一致性难题的呢?

根据OpenAI的技术解读文件,Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频,不仅能够一次性生成完整的视频,还能延长已生成的视频,“通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。”

与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。具体来看,OpenAI把视频和图像分解为较小的数据单元——“patches(小块)”,每个“patches”相当于GPT中的一个token(语句)。这种统一的数据表示方法能够在更广泛的视觉数据上训练模型,覆盖了不同的持续时间、分辨率和纵横比,而这一技术在之前不可能做到。

此外,Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令生成视频。

OpenAI特别表示,Sora是能够理解和模拟现实世界的模型的基础,“我们相信这一能力将是实现通用人工智能的重要里程碑。”

例如,当输入提示语句“动画场景的特写镜头,一个毛茸茸的小怪物跪在一根融化的红蜡烛旁边。艺术风格3D、逼真,重点是照明和纹理,情绪包括惊奇和好奇……”时,Sora创造出了一个类似皮克斯和梦工厂电影中的动画小怪物镜头。


值得注意的是,该视频中,小怪物的毛发纹理极其自然。此前,移动中的毛发纹理效果往往会耗费动画公司极大精力,如皮克斯的《怪兽公司》中,技术团队为毛发纹理耗费了几个月的时间,但Sora仅仅依靠AI就生成出来。对此,OpenAI科学家Tim Brooks表示,Sora通过观察大量数据学会了关于3D几何形状和一致性的知识,“通用人工智能将能够模拟物理世界,而Sora是朝这个方向迈出的关键一步。”

北京时间2月16日早上8点,山姆奥特曼“趁热”在社交平台发布了招人公告,“OpenAI团队是我见过的最有才华、最友善的一群人,致力于解决最困难、最有趣和最重要的问题。我们所有关键资源均已到位,专注于打造通用人工智能,你或许应该考虑加入我们。”

不过,OpenAI也坦承,目前Sora模型也有弱点,“它可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例。例如,一个人可能会咬一口饼干,但之后,饼干可能没有咬痕。同时,该模型还可能混淆提示的空间细节,例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹。”

在刘兴亮看来,Sora模型及其带来的技术进步,也引发了一系列伦理和社会挑战,“随着AI生成内容与现实之间的界限变得越来越模糊,如何确保内容的真实性和透明性成为了一个重要问题。此外,版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战,通过制定相关政策、法律和伦理准则来确保技术的健康发展,同时保护个人和社会的利益不受侵害。”

目前,OpenAI已经将Sora提供给了一些艺术家用于创作,但距离面向公众发行还需要一段时间,“我们将采取几个重要的安全措施,并进行对抗性测试,一旦公开发布,我们的文本分类器将检查违反使用政策的文本输入提示,例如极端暴力、色情内容、名人肖像等。”OpenAI表示。

“OpenAI的Sora模型不仅是技术创新的象征,也是对传统行业转型的推动力和伦理挑战的触发点。面对这些变化,社会需要采取积极的态度,拥抱技术带来的机遇,同时警惕和解决伴随而来的挑战,以确保技术进步能够惠及全人类。”刘兴亮告诉贝壳财经记者。

记者联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经记者 罗亦丹

编辑 韦博雅

校对 刘越

相关内容

热门资讯

斗金订购APP贵金属期货投资被...   斗金订购APP的投资者被广告宣传给诱导,注册就送什么现金,然后充值返现金卷等等这些宣传方式,都是...
哈易购APP非法期货交易欺骗投...   哈易购APP宣传可做白银铂金贵金属订购交易,但实际上并没有取得相关交易资质!哈易购APP本质上就...
消息称百度旗下昆仑芯瞄准500... 6 月 29 日消息,据《The Information》昨日援引知情人士消息,百度旗下 AI 芯片...
打造夏日消费新场景 第35届北... 北京商报讯(记者 翟枫瑞)6月29日消息,第35届北京国际燕京啤酒文化节新闻发布会在京举行。本届啤酒...
社保基金持仓数据出炉,一季度增... 最近各大上市公司一季度财报都公开了,咱们国家社保基金的持仓数据也全部曝光。目前社保拿着比亚迪价值44...
36氪首发 | 海思、中兴团队... 作者 | 乔钰杰 编辑 | 袁斯来 硬氪获悉,广州宸思通讯科技有限公司(以下简称“宸思科技”)近日完...
两天蒸发47亿市值!一纸税务通... 一纸税务通知书,能让一家百亿龙头两天蒸发47亿市值。 6月22日,北大荒(600598.SH)公告称...
SK海力士将投资1100万亿韩... SK集团会长崔泰源6月29日在韩国“三大重大计划”发布会上宣布,公司将投资1100万亿韩元扩大半导体...
两只A股,终止上市! 两家A股公司,即将摘牌。 6月29日,退市沪科(600608.SH)公告称,上海证券交易所将在202...
原创 M... 一家成立近十年的自动驾驶公司,在IPO时吸引了14家基石投资者认购近一半的发行股份,其中不乏奔驰、比...
基金忠言|国寿安保滤镜碎,三年... 图片来源:视觉中国 蓝鲸新闻6月29日讯(记者 祁和忠)保险系基金公司国寿安保总经理换人了。 6月2...
三星电机计划加码玻璃基板!相关... 6月29日,玻璃基板概念股午后有所回升, 华工科技(000988.SZ)逼近涨停, 彩虹股份(600...
拉萨海关持续壮大外贸经营主体 ...   新华网拉萨6月28日电(记者蒋梦辰)近日,记者从拉萨海关获悉,今年前5个月,西藏有进出口实绩的外...
机构:二季报临近,医药生物板块... 6月29日,华源证券发布了一篇医药生物行业的研究报告,报告指出,业绩期临近,产业链景气度有望再次迎来...
每日收评科创50放量涨超4.5... 财联社6月29日讯,三大指数全线收红,创业板指探底回升,科创50指数大涨4.61%。沪深两市成交额3...
6月多地土拍结构性升温:深圳单... 进入2026年6月,不少城市核心区地块集中诞生高溢价宗地,热度突出的城市包含深圳、杭州、长沙。 其中...
业绩炸裂!盛达资源半年预盈3.... 6月29日,贵金属矿山龙头盛达资源(000603.SZ)发布 2026 年半年度业绩预告,上半年业绩...
A股午后拉升三大股指收涨:半导... A股三大股指6月29日开盘涨跌互现。早盘沪强深弱,创指一度跌超2%。半导体午后拉升,带动两市上涨,沪...
原创 空... 前言 大家好,我是老金。 这几天,两幅极度割裂的画面放在一起,把我看笑了。 一边是在持续的热浪下,欧...