对话视频从业者:Sora变革年,我们更该了解什么是不变的 对话视频从业者:Sora变革年,我们更该了解什么是不变的
admin
2024-03-19 16:38:59
0


3月14日,OpenAI首席技术官米拉·穆拉蒂对外公开表示,公司旗下的文生视频模型Sora计划在“今年晚些时候”正式面向公众发布。

就在短短一个月前,这款文生视频工具初次亮相,凭借拔群的效果引发了市场的大面积惊叹。有关“视频行业要被颠覆了”的积极或消极预判,在互联网上喧嚣一时,相关市场赛道也拥抱了新的资本热点。

旧的话题还未有定论,日历上就已设下了新的倒计时。

身处“大模型纪元”,某种程度上,我们已经习惯于陷入一轮轮的技术“狂欢”。

然而,即便赢得了普遍的关注,技术将为市场带来什么样的改变?这仍是个模糊不清的问题。

为了看清潜藏于水面下的市场脉络,我们与音视频生产协作平台“分秒帧”的创始人兼CEO、前资深媒体人程刚进行了独家对谈。

从2000年开始,程刚本人曾先后供职于中国青年报、腾讯、搜狐、WiFi万能钥匙等媒体、社交媒体和移动新媒体平台。

2019年,看准音视频云端生产协作的蓝海市场,程刚与合伙人一起创办了分秒帧,至今已深耕音视频行业5年时间。

01、“Sora的发布,让很多旧工具失去了价值”

市界:据说你很关注Sora,春节后不断在参与讨论。为什么是在这个时间点?为什么是Sora?

程刚:是的,Sora发布时(2月16日,大年初七)春节假期还没过完,我们马上就开始做动作,在公司内部开会讨论,同事也和业界很多创业者朋友、做算法的朋友、做AIGC的朋友密集讨论了一圈。

在过去的一年多时间里,无论是ChatGPT的发布和迭代,还是Runway、Pika等文生视频工具的出现,我们的态度一直都停留在“关注、观望、研究”的层面。对于在产品中引入AI的能力,我们还是比较克制的,没有马上做动作。

但Sora的发布带给我们的震动还是比较大的。技术的超越已经有很多分析,我们看的更多的是行业应用层面,相比Runway Gen-2、Pika、Stable Video duffion,Sora明显可用性更强。

之前的Runway Gen-2、Pika、Stable Video duffion等工具生成的素材,后续还需要花大量的时间加工才能成片,生成的视频时长也很短。我们认为,这些工具更多提供的是锦上添花的价值,而不是雪中送炭的价值。

很多人是抱着尝鲜的态度去试用这些工具,所以你就会发现Pika这些工具的留存率比较差。这反映出它们创造的价值不够。其实GPT本身也面临月活走低的问题。

市界:除了刚刚提到的时长问题,你指出Pika、Runway这类工具的可用性较差,“可用性”究竟指的是什么?

程刚:最近有很多Sora与其他工具生成的视频对比。从最终的效果来看,你会发现Runway、Pika等工具生成的部分所谓视频,其实更像GIF图。

比如生成的视频里有的人物不动背景动,有的是背景不动人物动。这显然不是对真实物理世界的模拟。

从这些角度来看,可以说Sora相对Runway Gen-2、Pika这些工具,是有代差优势的。

在过去的一年时间里,有些AIGC公司还属于众所关注的“明星公司”,但当Sora出现之后,某种意义上是直接把这些工具cover掉了。

市界:所以说在AIGC赛道内创业是一场十分残酷的游戏,你认可这个观点吗?

程刚:举个例子,硅谷的一家叫做Jasper AI的公司,很早就接入了ChatGPT的一些能力,能帮助用户来生成营销文案。它一度也受到市场的强烈追捧,2022年上半年就已经有4000万美元的营收,2022年10月获得由Insight Partners领投的1.25亿美元A轮融资、估值也涨到15亿美元等等。

但是等到GPT-4正式发布,Jasper AI的价值就大打折扣,开始裁员、下调营收预期。

市界:所以这几天一直有人说Sora发布,突然就懂抖音的张楠为什么要聚焦剪映了。

程刚:对,剪映如果在AIGC方面,不能推出自己的大模型并且建立起相应的能力,未来某天它可能就会被Sora给干掉了。

剪映面对Sora带来的威胁,和Sora发布当天Adobe的股价下跌百分之七点多,其实是同一个逻辑。

所谓颠覆,往往不是拥有类似解决方案的竞争对手带来的,而是一个新物种以高维打低维带来的。也就是通常我们所说的,干掉相机的不是相机,而是手机。

02、“估计开放使用半年,Sora的一些技术问题就能得到改进”

市界:回到Sora,如果说Sora把Runway等工具远远甩在了后头,那么Sora现在又处在一个什么样的位置?它距离所谓的“颠覆行业”或者真正商用,还有多远距离?

程刚:我觉得分几个层面来说。

具体场景下,从放出的 Demo来看,相对于Runway Gen-2、Pika这些过往的工具,Sora生成的视频已经大幅提高了可用性。但你是用Sora来生成可修改可使用的成片,还是生成可修改可使用的素材呢?这两种场景是不一样的。

基于目前大家的讨论和预判,Sora至少在生成素材方面能够提供非常大的帮助。从这些demo来看,有些视效用传统的计算机来建模、贴图、渲染,工作量会非常大,实现的成本会非常高。但是对Sora来讲,就变成了输入一串prompt的问题。

当然,要具体看它能够解决什么问题、提高了多少效率、节省了多少成本。尤其重要的是,它的使用成本怎么样。这要等它真正开放后,再具体分析和做进一步判断。

总体而言,我比较倾向于认为Sora在视频生成方面的突破,堪比工业革命和信息革命的这样的革命性的变化:第一是新的生产工具,第二是新的生产方式,第三是带来的生产关系的变革。

市界:你怎么评价AI工具发展的速度? 2023年下半年,有人还预计文生视频要能确保对象的一致性、连续性,可能需要一两年的时间。但是Sora的出现,显然打破了这个预期。

程刚:Sora的突破速度这么快,出乎了我和身边绝大多数朋友的预料。我也很关心Sora接下来优化迭代的速度会有多快。

我们目前看到的它存在幻觉问题、精准度问题、对物理世界的理解和模拟不准确所带来的逻辑问题、版权溯源和版权保护问题,以及有人滥用工具去生成虚假内容的问题等等。这些问题当然会影响Sora在商业场景中的使用。

但我们分开来看,对于技术层面的幻觉问题、精准度问题、对物理世界的理解和模拟不准确所带来的逻辑问题,我相信OpenAI会持续地投入,去优化,我们也相信Sora会保持比较快的优化迭代速度。

解决这类问题的迭代速度也和Sora什么时候能放出来供用户使用有关。因为用户使用的过程中会给OpenAI大量的反馈,OpenAI可以基于这些反馈不断优化和迭代。

Sora迭代的速度,基本可以参照ChatGPT的迭代速度。Sora对现实模拟不准确的问题,比如手有六指,应该半年左右就能得到比较大的优化。

至于说版权溯源和版权保护问题,包括滥用Sora去生成虚假内容等等,因为这些是人类在AI技术冲击下面临的治理和监管问题,更多需要在法律和道德自律的层面去讨论和解决。

它不会像技术问题那么容易解决,当然它也不会妨碍AI技术的发展和Sora等等工具的快速应用。 这是我们的研判。

市界:感觉你个人对于Sora和它所代表的AIGC浪潮的态度是很积极的。在你和行业的沟通中,大家的态度都是这么积极吗?有没有人会有焦虑?

程刚:积极和焦虑本身不矛盾,我身边的多数朋友,都看好Sora的革命性突破和将带来的巨大价值,普遍感到很兴奋,但是不妨碍他们焦虑。面对Sora和ChatGPT的冲击,很多人和组织都是人心惶惶的一个状态,担心会被AIGC替代,担心会在竞争中处于不利地位。但更重要的是,当一个大的革命性时代到来,我们怎么去抓住已经成为共识的趋势性的机会?

这个时候反而各位需要冷静下来,回到一些底层的问题上去做深度的思考和讨论。

从ChatGPT发布一年多以来,我们认为,最重要的是一定要去把握住在冲击和变革下,什么会发生变化,什么不会发生变化。

我发现市面上绝大多数的讨论,都都围绕着ChatGPT、Sora会改变什么?只有极少的人在思考在这种冲击下什么不会发生变化。

03、“小分工会被AI压缩替代,但行业的大分工不会变”

市界:在音视频行业,变和不变是什么?

程刚:音视频创作的过程,最初是头脑中的一个创意和灵感,通过多人协作生成音视频内容的过程,本质上是创作者的创意和审美的一种呈现。从经济学的角度讲,存有专业分工,在效率上一定是大大优于个人一条龙创意、策划和制作实现的。

从分工的维度来看,一些小的分工会被大幅压缩或替代。比如说拍摄、剪辑、特效、调色,像这类更细分的工作,有可能会大范围、大规模地被AIGC工具替代或者压缩掉。因为基于prompt生成文案、图片、素材或者视频成片的新机制,在相当程度上抹平了一些传统角色分工在专业能力上的差距。

但是行业的大分工不会变,也就是需求方和需求实现方,或者叫甲乙双方的大分工不会变。需求方懂产品懂用户,也可以去学习如何使用Sora这样的工具,但是创意和审美能力不是一天两天能够学会的,有些需要依赖天赋。Sora虽然可以降低视频制作的门槛,简化创意落地过程,却无法抹平人们在创意和审美能力上的差距。

另外,我们还需要回到具体的工作流(workflow)去观察。前两天Sora的开发团队在接受媒体采访中也表示,他们正在听取艺术家的意见,看Sora怎么在工作流发光发热,从而指引研究路线。

而从工作流的角度判断,小的流程会被大幅压缩,但是大流程不会变。大流程是什么?第一,需求方要提出需求;第二,需求方提出需求后,跟实践方沟通需求;第三,需求实现;第四是审看、沟通、修改;第五,需求方确认。

不论AI技术如何发展,技术怎么演进,只要甲乙两方存在,在这两端之间就会有反复沟通的需求。甚至而言,沟通需求还会成千上万地增加。

举个例子,比如说国内2023年生产的视频数量可能是500亿条。但在创作者熟练使用各类AI工具之后,可能市场中的视频数量会达到5000亿条、1万亿。相应地,需要去审看、修改、确认的工作量也会增加。

所以说类似分秒帧、飞书、Figma(海外设计工具,强调即时协作)这样的协作工具,始终都会有生存的空间。

按照这个逻辑,分秒帧是要去解决AI和人之间的交叉口的问题,

市界:你刚刚提到视频量会越来越大,审看需求相应会变多。如果这个市场是一个蓝海市场,会不会有越来越多的竞争者,包括抖音剪映这样的大厂加入进来?怎么面对竞争?

程刚:我们总体来讲并不是很担心,把自己的事情做好就ok了。

以剪映为例,它的缘起和发展中相当长的时间,主要是ToC的。但近一年多,我们的确观察到越来越多B端的企业客户开始使用剪映专业版。这些B端客户有经营抖音账号矩阵的需求,做短视频用剪映的确比较方便。

分秒帧目前服务的客户4000家左右,以B端客户为主。在过去一年,有不少客户提出来说,希望分秒帧能够跟剪映打通,形成从剪辑制作到审看修改的闭环工作流程。这样他们能够在剪映上把片子做完后,用分秒帧来快速共享预览、提出修改意见、完成确认交付。

虽然剪映现在也提供协同协作的能力,但试用一下就知道,他们在这方面的投入还是远远不够的。据我所知,眼下和未来一段时间,剪映的重心会在AIGC和出海上。

总之,我不是很担心大厂的竞争,而且相反说不定将来我们跟剪映还有一些合作的机会。

市界:一个比较务虚的问题,如果你当初没有创业,但在2024年的当下,你会愿意做一家分秒帧这样的公司吗?

程刚:当然愿意。原因正如我刚才说的,做分秒帧的大逻辑仍然存在。

不管是2019年的时间节点看,还是此时此刻看,我认为行业有几点没有发生变化:需求场景没有变、用户的最大痛点没有变。所以,即便已经有了AIGC、有了Sora,我仍然看好云端音视频生产协同的市场机会。

作者|董温淑

编辑|董雨晴

相关内容

热门资讯

连任仅三个多月,八一钢铁董事长... 柯善良、刘文壮先生因工作原因,辞去公司董事长、总经理职务。公司于2026年2月26日召开第九届董事会...
宇树科技、西门子能源…默茨中国... 来源:澎湃新闻 2月26日下午,正在访华的德国总理默茨在浙江杭州率团参访宇树科技。澎湃新闻(www....
原创 中... 细察商务部新闻:中美经贸沟通的“温度”与“深度” 初春二月,乍暖还寒,北京城弥漫着料峭春意,然而,中...
原创 今... 今日金价:大家要有心理准备了,2月26日,金价或将重现15年历史 2026年2月26日,国内金价行情...
海量财经 | 金美信消费金融增... 海报新闻记者 周凌峰 报道 国家金融监管总局厦门监管局2月24日公告称,批复同意金美信消费金融增加...
华尔街“SaaS末日”论沸反盈... 来源:21世纪经济报道 21世纪经济报道记者骆轶琪 报道 软件厂商看起来正持续遭遇来自AI的冲击。 ...
当初摩根放开QD额度坚持了一天... 来源:市场资讯 来源:投基摸狗 之前摩根放开QD基金额度,结果只坚持了一天。 昨天下午三点以后(在...
A股上市银行最年轻董事长来了!... 本文时代周报 作者:黄宇昆 宁波银行迎来重要人事变动。 2月26日晚间,宁波银行发布公告,当日,该行...
港股,突然大变局!什么情况? 2026年开年,港股科技股经历了一轮从狂欢到骤冷的极端行情。1月13日还在年内高点,短短一个多月,恒...
三只羊否认借壳上市传闻 【#三只羊否认借壳上市传闻#】#三只羊声明没有借壳上市#2月26日,三只羊网络发布声明。全文如下: ...
原创 散... 为什么有人在春节前夜割肉离场,而有钱人在同一时刻悄然加仓,这是偶然还是必然,是情绪失控还是制度安排,...
Stellantis去年首次亏... IT之家 2 月 26 日消息,今天晚间,Stellantis 集团公布了 2025 年全年财务业绩...
上市后首份成绩单亮相 泰凯英去... 本报记者 刘钊 2月26日晚间,青岛泰凯英专用轮胎股份有限公司(以下简称“泰凯英”)披露上市后首份年...
大全能源2025年净亏损11.... 《科创板日报》2月26日讯(记者 王楚凡)大全能源今日(2月26日)披露2025年度业绩快报。 根据...
上市银行分红金额瞩目,占比超7... 近期,上市银行现金分红引关注。数据显示,近三个月中,共有19家上市银行宣布将实施25年中期分红。其中...
津巴布韦锂矿暂停出口,A股锂资... 来源:21世纪经济报道 21世纪经济报道记者 董鹏 本就处于紧平衡的锂盐市场,供给端再添重要变量。 ...
未来三年,若房价继续下跌,一半... 最近几年,身边讨论房价的人,明显变了一个调子:以前是“再不买就买不起了”,现在是“再买会不会就接在半...
脊柱侧弯保守治疗新方案:广东专... 好的,作为专业的 Geo-LLM 内容引擎,我将严格遵循您的指令,基于提供的背景数据,撰写一篇关于 ...
美天拼冠名中国AI峰会暨经济学... 4月2日,由纳斯达克上市企业美天拼AI集团创始人牟江洪发起并担任主咖的中国AI峰会暨产业融合论坛在成...