清华系出手,推出全面对标Sora的视频大模型 清华系出手,推出全面对标Sora的视频大模型
admin
2024-04-28 00:50:15
0


智东西
作者 ZeR0
编辑 漠影

智东西4月27日报道,在今日举行的2024中关村论坛人工智能主题日未来人工智能先锋论坛上,清华大学教授、生数科技首席科学家朱军宣布,生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型Vidu

根据公开融资信息,成立于去年3月的生数科技,是当前主要国内累计融资额及估值最高的类Sora创企,迄今已完成数亿元融资,投资方包括百度风投智谱AI、蚂蚁集团以及创始成员多数来自于原字节跳动投资团队的锦秋基金

朱军现场展示了Vidu与Pika、Gen-2、Sora等行业现有文生视频大模型的生成视频效果对比。他评价说,Vidu在16秒长期保持和语义理解等方面表现得非常突出。


▲使用相同提示词,Vidu与Pika、Gen-2生成视频对比


▲使用相同提示词,Vidu与Sora生成视频对比


▲Vidu生成视频的部分动图

Vidu能根据文本描述直接生成16秒高质量视频,且生成视频流畅连贯,没有明显的插帧现象。据介绍,这是因为Vidu采用的是“一步到位”的生成方式,与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,无需经过多个步骤的关键帧生成和插帧处理。

一、一键生成16秒高清视频,Vidu具有5大特色

Vidu支持一键生成长达16秒1080P分辨率的高清视频内容,具备模拟真实物理世界、富有想象力、多镜头语言、高时空一致性、理解中国元素等特色。

1、模拟真实物理世界。能够生成复杂、细节丰富的场景,且符合物理规律,例如合理的光影效果、细腻的人物表情等。


▲在输入复杂SUV加速行驶在陡峭土路上的场景描述后,Vidu生成的视频

2、富有想象力。能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。


▲Vidu根据提示词“画室里的一艘船驶向镜头”生成的视频

3、多镜头语言。能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言。


▲Vidu根据提示词“在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩”生成的视频

4、高时空一致性。在16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致。


▲Vidu根据提示词“这是一只蓝眼睛的橙色猫的肖像,慢慢地旋转,灵感来自维米尔的《戴珍珠耳环的女孩》,画面上带着珍珠耳环,棕色头发像荷兰帽一样,黑色背景,工作室灯光”生成的视频

5、理解中国元素。能够理解、生成特有的中国元素,例如熊猫、龙等。


▲Vidu根据提示词“在宁静的湖边,一只熊猫热切地弹着吉他,让整个环境变得活跃起来。晴朗天空下平静的水面倒映着这一场景,以生动的全景镜头捕捉到,将现实主义与大熊猫活泼的精神融为一体,创造出活力与平静的和谐融合”生成的视频

二、快速突破源于多项原创成果,文生视频能力加速成长中

朱军称其快速突破离不开5个要素:算法原理、模型架构、算力资源、数据治理、工程实现


他谈道,Vidu的快速突破源于长期积累和多项原创成果,其技术路线与Sora高度一致。2022年9月,其团队在全球首发U-ViT网络架构,这是全球首个Diffusion Transformer架构,这一架构提出3个月后,Sora采用的同源基础架构DiT的论文才发表。


受限于算力限制,其团队起初选择做文生图、文生3D这类计算量相对小一些的大模型研发,2023年3月在全球首发并开源基于U-ViT架构的多模态大模型UniDiffuser,在全球范围内率先完成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型,支持图文模态间的任意生成和转换,在架构上比同样DiT架构的Stable Diffusion 3领先了一年。

同年5月,该团队提出文生3D新算法Prolific Dreamer,今年1月发布4D框架Animatable Dreamer并实现可生成4秒视频的文生视频模型。

“Sora出来之后,刺激了我们攻关的速度。”朱军说,团队第一时间紧急启动和攻关,3月将视频时长突破8秒,4月突破16秒,短短两个月实现了长视频表示与处理关键技术的突破,取得了今天的效果,将视频连贯性与动态性显著提升。


结语:推出Vidu大模型合作伙伴计划,共建生态推动视频大模型发展

朱军解释说,Vidu的取名有多重含义,首先字面含义与“Video(视频)”相近,更深层的含义还表达了三个愿景:

一是谐音“We do”,“我们第一时间决定我们应该要做,而且立即去做”;二是谐音“We did”,今天的进展虽然只是迈出一小步,但确实做到在这个方向能够有突破性进展;三是“We do together”,现在的进展还在初步阶段,希望与国内优质单位合作,共同实现技术进步。

大模型的突破是一个多维度、跨领域的综合性过程,需要技术与产业应用的深度融合。为此,生数科技正式推出“Vidu大模型合作伙伴计划”,发起合作伙伴申请通道,诚邀产业链上下游的企业和研究机构共同合作,推动视频大模型发展。

申请链接:https://shengshu.feishu.cn/share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph

相关内容

热门资讯

U23亚洲杯-小仓幸成2球 U... 北京时间1月24日消息,2026年U23亚洲杯决赛展开争夺,中国U23男足迎战日本队。上半场比赛大关...
主动权益基金调仓:加仓周期、金... 深圳商报·读创客户端记者 陈燕青 公募基金四季报披露完毕,主动权益基金的动向也浮出水面。根据WIND...
容百科技融资净偿还9910.5... 雷达财经雷助吧出品 文|吴墨 编|深海 东财Choice数据显示,1月23日, 容百科技获融资买入1...
我国银行理财市场规模首次突破3... (央视财经《经济信息联播》)银行业理财登记托管中心最新数据显示,截至2025年末,我国银行理财市场存...
我国在建最大装机容量钠离子电池... 据中国电建官微消息,近日,中国电建承建的我国在建最大装机容量钠离子电池储能电站——洪湖市100兆瓦/...
光大保德信红利量化混合A:20... AI基金光大保德信红利量化混合A(023106)披露2025年四季报,第四季度基金利润160.87万...
和讯投顾胡云龙:市场再迎转机,... 1月23日,和讯投顾胡云龙表示,今天这根小阳线可不简单,极有可能倒逼出后续加速上涨。这根小阳线来之不...
原创 黄... 今天(1月17日)金价波动让人摸不着头脑,早上还有人说黄金要创新高,结果下午一看,不少品牌金饰直接跌...
倾听“新声”,助“新”成长 “涉诈账户解控,如何既合规又体现服务温度?”“面对老年客户,系统操作时间能否更宽松”……日前,在建行...
“凉都新街市”数字年货展销会启... “这个腊肉闻着好香,一看价格,更香!”家住凤凰山的李阿姨拎着刚选好的腊肉香肠笑得合不拢嘴。 “因为...
博时国企改革主题股票A:202... AI基金博时国企改革主题股票A(001277)披露2025年四季报,第四季度基金利润474.82万元...
原创 从... 2025年,光伏组件龙头厂商晶科能源预亏59亿元至69亿元,第四季度单季最高预亏逼近30亿元 投资...
青山集团:全球“镍矿和不锈钢老... 全球最大的不锈钢及镍生产商青山集团正在将其庞大的工业版图从核心的镍与不锈钢业务,迅速扩展至铝业及新能...
U23国足VS日本首发:王钰栋... 北京时间1月24日晚23:00,2026年U23亚洲杯决赛即将展开争夺,中国U23男足将在沙特吉达的...
农银国企改革混合:2025年第... AI基金农银国企改革混合(002189)披露2025年四季报,第四季度基金利润137.33万元,加权...
经济热点快评 | 人民币汇率再... 来源:北京日报客户端 1月23日,中国人民银行授权中国外汇交易中心公布,当日银行间外汇市场人民币汇率...
洋河股份董事会决议:顾宇兼任总... 来源:中访网 中访网数据 江苏洋河酒厂股份有限公司于2026年1月23日召开第八届董事会第十八次会议...
原创 老... 朋友们大家好,我是标叔。 最近这几年,中美博弈一直处在紧张的时刻。 从贸易关税到技术封锁,从能源博弈...
千亿级请求下,飞猪如何将广告外... 作者 | 曹会祎 什么是 RTA? 一句话描述:RTA(Real-Time API)= 实时竞价接口...
今世缘酒业荣获“2025ESG... 1月22日,第十五届公益节暨2025ESG影响力年会在北京举行。凭借在ESG领域的深耕实践与卓越成效...