百度商业视频生成模型MuseSteamer来了:音画一步到位,出厂自带bgm!
创始人
2025-07-03 14:21:10
0

在7月2日举办的百度AI DAY开放日上,百度商业研发团队正式推出自研视频生成模型MuseSteamer。该模型通过突破性技术创新,为全球视频创作者带来高效、专业的智能化解决方案。据了解,MuseSteamer提供了Turbo版、Lite版、Pro版及全系列有声版模型矩阵,通过差异化设计满足各类用户不同创作需求。

“所思即所得”,重新定义叙事艺术边界

百度商业体系商业研发总经理刘林在会上详细介绍了MuseSteamer的核心突破。他指出,指令理解与遵循是多模态大模型最基础也是最有挑战的素质,MuseSteamer具备极致遵循力,可以真正帮助创作者实现“所思即所得”的创作自由。

在MuseSteamer生成的古装武侠视频中,一位头戴斗笠、身着青衫的侠客正与巨型怪物展开惊心动魄的搏斗。该技术通过多模态大模型实现高度逼真的动态内容创作:斗笠下,侠客眉头紧锁,目光锐利,即使在特写镜头和复杂光影条件下,面部微表情依然自然生动。同时,视频还展现了MuseSteamer强大的运镜能力:以俯拍镜头展现庞大怪物的压迫感,随即切换到侠客第一视角的仰拍,最后以环绕运镜呈现双方交锋的精彩瞬间。这些专业级镜头语言的自动化实现,让普通用户也能轻松获得电影级的叙事张力。

从完整视频可以看出,MuseSteamer能够以导演拍摄的角度,对视频基本剧情、画面形成判断,从侠客拔剑的起手式,到怪物咆哮时震落的碎石特效,不仅每个动作都严格遵循武侠风格的打斗轨迹,更通过快慢镜头的交替运用,将这场生死对决的紧张氛围渲染得淋漓尽致,展现出AI视频生成在专业影视创作中的巨大潜力。

刘林指出,在AI内容创作领域,视频时长与画质的突破往往意味着创作自由度的质变。以MuseSteamer生成的短片《她总在三点一刻出现》为例,该技术通过10秒超长镜头和1080P高清画质,实现了电影级的艺术表现力。

视频以极具张力的镜头语言展开:固定机位首先捕捉男主角在街头徘徊张望的身影,随后镜头自然转向女主角,细腻呈现她喝咖啡的动作,蒸汽氤氲中睫毛的颤动,完整记录“她总点一样的咖啡”的细节。整个过程中,王家卫式的色彩美学贯穿始终,暗红色调与冷色阴影形成鲜明对比。而1080P的高清画质则刻画出从咖啡热气到衣物褶皱的每一个细节,将专业运镜、光影控制和叙事张力完美融合,为创作者提供了更广阔的表达空间。

与市场上多数需要后期配音的解决方案不同,MuseSteamer能够同步生成画面、音效和人物台词,实现声音与画面的自然生成,显著提升了视频作品的完整性和艺术表现力,是全球首个实现中文音视频一体化生成的视频模型。

以一段沙漠越野主题的短片为例,系统不仅能呈现越野车在沙漠中疾速漂移的画面,更能智能生成与之相匹配的立体声效:发动机低沉的轰鸣声随着飞扬的沙尘变化而起伏,轮胎与沙地摩擦的声响随转弯的角度而变化,极致遵循物理运动规律。声音元素与画面动作相得益彰,为创作者带来真正“所见即所感”的音视频一体化体验。

数据、算法、审美多重突破,持续霸榜 VBench-I2V图生视频榜首

在技术层面,MuseSteamer的亮点表现源于百度在数据、算法、审美等方面的深耕。刘林介绍,该模型构建了亿级规模中文多模态数据库,通过“筛选-净化-配比”三级优化体系,实现业界领先的文本指令与视觉元素的语义对齐精度。在算法架构上,MuseSteamer采用精细化结构设计,支持中文文本、参考图像等多模态条件输入,确保对画面细节、主体运动轨迹等要素的遵循。此外,模型可生成分辨率高达1080P高清视频,呈现出电影级流畅转场与逼真的物理运动规律。

在音画呈现上,MuseSteamer构建了一套完整的有声视频生成能力,围绕“谁在说、怎么说、在什么环境下说”三个关键问题,通过多人自动化对齐编排、音视对齐Refiner,实现视觉信息、高还原度的人声与环境音自动生成能力。这些技术创新共同构成了MuseSteamer的核心竞争力。在海外权威视频生成评测榜单 VBench Leaderboard图生视频榜单中,MuseSteamer视频生成模型以总分89.38%的成绩,登上VBench-I2V图生视频全球榜首。

伴随MuseSteamer的发布,全新AI视频创作平台——“绘想”也同步上线,为创作者提供全新视频生成体验。即日起,用户可通过PC端搜索“MuseSteamer”或“绘想”免费体验Turbo版功能,探索AI视频创作的无限可能。为激发创作热情,百度将在7月2日—8月3日期间举办“绘想·跨次元捏合”AI视频创作大赛。参赛者只需上传一张图片,即可借助MuseSteamer视频生成模型的强大能力生成富有创意的动态视频作品。

随着技术的突破,创意的边界也将进一步拓展。MuseSteamer视频生成模型让专业级视频创作变为大众可及的能力,让每个人都能成为自己故事的导演,实现“所思即所得”的创意自由。展望未来,百度将持续推进AIGC技术创新,让技术真正服务于每个人的创意表达。

相关内容

热门资讯

我国首个全国产控制系统水光互补... 据国资委官网消息,近日我国首个全国产控制系统水光互补项目——华能小湾水光互补项目在云南正式投运,标志...
2026快手创新与知识产权白皮... 快手以技术创新链与产业应用链双螺旋为核心架构,搭配知识产权支撑体系,形成 AI 时代完整的创新与价值...
被救活了!澳洲这个知名网购平台... 好消息!Click Frenzy被救活啦! Click Frenzy,是澳洲一个线上大促平台,前段时...
追觅CEO俞浩一天发了117条... 近日,追觅科技CEO俞浩在个人社交平台开启超高强度更新模式。短短三天时间里,他在多个社交平台密集发布...
“红利+”策略指数走势分化,价... 5月6日早盘,市场震荡上行,科技成长方向表现强势,“红利+”策略指数走势分化。截至午间收盘,国证自由...
工业增加值增速创五年新高 福田... 凭借在人工智能领域的深耕,企业扎堆的福田区的天使荟·千模应用加速器不仅摘得深圳多项荣誉,更于近日获评...
原创 敢... 大家好,我是言叔。最近,79岁的“玻璃大王”曹德旺在公开场合放出一句霸气十足的狠话——面对美国可能加...
原创 丧... 溃败边缘狗急跳墙!泽连斯基攻击自家核电站,要拉欧洲同归于尽。战场即将崩盘、停战必死无疑,泽连斯基早已...
A股大涨,超4000只个股上涨... 五一小长假后首个交易日,A股三大指数集体高开,其中,上证指数高开0.57%,深证成指高开1.43%,...
五粮液的大戏,只是拉开序幕 4月30日,赶在五一假期前最后一个交易日,趁着全国人民准备出门旅游的当口,五粮液甩出了多份公告。 其...
原创 存... 这几天发生了不少大事,我们简单捋一捋。三部门放大招,要扩大科技创新贷款投放。 美国对欧盟汽车加征25...
A2奶粉因检出“呕吐毒素”在美... 北京5月5日电(记者 赵方园)新西兰乳企a2牛奶公司卷入蜡样芽孢杆菌毒素召回风波。 5月3日晚,中国...
新股消息 | 从招股书看好医生... 智通财经APP获悉,当市场仍习惯用“传统互联网医疗平台”甚至“传统医药流通渠道”来理解好医生云医疗时...
科创50指数大涨超8% 半导体... 上证报中国证券网讯 5月6日,A股主要股指早盘集体走强。截至午间收盘,沪指涨1.27%,深证成指涨2...
体验经济蓬勃发展,“五一”假期... 今年劳动节假期,部分省市放春假提前预热“假日经济”,传统热门目的地客流量持续增长,曾经的“小众目的地...
互学互鉴促合作 携手共赢谋发展... 5月4日,新乡市工商联“新商课堂”九期班开展企业互访活动。 首站参访了新乡市瑞龙商贸有限公司,该企...
港股异动|诺比侃大跌15.8%... 诺比侃(2635.HK)大幅下跌15.8%,现报20.24港元股价再度逼近上市低位,市值76.7亿港...
文远知行股权曝光:韩旭持股6.... 雷递网 雷建平 5月6日 文远知行(WeRide)日前发布截至2025年12月31日的年报。年报显示...
马斯克同意支付超1000万元罚... 美国证券交易委员会(SEC)与马斯克就收购推特期间的违规诉讼达成和解,相关法庭文件正式提交。 根据协...
大盘放量上攻,全市场半日成交额... 5月6日早盘,A股三大指数集体走强,沪指涨1.27%,冲击五连阳,全市场成交额超2万亿元,较上一交易...