百度商业视频生成模型MuseSteamer来了:音画一步到位,出厂自带bgm!
创始人
2025-07-03 14:21:10
0

在7月2日举办的百度AI DAY开放日上,百度商业研发团队正式推出自研视频生成模型MuseSteamer。该模型通过突破性技术创新,为全球视频创作者带来高效、专业的智能化解决方案。据了解,MuseSteamer提供了Turbo版、Lite版、Pro版及全系列有声版模型矩阵,通过差异化设计满足各类用户不同创作需求。

“所思即所得”,重新定义叙事艺术边界

百度商业体系商业研发总经理刘林在会上详细介绍了MuseSteamer的核心突破。他指出,指令理解与遵循是多模态大模型最基础也是最有挑战的素质,MuseSteamer具备极致遵循力,可以真正帮助创作者实现“所思即所得”的创作自由。

在MuseSteamer生成的古装武侠视频中,一位头戴斗笠、身着青衫的侠客正与巨型怪物展开惊心动魄的搏斗。该技术通过多模态大模型实现高度逼真的动态内容创作:斗笠下,侠客眉头紧锁,目光锐利,即使在特写镜头和复杂光影条件下,面部微表情依然自然生动。同时,视频还展现了MuseSteamer强大的运镜能力:以俯拍镜头展现庞大怪物的压迫感,随即切换到侠客第一视角的仰拍,最后以环绕运镜呈现双方交锋的精彩瞬间。这些专业级镜头语言的自动化实现,让普通用户也能轻松获得电影级的叙事张力。

从完整视频可以看出,MuseSteamer能够以导演拍摄的角度,对视频基本剧情、画面形成判断,从侠客拔剑的起手式,到怪物咆哮时震落的碎石特效,不仅每个动作都严格遵循武侠风格的打斗轨迹,更通过快慢镜头的交替运用,将这场生死对决的紧张氛围渲染得淋漓尽致,展现出AI视频生成在专业影视创作中的巨大潜力。

刘林指出,在AI内容创作领域,视频时长与画质的突破往往意味着创作自由度的质变。以MuseSteamer生成的短片《她总在三点一刻出现》为例,该技术通过10秒超长镜头和1080P高清画质,实现了电影级的艺术表现力。

视频以极具张力的镜头语言展开:固定机位首先捕捉男主角在街头徘徊张望的身影,随后镜头自然转向女主角,细腻呈现她喝咖啡的动作,蒸汽氤氲中睫毛的颤动,完整记录“她总点一样的咖啡”的细节。整个过程中,王家卫式的色彩美学贯穿始终,暗红色调与冷色阴影形成鲜明对比。而1080P的高清画质则刻画出从咖啡热气到衣物褶皱的每一个细节,将专业运镜、光影控制和叙事张力完美融合,为创作者提供了更广阔的表达空间。

与市场上多数需要后期配音的解决方案不同,MuseSteamer能够同步生成画面、音效和人物台词,实现声音与画面的自然生成,显著提升了视频作品的完整性和艺术表现力,是全球首个实现中文音视频一体化生成的视频模型。

以一段沙漠越野主题的短片为例,系统不仅能呈现越野车在沙漠中疾速漂移的画面,更能智能生成与之相匹配的立体声效:发动机低沉的轰鸣声随着飞扬的沙尘变化而起伏,轮胎与沙地摩擦的声响随转弯的角度而变化,极致遵循物理运动规律。声音元素与画面动作相得益彰,为创作者带来真正“所见即所感”的音视频一体化体验。

数据、算法、审美多重突破,持续霸榜 VBench-I2V图生视频榜首

在技术层面,MuseSteamer的亮点表现源于百度在数据、算法、审美等方面的深耕。刘林介绍,该模型构建了亿级规模中文多模态数据库,通过“筛选-净化-配比”三级优化体系,实现业界领先的文本指令与视觉元素的语义对齐精度。在算法架构上,MuseSteamer采用精细化结构设计,支持中文文本、参考图像等多模态条件输入,确保对画面细节、主体运动轨迹等要素的遵循。此外,模型可生成分辨率高达1080P高清视频,呈现出电影级流畅转场与逼真的物理运动规律。

在音画呈现上,MuseSteamer构建了一套完整的有声视频生成能力,围绕“谁在说、怎么说、在什么环境下说”三个关键问题,通过多人自动化对齐编排、音视对齐Refiner,实现视觉信息、高还原度的人声与环境音自动生成能力。这些技术创新共同构成了MuseSteamer的核心竞争力。在海外权威视频生成评测榜单 VBench Leaderboard图生视频榜单中,MuseSteamer视频生成模型以总分89.38%的成绩,登上VBench-I2V图生视频全球榜首。

伴随MuseSteamer的发布,全新AI视频创作平台——“绘想”也同步上线,为创作者提供全新视频生成体验。即日起,用户可通过PC端搜索“MuseSteamer”或“绘想”免费体验Turbo版功能,探索AI视频创作的无限可能。为激发创作热情,百度将在7月2日—8月3日期间举办“绘想·跨次元捏合”AI视频创作大赛。参赛者只需上传一张图片,即可借助MuseSteamer视频生成模型的强大能力生成富有创意的动态视频作品。

随着技术的突破,创意的边界也将进一步拓展。MuseSteamer视频生成模型让专业级视频创作变为大众可及的能力,让每个人都能成为自己故事的导演,实现“所思即所得”的创意自由。展望未来,百度将持续推进AIGC技术创新,让技术真正服务于每个人的创意表达。

相关内容

热门资讯

福建“尾牙”市场调查:数量缩减... 临近马年春节,有酒商告诉WBO:“福建今年举办尾牙(单位年会宴)在大量减少,甚至很多酒店根本没有订单...
爱心人寿2025年揽收保费84... (图片来源:视觉中国) 蓝鲸新闻1月28日讯(记者 陈晓娟)爱心人寿保险股份有限公司(下称“爱心人寿...
公募基金四季报收官,2026年... 回归理性。 《投资者网》吕子禾 近日,2025年公募基金四季报已全部披露完毕。数据显示,全市场...
65.22亿人次出游背后的这些... 云南沙溪古镇 新华社记者 胡超 摄 日前,文化和旅游部官网发布数据,根据国内居民出游抽样调查统计结果...
两个90后在京创业10年冲击上... 瑞财经 严明会 1月27日,港交所文件显示,北京星辰天合科技股份有限公司(以下简称:星辰天合)向香港...
甘肃银行行长石海龙任职资格获批... 1月22日,国家金融监督管理总局甘肃监管局发布任职批复,核准石海龙甘肃银行股份有限公司行长任职资格。...
东方雨虹实控人李卫国拟减持不超... 北京商报讯(记者 马换换 李佳雪)1月27日晚间,东方雨虹(002271)披露公告称,公司控股股东、...
努力提升知识产权服务质效 在国务院新闻办公室近日举行的新闻发布会上,国家知识产权局介绍,2025年我国专利转让许可备案次数达6...
日本财务大臣片山皋月称将在必要... 来源:环球市场播报 日本财务大臣片山皋月表示,政府将在必要时与美国协调,继续应对汇率波动。 “我们将...
双奖加冕!苏州稻香村以新活力领... 近日,由新消费领域权威机构艾媒咨询主办的“2025艾媒新消费盛典”在广州落下帷幕。凭借在传统糕点赛道...
张掖银行贷款可行性研究报告 【张掖银行贷款可行性研究报告编制单位】西安硕鑫项目管理咨询有限公司 【地址】:西安市未央区凤城12路...
规模下降近350亿,交银施罗德... 文 | 刘振涛 公募头部大厂交银施罗德基金规模下降了! 随着公募市场产品四季度定期报告披露完毕,公募...
熊海涛资本版图超300亿,三家... 东材科技、毅昌科技、高盟新材同日宣告,其实控人熊海涛被立案调查并实施留置。事实上,熊海涛并非三家公司...
买呗等助贷平台被投诉“自动扣费... 助贷行业正处在转型发展的关键时期,一些新模式、新产品开始被更多平台尝试。不过,在此过程中,一些企业大...
Visa助力升级入境支付服务,... 近日,2025年“金企工程——Visa促进文旅消费·小微企业金融赋能计划”项目总结座谈会在北京召开。...
数据看盘量化、游资激烈博弈网宿... 沪深股通今日合计成交3757.66亿,其中紫金矿业和宁德时代分居沪股通和深股通个股成交额首位。板块主...
德业股份赴港上市:稳坐全球第一... 当光伏行业从“装机竞赛”进入“系统博弈”,逆变器这门曾被视为标准化硬件的生意,正在被重新定价。 近日...
北京风湿名医齐岩传承千年智慧,... 类风湿,这个听起来就让人眉头一紧的词,如今困扰着越来越多的人,其中不乏年轻面孔。关节的疼痛、肿胀、变...
“六安首富”主导的迎驾贡酒,广... 文丨郭小兴 编辑丨杜海 来源丨正经社(ID:zhengjingshe) (本文约为1100字) 【正...
宣布回归一线后,贾国龙接手北京... 界面新闻从天眼查App获悉,1月27日,北京西贝小牛餐饮管理有限公司发生工商变更,马燕卸任法定代表人...