字节让达芬奇和蒙娜丽莎“隔空吵架”,只需一张图、一段音频 字节让达芬奇和蒙娜丽莎“隔空吵架”,只需一张图、一段音频
admin
2024-01-15 16:14:27
0

AIGC在视频生成领域展现出非凡的潜力。近期, 字节跳动智能创作团队和得克萨斯大学达拉斯分校又提出了一项名为DREAM-Talk的基于扩散模型框架:接收一段驱动的音频序列、一张给定的人像图片和一个情感风格的例子(一段有情感的讲话面部视频)作为输入,就能生成一段逼真的、嘴唇同步的讲话面部视频,其中包含高质量的情感表达,连画像也能绘声绘色地进行表演,还支持多个语种。

(以下结果包括真实人类图像和由 AIGC 生成的图像。)



DREAM-Talk 框架的流程如下:

首先,将音频映射到表情是一个一对多的问题,使得获得动态和真实的表情变得困难。

其次,生成一系列3D脸部表情参数涉及许多问题,如连续性和多样性。为了应对这些挑战,团队提出了基于扩散的模型,用于生成3D面部表情序列。以输入的音频、初始状态和情感风格作为条件,团队利用EmoDiff学习随时间去噪3D表情,使用基于Transformer的架构进行序列建模。初始状态对应于第一帧中的表情,情感风格由随机选择的表情片段定义,独立于输入音频。

从扩散模型获得动态情感表达后,团队观察到扩散网络无意中减少了音频的影响,导致音频和嘴形之间明显的不匹配。这种现象归因于扩散网络生成真实序列的倾向,从而减弱了音频的影响。为了纠正这个问题,团队引入了一个嘴唇同步细化网络,利用相同的音频和情感数据来重新校准并生成细化的嘴部参数。利用条件约束的音频和情感表达,嘴唇细化模型进一步优化口部动作,而不改变情感,之后使用blendshape生成相应的 3D 渲染面部。

最后,团队采用经过微调的Face-Vid2Vid模型生成情感讲话视频。具体来说,团队使用Face-Vid2Vid方法作为基本的神经渲染方法。此外,团队对模型进行了微调处理,使用精心挑选的高分辨率表达性讲话视频,来自TalkHead-1HK数据集,旨在提升表达性和渲染质量。



与最新方法的比较:在前两个比较中,团队分别对MEAD和HDTF数据集进行评估。在第三个比较中,团队使用一个由AIGC生成的面部。团队还将团队的Rig模型结果作为中间表示进行可视化。团队的方法在情感表达、嘴唇同步、身份保持和图像质量方面始终产生显著优越的结果。



多人物情感演示: 支持各种情感表达,如愤怒、快乐、悲伤、惊讶等。

跨越时空的对话演示: 达芬奇主要表现愤怒,而蒙娜丽莎则表现快乐。

多语言演示: 支持情感表情生成,包括中文、日语、法语、德语等。

了解更详细的信息:

Arxiv: https://arxiv.org/abs/2312.13578
Project page: https://magic-research.github.io/dream-talk/

关于字节跳动智能创作团队

智能创作团队是字节跳动AI&多媒体技术中台,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助字节跳动丰富的业务场景、基础设施资源和良好的技术协作氛围,实现了前沿算法-工程系统-产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

相关内容

热门资讯

原创 4... 写在文章前的声明:在本文之前的说明:本文中所列的投资信息,只是一个对基金资产净值进行排行的客观描述,...
胜宏科技港股大涨49% 做完英... 记者 陈月芹 4月21日,全球AI算力板龙头胜宏科技(02476.HK)登陆港交所,上市首日股价大涨...
永赢基金:聚焦“科技新锐”,科... 数据来源:Wind,时间统计区间为2025/1/1-2026/4/21,指数过往表现不预示未来,不构...
五大阅读趋势显现!当当网发布2... 在第31个世界读书日即将来临之际及首个全民阅读活动周期间,当当网正式发布2026国民阅读洞察报告。 ...
业绩逐季回暖 老百姓大药房一季... 上证报中国证券网讯(记者 夏子航)4月22日晚,老百姓大药房发布2025年年报和2026年一季报。今...
中国20强城市大洗牌:苏州接近... 中国的城市经济竞争格局一直在变化,每年发布的GDP数据都会对城市经济实力进行重新排列。2025年榜又...
直击金宏气体股东会:预期年内氦... 《科创板日报》4月22日讯(记者 郭辉)金宏气体日前举行2025年度股东大会。会上该公司审议了公司年...
5月1日起,俄据悉将叫停哈萨克... 据行业消息人士透露,俄罗斯将于5月1日起停止经友谊管道转运哈萨克斯坦输往德国的石油,相关调整计划已送...
深化具身智能生态布局 京东携手... 4 月 22 日,京东与国内消费级人形机器人头部企业松延动力正式达成三年期战略合作。双方将围绕产品研...
原创 帮... 先问你一个问题,美伊停火今晚到期,按常理避险情绪该升温,黄金应该涨吧?结果恰恰相反——原油涨了,黄金...
300295、600889,将... 三六五网、南京化纤,将被*ST。 公司股票自4月23日开市起停牌一天,于4月24日开市起复牌并实施退...
能源大变天!外媒:羡慕中国的石... 这一次油价突破 110 美元的能源危机,着实魔幻。如果放在十年前,没人会相信中国能在这场风波中获利,...
黄金涨跌两难,现在还能上车吗? 中新网4月22日电(记者 左雨晴) 四月以来,美伊局势反复拉扯,美联储降息预期一变再变。黄金价格在4...
“我身体健康”,库克现身员工大... 当地时间4月21日,受苹果官宣CEO换届影响,公司股价盘中下探超2%,总市值失守4万亿美元关口,收盘...
库克留下一个悬念 工程师能否拯救创新节奏? 听筒Tech(ID:tingtongtech)原创 文 | 赵 森 ...
探索消费信贷与社交支付深度融合... 腾讯这一金融产品再添新功能,4月19日,北京商报记者注意到,微信分付灰度测试转账功能引发热议,在向微...
土耳其主要银行股指早盘下跌2% 每经AI快讯,4月20日,土耳其主要银行股指早盘下跌2%。 每日经济新闻
好用的OTA代运营源头厂家 在如今竞争激烈的酒旅行业中,OTA代运营服务成为了众多酒店、民宿提升竞争力的关键。但市场上的代运营厂...
成都五一出游全国热门第三 “五一”假期临近,同程旅行最新发布的《2026“五一”旅行趋势报告》显示,今年“五一”期间成都同时位...