字节让达芬奇和蒙娜丽莎“隔空吵架”,只需一张图、一段音频 字节让达芬奇和蒙娜丽莎“隔空吵架”,只需一张图、一段音频
admin
2024-01-15 16:14:27
0

AIGC在视频生成领域展现出非凡的潜力。近期, 字节跳动智能创作团队和得克萨斯大学达拉斯分校又提出了一项名为DREAM-Talk的基于扩散模型框架:接收一段驱动的音频序列、一张给定的人像图片和一个情感风格的例子(一段有情感的讲话面部视频)作为输入,就能生成一段逼真的、嘴唇同步的讲话面部视频,其中包含高质量的情感表达,连画像也能绘声绘色地进行表演,还支持多个语种。

(以下结果包括真实人类图像和由 AIGC 生成的图像。)



DREAM-Talk 框架的流程如下:

首先,将音频映射到表情是一个一对多的问题,使得获得动态和真实的表情变得困难。

其次,生成一系列3D脸部表情参数涉及许多问题,如连续性和多样性。为了应对这些挑战,团队提出了基于扩散的模型,用于生成3D面部表情序列。以输入的音频、初始状态和情感风格作为条件,团队利用EmoDiff学习随时间去噪3D表情,使用基于Transformer的架构进行序列建模。初始状态对应于第一帧中的表情,情感风格由随机选择的表情片段定义,独立于输入音频。

从扩散模型获得动态情感表达后,团队观察到扩散网络无意中减少了音频的影响,导致音频和嘴形之间明显的不匹配。这种现象归因于扩散网络生成真实序列的倾向,从而减弱了音频的影响。为了纠正这个问题,团队引入了一个嘴唇同步细化网络,利用相同的音频和情感数据来重新校准并生成细化的嘴部参数。利用条件约束的音频和情感表达,嘴唇细化模型进一步优化口部动作,而不改变情感,之后使用blendshape生成相应的 3D 渲染面部。

最后,团队采用经过微调的Face-Vid2Vid模型生成情感讲话视频。具体来说,团队使用Face-Vid2Vid方法作为基本的神经渲染方法。此外,团队对模型进行了微调处理,使用精心挑选的高分辨率表达性讲话视频,来自TalkHead-1HK数据集,旨在提升表达性和渲染质量。



与最新方法的比较:在前两个比较中,团队分别对MEAD和HDTF数据集进行评估。在第三个比较中,团队使用一个由AIGC生成的面部。团队还将团队的Rig模型结果作为中间表示进行可视化。团队的方法在情感表达、嘴唇同步、身份保持和图像质量方面始终产生显著优越的结果。



多人物情感演示: 支持各种情感表达,如愤怒、快乐、悲伤、惊讶等。

跨越时空的对话演示: 达芬奇主要表现愤怒,而蒙娜丽莎则表现快乐。

多语言演示: 支持情感表情生成,包括中文、日语、法语、德语等。

了解更详细的信息:

Arxiv: https://arxiv.org/abs/2312.13578
Project page: https://magic-research.github.io/dream-talk/

关于字节跳动智能创作团队

智能创作团队是字节跳动AI&多媒体技术中台,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助字节跳动丰富的业务场景、基础设施资源和良好的技术协作氛围,实现了前沿算法-工程系统-产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

相关内容

热门资讯

投顾观市:市场转弱,控制仓位,... 6月26日,和讯投顾高璐明在今日市场分析中指出,A股全天表现极为疲弱,三大指数集体跳水,近4700只...
消费活力足 5月3日,上海轻音乐团演奏家在静安区苏河湾万象天地为市民游客演奏乐曲。商圈街区化身舞台,形成“处处有...
超力电器由董事长沈留青家族四人... 瑞财经 刘治颖 6月25日,江苏超力电器股份有限公司(以下简称:超力电器)北交所IPO获受理,保荐机...
穿透迷雾 寻找全球秩序重构下的... ◎记者 马嘉悦 全球宏观经济已然行至一个“十字路口”:美联储货币政策在通胀与增长间艰难摇摆,地缘冲突...
黄金,神话告破! 文 | 中国金融网(CFN) 大河 版权图片 | 微摄 2026年6月24日晚间,现货黄金跌破400...
深夜,猛烈抛售!芯片巨头全线大... 最强赛道突遭猛烈抛售。 今日(6月26日)晚间,美股开盘后,美股芯片股全线大跌,费城半导体指数一度大...
“史上最重”私募处罚落地,证监... 此次对两家私募机构的处罚力度堪称 “史上最重”,充分表明了中国证监会对私募基金严重违法违规行为“零容...
一个杭州企业主为什么把土耳其身... 去年底开始,杭州几家做跨境电商的朋友陆续在问同一个问题:土耳其那个20年免税的新规,是不是拿了护照就...
原创 中... 最近网上流行一个词,叫"新型穷人"。说的是这么一群人:有房有车,名片上的头衔挺唬人,朋友圈也经营得体...
贵阳居民如何选择合规的黄金回收... 贵州地区黄金变现的普遍需求与顾虑 当前贵州全省包括贵阳南明区、云岩区、花溪区、乌当区、白云区、观山...
董事长郭锐等入股智界汽车 天眼查 App 显示,近日,智界汽车关联公司安徽智界新能源汽车有限公司发生工商变更,新增董事长郭锐名...
全球性涨价,苹果“崩了”! 美国方面当地时间25日消息, 苹果公司宣布上调全球多个市场的Mac、iPad等多款硬件产品价格,涨幅...
五粮液新帅邓敏对外首秀:换挡“... 财闻 谢振宇 发自宜宾 6月26日上午, 五粮液(000858.SZ )2025年度股东会在宜宾公司...
2026年首例!最“稳”的纯债... 稳健资金还在,但不会无差别买单。 作者 | 市值风云基金研究部 编辑 | 小白 菜市场里,最怕的不...
合规致远·价值共生|2026年... 6月26日,由时代传媒集团主办,时代商业研究院承办的“2026年上市公司高质量发展论坛暨第五届董秘沙...
据报道OpenAI推迟 IPO... 来源:环球市场播报 核心要点 预测交易平台Kalshi的交易员认为,OpenAI 将在 2027 年...
刚刚,全线大跌!韩国股市又熔断... 韩国股市熔断, 亚太股市全线承压 ! 在前一日大涨触发熔断之后,6月26日韩国市场快速转冷,再度大跌...
千禾味业实控人质押1.64亿股... 6月25日晚,千禾味业食品股份有限公司(603027.SH,下称“千禾味业”)发布公告称,公司控股股...
2026年深圳跨境代运营选择参... 2026年,深圳某中型消费电子制造企业,此前常年深耕国内代工赛道,2025年尝试自主布局Shopee...
原创 6... 现在欧洲各国正在干一件自打耳光的事,几十年前把黄金全存到纽约伦敦,怕俄罗斯打过来抢走,现在急着往自家...