阿里EMO模型,一张照片就能造谣 阿里EMO模型,一张照片就能造谣
admin
2024-02-29 09:39:23
0


您目前设备暂不支持播放 角色:张颂文饰演的高启强
您目前设备暂不支持播放
声乐来源:法律考试在线课程
角色:Audrey Kathleen Hepburn-Ruston
声乐来源:Ed Sheeran - Perfect. Covered by Samantha Harvey
角色:来自SORA的AI Lady
声乐来源:Where We Go From Here with OpenAI's Mira Murati
角色:蔡徐坤
声乐来源:Eminem - Rap God
角色:张国荣
声乐来源:陈奕迅 - Eason Chan - Unconditional. Covered by AI (粤语)

出品|虎嗅科技组

作者|齐健

编辑|王一鹏

头图|EMO

2月28日,阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO(Emote Portrait Alive)。EMO仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然。

EMO不仅能够生成唱歌和说话的视频,还能在保持角色身份稳定性的同时,根据输入音频的长度生成不同时长的视频。

您目前设备暂不支持播放


您目前设备暂不支持播放

您目前设备暂不支持播放

您目前设备暂不支持播放

EMO的工作过程分为两个主要阶段:首先,利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征;然后,利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频。该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。

这个过程相当于,AI先看一下照片,然后打开声音,再随着声音一张一张地画出视频中每一帧变化的图像。


EMO的技术报告中称:实验结果表明,EMO不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,显著优于现有的先进方法,如DreamTalk、Wav2Lip和SadTalker,无论是在表现力还是真实感方面。

目前,研究团队认为该模型的潜在应用方向将集中在:提高数字媒体和虚拟内容生成技术水平,特别是在需要高度真实感和表现力的场景中。

然而在另一些人看来,EMO模型却很可能成为别有用心的人手中的犯罪工具。

AI生成视频日益危险

事实上,与EMO类似的多数研究,对于技术滥用的可能性讨论的都相对较少。EMO的技术报告中也没有直接提及EMO模型是否可能被用于非法用途。

然而,基于深度学习和生成模型的技术,如EMO,确实存在被滥用的风险,例如生成虚假内容、侵犯隐私或个人形象权等。

生成式AI技术的快速发展,在刺激全社会正向发展的同时也给很多黑色、灰色产业提供了新技术。

LLaMA等开源大语言模型刚刚兴起时,就有一些不法分子利用AI生成诈骗脚本。某互联网金融机构专家告诉虎嗅,AI生成的诈骗脚本内容更多变,在一定程度上增加了利用技术手段甄别诈骗的难度。

不过语言模型即便对于不法分子来说,也并不容易找到应用场景。DeepFake(深度伪造)的“主战场”目前仍在图片和视频生成领域。

深度伪造技术是通过AI创建或修改图片、视频和音频内容,使之看起来像是真实的,但实际上是虚构的。这种技术的高度真实性和易于获取的特点,使其应用范围广泛,但同时也带来了一系列道德和法律上的挑战。

距离今天最近的DeepFake案件就是2024年1月下旬AI合成Taylor Swift色情图片事件。这些图片在社交媒体平台4chan和X(以前称为Twitter)上大量传播,据外媒报道,其中一篇帖子在最终被删除之前已被浏览超过4700万次。有人认为斯威夫特的影响力可能会导致关于制作深度伪造色情内容的新立法。

除了著名歌星之外,深度伪造技术也曾被应用在一些危险的政治斗争中。美国非党派倡导组织RepresentUs曾利用深度伪造技术发布广告,伪造普京和金正恩的讲话,暗指普京正在操纵美国大选。虽然这两则视频都以“这段视频不是真实的,但威胁是真实的”这样的免责声明结尾,但对于辨别能力较弱的普通民众来说,如果这样的伪造视频大规模传播,仍是有可能造成严重的后果。

虽然多数生成式AI技术开发的目的都是用于创新和教育,但其在法律方面的潜在负面影响,尤其是在侵犯个人隐私、扭曲信息真相和影响政治过程方面,需要得到社会、立法机构和技术公司的足够重视。

如何规避DeepFake风险?

目前,开发和应用此类技术时,研究者和开发者需考虑到这些潜在风险,并采取适当的措施来减轻这些风险,例如通过加入水印、制定使用准则等方式。

为了应对深度伪造视频和图像的挑战,目前已经开发了很多技术和法律手段,来识别伪造内容,并限制技术使用范围,包括加水印,制定严格的使用准则等方式。

Nature在2023年5月刊登的一篇论文中,介绍了一种通过机器学习(ML)和深度学习(DL)技术来检测和分类深度伪造图像的方法。这个框架利用预处理方法找到错误级别分析(ELA),然后使用深度CNN架构提取深层特征,这些特征随后通过SVM和KNN进行分类,准确率达到了89.5%。

MIT Media Lab也在积极研究相关项目,一项名为Detect DeepFakes的项目,可以通过识别AI生成的错误信息的微妙迹象来对抗误导信息。该项目组认为,深度伪造视频有一些细微的标志,比如面部的不自然平滑或阴影位置不正确等,可以帮助人们识别出深度伪造内容。

很多科技巨头也针对DeepFake推出了一些检测技术。Intel就研发了一款名为FakeCatcher的实时深度伪造检测器,该技术可以在毫秒级返回结果,准确率高达96%。FakeCatcher通过评估视频像素中的微妙“血流”变化来寻找真实视频的线索,然后使用深度学习即时检测视频是真实还是伪造。

Google的Assembler实验平台,则可以帮助记者和事实核查员快速验证图像。虽然Assembler是一个积极的步骤,但它不涵盖视频的许多其他现有操纵技术,技术解决方案本身并不足以解决数字伪造的所有挑战。

此外,也有一些专门的机构在提供这方面的服务。Sentinel是一家基于AI的保护平台,用户可以通过其网站或API上传数字媒体,系统将自动分析媒体是否为AI伪造,并提供操纵的可视化表示。

然而,道高一尺魔高一丈。生成式AI技术的快速发展,或许很快就会使这些检测技术和工具中的一部分失效。

例如EMO模型,即使在缺乏明显线索的情况下,也能创建出逼真的视频。另一方面,如果视频内容的复杂性过高,或视频质量过低,也可能会大大影响检测工具的准确性。

EMO技术报告解读

EMO模型的训练数据集使用了超过250小时的视频和超过1.5亿张图像。这个数据集包含了广泛的内容,包括演讲、电影和电视剪辑以及歌唱表演,涵盖了多种语言,如中文和英文。这确保了训练材料能够捕捉到人类表达和声音风格的广泛光谱。

在模型架构方面,EMO采用了与Stable Diffusion相似的UNet结构,其中包含了用于视频帧生成的时间模块。

训练分为三个阶段,图像预训练、视频训练和速度层训练。在图像预训练阶段,网络以单帧图像为输入进行训练。在视频训练阶段,引入时间模块和音频层,处理连续帧。速度层训练专注于调整角色头部的移动速度和频率。

使用了大约250小时的talking head视频,来自互联网和HDTF以及VFHQ数据集,VFHQ数据集在第一阶段训练时使用,因为它不包含音频。

视频剪辑被重置和裁剪到512×512的分辨率。在第一训练阶段,批处理大小设置为48。在第二和第三训练阶段,生成视频长度设置为f=12,运动帧数设置为n=4,训练的批处理大小为4。

学习率在所有阶段均设置为1e-5。在推理时,使用DDIM的采样算法生成视频剪辑,为每一帧生成指定一个恒定的速度值。生成一批(f=12帧)的时间大约为15秒。

这些详细信息提供了对EMO模型训练和其参数配置的深入了解,突显了其在处理广泛和多样化数据集方面的能力,以及其在生成富有表现力和逼真肖像视频方面的先进性能。

EMO模型有如下特点:

直接音频到视频合成:EMO采用直接从音频合成视频的方法,无需中间的3D模型或面部标志,简化了生成过程,同时保持了高度的表现力和自然性。

无缝帧过渡与身份保持:该方法确保视频帧之间的无缝过渡和视频中身份的一致性,生成的动画既生动又逼真。

表达力与真实性:实验结果显示,EMO不仅能生成令人信服的说话视频,而且还能生成各种风格的歌唱视频,其表现力和真实性显著超过现有的先进方法。

灵活的视频时长生成:EMO可以根据输入音频的长度生成任意时长的视频,提供了极大的灵活性。

面向表情的视频生成:EMO专注于通过音频提示生成表情丰富的肖像视频,特别是在处理说话和唱歌场景时,可以捕捉到复杂的面部表情和头部姿态变化。

这些特点共同构成了EMO模型的核心竞争力,使其在动态肖像视频生成领域表现出色。

EMO模型的工作原理

预训练音频编码器:EMO使用预训练的音频编码器(如wav2vec)来处理输入音频。这些编码器提取音频特征,这些特征随后用于驱动视频中的角色动作,包括口型和面部表情。

参考网络(ReferenceNet):该网络从单个参考图像中提取特征,这些特征在视频生成过程中用于保持角色的身份一致性。ReferenceNet与生成网络(Backbone Network)并行工作,输入参考图像以获取参考特征。

骨干网络(Backbone Network):Backbone Network接收多帧噪声(来自参考图像和音频特征的结合)并尝试将其去噪为连续的视频帧。这个网络采用了类似于Stable Diffusion的UNet结构,其中包含了用于维持生成帧之间连续性的时间模块。

注意力机制:EMO利用两种形式的注意力机制——参考注意力(Reference-Attention)和音频注意力(Audio-Attention)。参考注意力用于保持角色身份的一致性,而音频注意力则用于调整角色的动作,使之与音频信号相匹配。

时间模块:这些模块用于操纵时间维度并调整动作速度,以生成流畅且连贯的视频序列。时间模块通过自注意力层跨帧捕获动态内容,有效地在不同的视频片段之间维持一致性。

训练策略:EMO的训练分为三个阶段:图像预训练、视频训练和速度层训练。在图像预训练阶段,Backbone Network和ReferenceNet在单帧上进行训练,而在视频训练阶段,引入时间模块和音频层,处理连续帧。速度层的训练在最后阶段进行,以细化角色头部的移动速度和频率。

去噪过程:在生成过程中,Backbone Network尝试去除多帧噪声,生成连续的视频帧。去噪过程中,参考特征和音频特征被结合使用,以生成高度真实和表情丰富的视频内容。

EMO模型通过这种结合使用参考图像、音频信号、和时间信息的方法,能够生成与输入音频同步且在表情和头部姿势上富有表现力的肖像视频,超越了传统技术的限制,创造出更加自然和逼真的动画效果。

相关内容

热门资讯

月光下的心理疗愈:二月满月如何... 你是否在满月之夜,静静地仰望星空,感受那轮明亮的月亮带来的宁静与神秘?每当二月份的“雪月”升起,伴随...
原创 巨... 隔夜,现货黄金在欧盘前一度跌至4402.93的日内低点,随后有所反弹,单日振幅达480美元,最终收跌...
百惠金控:香港加速建构黄金中央... 近日,香港特区政府财政司司长发表网志,宣布将与上海黄金交易所(上金所)签署合作备忘录,并即将公布加强...
李佳琦夺达人商业价值百强TOP... 文 | 今朝新闻 近日,胡润发布《2025胡润达人商业价值百强》和《2025胡润中国流量新势力百强...
飞天茅台价格上涨 2月3日,“今日酒价”数据显示,26、25年飞天茅台价格上涨,2026年飞天茅台原箱报1625元/瓶...
年货供应充足,商超年味氛围渐浓 春节临近,年味渐浓,市民购置年货的热情持续攀升。我县各大商超已提前完成年货备货工作,通过科学分区、丰...
主力资金 | 尾盘抢筹9股超亿... 16个行业获主力资金净流入。 A股三大指数今日(2月3日)集体走强,行业板块呈现普涨态势,船舶制造、...
马斯克“点名”!太空光伏概念再... 马斯克看好的太空光伏概念股再度走强。 截至2月3日收盘,光伏ETF(515790.SH)报收1.12...
东鹏饮料今日登陆港交所实现“A... 深圳商报·读创客户端首席记者 谢惠茜 中国饮料巨头加速奔赴全球资本舞台。2月3日,东鹏饮料正式在香港...
酸汤订单“热辣滚烫” 凯里市酸... 春节临近,黔东南州凯里市的酸汤企业迎来一年中最忙碌的时刻,整个产业洋溢着“开门红”的热浪,海外市场成...
Kimi们,活在BAT的阴影下 大厂凭借资本与流量,通过对外投资押注赛道、内部孵化复制爆款,将模型、应用和入口一并收入囊中。大厂不做...
白癜风医生李从悠:青少年白癜风... 临床中发现,青少年是白癜风的高发人群,越来越多的青少年受到白斑困扰,不仅影响外观,还可能打击自信心,...
美的等多家上市公司披露回购新进... 转自:扬子晚报 扬子晚报网2月3日讯(记者 范晓林 薄云峰)2月2日晚间,多家上市公司披露回购进展。...
活力广东何以吸引“天下货” 春节将至,新年味浓,国内市场对进口优质应节食品的需求持续升温。近日,在东莞清溪保税物流中心(B型)查...
反转定调春节行情,两大主线闭眼... 反转定调春节行情,两大主线闭眼捡钱——2月3日A股复盘 昨天还在割肉骂街,今天就追高拍腿,这就是A股...
地方两会聚焦消费扩内需 传统消... (图片来源:摄图网) (记者 叶菁)近期,湖南、河南等多地发放消费券;在地方两会中,多地围绕增强消...
经济热点快评|各地公布GDP,... 最近,各地2025年经济成绩单陆续公布: 山东跻身“10万亿之省”,北京新晋“5万亿之城”,大连、温...
刚刚,上海黄金交易所连发通知! 来源:滚动播报 (来源:上观新闻) 今天(2月3日),现货黄金重新站上4900美元/盎司,日内涨超...
原创 高... 2月3日,有行业媒体报道称,高鑫零售新任CEO李卫平连续两天没有出现在总公司,于1月29日被经侦突然...
原创 闷... 在探讨低调做人、高调做事这一文化传统时,我们不难发现,这种理念不仅渗透进了每个个体的生活,也深深地影...