LipDub CEO Jonathan Bronfman:视频内容生成的挑战是“慢且贵” | 2024T-EDGE
创始人
2024-12-13 11:45:51
0

2024年12月6-7日,2024T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办,本次大会主题为“ALL-in on Globalization,ALL-in on AI”,汇聚全球科技和商业领域的领导者,共同探讨企业全球化增长新格局新趋势,以及AI对全球各行业的巨大影响。

在视频生成中,最难的往往是人物的面部、嘴型、表情、肢体动作的精准捕捉,因为有些许的动作位移和细微差异都会带来失真。如果想要达到好莱坞影视标准,就必须投入大量人力财力。

2023年8月,在生成式AI技术浪潮的洗礼下,著名视觉效果(VFX)工作室和AI技术初创公司MARZ(Monsters Aliens Robot Zombies)推出了新一代AI视效产品LipDub,用于解决影视配音中口型不同步问题。该项技术将有助于好莱坞电影公司和广告商在观众收视率和参与度方面实现质的飞跃。

LipDub研究团队由MARZ首席科学家、特拉维夫大学计算机科学系世界知名教授Danny Cohen-Or领导,他是ACM研究员和Isaias Nizri视觉计算主席。他与长期合作者、西蒙弗雷泽大学助理教授Ali Mahdavi-Amiri一起领导了MARZ的AI研究团队。他们共同成功开展了Vanity AI的研究,这是MARZ开发的第一个AI解决方案。比如,针对人物面部皱纹进行AI美妆,使其达到年轻效果。Vanity AI于2023年1月推出,已在45多个好莱坞作品中使用。

12月7日,LipDub CEO Jonathan Bronfman在演讲中透露了LipDub的技术实现原理,并对该项技术所覆盖的各行业、场景解决方案进行了演示。

Jonathan指出,目前生成式AI已经演进到文生图、图生视频阶段。对于营销人员或内容创作者而言,基于生成式AI技术,几乎只需要10分钟就可以对某个想法实现视频生成,从而快速验证视频效果。

在他看来,视频内容生成的挑战是什么?慢且贵。视频是娱乐、教育和打动观众的最佳途径。随着视频内容生成效率的提升,用户完全可以在几分钟内就生成一段视频,同时,同一段视频素材也可以反复使用。

LipDub开发的口形同步技术(Lip Sync)实际上用到三种方案:一是直接对视频翻译,比如给出一段英文演讲视频,然后用中文演示,就好像演讲者在讲中文;二是通过定制虚拟形象进行对话调整,比如在广告场景,许多品牌在全球各地都有不同的产品名称表达,但希望使用同一支商业广告,就需要对广告中特定的产品名称进行更改;三是通过一段语料实现角色的量身定制,即针对同一件事物,针对不同的受众群体生成不同的个性化表达。

Jonathan强调,好莱坞影视画面的要求不仅仅是口型同步,而是要动态的,有饱满情绪的。要确保对原始人物/角色表演1比1的还原。同样,在跨语言转换过程中,还要要确保能够恰当地用另一种语言传递源语言中所表达的情感。

以下是Jonathan Bronfman的演讲全文,经钛媒体APP编辑:

大家下午好。在开始之前,我要感谢钛媒体的邀请,这是我第一次来到中国,感谢大家的热情款待。

我叫Jonathan Bronfman,是MARS的CEO,借此机会我与大家分享下我们的产品LipDub,以及公司发展历程。

MARS源自Monsters Aliens Robot Zombies的英文缩写,是一家专门做视觉特效的工作室,于2018年成立,曾为好莱坞多个影片和影视剧如《蚁人》、《惊奇少女》提供特效,并且与迪士尼、奈飞、Amazon Prime等多家流媒体平台合作。

在2018年进入视效行业时,我就很清楚这个行业缺乏差异性,这意味着每个人都使用着相同的技术栈。那么如何在一个同质化的行业中找到差异化竞争优势,并以此取得成功?因此,我们在2019年明确AI可以加速发展,为我们提供在成本、时间和规模上的竞争力。

我们聚集了很多世界知名科学家,包括特拉维夫大学教授Danny Cohen-Or,还有西蒙弗雷泽大学助理教授Ali Mahdavi-Amir,他们带领我们找到了深度学习在视效行业的应用交集。

其实我们开发的第一款AI产品不是LipDub,而是一款2D美妆产品Vanity AI。该产品可以通过创建一张单帧图片,然后将其他底片插入从而使图片鲜活。我们一开始也非常擅长对人物面部表情的刻画。2021年,我们注意到奈飞平台上韩剧《鱿鱼游戏》在欧美地区爆火,但是问题在于配音的口型不匹配。因此,我们就在想能不能让口型同步起来,让观众观看体验更沉浸。

在不断努力下,我们将口型同步技术(Lip Sync)用在了好莱坞电影配音中,一直指引我们前进。在播放示例中可以看到,我们将佛兰芒语的电影,翻译成英文,这个过程中用到了LipDub。其实在为好莱坞电影的制作过程中,我们还需要摆姿势、换镜头、换灯光等手段,解决大量技术难点,从而实现4k高分辨率。

LipDub采用了Language Agnostic模型,以实现跨语言无关特征学习。比如声音是通过某个音素表达,转化为口型则需要特定的口型表达方式。比如下面示例中男子正讲来自《阿凡达》、《权利的游戏》、《星际迷航》中的科幻语言。

当然,这都是属于真人片段。为了进一步提升该技术效果,我们还将LipDub应用于CG角色制作。在此之前,我们模型训练的数据集里甚至都没有CG角色字符。要知道,好莱坞影视画面的要求不仅仅是口型同步,也不是人形立牌,而是要动态的,有饱满情绪的。我们要确保对原始人物/角色表演1比1的还原。

我们已经宣布了这款产品的beta版,预计在今年年底会有新的进展。LipDub不仅服务于好莱坞,还扩展到广告、在线教育、企业宣传片等多个领域,并聚焦于关注于视频质量的高价值客户群体。例如,在线教育视频场景中,LipDub营造出了一种真实的听众体验,感觉就像是说话人自己的语言。

视频内容生成的挑战是什么?慢且贵。视频是娱乐、教育和打动观众的最佳途径。随着视频内容生成效率的提升,用户完全可以在几分钟内就生成一段视频,同时,同一段视频素材也可以反复使用。LipDub开发的口形同步技术(Lip Sync)实际上用到三种方案:一是直接对视频翻译,比如给出一段英文演讲视频,然后用中文演示,就好像演讲者在讲中文;二是通过定制虚拟形象进行对话调整,比如在广告场景,许多品牌在全球各地都有不同的产品名称表达,但希望使用同一支商业广告,就需要对广告中特定的产品名称进行更改;三是通过一段语料实现角色的量身定制,即针对同一件事物,针对不同的受众群体生成不同的个性化表达。

显然,我们今天讨论的AI将是一个技术拐点。人们正投入大量资金在AI上,希望AI能够更便捷、更经济使用,能够规模化增长和快速迭代,并且在特定行业里吸引到受众和投放市场。

随着AI技术的发展,生成式AI已经演进到文生图、图生视频的模式。在此技术驱动下,我们着手基于生成式AI技术实现了视频生成。对于营销人员或内容创作者而言,几乎只需要10分钟就可以对某个想法实现视频生成,从而快速验证视频效果。

目前LipDub生成式AI应用分为初级和高级模式。在高级模式中,开发人员需要先对项目命名,并选择源语言和目标语言。其次,上传视频并添加训练素材。一旦通过,将对角色面部进行自动检测打标,只有标注后的素材才能用于AI训练。最后,上传音频,与对应角色进行匹配,最终生成视频。可预览和下载保存。

在初级模式中,用户只需上传视频,在对视频进行预处理后,点击创建配音。选择自己的音频素材或内置翻译功能,可一键生成配音效果。

最后,展示一下我们在做的新功能——替换对话框(Replace Dialogue),类似文本到语音(text-to-audio),这类平台这些有很多,但如果输出的不是你想要的结果怎么办?比如你想修改一个单词,但跨语言转换会有细微差别。你们用中文听到的某个词,可能转换为英文就翻译不出来。我们要确保能够恰当地用另一种语言传递这种情感。

非常感谢大家的邀请。期待下月与全球用户分享该项功能。(本文首发于钛媒体APP)

相关内容

热门资讯

土耳其BIST-100指数下跌... 土耳其BIST-100指数下跌1.8%,主要银行指数下跌2.4%。 来源:金融界AI电报
15分钟动态电价时代:园区光伏... 一、电价改革的“加速度”:从分时计费到现货波动 过去,工商业用户的电价表一年可能只调整几次,峰、平、...
湘潭上元产业港:多套成交 12... 湘潭上元产业港再迎成交热潮,近期3套优质厂房成功签约,多位企业家携手落子,以实力见证长株潭热土的产业...
4月新增人民币贷款跌入负区间,... 本报(chinatimes.net.cn)记者刘佳 北京报道 作为观察货币政策传导效率的核心窗口,4...
2.2/7.2馆展位图首发!5... 【2.2馆展位图】 【7.2馆展位图】 Bakery china 2.2馆部分 企业推介 22B...
如何以互联网赋能家风传承 家庭是社会的细胞。家庭和睦则社会安定,家庭幸福则社会祥和,家庭文明则社会文明。历史和现实告诉我们,家...
跌势升级!5月15日国内金店金... 今日国内品牌金店黄金价格跌势再次升级,主流品牌报价已全线回落至1402-1412元/克区间。老凤祥以...
估值冰点与业绩高增的背离难以持... 来源:新浪基金 5月15日,券商板块延续连日来的回调态势,规模369亿元+的顶流券商ETF华宝(51...
欢迎晚宴上坐在马斯克和库克中间... 【CNMO科技消息】据CNMO科技了解,在5月14日晚为美国总统特朗普访华举行的欢迎宴会上,一张特殊...
公司的歌尔微港股上市能否加速推... 有投资者向歌尔股份(002241.SZ)提问,请董秘先生详细讲解一下公司的MEMS传感器布局,在面对...
原创 目... 当地时间5月14日,俄军发动大规模空袭行动,将打击重点直指乌克兰境内的炼油厂及相关能源设施,此举直接...
A股探底回升,沪指半日上涨0.... 每经记者|刘明涛 每经编辑|彭水萍 5月15日,A股探底回升,截至上午收盘,上证指数涨0.12%报...
茅台是用来喝的不是拿来炒的,金... 作者:道传 出品:锐见深解读 当一瓶酒的价格曲线开始比消费曲线更受关注时,它就已经偏离了“商品”的本...
原创 探... 昨天是尾盘直接崩掉了,下跌还放量,今天则是探底回升,大A终于看懂时事。 有评论说老特是非常聪明的,他...
越品越香的大窑20香,正在打造... 当下饮品行业步入竞争新阶段,而作为最重要的场景之一,餐桌消费对饮品的专属感与层次感诉求正在持续攀升。...
达实面向滇西多民族及边疆地区,... 大理白族自治州人民医院旨在打造环境一流、技术一流、设备一流、管理一流、服务一流的滇西医疗中心龙头医院...
兴业银行东莞分行正式获批公积金... 近日,兴业银行东莞分行正式获批住房公积金归集业务办理资格,社保卡业务也全面上线。两项民生金融业务的同...
“最大AI芯片”公司上市首日涨... 美股5月14日,多只AI芯片股走高。英伟达(NVDA.O)涨4.39%,市值5.7万亿美元,创历史新...
刚刚,史上最大AI芯片IPO了... 芯东西(公众号:aichip001) 作者 | ZeR0 编辑 | 漠影 芯东西5月15日报道,今日...