LipDub CEO Jonathan Bronfman:视频内容生成的挑战是“慢且贵” | 2024T-EDGE
创始人
2024-12-13 11:45:51
0

2024年12月6-7日,2024T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办,本次大会主题为“ALL-in on Globalization,ALL-in on AI”,汇聚全球科技和商业领域的领导者,共同探讨企业全球化增长新格局新趋势,以及AI对全球各行业的巨大影响。

在视频生成中,最难的往往是人物的面部、嘴型、表情、肢体动作的精准捕捉,因为有些许的动作位移和细微差异都会带来失真。如果想要达到好莱坞影视标准,就必须投入大量人力财力。

2023年8月,在生成式AI技术浪潮的洗礼下,著名视觉效果(VFX)工作室和AI技术初创公司MARZ(Monsters Aliens Robot Zombies)推出了新一代AI视效产品LipDub,用于解决影视配音中口型不同步问题。该项技术将有助于好莱坞电影公司和广告商在观众收视率和参与度方面实现质的飞跃。

LipDub研究团队由MARZ首席科学家、特拉维夫大学计算机科学系世界知名教授Danny Cohen-Or领导,他是ACM研究员和Isaias Nizri视觉计算主席。他与长期合作者、西蒙弗雷泽大学助理教授Ali Mahdavi-Amiri一起领导了MARZ的AI研究团队。他们共同成功开展了Vanity AI的研究,这是MARZ开发的第一个AI解决方案。比如,针对人物面部皱纹进行AI美妆,使其达到年轻效果。Vanity AI于2023年1月推出,已在45多个好莱坞作品中使用。

12月7日,LipDub CEO Jonathan Bronfman在演讲中透露了LipDub的技术实现原理,并对该项技术所覆盖的各行业、场景解决方案进行了演示。

Jonathan指出,目前生成式AI已经演进到文生图、图生视频阶段。对于营销人员或内容创作者而言,基于生成式AI技术,几乎只需要10分钟就可以对某个想法实现视频生成,从而快速验证视频效果。

在他看来,视频内容生成的挑战是什么?慢且贵。视频是娱乐、教育和打动观众的最佳途径。随着视频内容生成效率的提升,用户完全可以在几分钟内就生成一段视频,同时,同一段视频素材也可以反复使用。

LipDub开发的口形同步技术(Lip Sync)实际上用到三种方案:一是直接对视频翻译,比如给出一段英文演讲视频,然后用中文演示,就好像演讲者在讲中文;二是通过定制虚拟形象进行对话调整,比如在广告场景,许多品牌在全球各地都有不同的产品名称表达,但希望使用同一支商业广告,就需要对广告中特定的产品名称进行更改;三是通过一段语料实现角色的量身定制,即针对同一件事物,针对不同的受众群体生成不同的个性化表达。

Jonathan强调,好莱坞影视画面的要求不仅仅是口型同步,而是要动态的,有饱满情绪的。要确保对原始人物/角色表演1比1的还原。同样,在跨语言转换过程中,还要要确保能够恰当地用另一种语言传递源语言中所表达的情感。

以下是Jonathan Bronfman的演讲全文,经钛媒体APP编辑:

大家下午好。在开始之前,我要感谢钛媒体的邀请,这是我第一次来到中国,感谢大家的热情款待。

我叫Jonathan Bronfman,是MARS的CEO,借此机会我与大家分享下我们的产品LipDub,以及公司发展历程。

MARS源自Monsters Aliens Robot Zombies的英文缩写,是一家专门做视觉特效的工作室,于2018年成立,曾为好莱坞多个影片和影视剧如《蚁人》、《惊奇少女》提供特效,并且与迪士尼、奈飞、Amazon Prime等多家流媒体平台合作。

在2018年进入视效行业时,我就很清楚这个行业缺乏差异性,这意味着每个人都使用着相同的技术栈。那么如何在一个同质化的行业中找到差异化竞争优势,并以此取得成功?因此,我们在2019年明确AI可以加速发展,为我们提供在成本、时间和规模上的竞争力。

我们聚集了很多世界知名科学家,包括特拉维夫大学教授Danny Cohen-Or,还有西蒙弗雷泽大学助理教授Ali Mahdavi-Amir,他们带领我们找到了深度学习在视效行业的应用交集。

其实我们开发的第一款AI产品不是LipDub,而是一款2D美妆产品Vanity AI。该产品可以通过创建一张单帧图片,然后将其他底片插入从而使图片鲜活。我们一开始也非常擅长对人物面部表情的刻画。2021年,我们注意到奈飞平台上韩剧《鱿鱼游戏》在欧美地区爆火,但是问题在于配音的口型不匹配。因此,我们就在想能不能让口型同步起来,让观众观看体验更沉浸。

在不断努力下,我们将口型同步技术(Lip Sync)用在了好莱坞电影配音中,一直指引我们前进。在播放示例中可以看到,我们将佛兰芒语的电影,翻译成英文,这个过程中用到了LipDub。其实在为好莱坞电影的制作过程中,我们还需要摆姿势、换镜头、换灯光等手段,解决大量技术难点,从而实现4k高分辨率。

LipDub采用了Language Agnostic模型,以实现跨语言无关特征学习。比如声音是通过某个音素表达,转化为口型则需要特定的口型表达方式。比如下面示例中男子正讲来自《阿凡达》、《权利的游戏》、《星际迷航》中的科幻语言。

当然,这都是属于真人片段。为了进一步提升该技术效果,我们还将LipDub应用于CG角色制作。在此之前,我们模型训练的数据集里甚至都没有CG角色字符。要知道,好莱坞影视画面的要求不仅仅是口型同步,也不是人形立牌,而是要动态的,有饱满情绪的。我们要确保对原始人物/角色表演1比1的还原。

我们已经宣布了这款产品的beta版,预计在今年年底会有新的进展。LipDub不仅服务于好莱坞,还扩展到广告、在线教育、企业宣传片等多个领域,并聚焦于关注于视频质量的高价值客户群体。例如,在线教育视频场景中,LipDub营造出了一种真实的听众体验,感觉就像是说话人自己的语言。

视频内容生成的挑战是什么?慢且贵。视频是娱乐、教育和打动观众的最佳途径。随着视频内容生成效率的提升,用户完全可以在几分钟内就生成一段视频,同时,同一段视频素材也可以反复使用。LipDub开发的口形同步技术(Lip Sync)实际上用到三种方案:一是直接对视频翻译,比如给出一段英文演讲视频,然后用中文演示,就好像演讲者在讲中文;二是通过定制虚拟形象进行对话调整,比如在广告场景,许多品牌在全球各地都有不同的产品名称表达,但希望使用同一支商业广告,就需要对广告中特定的产品名称进行更改;三是通过一段语料实现角色的量身定制,即针对同一件事物,针对不同的受众群体生成不同的个性化表达。

显然,我们今天讨论的AI将是一个技术拐点。人们正投入大量资金在AI上,希望AI能够更便捷、更经济使用,能够规模化增长和快速迭代,并且在特定行业里吸引到受众和投放市场。

随着AI技术的发展,生成式AI已经演进到文生图、图生视频的模式。在此技术驱动下,我们着手基于生成式AI技术实现了视频生成。对于营销人员或内容创作者而言,几乎只需要10分钟就可以对某个想法实现视频生成,从而快速验证视频效果。

目前LipDub生成式AI应用分为初级和高级模式。在高级模式中,开发人员需要先对项目命名,并选择源语言和目标语言。其次,上传视频并添加训练素材。一旦通过,将对角色面部进行自动检测打标,只有标注后的素材才能用于AI训练。最后,上传音频,与对应角色进行匹配,最终生成视频。可预览和下载保存。

在初级模式中,用户只需上传视频,在对视频进行预处理后,点击创建配音。选择自己的音频素材或内置翻译功能,可一键生成配音效果。

最后,展示一下我们在做的新功能——替换对话框(Replace Dialogue),类似文本到语音(text-to-audio),这类平台这些有很多,但如果输出的不是你想要的结果怎么办?比如你想修改一个单词,但跨语言转换会有细微差别。你们用中文听到的某个词,可能转换为英文就翻译不出来。我们要确保能够恰当地用另一种语言传递这种情感。

非常感谢大家的邀请。期待下月与全球用户分享该项功能。(本文首发于钛媒体APP)

相关内容

热门资讯

斗金订购APP贵金属期货投资被...   斗金订购APP的投资者被广告宣传给诱导,注册就送什么现金,然后充值返现金卷等等这些宣传方式,都是...
哈易购APP非法期货交易欺骗投...   哈易购APP宣传可做白银铂金贵金属订购交易,但实际上并没有取得相关交易资质!哈易购APP本质上就...
消息称百度旗下昆仑芯瞄准500... 6 月 29 日消息,据《The Information》昨日援引知情人士消息,百度旗下 AI 芯片...
打造夏日消费新场景 第35届北... 北京商报讯(记者 翟枫瑞)6月29日消息,第35届北京国际燕京啤酒文化节新闻发布会在京举行。本届啤酒...
社保基金持仓数据出炉,一季度增... 最近各大上市公司一季度财报都公开了,咱们国家社保基金的持仓数据也全部曝光。目前社保拿着比亚迪价值44...
36氪首发 | 海思、中兴团队... 作者 | 乔钰杰 编辑 | 袁斯来 硬氪获悉,广州宸思通讯科技有限公司(以下简称“宸思科技”)近日完...
两天蒸发47亿市值!一纸税务通... 一纸税务通知书,能让一家百亿龙头两天蒸发47亿市值。 6月22日,北大荒(600598.SH)公告称...
SK海力士将投资1100万亿韩... SK集团会长崔泰源6月29日在韩国“三大重大计划”发布会上宣布,公司将投资1100万亿韩元扩大半导体...
两只A股,终止上市! 两家A股公司,即将摘牌。 6月29日,退市沪科(600608.SH)公告称,上海证券交易所将在202...
原创 M... 一家成立近十年的自动驾驶公司,在IPO时吸引了14家基石投资者认购近一半的发行股份,其中不乏奔驰、比...
基金忠言|国寿安保滤镜碎,三年... 图片来源:视觉中国 蓝鲸新闻6月29日讯(记者 祁和忠)保险系基金公司国寿安保总经理换人了。 6月2...
三星电机计划加码玻璃基板!相关... 6月29日,玻璃基板概念股午后有所回升, 华工科技(000988.SZ)逼近涨停, 彩虹股份(600...
拉萨海关持续壮大外贸经营主体 ...   新华网拉萨6月28日电(记者蒋梦辰)近日,记者从拉萨海关获悉,今年前5个月,西藏有进出口实绩的外...
机构:二季报临近,医药生物板块... 6月29日,华源证券发布了一篇医药生物行业的研究报告,报告指出,业绩期临近,产业链景气度有望再次迎来...
每日收评科创50放量涨超4.5... 财联社6月29日讯,三大指数全线收红,创业板指探底回升,科创50指数大涨4.61%。沪深两市成交额3...
6月多地土拍结构性升温:深圳单... 进入2026年6月,不少城市核心区地块集中诞生高溢价宗地,热度突出的城市包含深圳、杭州、长沙。 其中...
业绩炸裂!盛达资源半年预盈3.... 6月29日,贵金属矿山龙头盛达资源(000603.SZ)发布 2026 年半年度业绩预告,上半年业绩...
A股午后拉升三大股指收涨:半导... A股三大股指6月29日开盘涨跌互现。早盘沪强深弱,创指一度跌超2%。半导体午后拉升,带动两市上涨,沪...
原创 空... 前言 大家好,我是老金。 这几天,两幅极度割裂的画面放在一起,把我看笑了。 一边是在持续的热浪下,欧...