2秒定制AI声音!文心一言又整大活儿:效果惊喜 ai文心一言生成炫酷画面 免费制作自己的ai语音
admin
2024-04-10 03:09:15
0

小雷平时刷B站经常会看到有UP主发布AI模仿明星唱歌的视频,音色音准至少有6-7成的相似度,甚至部分训练到位的AI模型能复刻出与明星几乎一致的声音。除了唱歌外,这种功能还被广泛应用于不同角色的配音,一个被投喂了足够数量和时长的高质素材的AI大模型,绝对能达到以假乱真的程度。

五音不全的小雷十分向往这项技术,但苦于本地训练模型的繁杂,一直没有下定决心去训练自己的AI声音。恰巧近期百度文心一言上线了定制智能体专属声音的新功能,官方宣称用户只要花费几秒就能完成设定。

如此省时省力就能训练出自己的AI声音?带着疑惑,小雷尝试着创建专属自己的「AI嘴替」。

创建“AI嘴替”很高效,但功能太有限

打开文心一言App,点击下方「+」号,我们就进入到智能体的创建界面。在声音选项栏中,我们能给智能体选择声音特性。在官方声音根据方言、性别、音色以及角色进行分类,提供了32种不同的声音。但我们目标明确,还是来体验下创建自己的声音这一功能。



图源:雷科技制作,文心一言页面

点击「创建我的声音」,用户需要用自然的语气朗读系统给出的文字,让系统识别音色音准。经实测,识别过程仅需2-3秒,小雷的「AI嘴替」就正式创建成功。值得注意的是,系统在录制前会对环境音进行短暂的识别,确认噪声符合录制要求后,才正式进入录制环节。

不仅如此,我们还能对智能体的性格特征、口头禅、个人经历、亲友关系、兴趣爱好以及开场白,进行个性化定制,这些因素会影响智能体后续的交流表现。



话不多说,我们来看看文心一言在短时间内创建的AI声音究竟能不能让人满意。开启声音播报功能后,小雷试着让智能体给我介绍雷科技的相关信息,先不说声音,至少对雷科技的介绍还是比较全面的,除了公众号168万粉丝(已超过170万)的数据有些过时外,其他描述大体一致。

说回声音,音色方面本人认为至少能达到8成的相似度,尤其是情绪、语气的表现,差点让小雷以为是自己在说话。或许是为了让用户能更好的听清楚智能体的表达,整体语速稍慢,想让用户耐心听完全部回答可能会有些难度。

对比传统的文字表达,智能体语音回答的拟人度更高,在回答中加入了比较多的语气词,更接近人们日常交流的表达习惯。验收完声音质量后,小雷决定还是回归到自己对AI嘴替的本质要求——唱歌,十分可惜的是,目前文心一言创造的智能体暂时不支持该项功能。随后小雷换了个角度,让智能体朗读歌词,这次倒是成功了,虽然朗读运用的是本人音色,但从呈现效果距离音乐确实还差点意思。



图源:雷科技制作,文心一言页面

后续,小雷围绕声音进行了朗诵、念诗等测试,效果大差不差。大家可以理解为一个声音状态永远稳定的自己,能让他代替你完成许多基础性的语言工作,但呈现效果与你录制时的情感、风格和自然度有着极高的关联性。因为小雷并不是从事播音专业,因此AI声音的效果算不上特别好,如果用户能提供更高质量的语音素材,或许文心一言能给到更好的反馈。

总的来说,文心一言这项新功能确实给小雷带来了惊喜,在传统离线本地训练的基础上,通过文心大模型和语音合成大模型的大量语音训练,让AI声音无论是生成效率,还是呈现效果都能让人满意,但其个人助理的定位让其功能受到了一定限制,智能体无法提供类似唱歌等其他功能,用户也无法进一步训练AI声音,让AI声音的表现效果更接近本人。

高质量AI声音,还得靠高强度AI训练

事实上,这是所有「快餐式创建AI声音」的应用都会面临的问题。同样是个性化声音定制服务,通义实验室提供的服务则需要用户录制20句话,用于定制自己的AI声音,整体效果与文心一言相差不大,效果上依旧存在瓶颈,关键原因正是输入和训练的素材不够。



图源:魔搭ModelScope

大家日常听到最多个性化定制声音的场景,应该是语音导航、文字播报或者小说阅读等方面。通常来说,从文本到声音的技术要让AI声音达到合格标准,需要音源人在专业录音棚录制成百上千句的数据量,高规格的定制流程将绝大多数普通人对AI声音的探索拒之门外。

而随着个性化语音合成(Personal TTS)技术的成熟,平台通过手机、电脑等常见录音设备获取目标的少量声音片段后,就能快速构建出目标的语音合成系统。与传统定制声音技术相比,仅需少量数据量是个性化语音合成的最大优势。

无论是文心一言,还是通义实验室,他们都只需要极少的数据量,就能给用户提供个性化声音定制服务,大大降低了语音合成的定制门槛,将AI声音普及给普通用户。但有得必有失,TTS技术在降低声音定制门槛的同时,也给这项功能的上限带上了枷锁。

根据魔搭ModelScope提供的产品逻辑图,我们能看出TTS模型需要经过录音检测、数据处理、模型训练、打包合成四个阶段,最终形成我们的AI声音。有限的数据投喂量让AI声音的语言逻辑、语音语调,更多依托于已经训练完成模型数据,而用户录制的素材或许只是更多作用在声音表层,声音灵魂仍是背后的大模型数据。



图源:魔搭ModelScope

作为参考,小雷又调查了本地训练声音模型的步骤。相比起文心一言、通义实验室的便捷服务,本地训练声音模型的声音效果上限要高得多,但需要付出的成本也是几何倍的增加。

首先,用户得准备一批高质量的干声音频数据、一台具备一定性能的计算机、一个AI声音开源项目,在经历一系列数据处理、特征提取以及N轮训练后,我们才能得到所需的AI声音。

大家光看文字描述可能觉得也就那么回事,实际上,光是音频数据的收集就是一个大工程。这决定了AI声音的音色、声音特征。特别要注意的是,这里的音频数据指的是目标的干声,也就是要去除掉伴奏、杂音等一切背景声,没有专业设备的用户可以通过软件实现。

当然,如果大家嫌麻烦也可以去模型工坊网站下载已经训练好的声音模型,但肯定没有还原自己声音那么有成就感就是了。



图源:mxgf.cc

经过无上限的高强度训练后,最终就能达到前段时间互联网上比较流行的AI孙燕姿效果,并且用户还能自由决定AI声音进行朗读或唱歌等多种情景表达,不再局限于单一的表达形式。

大模型联动,是AI声音的下一个机会?

AI对声音的影响已经深入到各个领域,从文字转语音,到音乐,我们见证了许多有趣的AI声音应用。前段时间,小雷体验了文生音频的新星——Suno,其高效高质的音乐生成方式令不少音乐人产生危机感。尽管现阶段绝大多数的AI声音类模型仍存在部分缺陷,但AIGC重构内容产业几乎是必然。

AI声音与AI音乐一样,是普通人的自我表达。AI的作用更多是降低人们的创作门槛,令普通人也能实现幻想中的场景。目前诸多AI大模型还处于「孤岛」的状态,在雷科技看来,当单一的AI大模型发展到瓶颈阶段,可能接下来就是不同类型大模型之间的有效联动。

举个简单的例子,用户通过ChatGPT生成想要的歌词,由Suno将歌词编制成曲并赋予音乐风格,最后将自己的AI声音加入其中。当多个大模型建立连接,用户要做的或许就是下达一个指令,就能创作出一首专属自己的歌曲。

当然,目前AI大模型还是持续发展的阶段。像文心一言、通义千问等国产大模型也在不断迭代之中,此次小雷体验的个性化声音定制功能虽然在效率、质量方面已有不错的表现,但在功能多样性上还有巨大的进步空间。

或许在未来,文心一言的智能体可以突破助理定位,展现出不逊色于本地训练大模型的表现效果,届时AI声音这一技术也能找到更多适用的场景,给用户体验以及音频相关的行业带来带来翻天覆地的变化。

北京国际汽车展览会(北京车展)将于4月25日-5月4日隆重举行,本届车展以“新时代 新汽车”为主题,是“汽车从电动化走向智能化”的风向标。

届时,包括比亚迪、小米、AITO问界、小鹏、蔚来、理想、极氪、极越、长安深蓝等头部品牌将悉数登场,除新车型“大比武”外,自动驾驶技术的推进、智能座舱的演化和AI大模型与汽车的结合,都将是重要看点。雷科技旗下“关注电动车,更懂智能化”的账号电车通将派出报道团前往北京现场,进行一线专业报道,敬请关注。



相关内容

热门资讯

“双标”换卡背后,银行还需多些... 新华社记者 颜之宏、杨深深 持到期银行卡和身份证去银行网点换新卡,却被要求“必须交回旧卡才能取新卡”...
“离境退税2.0”带动“中国购... 【环球时报综合报道】编者的话:5月18日,商务部等6部门联合发布《关于加力优化离境退税措施扩大入境消...
一年烧掉2000亿、市值蒸发3... 商业润点 |Biz Run Review 三国归晋,用了六十年。即时零售的"三国杀",才刚刚开局...
原创 金... 2026年5月22日,国内黄金市场呈现出令人咋舌的价格鸿沟。基础金价徘徊在每克995.3元,而回收价...
原创 人... SpaceX的星舰V3终于在全球瞩目中成功升空。北京时间5月23日清晨,这颗高达124米的巨型火箭顺...
原创 被... 5月19日,欧洲议会掀起了一场引人注目的风暴,以压倒性的票数通过了最新的钢铁进口规定。 这套规则...
光纤量价齐升,烽火通信加快布局... 烽火通信(600498)5月22日披露的投资者关系活动记录表显示,公司于5月21日参加了中国信息通信...
原创 突... 今天5月24日一大早,打开行情一看,国际现货黄金报4508.25美元/盎司,单日跌了26.68美元,...
企业快讯 | 携手联通!狄耐克... 狄耐克 厦门总商会副会长企业 厦门狄耐克智能科技股份有限公司 与中国联通厦门分公司 将5G智慧“嵌入...
美银策略师警告:SpaceX与... 环球网 据彭博社报道,美国银行首席投资策略师迈克尔·哈特奈特(Michael Hartnett)最新...
卸任55天后,知名基金经理任相... 【导读】卸任55天后,知名基金经理任相栋“奔私”谜底揭晓 见习记者 闫军 知名基金经理任相栋“奔私”...
原创 大... “免签+手机刷一切”就能让老外连夜订机票?2026年一季度,阿根廷人来华暴涨九倍,北京三源里菜市场三...
从泰山顶峰掉落!“大佬背后的大... 文/刘工昌 他曾是柳传志的“大哥”,助力联想完成混合所有制改革;是史玉柱眼中的“贵人”,帮他东山再起...
原创 2... 最近网上流传出一份2030年GDP10强预测榜单,其中一些城市位次的变化也挺有趣的。上海排在第一,深...
原创 全... 2026年3月的全球美债市场迎来剧烈变动,彻底打破了长期稳定的持仓格局。 根据美国财政部发布的国际资...
全球都在给这几只“疯牛”烧钱 近段时间,AI行情再次成为全球资本市场主线,但舞台中央的“主角”发生了变化:投资者不再只偏好云厂商和...
【财闻联播】“硬刚监管”?老虎... ★ 宏观动态 ★ 商务部:1—4月全国吸收外资2876.9亿元人民币 据商务部网站,2026年1—4...
燕京啤酒营收净利双增:U8增速... 蓝鲸新闻5月22日讯(记者 朱欣悦)燕京啤酒(000729.SZ)打了一个翻身仗。 2025年燕京啤...
原创 帮... 老铁们,这周有个事儿挺有意思,估计不少基民都看懵了:都说科技是主线,芯片是未来,可数据显示,年内火爆...
4家银行AIC现身存储巨头股东... 近日,资本市场热度颇高的两家存储巨头长鑫科技集团股份有限公司(以下简称“长鑫科技”)、长江存储控股股...