数字人成核心生产力?
作者/ IT时报记者 孙永会
编辑/ 钱立富 孙妍
“新年,你有什么心愿和梦想要实现吗?今天的新春走基层,我们走进山里的足球队……”画面中,主播小媛端坐于主播台,字正腔圆地播报新闻,眨眼、抬手等动作流畅,神情也比较自然。倘若没有注意到身份标注,不容易分辨出这是AI主播。
据“杭州综合频道”官方公众号消息,蛇年春节,杭州电视台综合频道《杭州新闻联播》首次采用数字人双播模式,由去年两个数字主播形象单播模式,升级为六个数字主播形象的双播模式。
零失误的表现顿时引发广泛关注,引发了“主持人是否被全面替代”“高校播音专业如何应对挑战”等讨论。该事件背后有一个核心问题值得探讨,即现阶段的数字人是否已成为核心生产力。
数字人难易不同
数字主播早已不是新鲜事。早在2021年全国两会期间,数字虚拟小编“小C”首次亮相央视网,后来SMG虚拟新闻主播“申某雅”、芒果台虚拟主持人“小漾”等广电领域的数字人相继问世。2024年,京东用刘强东的数字人进行了直播。中国传媒大学媒体融合与传播国家重点实验室媒体大数据中心首席科学家沈浩曾公开表示,虚拟数字人正逐步演进成新物种、新媒介。
“《杭州新闻联播》节目属于第一等级中做得比较好的。”集之互动CEO陆文斌表示。集之互动是一家以虚拟数字人应用、数字交互技术、虚拟直播、AIGC应用开发为主的企业,在国内较早开始研发数字人。
陆文斌向《IT时报》记者分享道,可以从五个等级理解数字人的技术难度。第一等级,基础视频生成,这类数字人主要用于播报新闻、讲解知识等场景,不需要交互,技术难度相对较低,杭州电视台的节目便属于这一范畴。第二等级,数字人直播,这类数字人可以进行简单交互,例如识别弹幕并回答问题,但反应速度较慢,技术难度略高于第一等级。第三等级,数字人实时交互,此类数字人可以进行更复杂的交互,比如语音对话,反应速度较快,技术难度较高。第四等级,数字人多平台的部署,可以部署在手机、电脑等终端设备上。第五等级,线下终端设备交互,这类数字人可以部署在线下终端设备上,例如自动售货机、客服机器人等,不过需要解决嘈杂环境下的语音识别问题,技术难度最高。
“如果把难度按照100分进行刻度的话,基础视频生成只有30—40分,实时交互可达70—80分。”陆文斌打比方说道。
“主播容易,直播难”
然而,数字人成为普遍现象的背后,是实用性的考量。
2024年9月,上海H(代称)媒体机构定制的AI主播诞生,该智能体运用了机构内一位记者的形象,在两次集体活动中“大展身手”。不过,业内人士认为“该AI主播的动作表情单一,缺乏比较明显的自然感”。由此衍生出一个问题——现阶段的技术是否有所突破,能否通过少量动作训练自动延展出更丰富的表情和动作?
陆文斌表示,表情方面已完全没有问题,基于一些特定的动作训练就可以自动延展,现在最大的难点在于肢体动作。
《IT时报》记者注意到,一些从事相关业务的科技企业也突出“动作”这一要素。“合成数字人比较简单,就是你自己录个视频,不用说话,然后拿着产品,做做动作,然后通过我们AI后台上传视频。”一家科技公司的人士介绍,上传视频后即可克隆音色,或使用自带的音色,然后输入相应文案,便可自动合成视频。此种方式涉及标准数字人和定制化数字人的概念。
“上述方式属于成本较低的标准数字人,其实没有太多使用者要做的事情,效果很可能比较普通。”陆文斌介绍。
就AI主播是否可以作为真正的生产工具进入核心生产环节,陆文斌的核心观点是,在新闻播报领域,数字人主播理论上具备替代传统主播的能力,传统声音主播的新闻播报内容多为单向输出,主持人也是依据稿件念稿,如今技术的完善使得数字人主播在新闻播报方面的表现日益出色,无论是语音合成的自然度,还是表情合成的真实感,都达到了较高水平。
不过在直播互动场景下,数字人主播仍面临诸多挑战。一方面,技术短板较为明显,主播不仅要念稿,更重要的是要与观众进行实时互动,这背后需要庞大的反应知识库和完善的专业体系支持。优秀的主播凭借丰富经验,能准确回答用户专业问题,而数字人主播若缺乏专业训练模型,回答内容往往空洞,答非所问。
另一方面,平台限制也不容忽视。从业内人士的反馈来看,主流平台如抖音、淘宝,纯AI数字人直播的流量并不算很好,且有诸多规范。
以抖音为例,《抖音关于人工智能生成内容的平台规范暨行业倡议》中明确表示,虚拟人需在平台进行注册,虚拟人技术使用者需实名认证。
此外,数字人直播在回答专业问题时也存在难点。目前大多数数字人背后连接的是普通模型或协调模型,难以准确回应专业问题。尽管从专业层面可以通过训练垂类大模型解决这一问题,但需要投入大量的数据进行训练,成本高昂,对于中小型企业和个人来说难以承受。同时,大模型存在幻觉问题,在回答敏感话题时可能出现乱回答的情况,这就需要安全控制算法,确保回答内容在安全知识范围内。