实测讯飞星火V3.5:全语音交互比肩GPT-4!超逼真唠嗑停不下来 讯飞星火语音评测 讯飞星火最新版本评测
admin
2024-02-01 12:06:42
0

白交 梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

“2024年上半年对标GPT-4”,这是23年科大讯飞全球1024开发者节现场给出的承诺。

今天,2024刚开年,讯飞星火就迎来重大升级:

讯飞星火V3.5整体接近GPT-4 Turbo数学、语言理解、语音交互能力超过GPT-4 Turbo;代码达到GPT-4 Turbo 96%;多模态达到GPT-4V 91%。



尤其在语音交互功能上,超逼真的真人语音生成,直接让线上网友惊叹三连:





还有更多实用功能,比如现场几十秒的时间生成22页PPT!这速度,很快啊……



而围绕着这个大模型底座,科大讯飞还有一揽子产品和场景应用输出。

国产首个语音大模型星火开源大模型“星火开源-13B”讯飞翻译机升级面向教育行业的智慧黑板

从基础模型到应用场景,下面一起来看。

讯飞星火V3.5底座能力升级

讯飞星火V3.5除了七大能力全面提升,整体能力接近GPT-4,还特别在语言理解、数学等能力上实现超越。

尤其对中文的理解更占优势,具体数据对比如下:

语言理解、数学能力超过GPT-4 Turbo;代码打到GPT-4 Turbo 96%;多模态理解达到GPT-4V 91%

如果看数据图表还不够直观,我们也提前实测了一番。

就拿此次网友最为称道,也是本次更新最大的亮点——全语音交互,不是语音消息那样一条一条的,而是像打电话一样实时交互,下面先来看一段视频演示:

星火这一波应对得怎么样,算不算得上高情商?

要注意视频没有做加速处理,讯飞星火V3.5的语音响应就是这么快,与ChatGPT的语音交互相比,省去了大量“等待AI思考”这个环节,整个对话过程更流畅。

“聆飞逸”、“聆小玥”分别对应男女声两种音色,可自由切换。在音色自然,还像人一样时不时有停顿、“嗯……”等语气词。

在有感情,拟人度等方面,对比ChatGPT的“Ember”、“Juniper”音色也不遑多让。



在交互模式上还设计了“一键打断”功能,避免AI生成在一轮对话中内容过长。



打断后,可继续提问下一个问题,也可以直接“挂断”语音,切回到文字模式,看到刚刚整个对话过程的文字版。



除此之外,在其他能力表现上,我们先用一个经典挖坑题来考验。

结果讯飞星火V3.5不但回答了最后的问题,还没有被前面无关的信息绕进去,每一个不合理之处都被揪出来了。

做到这一点不仅需要推理问题中的文字逻辑,还要结合大模型在训练阶段学到的关于现实世界的知识。




对比GPT-4,除了格式不同,推理能力、知识水平可以算是在一个level了。

另外也可以推测,由于要兼顾语音表现,讯飞星火的回答总是一串连贯的句子,而GPT-4更注重视觉排版。



时效性方面,提问最新网络流行梗,星火也是能跟得上潮流的。




相比之下,GPT-4现在虽然默认也有联网功能,但不经特意提醒不会意识到回答这个问题需要联网搜索,而是开始了传统艺能“一本正经瞎编”。



而在更实用场景功能升级,比如学习、办公等场景,也是讯飞星火一直以来的迭代重点。

比如在知识学习和内容创作方面。

发布会现场,只截取一段简单的新闻,就能提出问题,并且根据问题进行回答。

关键的是,里面回答的内容原文并没有。但它却能根据问题旁征博引、扩充内容。



在PPT创作上,在确定主题、提纲以及内容的过程中,可以随时补充内容、精准生成。



而在更多像工业、数智化的生产力场景中,对大模型的逻辑推理、空间理解、多模态等方面的能力都提出了更大的考验。

此次星火V3.5也得到了一定的增强。



比如在多模态和空间理解能力上,只给了一张图,也没有更多提示(只说分析这张图片)。结果它直接判断:这是一个室内平面布局图,并且进一步准确给出房间、家居位置。



除此之外,还可以帮忙设计装修图,并且根据自己的需求精细可控。

ps.你能看出这两个有什么不同吗?(提示:看后面的风格画)。



总的来说,讯飞星火V3.5这次升级,在模型基础能力、实用性、交互模式上都有提升,也带领中国大模型行业进一步朝世界先进水平看齐。

不过在这幕后,还有一件更值得关注的进展。

这次讯飞星火V3.5能力升级,同时也是“飞星一号”平台能力的首秀。

这是讯飞与华为共建的大模型算力平台,基于华为昇腾生态,实现了纯国产化算力。

在“飞星一号”平台首次对外宣布之时,刘庆峰曾表示“中国现有的大模型跟GPT4比还有差距,所以我们必须正视今天和GPT4的差距,找到差距所在。”

如今在“飞星一号”平台正式投入使用后,这个差距正在逐渐缩短。



不仅如此,一个完全国产化、自主可控的算力底座,在保障网络信息安全基础上,还能更好地满足国内各行各业的需求,以及支持开发者、高校、企业更好自主研发。

凭借此算力底座,除了讯飞星火V3.5,这次一同出炉的还有国产首个语音大模型。

首个语音大模型发布

借助基础大模型以及国产算力平台,此次科大讯飞在技术和生态层面,还有一揽子成果输出。

技术方面,首个语音大模型的发布

在语音技术上深耕二十余年的科大讯飞,它认为大模型给语音技术发展,包括语音合成、识别、多语种等方面带来了全新的机会。



不同于常规的语音大模型,讯飞的语音大模型将更多语音表征解耦,融入到大模型预训练中,比如语种表征、内容表征、韵律表征、音色表征。



在多语种识别中,在首批37个主流语种效果超过OpenAI Whisper 3。



并且在多语种语音生成、超拟人语音生成上,也有一定的提升。



目前语音大模型已经向开发者完全开放,并且首发搭载在讯飞翻译机上面。

除此之外,还首次发布了星火开源大模型“星火开源-13B”。据介绍,此次深度适配国产算力,并且也在昇思社区上发布,助力开发者、高校、企业自主研发。

而在应用生态层面,此次同样也干货满满。

作为拥有超过全球590万开发者生态的讯飞,继续发挥着自己的场景势能——以大模型之力,持续在千行百业中落地。

以最典型的教育场景为例。

具体在教育场景上,此次讯飞星火智慧黑板有了一定升级。

刘庆峰认为,作为改变人类未来生产生活方式的重大技术突破,优先应该为孩子赋能、为教育赋能。

老师一声上课,讯飞星火智慧黑板就开始工作。

不管是数学、化学,立体几何还是化学方程式,只需在黑板上画一下,就能识别成书面格式,并且支持编辑。

比如现场画个苯酚,结果它秒秒钟识别,并且推荐出视频科普课程。



还能使用虚拟人,辅助老师授课。



一节讲完,它还能自动存下来,课程实录、视频切片等内容都有,可以随时回顾重点。

除此之外,还有在保险、银行、能源、汽车、通信等方面的合作进展。

发布会现场,中国移动携手讯飞星火推出5G新通话创新应用“商务速记”,能够实现通话语音同步纪要,关键事项精准提炼,且无需下载APP,所有手机都支持。

其中,值得一提的是,在农业领域,科大讯飞同安徽省农业农村厅联合打造“耕云农业大模型”,并被写入安徽省政府工作报告之中。

据介绍,在最新的安徽省政府工作报告中, “讯飞星火”还被评价道:科技创新实现新突破。讯飞星火认知大模型处于全国领先水平。

能得到这种自上而下的关注和协同合作,国内并不多见。

这与科大讯飞本身在大模型生态影响力不无关系。截至目前,讯飞星火积累了这样一份成绩单。

讯飞听见已经拥有6500万用户,讯飞星火纯用户2400万;讯飞输入法有1.4亿活跃用户;内容创作平台,讯飞智作(音视频创作),自815发布以来新增了21万会员用户,160万音视频内容;而在图文创作上,1024发布以来赋能企业用户生产百万内容。半年来,大模型开发者生态积累了35万开发者数量,其中企业开发者数量为22万。

要知道获得这样成绩的讯飞星火,距离首次发布并不足一年。

一方面,再次印证了大模型作为基础技术底座,持续释放在千行百业的应用潜力,而且迭代和落地速度只会越来越快。

去年十月,国务院发展研究中心下属的国研经济研究院开展了一项大模型行业应用能力测评研究。测评报告中显示:

星火大模型V3.0在医学、法律、教育、零售、汽车工程、计算机和工业设计平均准确率达72.3%,在所有测评行业中表现均优于GPT3.5版,并且与GPT4.0各有优劣。

而除了在行业场景中的生产势能外,此次国产语音大模型的发布同样值得关注。还记得GPT系列大模型刚出现时,关于各种技术「不存在了」的讨论此消彼长。

作为AI语音龙头,科大讯飞首次实践证明:借助大模型来推动自身语音技术积淀达到新的高度,继续引领语音技术发展。

大模型新阶段,该怎么走?

经历了2023年的百模大战,2024整个行业来到一个新的阶段。

作为国内大模型的代表玩家,科大讯飞整场发布会看下来,能看到窥见到以下三点关键趋势:

基础技术层面,推理、多模态能力成为大模型技术升级的重点攻坚方向。

此次讯飞星火V3.0的升级方向,与前段时间奥特曼剧透GPT-5有不少相似之处。

此前在奥特曼对GPT-5的零星剧透来看,推理能力是重点提升方向,尤其在代表用户处理通用任务方面有重要进步。

很快就可以问AI,我今天最重要的邮件是什么?

在产品功能上,“应用户强烈要求”,奥特曼正在考虑给ChatGPT添加视频能力,以及给语音功能提供更好的语音质量。

企业层面,大模型只是基础底座,技术公司能够借大模型来带动自身技术升级和发展。

已经明显感知到的是,当下很多讨论的技术都有一个共性,就是它并非突然涌现,而是往往存在已久,终于来到了产业大规模应用的拐点。

因此对于技术公司来说,持续保持对新技术的感知和投入,其实就能快速部署应用,帮助自身技术布局和发展。

前段时间,Meta小扎官宣“All in 开源AGI”,但实则同此前元宇宙的布局并不冲突,他们将借助大模型,进一步推进雷朋Meta智能眼镜为代表AI新型计算设备的升级。

生态层面,大模型的开放性和可扩展性正在成为推动行业生态繁荣的关键因素。

讯飞星火正吸引着更多的开发者和合作伙伴,促进技术的快速迭代和创新。基于大模型构建出各种行业应用,形成一个多元化的应用生态。这种生态的构建,有助于形成良性的技术竞争环境,推动整个行业的技术进步和应用场景的拓展。

因此我们能看到,讯飞在教育、医疗等多个垂直领域的深入应用,这些领域的应用不仅能够解决实际问题,还能够反过来进一步为大模型提供丰富的数据支持,进一步优化模型性能,实现升级迭代的正向循环。

这也是讯飞一次次敢于在重要时间节点提前“立下Flag”,又能准时带着最新进展回来兑现承诺的底气所在。

这一次,刘庆峰再次立Flag:今年上半年达到GPT-4现在水平

而更长期的目标在于通用大模型持续对标、行业应用实现超越、自主可控生态繁荣



2024年才刚刚开始,对于这一年以讯飞星火为代表的AI技术又将给人们生活带来哪些变化,你怎么看?

相关内容

热门资讯

谁说我们不能进攻?安东尼奥变身... 北京时间1月21日消息,2026年U23亚洲杯半决赛继续展开争夺,中国U23男足3-0完胜越南队,创...
原创 红... 斑马消费 沈庹 传统男装市场萎缩,一众男装品牌日子难过,红豆股份就是其中一个典型。日前,公司披露,预...
与瑞安航空CEO骂战升级 马斯... 来源:财联社 世界首富埃隆·马斯克在与瑞安航空CEO迈克尔·奥利里爆发冲突后,提出了收购该航空公司...
精分患者不能光吃药,这3件事不... 提到精神分裂症的治疗,很多人第一反应就是“按时吃药”。不可否认,药物治疗是稳住病情的核心基石,能有效...
爱奇艺国际版2025年度全球内... 2026年1月20日,《爱奇艺国际版2025全球内容热播榜》正式发布,华语多样化内容正以前所未有的关...
美股异动 | 避险需求升温!白... 来源:华盛证券 华盛资讯1月20日讯,格陵兰岛危机引发贸易战担忧!金银价格集体创新高,黄金ETF $...
人事与股权“双震” 华富基金临... 记者 陈姗 自2025年年底以来,业内关于华富基金“双十”基金经理(基金管理经验超过10年、年化收益...
一天22个大V账号被封 平台出... 雪球大V“金浤”被罚之后,一天之内,22个大V账号被永久封禁,平台连续出手整治涉资本市场违规行为。 ...
罕见!自砍七成融资规模,百瑞吉... 导读:过去一年中,为了尽快向A股大门靠近,百瑞吉还付出了不小的代价——大幅削减融资规模。近年来,拟北...
氢能商业化难题待解,记者实探云... 本报(chinatimes.net.cn)记者胡雅文 曲靖报道 氢能商业化仍在探索中。 近年来国家和...
原创 西... 哥本哈根街头,上万名示威者举着“绝不出售格陵兰岛”的标语走向美国驻丹麦大使馆,寒冷的北欧空气中弥漫着...
成品油价或年内首涨! 今日(1月20日)24时,国内成品油新一轮调价窗口将开启。综合多家机构预测,成品油价或年内首涨,消费...
原创 电... 外资来了,不是随便逛街,是掏钱出手,高盛、瑞银、摩根士丹利、摩根大通四家都在名单上,其中三家在202...
信用卡分期纳入贴息,多家银行迅... 【大河财立方消息】1月20日,财政部、中国人民银行、金融监管总局发布《关于优化实施个人消费贷款财政贴...
原创 金... “好家伙,前几天还说金价破纪录了,这转头又掉下来了?这过山车坐的,心脏真受不了。”最近但凡关心点金价...
卖不动了?巨头宣布:降价!10... 自2022年见顶以来,受主要消费国奢侈品消费降温、培育钻石日益走俏等因素影响,钻石行业正遭遇现代史上...
鸣鸣很忙开启招股,2万家店撑起... 1月20日,中国最大的休闲食品饮料连锁零售商——湖南鸣鸣很忙商业连锁股份有限公司(下称“鸣鸣很忙”)...
原创 继... 去年九月的那个深夜,白俄罗斯边境毫无征兆地熄火了,原本跑得飞快的中欧班列,在那一刻被人按下了暂停键。...
供应扰动再发酵,碳酸锂尾盘涨停... 经历了一次急速回调后,碳酸锂期货又杀了一个“回马枪”。 1月20日,碳酸锂期货主力合约在尾盘触及涨停...
原创 融... 2026年伊始,A股市场便以一派火热景象迎接投资者,市场热度在多个维度均有所体现,尤其以融资余额的迅...