实测讯飞星火V3.5:全语音交互比肩GPT-4!超逼真唠嗑停不下来 讯飞星火实测 讯飞星火语音评测
admin
2024-01-31 15:11:03
0

白交 梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

“2024年上半年对标GPT-4”,这是23年科大讯飞全球1024开发者节现场给出的承诺。

今天,2024刚开年,讯飞星火就迎来重大升级:

讯飞星火V3.5整体接近GPT-4 Turbo数学、语言理解、语音交互能力超过GPT-4 Turbo;代码达到GPT-4 Turbo 96%;多模态达到GPT-4V 91%。



尤其在语音交互功能上,超逼真的真人语音生成,直接让线上网友惊叹三连:





还有更多实用功能,比如现场几十秒的时间生成22页PPT!这速度,很快啊……



而围绕着这个大模型底座,科大讯飞还有一揽子产品和场景应用输出。

国产首个语音大模型星火开源大模型“星火开源-13B”讯飞翻译机升级面向教育行业的智慧黑板

从基础模型到应用场景,下面一起来看。

讯飞星火V3.5底座能力升级

讯飞星火V3.5除了七大能力全面提升,整体能力接近GPT-4,还特别在语言理解、数学等能力上实现超越。

尤其对中文的理解更占优势,具体数据对比如下:

语言理解、数学能力超过GPT-4 Turbo;代码打到GPT-4 Turbo 96%;多模态理解达到GPT-4V 91%

如果看数据图表还不够直观,我们也提前实测了一番。

就拿此次网友最为称道,也是本次更新最大的亮点——全语音交互,不是语音消息那样一条一条的,而是像打电话一样实时交互,下面先来看一段视频演示:

星火这一波应对得怎么样,算不算得上高情商?

要注意视频没有做加速处理,讯飞星火V3.5的语音响应就是这么快,与ChatGPT的语音交互相比,省去了大量“等待AI思考”这个环节,整个对话过程更流畅。

“聆飞逸”、“聆小玥”分别对应男女声两种音色,可自由切换。在音色自然,还像人一样时不时有停顿、“嗯……”等语气词。

在有感情,拟人度等方面,对比ChatGPT的“Ember”、“Juniper”音色也不遑多让。



在交互模式上还设计了“一键打断”功能,避免AI生成在一轮对话中内容过长。



打断后,可继续提问下一个问题,也可以直接“挂断”语音,切回到文字模式,看到刚刚整个对话过程的文字版。



除此之外,在其他能力表现上,我们先用一个经典挖坑题来考验。

结果讯飞星火V3.5不但回答了最后的问题,还没有被前面无关的信息绕进去,每一个不合理之处都被揪出来了。

做到这一点不仅需要推理问题中的文字逻辑,还要结合大模型在训练阶段学到的关于现实世界的知识。




对比GPT-4,除了格式不同,推理能力、知识水平可以算是在一个level了。

另外也可以推测,由于要兼顾语音表现,讯飞星火的回答总是一串连贯的句子,而GPT-4更注重视觉排版。



时效性方面,提问最新网络流行梗,星火也是能跟得上潮流的。




相比之下,GPT-4现在虽然默认也有联网功能,但不经特意提醒不会意识到回答这个问题需要联网搜索,而是开始了传统艺能“一本正经瞎编”。



而在更实用场景功能升级,比如学习、办公等场景,也是讯飞星火一直以来的迭代重点。

比如在知识学习和内容创作方面。

发布会现场,只截取一段简单的新闻,就能提出问题,并且根据问题进行回答。

关键的是,里面回答的内容原文并没有。但它却能根据问题旁征博引、扩充内容。



在PPT创作上,在确定主题、提纲以及内容的过程中,可以随时补充内容、精准生成。



而在更多像工业、数智化的生产力场景中,对大模型的逻辑推理、空间理解、多模态等方面的能力都提出了更大的考验。

此次星火V3.5也得到了一定的增强。



比如在多模态和空间理解能力上,只给了一张图,也没有更多提示(只说分析这张图片)。结果它直接判断:这是一个室内平面布局图,并且进一步准确给出房间、家居位置。



除此之外,还可以帮忙设计装修图,并且根据自己的需求精细可控。

ps.你能看出这两个有什么不同吗?(提示:看后面的风格画)。



总的来说,讯飞星火V3.5这次升级,在模型基础能力、实用性、交互模式上都有提升,也带领中国大模型行业进一步朝世界先进水平看齐。

不过在这幕后,还有一件更值得关注的进展。

这次讯飞星火V3.5能力升级,同时也是“飞星一号”平台能力的首秀。

这是讯飞与华为共建的大模型算力平台,基于华为昇腾生态,实现了纯国产化算力。

在“飞星一号”平台首次对外宣布之时,刘庆峰曾表示“中国现有的大模型跟GPT4比还有差距,所以我们必须正视今天和GPT4的差距,找到差距所在。”

如今在“飞星一号”平台正式投入使用后,这个差距正在逐渐缩短。



不仅如此,一个完全国产化、自主可控的算力底座,在保障网络信息安全基础上,还能更好地满足国内各行各业的需求,以及支持开发者、高校、企业更好自主研发。

凭借此算力底座,除了讯飞星火V3.5,这次一同出炉的还有国产首个语音大模型。

首个语音大模型发布

借助基础大模型以及国产算力平台,此次科大讯飞在技术和生态层面,还有一揽子成果输出。

技术方面,首个语音大模型的发布

在语音技术上深耕二十余年的科大讯飞,它认为大模型给语音技术发展,包括语音合成、识别、多语种等方面带来了全新的机会。



不同于常规的语音大模型,讯飞的语音大模型将更多语音表征解耦,融入到大模型预训练中,比如语种表征、内容表征、韵律表征、音色表征。



在多语种识别中,在首批37个主流语种效果超过OpenAI Whisper 3。



并且在多语种语音生成、超拟人语音生成上,也有一定的提升。



目前语音大模型已经向开发者完全开放,并且首发搭载在讯飞翻译机上面。

除此之外,还首次发布了星火开源大模型“星火开源-13B”。据介绍,此次深度适配国产算力,并且也在昇思社区上发布,助力开发者、高校、企业自主研发。

而在应用生态层面,此次同样也干货满满。

作为拥有超过全球590万开发者生态的讯飞,继续发挥着自己的场景势能——以大模型之力,持续在千行百业中落地。

以最典型的教育场景为例。

具体在教育场景上,此次讯飞星火智慧黑板有了一定升级。

刘庆峰认为,作为改变人类未来生产生活方式的重大技术突破,优先应该为孩子赋能、为教育赋能。

老师一声上课,讯飞星火智慧黑板就开始工作。

不管是数学、化学,立体几何还是化学方程式,只需在黑板上画一下,就能识别成书面格式,并且支持编辑。

比如现场画个苯酚,结果它秒秒钟识别,并且推荐出视频科普课程。



还能使用虚拟人,辅助老师授课。



一节讲完,它还能自动存下来,课程实录、视频切片等内容都有,可以随时回顾重点。

除此之外,还有在保险、银行、能源、汽车、通信等方面的合作进展。

发布会现场,中国移动携手讯飞星火推出5G新通话创新应用“商务速记”,能够实现通话语音同步纪要,关键事项精准提炼,且无需下载APP,所有手机都支持。

其中,值得一提的是,在农业领域,科大讯飞同安徽省农业农村厅联合打造“耕云农业大模型”,并被写入安徽省政府工作报告之中。

据介绍,在最新的安徽省政府工作报告中, “讯飞星火”还被评价道:科技创新实现新突破。讯飞星火认知大模型处于全国领先水平。

能得到这种自上而下的关注和协同合作,国内并不多见。

这与科大讯飞本身在大模型生态影响力不无关系。截至目前,讯飞星火积累了这样一份成绩单。

讯飞听见已经拥有6500万用户,讯飞星火纯用户2400万;讯飞输入法有1.4亿活跃用户;内容创作平台,讯飞智作(音视频创作),自815发布以来新增了21万会员用户,160万音视频内容;而在图文创作上,1024发布以来赋能企业用户生产百万内容。半年来,大模型开发者生态积累了35万开发者数量,其中企业开发者数量为22万。

要知道获得这样成绩的讯飞星火,距离首次发布并不足一年。

一方面,再次印证了大模型作为基础技术底座,持续释放在千行百业的应用潜力,而且迭代和落地速度只会越来越快。

去年十月,国务院发展研究中心下属的国研经济研究院开展了一项大模型行业应用能力测评研究。测评报告中显示:

星火大模型V3.0在医学、法律、教育、零售、汽车工程、计算机和工业设计平均准确率达72.3%,在所有测评行业中表现均优于GPT3.5版,并且与GPT4.0各有优劣。

而除了在行业场景中的生产势能外,此次国产语音大模型的发布同样值得关注。还记得GPT系列大模型刚出现时,关于各种技术「不存在了」的讨论此消彼长。

作为AI语音龙头,科大讯飞首次实践证明:借助大模型来推动自身语音技术积淀达到新的高度,继续引领语音技术发展。

大模型新阶段,该怎么走?

经历了2023年的百模大战,2024整个行业来到一个新的阶段。

作为国内大模型的代表玩家,科大讯飞整场发布会看下来,能看到窥见到以下三点关键趋势:

基础技术层面,推理、多模态能力成为大模型技术升级的重点攻坚方向。

此次讯飞星火V3.0的升级方向,与前段时间奥特曼剧透GPT-5有不少相似之处。

此前在奥特曼对GPT-5的零星剧透来看,推理能力是重点提升方向,尤其在代表用户处理通用任务方面有重要进步。

很快就可以问AI,我今天最重要的邮件是什么?

在产品功能上,“应用户强烈要求”,奥特曼正在考虑给ChatGPT添加视频能力,以及给语音功能提供更好的语音质量。

企业层面,大模型只是基础底座,技术公司能够借大模型来带动自身技术升级和发展。

已经明显感知到的是,当下很多讨论的技术都有一个共性,就是它并非突然涌现,而是往往存在已久,终于来到了产业大规模应用的拐点。

因此对于技术公司来说,持续保持对新技术的感知和投入,其实就能快速部署应用,帮助自身技术布局和发展。

前段时间,Meta小扎官宣“All in 开源AGI”,但实则同此前元宇宙的布局并不冲突,他们将借助大模型,进一步推进雷朋Meta智能眼镜为代表AI新型计算设备的升级。

生态层面,大模型的开放性和可扩展性正在成为推动行业生态繁荣的关键因素。

讯飞星火正吸引着更多的开发者和合作伙伴,促进技术的快速迭代和创新。基于大模型构建出各种行业应用,形成一个多元化的应用生态。这种生态的构建,有助于形成良性的技术竞争环境,推动整个行业的技术进步和应用场景的拓展。

因此我们能看到,讯飞在教育、医疗等多个垂直领域的深入应用,这些领域的应用不仅能够解决实际问题,还能够反过来进一步为大模型提供丰富的数据支持,进一步优化模型性能,实现升级迭代的正向循环。

这也是讯飞一次次敢于在重要时间节点提前“立下Flag”,又能准时带着最新进展回来兑现承诺的底气所在。

这一次,刘庆峰再次立Flag:今年上半年达到GPT-4现在水平

而更长期的目标在于通用大模型持续对标、行业应用实现超越、自主可控生态繁荣



2024年才刚刚开始,对于这一年以讯飞星火为代表的AI技术又将给人们生活带来哪些变化,你怎么看?

相关内容

热门资讯

原创 俄... 编辑:G 2026年1月,俄罗斯主流媒体《生意人报》曝光了一则重磅消息,就像在全球商业圈扔了一颗深水...
一揽子政策公布!事关贷款贴息、... 今天(20日),财政部官网连续发布5个文件,涉及个人消费贷、民间投资等领域。 “延长、扩大、提高”成...
一个隐秘风口,微信成寡头了 出品|虎嗅黄青春频道 作者|商业消费主笔 黄青春 题图|视觉中国 当聒噪的短剧让人直呼上头时,一个更...
弃购芯片设计、锁定双盈利引擎,... 停牌14天后,盈方微(000670.SZ)于1月20日携重大资产重组预案复牌。预案显示,公司拟以发行...
布局运动医学领域 爱博医疗拟收... 《科创板日报》1月20日讯(记者 黄修眉)爱博医疗今日(1月20日)晚间公告称,与德美联合(重庆)医...
一个月内两度抛出并购计划,明德... 自去年底宣布收购武汉必凯尔救助用品有限公司(以下简称“必凯尔”)100%股权后,明德生物(00293...
重庆A股40家上涨 新大正、康... 1月20日,79家重庆A股上市公司中有40家上涨,3家平收,下跌36家。 同花顺iFinD数据显示,...
原创 广... 观点网汇悦台,作为广州顶豪的代名词,每一套房产的易主或被拍卖,都能勾起市场对财富起落的好奇。 近日,...
莱欧制药携手合作,助力罕见皮肤... 在现代医学的发展中,罕见皮肤病的治疗始终面临着巨大的挑战。这些疾病的发病率低,导致很多患者在寻求有效...
资金动向 | 北水连续12日出... 1月20日,南下资金净买入港股36.63亿港元。 其中,净买入腾讯控股6.63亿、美团-W 5.73...
靠“经营质量”穿越周期,豪华品... "在不给经销商发红包的前提下,林肯在豪华品牌中的盈利能力是第一名"。1月14日,林肯中国总裁贾鸣镝在...
郑商所优化纯碱期货交割体系 据郑商所发布1月20日消息,郑商所近期通过交割区域扩容、统一交割提货模式两大举措,对纯碱期货交割体系...
美日债市雪崩,黄金美元为何“冰... 来源:市场资讯 来源:汇通网 汇通财经APP讯——周二(1月20日),全球金融市场经历了一场由主权债...
携程反垄断调查再思考:为何它比... 2026年1月14日,国家市场监管总局对携程集团涉嫌滥用市场支配地位立案调查。消息一出,携程港股两天...
白癜风专家林华:运动对白癜风康... 适当运动对白癜风患者的身体状态调节有积极作用,能增强体质、缓解压力,间接为皮肤状态稳定提供助力,但核...
多家银行卫星近期集中上天 近期商业航天热潮涌起,银行参与积极性也被调动起来。记者注意到,近期浦发、招商等多家银行卫星成功发射,...
纳德拉达沃斯发出警示:GDP增... 截图来自世界经济论坛官网直播视频 “未来,任何地方的GDP增长都将与‘每美元每瓦特产生的算力’直接相...
港媒:中国医药行业成经济增长新... 参考消息网1月20日报道据香港《南华早报》网站1月19日报道,随着主要制药企业加大研发和生产投入,中...
冯德莱恩:欧盟决定永久冻结俄罗... 当地时间20日,欧盟委员会主席冯德莱恩在瑞士达沃斯发表讲话表示,欧洲需要一种紧迫感,同时欧洲已开始推...
开门红这类存款走俏,黄金结构性... 本文来源:时代财经 作者:张昕迎 图片来源:图虫创意 黄金投资热潮下,存款也蹭上“黄金概念”。 在...