GPT-4 Turbo重回王座,ChatGPT免费升级!数学暴涨10%/上下文全面碾压 gpt-4 turbo推出手机版 gpt-4新增功能
admin
2024-04-12 18:51:24
0


新智元报道

编辑:桃子 好困

【新智元导读】ChatGPT也能用上最强的GPT-4 Turbo了!今天,新版GPT-4 Turbo再次重夺大模型排行榜王座,超越了Claude 3 Opus。而且,新模型在处理64k长上下时,性能直接达到了旧版在26k时的性能。

今天起,最新版的GPT-4 Turbo,正式向ChatGPT Plus用户开放了!


有了GPT-4 Turbo加持后,ChatGPT写作、数学、逻辑推理和编码的能力得到提升。

小编小试,果然ChatGPT最新数据已经更新到了4月。


根据基准测试结果,GPT-4 Turbo在数学能力比上一代有了明显改进。


这也就不难理解,新版的GPT-4 Turbo今天再次登顶大模型排行榜。

就连奥特曼本人表示,「GPT-4现在更加智能,使用起来也更舒适」。


另外,据OpenAI介绍,GPT-4 Turbo在回复时,变得更直接、减少啰嗦内容,更加口语化。


一起看看,GPT-4 Turbo在基准测试中能力如何?

数学性能提升近10%

在官方公开GitHub上,OpenAI放出了gpt-4-turbo-2024-04-09最新的评估结果。

主要在以下七大基准上,对模型完成了评估:

MMLU(测量大规模多任务语言理解)

MATH(使用MATH数据集测量数学问题解决能力)

GPQA(研究生级别的谷歌防护问答基准)

DROP(需要对段落进行离散推理的阅读理解基准)

MGSM(多语言小学数学基准):语言模型作为多语言思维链推理者

HumanEval(评估在代码上训练的大型语言模型)

MMMU(用于专家通用人工智能的大规模多学科多模态理解和推理基准)

在这个GitHub库中,OpenAI主要使用零样本、CoT设置,并采用简单的指令,如「解决以下多项选择题」。

这种提示方式更能真实反映模型在实际使用中的表现。

具体结果如下所示:

最新的gpt-4-turbo比以往的GPT-4系列,在性能上有着明显的提升。

尤其数学方面,能力实现了近10%的跃阶。


而在整体的比较中,新模型也基本上实现了对Claude 3 Opus和Gemini Pro 1.5的全面超越。


大海捞针比初代GPT-4提升4.3倍

同样的,在大海捞针测试中,最新的gpt-4-turbo也是全方位地超越了此前的1106-preview。


众所周知,上下文越长,对模型的挑战就越大。

而gpt-4-turbo可以在处理长达64k Token的内容时,性能直接媲美预览版在26k Token时的表现。


如果我们回顾一下GPT-4刚发布时的情况,也就是大约一年之前。

最新的gpt-4-turbo在32k的配置下,性能比初代GPT-4提高了约4.3倍。

顺便一提,那个时候,模型能处理的上下文最高只到32k。


GPT-4 Turbo重回王座

前段时间,Anthropic手里的最强大模型Claude 3 Opus,可以说是霸榜各大榜单。

不过,就在今天,OpenAI凭借着全新的gpt-4-turbo,又把它从「榜一」的位置上拉了下来。

根据「LLM排位赛」最新的结果,GPT-4-Turbo再次超越Claude 3,夺得第一。


LMSYS Org从多个领域收集了超过8000张人类投票,发现GPT-4-Turbo在编程与推理方面的表现,超越了其他模型。

为了深入了解,研究人员在Arena引入了「类别」功能。

通过这一新功能,可以对编程、长查询处理和多语言能力等不同领域进行了更详尽的比较。


研究人员还对编程领域中包含代码片段的所有对话进行了标记。在这一方面,GPT-4-Turbo展现出更强的性能。


类似的,Naman Jain也发现,新版GPT-4-Turbo在LiveCodeBench(包含编程竞赛题)上的表现,提高了惊人的4.5分。

这类问题对目前的LLM来说挑战很大,而OpenAI此次的更新,明显是大幅提升了模型推理能力。


在长查询领域(Token数量超过500),Claude-3 Opus表现最佳。

令人有些意想不到的是,Command R/R+在这一领域中也有着非常高的得分。



有趣的是,如果只涉及英语提示,排名会与整体略有不同。

在这一类别中,三种GPT-4-Turbo依然处于领先地位。

而这种变化的产生,是因为随着用户基数的扩大,语言使用从英语转向包括中文在内的多种语言。


而在应对不同的语言时,模型的表现也有所差异。

例如,在中文环境中,Claude-3 Opus排名第一。


以下是模型评分的置信区间 (CIs) :


以及整体的胜率热图:


参考资料:

https://twitter.com/OpenAI/status/1778574613813006610

https://twitter.com/lmsysorg/status/1778555678174663100


相关内容

热门资讯

4家银行AIC现身存储巨头股东... 近日,资本市场热度颇高的两家存储巨头长鑫科技集团股份有限公司(以下简称“长鑫科技”)、长江存储控股股...
8元无限续杯、0元看电影、老字... 城市的烟火暖意,藏在亲民的消费场景里,也藏在老地标的新生蜕变中。粤汉码头火车旁新开竹林茶馆,8元就能...
2026年水利工程新趋势,这些... 随着全球气候变化和城市化进程的加速,水利工程在保障水资源供给、改善生态环境以及提升人民生活质量中的作...
原创 发... 这几年,身边越来越多人开始换一种活法:不急着买房,不执着“上车”,反而愿意把钱拿去租一套更舒服、更体...
小红书入场Skill分发,B站... 来源:界面新闻 文丨AI价值官 星野 编辑丨美圻 过去半年,Skill 这个词在AI圈的出现...
2026年福州企业门户网站建设... 本篇将回答的核心问题 在数字化转型加速的2026年,企业门户网站建设应遵循哪些核心评估标准,以确保投...
原创 今... 今日金价:2026年5月22日注意了!黄金或现历史类似回调走势 5月22日,金市又热闹起来了,咱们看...
雷军发布YU7 GT、YU7标... 5月21日,小米人车家全生态新品发布会在北京举办,小米集团创始人、董事长兼CEO雷军正式发布小米YU...
留神峪煤矿瓦斯爆炸事故发布会:... 昨晚,山西留神峪煤矿发生瓦斯爆炸,造成重大人员伤亡。今天,当地召开新闻发布会,现场全体默哀。会上介绍...
原创 修... 修复资产负债表,日本花了几十年。 自上世纪90年代初泡沫经济破裂后,日本陷入了长达三十年的通缩螺...
2026年小红书效果化种草白皮... 2026 年小红书正式迈入种草效果化时代,这是品牌追求预算确定性回报与平台升级为消费决策、用户信任场...
连续18年获“全国文化企业30... 南都讯 记者钟欣5月21日,第二十二届中国(深圳)国际文化产业博览交易会开幕。展会期间,光明日报社和...
荣耀确认IPO未终止!开放员工... 5月22日,荣耀因股改满一年未完成IPO,按约定正式开放员工持股退出通道。据《财闻》报道称,当日16...
易方达蓝筹精选有新变动:增聘2... 《每日经济新闻》记者获悉,继景顺长城、中欧等多家基金公司旗下百亿基金经理产品调整后,易方达基金也迎来...
光储龙头,又翻倍了 去年海外光储赛道最受关注的公司,毫无疑问是阳光电源,市值重回巅峰,风光无限。 但今年一季度业绩突然失...
中企出海报告在静安发布,七成受... 来源:滚动播报 (来源:上观新闻) 昨天,在上海静安举办的澳洲会计师公会出海论坛暨澳洲注册会计师颁...
京蒙协作延链强链 科右中旗牛产... 初夏时节,走进内蒙古华阳牛业科技集团有限公司屠宰加工车间,自动化生产线高效运转。作为京蒙协作产业帮扶...
原创 中... 最近发布了一份有关新一线城市魅力的榜单。榜单按照商业资源聚集度、城市枢纽性、城市人活跃度这五个方面来...
突然,全线跳水!超16万人爆仓 来源:宁波晚报 5月23日,被视作反映市场风险偏好指标的加密货币持续跳水。 截至发稿,比特币大跌3....
基民懵了!说好的科技行情,结果... 每经记者:叶峰 每经编辑:赵云 本周股指冲高回落,沪深两市股票型ETF和跨境型ETF合计净流出729...