GPT-4 Turbo重回王座，ChatGPT免费升级！数学暴涨10%/上下文全面碾压 gpt-4 turbo推出手机版 gpt-4新增功能_市场资讯_商务投诉网

GPT-4 Turbo重回王座，ChatGPT免费升级！数学暴涨10%/上下文全面碾压 gpt-4 turbo推出手机版 gpt-4新增功能

admin

2024-04-12 18:51:24

0次

新智元报道

编辑：桃子好困

【新智元导读】ChatGPT也能用上最强的GPT-4 Turbo了！今天，新版GPT-4 Turbo再次重夺大模型排行榜王座，超越了Claude 3 Opus。而且，新模型在处理64k长上下时，性能直接达到了旧版在26k时的性能。

今天起，最新版的GPT-4 Turbo，正式向ChatGPT Plus用户开放了！

有了GPT-4 Turbo加持后，ChatGPT写作、数学、逻辑推理和编码的能力得到提升。

小编小试，果然ChatGPT最新数据已经更新到了4月。

根据基准测试结果，GPT-4 Turbo在数学能力比上一代有了明显改进。

这也就不难理解，新版的GPT-4 Turbo今天再次登顶大模型排行榜。

就连奥特曼本人表示，「GPT-4现在更加智能，使用起来也更舒适」。

另外，据OpenAI介绍，GPT-4 Turbo在回复时，变得更直接、减少啰嗦内容，更加口语化。

一起看看，GPT-4 Turbo在基准测试中能力如何？

数学性能提升近10%

在官方公开GitHub上，OpenAI放出了gpt-4-turbo-2024-04-09最新的评估结果。

主要在以下七大基准上，对模型完成了评估：

MMLU（测量大规模多任务语言理解）

MATH（使用MATH数据集测量数学问题解决能力）

GPQA（研究生级别的谷歌防护问答基准）

DROP（需要对段落进行离散推理的阅读理解基准）

MGSM（多语言小学数学基准）：语言模型作为多语言思维链推理者

HumanEval（评估在代码上训练的大型语言模型）

MMMU（用于专家通用人工智能的大规模多学科多模态理解和推理基准）

在这个GitHub库中，OpenAI主要使用零样本、CoT设置，并采用简单的指令，如「解决以下多项选择题」。

这种提示方式更能真实反映模型在实际使用中的表现。

具体结果如下所示：

最新的gpt-4-turbo比以往的GPT-4系列，在性能上有着明显的提升。

尤其数学方面，能力实现了近10%的跃阶。

而在整体的比较中，新模型也基本上实现了对Claude 3 Opus和Gemini Pro 1.5的全面超越。

大海捞针比初代GPT-4提升4.3倍

同样的，在大海捞针测试中，最新的gpt-4-turbo也是全方位地超越了此前的1106-preview。

众所周知，上下文越长，对模型的挑战就越大。

而gpt-4-turbo可以在处理长达64k Token的内容时，性能直接媲美预览版在26k Token时的表现。

如果我们回顾一下GPT-4刚发布时的情况，也就是大约一年之前。

最新的gpt-4-turbo在32k的配置下，性能比初代GPT-4提高了约4.3倍。

顺便一提，那个时候，模型能处理的上下文最高只到32k。

GPT-4 Turbo重回王座

前段时间，Anthropic手里的最强大模型Claude 3 Opus，可以说是霸榜各大榜单。

不过，就在今天，OpenAI凭借着全新的gpt-4-turbo，又把它从「榜一」的位置上拉了下来。

根据「LLM排位赛」最新的结果，GPT-4-Turbo再次超越Claude 3，夺得第一。

LMSYS Org从多个领域收集了超过8000张人类投票，发现GPT-4-Turbo在编程与推理方面的表现，超越了其他模型。

为了深入了解，研究人员在Arena引入了「类别」功能。

通过这一新功能，可以对编程、长查询处理和多语言能力等不同领域进行了更详尽的比较。

研究人员还对编程领域中包含代码片段的所有对话进行了标记。在这一方面，GPT-4-Turbo展现出更强的性能。

类似的，Naman Jain也发现，新版GPT-4-Turbo在LiveCodeBench（包含编程竞赛题）上的表现，提高了惊人的4.5分。

这类问题对目前的LLM来说挑战很大，而OpenAI此次的更新，明显是大幅提升了模型推理能力。

在长查询领域（Token数量超过500），Claude-3 Opus表现最佳。

令人有些意想不到的是，Command R/R+在这一领域中也有着非常高的得分。

有趣的是，如果只涉及英语提示，排名会与整体略有不同。

在这一类别中，三种GPT-4-Turbo依然处于领先地位。

而这种变化的产生，是因为随着用户基数的扩大，语言使用从英语转向包括中文在内的多种语言。

而在应对不同的语言时，模型的表现也有所差异。

例如，在中文环境中，Claude-3 Opus排名第一。

以下是模型评分的置信区间 (CIs) ：

以及整体的胜率热图：

参考资料：

https://twitter.com/OpenAI/status/1778574613813006610

https://twitter.com/lmsysorg/status/1778555678174663100

数学编程上下文 gpt-4 turbo chatgpt

上一篇：队史第三人，官方：富勒姆前锋穆尼斯当选英超3月最佳球员富勒姆球员穆尼斯英超阿森纳2-2富勒姆最佳球员

下一篇：直落两局！陈雨菲横扫7号种子，国羽12年后再次包揽亚锦赛四强陈雨菲夺冠之路中羽在线陈雨菲撑起国羽女单复兴大业

相关内容

热门资讯

邱淑贞丈夫花费4200万购入半... 沈嘉伟又出手了，4200万港元，中半山地利根德阁3座中层B室，实用面积1602平方呎，三房连一套房。...

Meta拟聘请亚马逊云科技高管... 7月17日消息，据财联社获悉，亚马逊云科技（AWS）资深高管戴夫·布朗即将入职Meta。据知情人士...

一场年中大促后，美国兴趣电商走... 封面图片由AI生成海外“618”，兴趣电商在美国的一次大考。对关注美区的跨境卖家来说，年中大促季...

原创半... 半年回撤近三成，金价大幅回调，四大核心信号辨别本轮行情属性很多普通投资者最近都十分困惑，年初还一路...

原创中... 近期全球黄金市场出现反常一幕：国际金价今年早些时候冲高后已下跌近 30%，但中国市场却掀起了一股购金...

原创从... 顶着“人类太空希望”光环的SpaceX，连续三个交易日股价下挫，跌破 IPO 发行价。过去的Spac...

【数智化人物展】衡石科技创始人... 刘诚忠 “【提示】2026第六届数智化颁奖典礼将于8月5日在北京举行颁奖点击可报名参加颁奖典礼丨此次...

泽连斯基一个拧瓶盖动作，违反了... 在今天的欧洲，有什么行为能让你瞬间成为“环保罪人”？答案荒诞得像个段子：你只要把塑料瓶盖完完整整地...

阿里巴巴香港创业者基金何定康:... 【导读】NextGen Partners 合伙人何定康 (Kenny Ho) 认为，全球投资者已形成...

早睡早起和晚睡晚起，到底谁更健... 很多人都有过这样的自我安慰：虽然我凌晨两点才睡，但第二天睡到上午十点，照样睡满8小时，应该不算熬夜。...

LV老板被责令补税，高达1.7... 7月17日消息，据中新经纬，近日，在一场持续多年的法律诉讼后，法国首富、LVMH掌门人贝尔纳·阿尔诺...

原创黄... 来源 | 《财经》新媒体文丨《财经》新媒体研究员蒋金丽编辑丨蒋诗舟经历了短暂反弹后，国际金价...

Atlas关停，AI浏览器没有... 根据OpenAI官方文档，Atlas将于2026年8月9日停止运行。用户需要提前迁移想保留的数据，包...

心理咨询师2026年小红书导流... 「小红书公转私」是指在小红书平台上，通过合规的内容运营和互动策略，将公域流量用户引导至微信等私域渠道...

小鹏就空气弹簧故障致歉，小米汽... 今天是 7 月 17 日农历六月初四杭州怎么就 38 度了这个天气一出门就感觉正在被低温慢...

光模块龙头中际旭创通过港交所聆... 7月17日，港交所披露文件显示，全球高速光模块龙头中际旭创顺利通过主板上市聆讯，距离完成A+H两地上...

2026年A股最大IPO来了，... 7月16日，中国存储芯片龙头长鑫科技正式开启网上申购。这家存储芯片龙头企业，即将创下今年A股最大IP...

西部利得基金旗下一基金成立15... 深圳商报·读创客户端记者詹钰叶西部利得基金旗下最“资深”产品西部利得策略优选近来引起投资者关注—...

振石股份：548.86万股首发... 7月17日，振石股份（601112.SH）公告称，本次上市流通的限售股为首次公开发行网下配售限售股...

解码上半年外汇收支：涉外收支破... 来源：21世纪经济报道 21世纪经济报道记者郭聪聪 7月17日上午，国新办举行2026年上半年外汇...

2026 © 商务投诉网网站信息来源网络采集及用户发布，如有侵权违规，请发送邮件至2697952338@qq.com
比特空间八零商务网华商网开创问答网东方游戏网华商生活网易库网澳新网