GPT-4 Turbo重回王座,ChatGPT免费升级!数学暴涨10%/上下文全面碾压 gpt-4 turbo推出手机版 gpt-4新增功能
admin
2024-04-12 18:51:24
0


新智元报道

编辑:桃子 好困

【新智元导读】ChatGPT也能用上最强的GPT-4 Turbo了!今天,新版GPT-4 Turbo再次重夺大模型排行榜王座,超越了Claude 3 Opus。而且,新模型在处理64k长上下时,性能直接达到了旧版在26k时的性能。

今天起,最新版的GPT-4 Turbo,正式向ChatGPT Plus用户开放了!


有了GPT-4 Turbo加持后,ChatGPT写作、数学、逻辑推理和编码的能力得到提升。

小编小试,果然ChatGPT最新数据已经更新到了4月。


根据基准测试结果,GPT-4 Turbo在数学能力比上一代有了明显改进。


这也就不难理解,新版的GPT-4 Turbo今天再次登顶大模型排行榜。

就连奥特曼本人表示,「GPT-4现在更加智能,使用起来也更舒适」。


另外,据OpenAI介绍,GPT-4 Turbo在回复时,变得更直接、减少啰嗦内容,更加口语化。


一起看看,GPT-4 Turbo在基准测试中能力如何?

数学性能提升近10%

在官方公开GitHub上,OpenAI放出了gpt-4-turbo-2024-04-09最新的评估结果。

主要在以下七大基准上,对模型完成了评估:

MMLU(测量大规模多任务语言理解)

MATH(使用MATH数据集测量数学问题解决能力)

GPQA(研究生级别的谷歌防护问答基准)

DROP(需要对段落进行离散推理的阅读理解基准)

MGSM(多语言小学数学基准):语言模型作为多语言思维链推理者

HumanEval(评估在代码上训练的大型语言模型)

MMMU(用于专家通用人工智能的大规模多学科多模态理解和推理基准)

在这个GitHub库中,OpenAI主要使用零样本、CoT设置,并采用简单的指令,如「解决以下多项选择题」。

这种提示方式更能真实反映模型在实际使用中的表现。

具体结果如下所示:

最新的gpt-4-turbo比以往的GPT-4系列,在性能上有着明显的提升。

尤其数学方面,能力实现了近10%的跃阶。


而在整体的比较中,新模型也基本上实现了对Claude 3 Opus和Gemini Pro 1.5的全面超越。


大海捞针比初代GPT-4提升4.3倍

同样的,在大海捞针测试中,最新的gpt-4-turbo也是全方位地超越了此前的1106-preview。


众所周知,上下文越长,对模型的挑战就越大。

而gpt-4-turbo可以在处理长达64k Token的内容时,性能直接媲美预览版在26k Token时的表现。


如果我们回顾一下GPT-4刚发布时的情况,也就是大约一年之前。

最新的gpt-4-turbo在32k的配置下,性能比初代GPT-4提高了约4.3倍。

顺便一提,那个时候,模型能处理的上下文最高只到32k。


GPT-4 Turbo重回王座

前段时间,Anthropic手里的最强大模型Claude 3 Opus,可以说是霸榜各大榜单。

不过,就在今天,OpenAI凭借着全新的gpt-4-turbo,又把它从「榜一」的位置上拉了下来。

根据「LLM排位赛」最新的结果,GPT-4-Turbo再次超越Claude 3,夺得第一。


LMSYS Org从多个领域收集了超过8000张人类投票,发现GPT-4-Turbo在编程与推理方面的表现,超越了其他模型。

为了深入了解,研究人员在Arena引入了「类别」功能。

通过这一新功能,可以对编程、长查询处理和多语言能力等不同领域进行了更详尽的比较。


研究人员还对编程领域中包含代码片段的所有对话进行了标记。在这一方面,GPT-4-Turbo展现出更强的性能。


类似的,Naman Jain也发现,新版GPT-4-Turbo在LiveCodeBench(包含编程竞赛题)上的表现,提高了惊人的4.5分。

这类问题对目前的LLM来说挑战很大,而OpenAI此次的更新,明显是大幅提升了模型推理能力。


在长查询领域(Token数量超过500),Claude-3 Opus表现最佳。

令人有些意想不到的是,Command R/R+在这一领域中也有着非常高的得分。



有趣的是,如果只涉及英语提示,排名会与整体略有不同。

在这一类别中,三种GPT-4-Turbo依然处于领先地位。

而这种变化的产生,是因为随着用户基数的扩大,语言使用从英语转向包括中文在内的多种语言。


而在应对不同的语言时,模型的表现也有所差异。

例如,在中文环境中,Claude-3 Opus排名第一。


以下是模型评分的置信区间 (CIs) :


以及整体的胜率热图:


参考资料:

https://twitter.com/OpenAI/status/1778574613813006610

https://twitter.com/lmsysorg/status/1778555678174663100


相关内容

热门资讯

政策催化碳中和产业链,新能源E... 截至2月24日10点30分,上证指数涨0.98%,深证成指涨1.55%,创业板指涨1.36%。ETF...
原创 不... 李保田已经80岁了,现在几乎不再拍戏。他的晚年过得十分自在,孙女经常陪伴在侧,生活也因此充满了笑声与...
制造业与服务业如何在医疗领域深... 2月24日,广东再度擂响高质量发展的战鼓。在全省高质量发展大会上,“制造业与服务业协同发展”被置于突...
ESG强信披来了!2025年E... 来源:经济观察网 回顾2025年ESG发展,国际分化与监管细化并存。欧美政策摇摆导致市场短期调整,...
原创 6... 港股迎来“国产AI大模型”时刻。 2026年2月20日,丙午马年首个交易日,港股迎来了“国产AI大...
超45亿投入争夺全民入口 AI... [ 豆包方面披露,除夕当天豆包AI互动总数达19亿次。春节场景下的AI图片生成、拜年祝福等玩法吸引用...
全球船东看向中国 在江西省九江市都昌县造船总厂船舶制造工地,工人进行刷漆作业。 傅建斌摄(新华社发) 近日,由中国船...
港股马年开盘大分化:AI狂涨、... 港股马年首个交易日(正月初四)走出极致割裂行情:恒生科技指数走弱,AI原生模型、人形机器人全线暴涨,...
优化营商环境 激活发展动能·企... (来源:河北新闻网) 转自:河北新闻网 河北永洋特钢集团有限公司董事长杜庆申 专班贴心服务,企业发展...
机构持续看好A股后市表现,中证... 截至2月24日10点15分,上证指数涨0.99%,深证成指涨1.63%,创业板指涨1.69%。油气开...
大悦城控股原董事长陈朗突然间宣... 运营商财经网 章少霞/文 近期,大悦城控股发布公告称,董事陈朗因已达退休年龄,申请辞去公司董事职务,...
“世界工厂”的跨境电商创业者:... 界面新闻记者 | 张熹珑 2025年对跨境电商从业者是充满起伏的一年。全球贸易壁垒抬升、欧美终端消...
【政策】“十五五”期间支持科技... 财政部 海关总署 税务总局关于“十五五”期间支持科技创新进口税收优惠政策的通知财关税〔2026〕7号...
雷军发开工红包,并公布新一代S... 今日,小米汽车创始人雷军发文。 马年开工第一天,他和高管团队一起,给小米同学们发开工红包,并祝福大家...
游戏概念股走低,相关ETF跌约... 游戏概念股走低,光线传媒跌20%,浙数文化跌超8%,巨人网络、恺英网络跌超5%。 受盘面影响,游戏相...
A股开门红!三大股指集体上涨,... 2月24日,A股早盘高开,三大股指盘初震荡上涨,油气、贵金属等板块大涨,算力硬件股活跃,影视股普遍下...
【立方早知道】马年A股怎么走?... 第 820 期 2026-02-24 焦点事件 A股马年开市在即!节后如何布局,哪些方向值得关...
又一家日系消费电子巨头撤退,松... 2月24日,据报道,日本电子巨头松下控股正式宣布,2026年4月起将北美和欧洲市场的电视销售业务全面...
袁记云饺IPO:一碗饺子的资本... 一碗饺子能承载多少资本想象?袁记云饺给出了答案:35亿估值、4266家门店,以及一场“危机”过了的食...
内需复苏叠加“反内卷” 聚焦两... 证券时报记者 吴琦 对于马年的投资机会,鹏华基金权益投资二部副总监、基金经理陈金伟最看好的两个方向是...