GPT-4升级被曝引入Q*,推理/数学更强废话更少,竞技场重夺王位 gpt-4迎来agi历史性时刻 gpt-4达到人类的水平
admin
2024-04-13 11:29:08
0

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

啥?

新版GPT-4是在Q*的输出上微调的?



在竞技场重回榜一的新版GPT-4 Turbo,成功再次踩中大家嗨点。



它此次的性能提升体现在数学、推理、代码上,而且输出内容废话更少。



最让大家感到兴奋的是其数学/推理能力,现在可以在一些问题上完胜其他大模型。

比如“求y=x^4-5x^2-x+4和y=x^2-3x交点的y坐标之和。”只有最新版GPT-4 Turbo能测出来。



这条推特被公开承认自己参与过Q*的Lukasz Kaiser转发。



Noam Brown也发推表示新版GPT-4 Turbo在推理能力上大幅提升——要知道,这位OpenAI科学家一直被外界认为正在研究Q*。



各方信息汇总后,网友们一拍脑袋反应过来,这其中会不会就引入了Q*啊?

数学方面的提升意味着其中可能包含了一个数学模型,可能是Q*。

(以及他的数学题测试推特被OpenAI的人转发了)



好家伙,难道OpenAI在悄悄搞大事?

新GPT-4的“新马脚”?

OpenAI官方公告表示,最新版本的GPT-4 Turbo全方位大提升,现在ChatGPT用户可直接体验。

网友立马冲去实测,有人给出评估结果,特别是数学/推理能力有了重大提升。



实际问题测试中,在多个数学推理题上,GPT-4 Turbo都没有翻车,但是如Command-R plus、Clauede-3 Opus等都有失误。

比如一道乘电梯的推理题。陷阱在于这部神奇电梯无论坐几层,最后都会停在一层。GPT-4 Turbo理解了这层逻辑,最后给出了正确答案。



还有在修改二叉树问题上,GPT-4 Turbo不仅回答正确,而且过程清晰完整。





同时在“大海捞针”能力上,与之前版本对比,最新GPT-4 Turbo已经是出版GPT-4能力的4.3倍



竞技场的结果表明,在代码能力方面,GPT-4 Turbo也更强了。



文本输出方面变得更加简洁。



生成代码也少了很多废话(下图右侧为新版本)。



有人补充说,生成速度上也更快了。



神秘Q*:OpenAI的最大秘密?

现在Q*已经成了OpenAI的流量密码了,只要出现这个关键字,网友们都会兴奋不已。

毕竟当初奥特曼宫斗大戏就和它有关联,还有人发出警告,Q*预示着AGI即将出现。

不过官方一直没有公开承认过这个项目的存在,奥特曼拒绝回答,Transformer作者公开承认参与Q*也被OpenAI公关跳起来捂嘴。

从目前各方透露的信息来看,Q*专注于逻辑和数学推理能力,数学能力突出。

Transformer作者之一Lukasz Kaiser承认自己参与了这个项目

德扑AI之父、前FAIR(Meta)研究科学家Noam Brown也被视为是Q*项目的重要成员(推测来自LeCun)。



他加入OpenAI的动作也被外界视为分析Q*的一个线索,“有理由怀疑Q是将LLM和AlphaGo结合起来,并用强化学习进行训练”。



Noam Brown开发出了第一个在打扑克牌上超越人类的AI,后来加入Meta致力于让AI学会玩Diplomacy(外交游戏)。

目前,关于Q*的准确信息还是非常少。

可能奥特曼还在等一个合适的时机来回应外界。



One More Thing

btw,网友们意外捉到总裁Brockman转发的一个视频演示里的提示词是:

创建一个python脚本,使用pytube库从YouTube下载视频。



看来大家拿GPT-4干的事也都差不多嘛(doge)。



参考链接:
[1]https://twitter.com/lukaszkaiser
[2]https://twitter.com/skirano/status/1778122305471705489
[3]https://twitter.com/7oponaut/status/1777971159478194256
[4]https://twitter.com/ai_for_success/status/1778073765748064678
[5]https://www.understandingai.org/p/how-to-think-about-the-openai-q-rumors

相关内容

热门资讯

马年AI首战:大模型“入户”没... 来源:市场资讯 (来源:北京商报) 2月23日,港交所一开盘,腾讯和阿里的股价向上45度上涨,收盘价...
日本经济长期疲软,日元购买力跌... 【环球时报特约记者 陈欣】受日本经济长期疲软拖累,反映日元综合实力的实际有效汇率指数创下53年来新低...
美股,全线重挫 美东时间周一,美股三大指数收盘均跌超1%。截至收盘,标普500指数跌1.04%,报6837.75点;...
当反向过年走红 留京的网约车“... 农历马年大年初四(2月20日)晚上十点左右,北京丰台站出站口的网约车候车区,已经有不少节后返程的旅客...
国际观察|美国内各方围绕关税角... 新华社纽约2月23日报道,美国最高法院日前公布裁决,认定美国《国际紧急经济权力法》没有授权总统征收大...
原创 周... 一、周二A股开盘在即,对于今天A股走势,我在周一早上已发文表达了看多的观点,而且我也同时表达了周一晚...
Xbox主机联合创始人:微软游... IT之家 2 月 24 日消息,Xbox 主机联合创始人对其老东家近期的动荡局面发表了看法。在接受 ...
AI早报 | 支付宝“AI付”... 支付宝“AI付”用户破1亿 2月23日,据“支付宝”公众号消息,春节期间,支付宝“AI付”用户数突...
银行首席经济学家,纵论市场大势 兴业银行首席经济学家鲁政委:A股行情由预期驱动转向基本面验证 2026年,海外主要经济体货币政策由...
跨境和行业ETF逆势“吸金” ◎记者 赵明超 进入2026年以来,资金流向呈现分化态势。在宽基ETF遭遇流出的同时,行业ETF和跨...
香港收购宏福苑火灾房公布“明细... 因香港特区政府此次为受灾业主开出了较为优厚的“回收价格”,业主们在全港范围内可供选购的总价较低的公屋...
银行首席经济学家纵论市场大势 本版导读 2026-02-24 2026-02-24 2026-02-24 2026...
AI文章过AIGC检测秘诀,自... 实操教程:如何让AI文章成功通过AIGC检测器? 小李是一名新媒体运营,最近遇到了一个头疼的问题:...
原创 甲... 甲状腺癌是目前发病率较高的恶性肿瘤,但好在预后较好,多数患者经过手术治疗后,能恢复正常生活。不过术后...
原创 新... 长沙晚报掌上长沙2月23日讯(全媒体记者 刘捷萍 通讯员 唐铭宏)2026年马年春节假期,为保障长沙...
国补加持智能眼镜成消费新宠 行... 2026年开年以来,在国家购新补贴政策与技术迭代的双重推动下,智能眼镜市场迎来消费热潮,成为不少消费...
【环球财经】伦敦金属交易所基本... 来源:中国金融信息网 新华财经伦敦2月21日电(记者 张亚东)伦敦金属交易所基本金属价格20日收盘时...
原创 特... 裁决公布后仅仅几个小时,特朗普就在白宫召开了记者会。他愤怒地批评最高法院的裁决“荒谬、措辞拙劣且极端...
原创 四... 浮躁,几乎是每个人都经历过的状态,我自己也不例外。每天,我总会在脑海中幻想,什么时候才能一夜暴富,抛...