马斯克Grok 4.20突袭上线!4个AI开会互怼,47%实盘暴击GPT-5
创始人
2026-02-18 20:52:03
0

新智元报道

编辑:犀牛

【新智元导读】 刚刚,马斯克Grok 4.20 beta版发布。不是一个AI,而是4个智能体现场开会辩论!实盘炒股最高47%回报,直接暴击GPT-5和Gemini。

在这个赛博朋克的春节档,马斯克给我们端上了一盘「硬菜」。

就在几个小时前,xAI 在毫无预警的情况下上线了 Grok 4.20 Beta,旁边还写着醒目的 「4 Agents」

你以为你在和一个 AI 聊天?

不,你是走进了一间坐着四位专家的会议室。

你甚至能看见他们互相质疑、互相拆台、互相纠错,最后由「队长 Grok」拍板整合成答案。

现在终于轮到 AI 给你表演「开会的艺术」了。

这不,模型刚上线,网友就开启了实测。

比如,最近常见的50米洗车测试。

只不过这次网友换成了「50米洗直升机」。

不管怎样,Grok 4.20 的回答看上去好像不太行。

网友Testlabor用Grok 4.20在1分20秒内为编写了一个俄罗斯方块游戏。

「它和原版游戏一样,具有相同的规则和风格,完全可以玩。」Testlabor表示。

网友tetsuo甚至构建了一个人工生命模拟器。

相当炫酷。

马斯克本人也没闲着。

他在X上开始了一轮颇具马斯克风格的测评轰炸。

甚至在回答「美国是否建立在被盗窃的土地上」这种送命题时,Grok 4.20也是唯一一个不含糊其辞、直球开喷的AI。

他兴奋地发推:Grok 4.20在分析血检报告方面简直太厉害了!你可以直接上传你的检验报告,甚至是核磁共振片子,然后Grok会帮你逐项解读。

这条推文附带了一个真实的测试视频,展示了Grok如何把密密麻麻的医学指标翻译成普通人看得懂的语言。

更具体的性能佐证来自一个意想不到的地方。

在正式发布前,Grok 4.20的早期版本以「神秘模型」的身份参加了Alpha Arena的AI炒股大赛:32个AI实例,每个配备1万美元真金白银,在纳斯达克自主交易两周。

结果?

Grok 4.20是唯一盈利的,平均回报率超10%,最猛的单个实例赚了47%。

它在Vending Bench自动售货机运营测试中也击败了GPT-5,销售额领先整整1100美元。

Grok 4.20这次发布,还有段八卦值得提。

马斯克去年12月就放话说3到4周内发布Grok 4.20,结果一拖就是数月。

今年1月他解释说是极寒天气损坏了孟菲斯数据中心的电力线路。

凑巧的是,今年2月2日SpaceX正式收购了xAI,合并估值1.25万亿美元。

所以Grok 4.20,不仅是xAI新版本的首秀,也是xAI并入SpaceX帝国后发布的第一个AI产品。

某种程度上,它带着宣示意义。

但真正让这次发布不同寻常的,不是背后的资本故事,而是技术本身的一次范式转变:从单模型输出,到多智能体协作

以往,无论是GPT还是Claude,你问一个问题,背后是一个模型在生成答案。

这个模型或许经过了复杂的训练、微调、强化学习,但从结构上看,它是一个独立的「大脑」在工作。

Grok 4.20打破了这个范式。

它的背后,是四个有名字、有个性、有分工的智能体同时在线,共同为你的问题「开会讨论」。

四个AI

一场实时圆桌辩论

打开Grok 4.20的界面,随便提一个问题,界面右侧会弹出一个思考结果面板。

你会看到一场正在进行中的讨论——四个AI角色各自发言,质疑彼此,直到队长拍板。

他们分别是:

Grok——队长,最大真理寻求者:这是整个团队的核心指挥。根据Grok自己的介绍,它的人格灵感来自《银河系漫游指南》里的「42」(终极答案)和钢铁侠的JARVIS。它负责统筹全局,把其他三位专家的结论整合成最终答案,确保输出「有用、真实、有趣」。它擅长哲学、科技、人生感悟,也能幽你一默。

Harper——研究与深度验证专家:Harper是团队的「事实把关人」。她专注于信息的深度挖掘、实时搜索和多维度逻辑分析。配备了完整的工具箱——网页浏览、X平台搜索、数据计算、图像分析——Harper会在其他成员提出观点时负责核查数据来源,确保结论有依据、有数据支撑。用人话说:她是团队里的「严谨学霸」,专门负责质疑那些听起来有理但未必准确的说法。

Benjamin——深入分析与逻辑推理专家:Benjamin是团队里的「逻辑引擎」。他专攻复杂问题的拆解、证据验证和漏洞检查,尤其擅长把模糊的问题变成清晰、可量化的分析。他的「devil's advocate」思维是核心竞争力——他会主动找别人论点的漏洞,补全边缘案例,确保输出经得起推敲。数学计算、代码调试、算法分析,交给Benjamin。

Lucas——分析与工具执行专家:Lucas是团队里负责「落地」的人。他专注于严密推理、代码执行、数据分析和工具协调。他擅长把抽象问题直接转化为可运行的计算和可复现的结论。团队协作时,Lucas负责「并行验证」和「细节把关」,让答案不只是观点,而是有数据、有模拟、有实证的硬核结果。

四个AI不是彼此孤立的,而是真正在开会。

当你提问后,四个智能体同时启动,各自从自己的专业视角分析问题,然后在内部进行讨论——互相质疑,互相纠错,最后由Grok整合成一份给你的答案。

在超大上下文窗口之内,这套机制可以在单次对话里完成一套完整的「多人评审」流程。

AI交互范式的转移

如果说GPT代表的是「一问一答」的AI助手时代,那么Grok 4.20代表的,可能是AI交互的第二个纪元——多智能体协作时代

其实多智能体并不是Grok 4.20首创。

谷歌的Gemini 3 Deep Think用并行推理链做验证;Anthropic给Claude Code加了Agent Teams;月之暗面的Kimi K2.5有「Agent集群」,能召唤最多100个分身并行处理任务。

多智能体协作,俨然已经成为2026年AI竞争的核心战场。

但Grok 4.20的不同之处在于:它是第一个把多智能体协作塞进普通聊天界面、以近乎免费的形式开放给大众用户的产品。

如果说Kimi的100个分身更像「工厂流水线」——规模庞大,分工精细,优势在吞吐量;那么Grok的四个智能体更像「圆桌会议」——人少,但每个人都有发言权,而且你能看到会议纪要。

一种追求规模和效率,另一种追求透明和共识。

未来已来

AI的进化,从来不是线性的。

第一代AI是工具:给个指令,出个结果,逻辑简单粗暴。

第二代AI是助手:能对话,能理解上下文,能帮你写稿子改代码。

而现在,第三代AI正在显现它的雏形——能协作、能自省、能互相纠错的AI团队

这意味着未来你向AI提一个复杂问题,得到的不再是一个「最优猜测」,而是一份经过内部辩论、多角度验证、错误已被内部纠正的综合结论。

这离人类智识活动——群体智慧,集体决策——更近了一步。

当然,现在的Grok 4.20还只是这个未来的早期版本:四个智能体之间意见分歧的裁决机制还很粗糙,中英文混杂的输出还需要打磨,上下文在四个智能体之间如何高效分配也是待解的工程难题。

但方向是对的。

一个AI可能会骗你,但四个AI至少会互相拆台。

三个臭皮匠,顶个诸葛亮。

而当这四个臭皮匠都是顶尖专家的时候——那答案,或许比任何一个诸葛亮都更接近真相。

这,才是Grok 4.20以及未来的AI最让人值得期待的地方。

参考资料:

https://www.adwaitx.com/grok-4-20-beta-multi-agent-features/

秒追ASI

相关内容

热门资讯

探索消费信贷与社交支付深度融合... 腾讯这一金融产品再添新功能,4月19日,北京商报记者注意到,微信分付灰度测试转账功能引发热议,在向微...
土耳其主要银行股指早盘下跌2% 每经AI快讯,4月20日,土耳其主要银行股指早盘下跌2%。 每日经济新闻
好用的OTA代运营源头厂家 在如今竞争激烈的酒旅行业中,OTA代运营服务成为了众多酒店、民宿提升竞争力的关键。但市场上的代运营厂...
成都五一出游全国热门第三 “五一”假期临近,同程旅行最新发布的《2026“五一”旅行趋势报告》显示,今年“五一”期间成都同时位...
俞浩:追觅希望成为人类有史以来... 追觅创始人兼 CEO 俞浩今天接受晚点 LatePost 访问,谈自己为何“疯狂”。 俞浩表示,他其...
原创 6... 60万工人的选择 根据中国新闻周刊的统计数据,从2020年1月到7月,仅短短半年的时间,我国的外...
监管重磅!虚拟货币全是骗局!这... 近日,官方召开打击虚拟货币交易炒作工作协调机制会议,再次明确表态:虚拟货币不是法定货币,不具有与法定...
腾讯公司与浙江大学达成深度合作... 当互动娱乐不再只是日常消遣,当高校科研走出象牙塔,一场关乎数字科技未来的深度携手正悄然改写行业格局。...
1分钟,垂直涨停!A股两大板块... 今日早盘,A股整体震荡上扬,创业板指盘中再创11年新高,深证成指亦再创4年新高,上证指数、科创综指、...
原创 预... 最近各大气象机构的报告密集更新,信号已经非常明确了。2026年下半年,厄尔尼诺大概率要来,而且来势不...
菲亚兰德由创始人夫妇控股近95... 瑞财经 吴文婷4月17日,深圳菲亚兰德科技集团股份有限公司(以下简称“菲亚兰德”)在港交所递交招股书...
突发:5吨黄金+8吨白银滞留海... 王爷说财经讯:突然出手!印度开始卡黄金进口了!到底发生了什么? 2026年4月20日,据路透社17 ...
茅台净利润暴跌!24年首次双降... 商业润点 |Biz Run Review 2025年4月16日晚,贵州茅台发布年报:营收1688...
机构预测明晚油价将迎年内首降,... 4月21日24时(即本周三零点),国内成品油调价窗口将再度开启。多家行业机构预测,本轮调价大概率迎来...
增长10%!德国葡萄酒在中国做... 近年来,中国葡萄酒市场持续收缩,但德国葡萄酒却在这一萎缩的市场中,走出了一条逆势上扬的曲线。 202...
「一城一酒」百元档意外扛大旗,... 本报(chinatimes.net.cn)记者周梦婷 北京报道 在白酒行业仍处低谷的大行情下,“西北...
两部门发文加大进出口信贷支持力... 商务部、中国进出口银行近日印发《关于强化进出口信贷支持 服务“十五五”商务高质量发展良好开局的通知》...
原创 炸... 今天聊一个让整个东亚棋局都为之一震的事儿——中国钨出口管制,直接把日本打了个措手不及。 很多朋友可能...
高盛:母猪去化11%,猪价后续... 2026年4月,高盛发布最新研报指出,中国生猪行业已触达周期底部,虽当前价格承压,但供需反转在即。数...
超3400只个股飘红,沪指、深... 20日,A股三大指数开盘涨跌不一,随后集体翻红,午后创业板指翻绿。Wind数据显示,截至收盘,上证指...