全球最强大模型一夜易主,GPT-4被全面超越 全球十大超级模型飞机 全球十大模型
admin
2024-03-06 11:20:35
0

白交 西风 发自 凹非寺
量子位 | 公众号 QbitAI

Anthropic刚刚官宣:Claude 3来了!

作为OpenAI最强竞争选手,此次它发布的新模型家族,以最强版Claude 3 Opus为代表,“已经实现了接近人类的理解能力”——

在推理、数学、编码、多语言理解和视觉方面,全面超越GPT-4在内的所有大模型,直接重新树立行业基准的那种。

浅看一下这份成绩单,就十分扎眼~



几项数学类评测都是用0-shot超越GPT-4的4-8 shot。

除此之外,此前就以长下文窗口见长的Claude,此次全系列大模型可提供 200K 上下文窗口,并且接受超过100万Tokens输入

Gemini 1.5 Pro:嗯?



目前可以免费体验第二强Sonnet,Opus最强版供Claude Pro付费用户使用,但大模型竞技场也可以白嫖。于是乎,网友们已经开始疯玩上了。(Doge)



另外,Opus和Sonnet也开放API访问,开发者可以立即使用。

有人直接艾特奥特曼:好了,你现在可以发布GPT-5了。



不过奥特曼可能还在烦马斯克的诉讼……



最新最强大模型发布

此次Claude 3家族共有三个型号:小杯Haiku、中杯Sonnet以及大杯Opus,成本和性能依次递增。



首先,在性能参数上,Claude 3全系多方面全面提升。其中Opus在MMLU、GPQA、GSM8K等评估基准上领先于其他所有模型:



还有在视觉能力上,它能可以处理各种视觉格式,包括照片、图表、图形和技术图表。



对于这样性能结果,有专业人士表达了自己的看法。

比如爱丁堡大学博士生、 中文大模型知识评估基准C - Eval提出者之一符尧就表示,像MMLU / GSM8K / HumanEval这些基准,已经严重饱和:所有模型的表现都相同。



他认为,真正区分模型性能基准的是MATH and GPQA



另外,在拒绝回答人类问题方面,Claude 3也前进了一大步,拒绝回答的可能性显著降低



在上下文以及记忆能力上,他们用大海捞针(Needle In A Haystack,NIAH)来评估衡量大模型从大量数据中准确召回信息的能力。

结果Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率。而且在某些情况下,它甚至能识别出 “针 “句似乎是人为插入原文的,从而识别出评估本身的局限性。



还在生物知识、网络相关知识等方面取得了进步,但出于负责任的考虑,仍处于AI安全级别2(ASL-2)。

其次,在响应时间上,Claude 3大幅缩短,做到近乎实时。

官方介绍,即将发布的小杯Haiku能够在三秒内阅读并理解带有图表的长度约10k token的arXiv论文。

而中杯Sonnet能够在智能水平更高的基础上,速度比Claude 2和Claude 2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。

大杯Opus的智能水平最高,但速度不减,与Claude 2和Claude 2.1近似。

官方对三款型号的模型也有清晰的定位。

大杯Opus:比别家模型更智能。适用于复杂的任务自动化、研发和制定策略;中杯Sonnet:比其他同类模型更实惠。更适合规模化。适用于数据处理、RAG、在中等复杂度工作流程中节省时间;小杯Haiku:比同类模型更快速、实惠。适用于与用户实时互动,以及在简单工作流程中节省成本;

价格方面,最便宜的小杯定价0.25美元/1M tokens输入,最贵的大杯定价75美元/1M tokens输入



对比GPT-4 Turbo,大杯价格确实高出不少,也能体现AnthropicAI对这款模型非常有信心。



第一手实测反馈

既如此,那就先免费来尝尝鲜~

目前官方页面已经更新,Claude展现了「理解和处理图像」这一功能,包括推荐风格改进、从图像中提取文本、将UI转换为前端代码、理解复杂的方程、转录手写笔记等。

即使是模糊不清的有年代感的手记文档,也能准确OCR识别:



底下写着:你正在使用他们第二大智能模型Claude 3 Sonnet。



然鹅,可能是人太多的原因,尝试了几次都显示“Failed”



不过,网友们也已经po出了一些测试效果,比如让Sonnet解谜题。

为其提供一些示例,要求它找出数字之间的关系,比如“1 Dimitris 2 Q 3”,意思是3是1和2相加的结果。

结果Sonnet成功解出-1.1加8等于6.9,所以“X”的值应该是6.9:



还有网友发现Sonnet现在也可以读取 ASCII 码了,直呼:这是GPT-4 ++的水平了



在编程任务上,谁写的代码好先不说,Claude 3至少不会像GPT-4一样偷懒。



还有体验到了Opus的玩家,在线给模型挖坑,可opus硬是完美躲避不上当:



初看这效果,感觉还行。这时候应该艾特OpenAI:GPT-5在哪里?



好了,感兴趣的朋友,可以戳下方链接体验啦~
https://claude.ai/
参考链接:
[1]https://www.anthropic.com/news/claude-3-family
[2]https://twitter.com/AnthropicAI/status/1764653830468428150/photo/1

相关内容

热门资讯

新宝股份2025年净利润下滑4... 挖贝网 3月4日消息,新宝股份(002705)披露2025年度业绩快报,公司营业总收入实现161.9...
娄勤俭:让人民群众能消费、敢消... 3月4日中午,十四届全国人大四次会议在人民大会堂新闻发布厅举行新闻发布会,大会发言人娄勤俭就大会议程...
陕西黑猫今日大宗交易折价成交3... 3月4日,陕西黑猫大宗交易成交3279.23万股,成交额1.71亿元,占当日总成交额的11.94%,...
突发异常!惊现1.6元/克黄金... 3月2日上午,不少投资者在社交平台上反映称, 北京银行积存金业务突发系统异常,手机银行页面显示积存金...
象州春节文旅消费实现两位数增长 春节期间,象州文旅市场迎来消费热潮。象州梦幻夜游人如织,地热站温泉民宿持续满房,形式多样的文旅活动接...
(全国两会)娄勤俭:未来十多年... 中新社北京3月4日电 (记者 郭超凯 曾玥)十四届全国人大四次会议发言人娄勤俭4日在北京表示,未来十...
马云与阿里高管罕见齐聚谈AI,... 瑞财经 吴文婷新年阿里开工第一站,马云再度现身。 3月3日,据云谷学校官微显示,阿里巴巴创始人马云与...
2026年小红书核心代理商深度... 在流量红利褪去的2026年,选择小红书服务商,实则是选择一位“品牌合伙人”。 互动派科技股份有限公司...
北交所上市公司特瑞斯登龙虎榜:... 每经讯,2026年3月4日,北交所上市公司特瑞斯(920014,收盘价:15.35元)登上龙虎榜,交...
不超14亿,全部用于补流:沧州... 3月3日,沧州明珠(002108)发布2026年定增预案,公司拟向控股股东广州轻工工贸集团有限公司以...
荣耀前CEO赵明出任千里科技联... 3月4日消息,昨日,重庆千里科技发布公告,正式选举荣耀前CEO赵明为第六届董事会联席董事长,任期自本...
原创 如... 近日,全国人大代表提出的“每车每年3000公里高速免费额度”建议刷屏全网,引发全民热议。这一建议旨在...
一日跌超50元,多家品牌金饰克... 图片来源:视觉中国 3月4日,国内金饰价格出现回落,多家品牌的报价已跌至1600元/克下方,较昨日下...
成都成华城市更新集团增资至50... 每经AI快讯,天眼查工商信息显示,近日,成都成华旧城改造投资有限责任公司发生工商变更,企业名称变更为...
面包新语BreadTalk将退... 面包新语即将关闭北京最后一家门店;刘文祥麻辣烫已暂停加盟店合作业务。详情请看红餐网《每日餐讯》。 企...
中石油、中石化、中海油,紧急发... 3日晚间,中国石化、中国海油、中国石油接连发布股票交易异常波动公告,称公司股票于2月27日、3月2日...
原创 胡... 本文所述内容均由权威信源支撑,出处详见文末。 公众认识胡歌,往往是通过他在荧幕上的光辉形象,成为...
头部漫剧平台被指一家独大,知乎... 2026 年全国两会开幕之际,内容产业的新风口与新问题成为热议焦点。3 月 4 日,《华夏时报》刊发...
恐慌情绪暂缓?“三桶油”两连板... 继中国石化、中国石油、中国海油(下称 “三桶油”)创下历史罕见两连板后,3月4日开盘,“三桶油”集体...
专业出口海外仓融资机构 助力跨... 跨境电商卖家的生存法则里,“库存”是双刃剑:备少了断货丢流量,备多了占压资金错过新机遇。尤其是布局海...