挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4 openai发布最新ai模型 openai神秘新模型
admin
2024-03-13 04:30:56
0

机器之心报道

编辑:小舟、泽南

又一个媲美 GPT-4 的大模型出现了?

本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。

据介绍,Inflection-2.5 将强大的 LLM 能力与 Inflection 标志性的「同理心微调」结合在一起,兼具高情商与高智商,可联网获取事实信息,其性能可与 GPT-4、Gemini 等领先大模型相媲美。

Inflection-2.5 现已向所有 Pi 用户开放,在 PC 端、iOS 和安卓 App 上均是免费可用。ps. 机器之心也简单测试了下,觉得确实还只是「逼近」(不如)GPT-4,感兴趣的读者可以自行体验下。



链接:https://pi.ai/talk

值得注意的是,Inflection-2.5 实现了接近 GPT-4 的性能,而训练过程却仅使用 GPT-4 40% 的算力。

Inflection AI 表示,新一代大模型在编码和数学等智商领域取得了特别的进步。这转化为对关键行业基准的具体改进,确保 Pi 始终处于技术前沿。Pi 现在还融入了世界一流的实时网络搜索功能,以确保用户获得高质量的突发新闻和最新信息。

Inflection-2.5 vs GPT-4

Inflection-1 训练使用的 FLOP 约为 GPT-4 的 4%,在各种「IQ 导向」型任务中,其平均性能约为 GPT-4 水平的 72%。现在,Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练,但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示,Inflection-2.5 的性能取得了全面的显著提升,其中 STEM 领域知识的改进最大。



Inflection-2.5 在两项不同 STEM 考试 —— 匈牙利数学考试、物理学研究生入学考试(GRE)—— 的成绩如下:



如下表所示,该研究还在 MMLU 基准、GPQA Diamond 基准上评估了 Inflection-2.5。MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科,能够有效地测试 LLM 的综合知识能力,而 GPQA Diamond 基准是一个极其困难的专家级基准。



在 BIG-Bench-Hard 基准上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可与 GPT-4 相媲美。BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。



该研究还在 MT-Bench 基准上进行了评估。然而,研究团队意识到该基准在推理、数学和编码类别中有很大一部分(近 25%)的样本示例具有不正确的参考解决方案或前提有缺陷。因此,该研究更正了这些示例,并再次进行评估实验,结果如下表所示:



在 GSM8k 和 MATH 基准上的评估结果表明,Inflection-2.5 在数学和编码能力方面比 Inflection-1 有显著改进:



为了进一步测试 Inflection-2.5 的编码能力,该研究在 MBPP+ 和 HumanEval+ 两个编码基准上进行了评估实验,结果如下表所示:



研究团队在 HellaSwag 和 ARC-C、以及各种模型常识和科学基准上评估了 Inflection-2.5。从下图结果来看,Inflection-2.5 在这些基准上实现了强劲性能。



此外,以上所有评估都是使用现在支持 Pi 的模型完成的。但也需要注意,由于网络检索(以上基准没有使用网络检索)、few-shot 提示的结构以及其他生产方面的影响,用户体验可能略有差异。

总的来说,Inflection-2.5 保持了 Pi「走心」的特性和极高的安全标准,成为了一个更全面的有用模型。

最近一段时间,大语言模型的技术竞争进入了白热化阶段,在众多科技公司中,Mistral AI(Mistral Large)、Anthropic(Claude 3)脱颖而出,提出的新技术实现了与 GPT-4、Gemini Ultra 接近的能力。昨天出现的 Inflection-2.5,似乎也要加入第一梯队的行列。

作为硅谷明星创业公司,Inflection AI 的来头不小,它成立与 2022 年,三位联合创始人分别是原 DeepMind 联合创始人 Mustafa Suleyman、Linkedln 联合创始人 Reid Hoffman,还有前 DeepMind 首席科学家 Karen Simonyan。



去年 6 月,Inflection AI 宣布获得 13 亿美元融资,由微软、英伟达以及 Reid Hoffman、比尔・盖茨、谷歌前 CEO 埃里克・施密特领投。目前,Inflection AI 已成为全球第四大生成式 AI 创业公司。

https://inflection.ai/inflection-2-5

相关内容

热门资讯

中国银行招标结果:中国银行北京... 证券之星消息,根据天眼查APP-财产线索数据整理,中国银行股份有限公司5月24日发布《中国银行北京庄...
原创 A... "上下同欲者胜。"——《孙子兵法》 “厂家那边又逼我压两百万的货,可库存早都冒了。” 凌晨两点...
原创 “... 全款买房”和贷款30年,差别到底有多大?曹德旺一句话点醒了很多人 前阵子,一个朋友把看了半年的房子终...
云英谷科技登陆港交所:AI终端... 5月27日,云英谷科技股份有限公司(股票简称:云英谷科技,股票代码:3310.HK)成功登陆港交所主...
京东集团与三一集团签订战略合作... 5月25日,京东集团与三一集团在北京签署战略合作协议。京东集团SEC副主席、京东集团CEO许冉与三一...
青岛的朋友看过来:黄金回收我跑... 前阵子想把家里一些旧金饰处理掉,在青岛问了几家回收黄金的地方。今天就跟大家随便聊聊我打听、上门、对比...
武汉有闲置贵重金属变现需求该怎... 不少有黄金回收需求的用户不知道该如何挑选合适的服务机构,其实只要从资质、专业度、服务能力、口碑几个维...
业绩再度下滑,石药集团一季度归... 图片来源:视觉中国 蓝鲸新闻5月27日讯(记者 屠俊)5月27日午间,石药集团(01093.HK)公...
蚂蚁CEO韩歆毅:在Agent... 【CNMO科技消息】近日,蚂蚁集团CEO韩歆毅在演讲中,系统分享了关于智能体经济和AI支付的底层思考...
Buff叠满!芯片,双重利好!... 芯片领域,传来两则大消息! 一是5月27日有媒体报道称,台积电3纳米制程下半年将涨价15%,明年或再...
“全球正面临第五次油价冲击” 日本央行行长植田和男27日在东京说,自上世纪70年代以来,全球多次经历能源价格急剧上涨,当前全球正面...
白酒股,直线拉升!600779... 【导读】白酒股终于涨了 中国基金报记者 泰勒 大家好,花有重开日,人无再少年。就在刚刚,低迷许久的“...
河北地区闲置名酒如何合规变现 闲置名酒处置的行业现状 近年来随着居民酒类收藏意识的逐步提升,不少家庭都存有不同品类的年份名酒,当...
重磅!长鑫科技科创板IPO获通... 5月27日消息,长鑫科技科创板IPO获上交所上市委会议通过。
东方基金开展“一司一省一高校”... 为深入贯彻落实新“国九条”以及《推动公募基金高质量发展行动方案》的核心要求,积极响应证监会对于金融机...
那句「都是卖猪食的」,为什么你... 你大概也笑了一下。 最近有句话在网上传疯了,说字节的副总裁回怼腾讯的“短视频像猪食”,撂了一句“都是...
2026 年小红书多账号管理工... 摘要 2026 年小红书矩阵运营成品牌获客主流,但账号风控严、消息分散、转化低效等痛点突出。本文基...
打着高知女性旗号割韭菜,“五个... 出品丨搜狐财经 作者丨柴鑫洋 编辑丨李文贤 你被“五个女博士”种草过吗? 打着高知女性旗号,却做着低...
A股董责险渗透率破32%,海南... 开栏语: 保险是经济的“减震器”,但保险条款复杂晦涩,犹如海下暗礁。 即日起,海财经·证券导报开设“...
奥尼电子:49万股限制性股票将... 5月27日,奥尼电子(301189)发布公告,2025年限制性股票激励计划第一个归属期归属结果已确定...