挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4 openai的计算能力大幅度下降 open ai发布新模型
admin
2024-03-12 09:17:50
0

机器之心报道

编辑:小舟、泽南

又一个媲美 GPT-4 的大模型出现了?

本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。

据介绍,Inflection-2.5 将强大的 LLM 能力与 Inflection 标志性的「同理心微调」结合在一起,兼具高情商与高智商,可联网获取事实信息,其性能可与 GPT-4、Gemini 等领先大模型相媲美。

Inflection-2.5 现已向所有 Pi 用户开放,在 PC 端、iOS 和安卓 App 上均是免费可用。ps. 机器之心也简单测试了下,觉得确实还只是「逼近」(不如)GPT-4,感兴趣的读者可以自行体验下。



链接:https://pi.ai/talk

值得注意的是,Inflection-2.5 实现了接近 GPT-4 的性能,而训练过程却仅使用 GPT-4 40% 的算力。

Inflection AI 表示,新一代大模型在编码和数学等智商领域取得了特别的进步。这转化为对关键行业基准的具体改进,确保 Pi 始终处于技术前沿。Pi 现在还融入了世界一流的实时网络搜索功能,以确保用户获得高质量的突发新闻和最新信息。

Inflection-2.5 vs GPT-4

Inflection-1 训练使用的 FLOP 约为 GPT-4 的 4%,在各种「IQ 导向」型任务中,其平均性能约为 GPT-4 水平的 72%。现在,Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练,但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示,Inflection-2.5 的性能取得了全面的显著提升,其中 STEM 领域知识的改进最大。



Inflection-2.5 在两项不同 STEM 考试 —— 匈牙利数学考试、物理学研究生入学考试(GRE)—— 的成绩如下:



如下表所示,该研究还在 MMLU 基准、GPQA Diamond 基准上评估了 Inflection-2.5。MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科,能够有效地测试 LLM 的综合知识能力,而 GPQA Diamond 基准是一个极其困难的专家级基准。



在 BIG-Bench-Hard 基准上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可与 GPT-4 相媲美。BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。



该研究还在 MT-Bench 基准上进行了评估。然而,研究团队意识到该基准在推理、数学和编码类别中有很大一部分(近 25%)的样本示例具有不正确的参考解决方案或前提有缺陷。因此,该研究更正了这些示例,并再次进行评估实验,结果如下表所示:



在 GSM8k 和 MATH 基准上的评估结果表明,Inflection-2.5 在数学和编码能力方面比 Inflection-1 有显著改进:



为了进一步测试 Inflection-2.5 的编码能力,该研究在 MBPP+ 和 HumanEval+ 两个编码基准上进行了评估实验,结果如下表所示:



研究团队在 HellaSwag 和 ARC-C、以及各种模型常识和科学基准上评估了 Inflection-2.5。从下图结果来看,Inflection-2.5 在这些基准上实现了强劲性能。



此外,以上所有评估都是使用现在支持 Pi 的模型完成的。但也需要注意,由于网络检索(以上基准没有使用网络检索)、few-shot 提示的结构以及其他生产方面的影响,用户体验可能略有差异。

总的来说,Inflection-2.5 保持了 Pi「走心」的特性和极高的安全标准,成为了一个更全面的有用模型。

最近一段时间,大语言模型的技术竞争进入了白热化阶段,在众多科技公司中,Mistral AI(Mistral Large)、Anthropic(Claude 3)脱颖而出,提出的新技术实现了与 GPT-4、Gemini Ultra 接近的能力。昨天出现的 Inflection-2.5,似乎也要加入第一梯队的行列。

作为硅谷明星创业公司,Inflection AI 的来头不小,它成立与 2022 年,三位联合创始人分别是原 DeepMind 联合创始人 Mustafa Suleyman、Linkedln 联合创始人 Reid Hoffman,还有前 DeepMind 首席科学家 Karen Simonyan。



去年 6 月,Inflection AI 宣布获得 13 亿美元融资,由微软、英伟达以及 Reid Hoffman、比尔・盖茨、谷歌前 CEO 埃里克・施密特领投。目前,Inflection AI 已成为全球第四大生成式 AI 创业公司。

https://inflection.ai/inflection-2-5

相关内容

热门资讯

赵继伟首节8分余嘉豪9+5 男... [搜狐体育战报]北京时间3月1日消息,2027年男篮世界杯预选赛进入第四比赛日角逐。在菲律宾马尼拉,...
沙特股市开盘闪崩 伊朗局势对市场的第一轮冲击波来了。 沙特股市开盘暴跌 3月1日下午,沙特股市开盘闪崩,一度暴跌约5%...
从70亿到36亿,白酒深度调整... 在行业下行周期中,企业的选择往往比数据本身更具意义。 2月27日晚间,珍酒李渡发布2025年年度业绩...
年味浓、人气旺、活力足!202... 央视网消息:9天的春节假期刚刚结束,今年春节期间,消费市场人气旺、活力足。在2月26日商务部举行的新...
800字讲清楚比特币 比特币(BTC)的故事,要从2008年金融危机说起。那一年,全球金融体系动荡,人们对银行和政府的信任...
三角轮胎股份有限公司估值提升计... 本公司董事会及全体董事保证本公告内容不存在任何虚假记载、误导性陈述或者重大遗漏,并对其内容的真实性、...
兴业银行发布科技金融专属品牌“... “在‘十五五’开局之年,我们正式推出‘兴火科技’品牌,就是希望抢抓新一轮科技革命和产业变革机遇,坚持...
老铺黄金上半年赚翻,业绩股价冰... (周梦婷 摄影) 本报()记者周梦婷 北京报道 7月27日晚些时候,老铺黄金发布了正面盈利预告,毫不...
ST萃华新增四笔借款逾期 累计... 本报讯 (记者李勇)近期陷入流动性危机的沈阳萃华金银珠宝股份有限公司(以下简称“ST萃华”)又有新的...
执掌60年,超60000倍回报... 红星资本局3月1日消息,北京时间2月28日晚间,“股神”巴菲特旗下的伯克希尔·哈撒韦(下简称“伯克希...
上海做小耳畸形最好的机构是哪家... 关于 “上海做小耳畸形最好的医院”,没有绝对统一的答案,核心在于医疗机构的专科优势与患者的个体需求匹...
华宝基金原指数投资总监胡洁加盟... 中国证券投资基金业协会公示信息显示,华宝基金原指数投资总监胡洁已于2月12日从华宝基金完成注销,并于...
原创 企... 2026年2月24日上午10点,东京股市依旧平静交易,谁也未曾预料到一场风暴悄然逼近。就在这一时刻,...
聊聊拟上市公司股权激励,口碑好... 在企业的发展进程中,股权激励已成为吸引人才、提升团队凝聚力、促进企业战略目标实现的重要手段,对于拟上...
12天火速入职,千亿ETF“女... 【导读】12天火速入职!千亿ETF“女将”履新天弘基金 中国基金报记者 若晖 千亿ETF“女将”胡洁...
门头沟点亮“永定河AI原生创作... 2月28日,2026中关村论坛系列活动——第四届北京人工智能产业创新发展大会在国家会议中心二期开幕。...
2025年中国方便面行业发展状... 今天分享的是:2025年中国方便面行业发展状况与消费行为调查数据-艾媒咨询 报告共计:44页 202...
从“北漂”到“晋创”,一个人就... 清晨,山西阳泉一间安静的书房里,键盘敲击声夹杂着低语。王曙(化名)正对着电脑屏幕“自言自语”——他在...
“十五五”开局看河北 | 民企... 河北数字工商联平台帮助34.8万户企业获得银行授信2523.18亿元 民企信用画像,让融资更高效 ...
吉林农商银行:金融活水润黑土 ... 春节的年味,在吉林的田间地头、集市街巷中弥漫。寒风里,有农户备耕的忙碌,有商户备货的热火,更有吉林农...