挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4 openai发布gpt-4模型联网 国内和openai接近的模型
admin
2024-03-10 20:06:59
0

机器之心报道

编辑:小舟、泽南

又一个媲美 GPT-4 的大模型出现了?

本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。

据介绍,Inflection-2.5 将强大的 LLM 能力与 Inflection 标志性的「同理心微调」结合在一起,兼具高情商与高智商,可联网获取事实信息,其性能可与 GPT-4、Gemini 等领先大模型相媲美。

Inflection-2.5 现已向所有 Pi 用户开放,在 PC 端、iOS 和安卓 App 上均是免费可用。ps. 机器之心也简单测试了下,觉得确实还只是「逼近」(不如)GPT-4,感兴趣的读者可以自行体验下。



链接:https://pi.ai/talk

值得注意的是,Inflection-2.5 实现了接近 GPT-4 的性能,而训练过程却仅使用 GPT-4 40% 的算力。

Inflection AI 表示,新一代大模型在编码和数学等智商领域取得了特别的进步。这转化为对关键行业基准的具体改进,确保 Pi 始终处于技术前沿。Pi 现在还融入了世界一流的实时网络搜索功能,以确保用户获得高质量的突发新闻和最新信息。

Inflection-2.5 vs GPT-4

Inflection-1 训练使用的 FLOP 约为 GPT-4 的 4%,在各种「IQ 导向」型任务中,其平均性能约为 GPT-4 水平的 72%。现在,Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练,但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示,Inflection-2.5 的性能取得了全面的显著提升,其中 STEM 领域知识的改进最大。



Inflection-2.5 在两项不同 STEM 考试 —— 匈牙利数学考试、物理学研究生入学考试(GRE)—— 的成绩如下:



如下表所示,该研究还在 MMLU 基准、GPQA Diamond 基准上评估了 Inflection-2.5。MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科,能够有效地测试 LLM 的综合知识能力,而 GPQA Diamond 基准是一个极其困难的专家级基准。



在 BIG-Bench-Hard 基准上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可与 GPT-4 相媲美。BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。



该研究还在 MT-Bench 基准上进行了评估。然而,研究团队意识到该基准在推理、数学和编码类别中有很大一部分(近 25%)的样本示例具有不正确的参考解决方案或前提有缺陷。因此,该研究更正了这些示例,并再次进行评估实验,结果如下表所示:



在 GSM8k 和 MATH 基准上的评估结果表明,Inflection-2.5 在数学和编码能力方面比 Inflection-1 有显著改进:



为了进一步测试 Inflection-2.5 的编码能力,该研究在 MBPP+ 和 HumanEval+ 两个编码基准上进行了评估实验,结果如下表所示:



研究团队在 HellaSwag 和 ARC-C、以及各种模型常识和科学基准上评估了 Inflection-2.5。从下图结果来看,Inflection-2.5 在这些基准上实现了强劲性能。



此外,以上所有评估都是使用现在支持 Pi 的模型完成的。但也需要注意,由于网络检索(以上基准没有使用网络检索)、few-shot 提示的结构以及其他生产方面的影响,用户体验可能略有差异。

总的来说,Inflection-2.5 保持了 Pi「走心」的特性和极高的安全标准,成为了一个更全面的有用模型。

最近一段时间,大语言模型的技术竞争进入了白热化阶段,在众多科技公司中,Mistral AI(Mistral Large)、Anthropic(Claude 3)脱颖而出,提出的新技术实现了与 GPT-4、Gemini Ultra 接近的能力。昨天出现的 Inflection-2.5,似乎也要加入第一梯队的行列。

作为硅谷明星创业公司,Inflection AI 的来头不小,它成立与 2022 年,三位联合创始人分别是原 DeepMind 联合创始人 Mustafa Suleyman、Linkedln 联合创始人 Reid Hoffman,还有前 DeepMind 首席科学家 Karen Simonyan。



去年 6 月,Inflection AI 宣布获得 13 亿美元融资,由微软、英伟达以及 Reid Hoffman、比尔・盖茨、谷歌前 CEO 埃里克・施密特领投。目前,Inflection AI 已成为全球第四大生成式 AI 创业公司。

https://inflection.ai/inflection-2-5

相关内容

热门资讯

西安甲康甲状腺江勇医生科普:甲... 西安甲康甲状腺医院介绍甲亢和甲减是甲状腺功能异常的两种常见疾病,二者因甲状腺激素分泌水平的截然相反,...
FXTRADING 财经看点:... 美国最新公布的1月份生产者端价格数据,再次把市场的注意力拉回到通胀本身。数据显示,上游价格压力并未明...
心向暖阳・守护安宁 —— 甘肃... 2026年1月20日11:30,“‘宁’心守护,爱不‘终’断”团队成员来到甘肃省人民医院康复理疗科进...
原创 该... 全球能源市场,风云突变!哈梅内伊遇害的消息如同重磅炸弹,在伊朗各地引发连环爆炸,局势瞬间升至沸点。随...
开春别乱补!遵循 “春生” 规... 春节刚过,大鱼大肉的油腻饮食让肠胃不堪重负,紧接着春暖花开,阳气升腾却也湿气渐重,很多人会出现疲劳乏...
原创 金... 就在大家觉得金价已经高得吓人的时候,华尔街的投行们却给出了更惊人的预测:摩根大通说,到今年年底,金价...
商务部:调整对加拿大反歧视措施 加拿大政府宣布,部分调整对自中国进口钢铝产品采取的加征关税等限制措施。对此,中国也宣布,对原产于加拿...
原创 今... 就在刚刚过去的这个周末,全球黄金市场炸开了锅。 2026年3月1日,国际金价像坐上了火箭,伦敦现货黄...
侃股:巴菲特超级收益率靠的是持... 巴菲特60年收益率超6万倍,靠的是持续不断的价值投资。实际上,投资者如果能够做到每年约20%的投资收...
尺素金声|分量重、成色足,上市... 惠民消费券、以旧换新补贴、有奖发票……今年春节,一系列民生红利增添过节底气,资本市场派发的“红包”也...
从股价大涨到实控人等三方被同时... 每经记者|蔡鼎 每经编辑|张益铭 2023年的A股市场,捷荣技术(SZ002855,股价16.40...
80后夫妻卖充电桩,要IPO了 星星充电品牌运营公司、来自江苏的万帮数字能源股份有限公司(简称“星星充电”)在港交所递交招股书,拟在...
刚刚开盘,直线大跳水!石油、黄... 这个周末,中东地区战火重燃,成为全球金融市场的“黑天鹅”事件,目前投资者正密切关注伊朗遭袭事件可能对...
原创 卡... 去年年底的卡塔尔世界杯成为了全球关注的焦点,而一张卡塔尔小王子的表情包更是迅速在网络上刷屏,这张看似...
周末黄金定价权转移:链上黄金成... 传统金融市场的交易时间限制,正让区块链黄金资产迎来关键定价窗口。前瑞信首席投资官、现流动性基础设施公...
老铺黄金2026年首次调价,整... 老铺黄金迎来今年首次调价。 2月28日,记者获悉,老铺黄金迎来年内第一次调价,此次调价幅度在20%至...
中东局势剧变!“赌”涨黄金潮起... 来源:滚动播报 (来源:北京商报) 这个周末,全球资本市场的神经骤然绷紧。 中东局势的突然升级如同一...
“沪七条”落地实施 上海外环外... 中新网上海3月1日电 (张践)近日,上海发布楼市新政“沪七条”,通过降低购房门槛、放宽购房套数限制、...
原创 中... 哎呀,特朗普这家伙又回来了,2025年1月20日他第二次宣誓就职总统,就跟第一次似的,马上就开始折腾...
湖南南新制药股份有限公司202... 本公司董事会及全体董事保证本公告内容不存在任何虚假记载、误导性陈述或者重大遗漏,并对其内容的真实性、...