挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4 openai发布最新ai模型 openai的计算能力大幅度下降
admin
2024-03-09 04:57:40
0

机器之心报道

编辑:小舟、泽南

又一个媲美 GPT-4 的大模型出现了?

本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。

据介绍,Inflection-2.5 将强大的 LLM 能力与 Inflection 标志性的「同理心微调」结合在一起,兼具高情商与高智商,可联网获取事实信息,其性能可与 GPT-4、Gemini 等领先大模型相媲美。

Inflection-2.5 现已向所有 Pi 用户开放,在 PC 端、iOS 和安卓 App 上均是免费可用。ps. 机器之心也简单测试了下,觉得确实还只是「逼近」(不如)GPT-4,感兴趣的读者可以自行体验下。



链接:https://pi.ai/talk

值得注意的是,Inflection-2.5 实现了接近 GPT-4 的性能,而训练过程却仅使用 GPT-4 40% 的算力。

Inflection AI 表示,新一代大模型在编码和数学等智商领域取得了特别的进步。这转化为对关键行业基准的具体改进,确保 Pi 始终处于技术前沿。Pi 现在还融入了世界一流的实时网络搜索功能,以确保用户获得高质量的突发新闻和最新信息。

Inflection-2.5 vs GPT-4

Inflection-1 训练使用的 FLOP 约为 GPT-4 的 4%,在各种「IQ 导向」型任务中,其平均性能约为 GPT-4 水平的 72%。现在,Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练,但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示,Inflection-2.5 的性能取得了全面的显著提升,其中 STEM 领域知识的改进最大。



Inflection-2.5 在两项不同 STEM 考试 —— 匈牙利数学考试、物理学研究生入学考试(GRE)—— 的成绩如下:



如下表所示,该研究还在 MMLU 基准、GPQA Diamond 基准上评估了 Inflection-2.5。MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科,能够有效地测试 LLM 的综合知识能力,而 GPQA Diamond 基准是一个极其困难的专家级基准。



在 BIG-Bench-Hard 基准上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可与 GPT-4 相媲美。BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。



该研究还在 MT-Bench 基准上进行了评估。然而,研究团队意识到该基准在推理、数学和编码类别中有很大一部分(近 25%)的样本示例具有不正确的参考解决方案或前提有缺陷。因此,该研究更正了这些示例,并再次进行评估实验,结果如下表所示:



在 GSM8k 和 MATH 基准上的评估结果表明,Inflection-2.5 在数学和编码能力方面比 Inflection-1 有显著改进:



为了进一步测试 Inflection-2.5 的编码能力,该研究在 MBPP+ 和 HumanEval+ 两个编码基准上进行了评估实验,结果如下表所示:



研究团队在 HellaSwag 和 ARC-C、以及各种模型常识和科学基准上评估了 Inflection-2.5。从下图结果来看,Inflection-2.5 在这些基准上实现了强劲性能。



此外,以上所有评估都是使用现在支持 Pi 的模型完成的。但也需要注意,由于网络检索(以上基准没有使用网络检索)、few-shot 提示的结构以及其他生产方面的影响,用户体验可能略有差异。

总的来说,Inflection-2.5 保持了 Pi「走心」的特性和极高的安全标准,成为了一个更全面的有用模型。

最近一段时间,大语言模型的技术竞争进入了白热化阶段,在众多科技公司中,Mistral AI(Mistral Large)、Anthropic(Claude 3)脱颖而出,提出的新技术实现了与 GPT-4、Gemini Ultra 接近的能力。昨天出现的 Inflection-2.5,似乎也要加入第一梯队的行列。

作为硅谷明星创业公司,Inflection AI 的来头不小,它成立与 2022 年,三位联合创始人分别是原 DeepMind 联合创始人 Mustafa Suleyman、Linkedln 联合创始人 Reid Hoffman,还有前 DeepMind 首席科学家 Karen Simonyan。



去年 6 月,Inflection AI 宣布获得 13 亿美元融资,由微软、英伟达以及 Reid Hoffman、比尔・盖茨、谷歌前 CEO 埃里克・施密特领投。目前,Inflection AI 已成为全球第四大生成式 AI 创业公司。

https://inflection.ai/inflection-2-5

相关内容

热门资讯

原创 全... 世界风云骤变,虽然未见硝烟,但刀光剑影早已从谈判桌蔓延到了全球能源市场。2026年2月26日,在日内...
松延动力B轮融资近10亿 宁德... 3月2日,北京松延动力科技集团股份有限公司宣布完成B轮融资。本轮融资由宁德时代系产业投资平台晨道资本...
800亿发债获批!中信证券再迎... 出品|中访网 审核|李晓燕 2026年开年以来,国内证券行业龙头中信证券动作频频、亮点纷呈。公司斩获...
人工智能OPC:重塑个体创业新... 在人工智能浪潮席卷全球的当下,“一人公司”(OPC)模式正以惊人的速度崛起,成为数字经济时代个体创业...
快速涨超105%、赵蓓调研加持... 经历了2025年创新药的高光时刻后,2026年医药生物板块哪一赛道将最热成为医药产业圈和二级市场投资...
丽水启真富处基金完成备案 投资界3月2日消息,近日,浙大科创集团旗下私募基金产品丽水市启真富处创业投资基金合伙企业(有限合伙)...
ETF今日收评 | 多只油气相... 每经记者|叶峰 每经编辑|彭水萍 A股三大指数涨跌不一,沪指低开高走涨0.47%。从板块来看,油气...
比马斯克还快一步!贾跃亭的机器... 快科技3月2日消息,Faraday Future(FF)创始人、联席CEO贾跃亭宣布,公司正式启动E...
历史首次!中国石油、中国石化、... 每经记者|黄胜 每经编辑|金冥羽 记者|黄胜 编辑|金冥羽 杜恒峰 校对|陈柯名 3月2日,三大指...
揭秘“掌上工美APP”杀猪盘,...   近期,一款名为“掌上工美”的APP引发网友广泛关注与质疑,其背后的运营方为上海工美艺术品交易中心...
中航产融:“23产融06”持有... 3月2日,澎湃新闻获悉,中航产融于近期召开了“23产融06”持有人会议,会议中提到的三项议案均已通过...
春节后港股“日历效应”失灵 机... 财联社3月2日讯(编辑 胡家荣)春节假期落幕,港股市场并未如部分投资者所期迎来“春季躁动”,反而在多...
原创 2... 环比普涨难掩同比下滑,实体消费市场未有明显反弹,但存在一定程度的回暖。 注: 1.此报告基...
调整住宿税,日本京都预计增收1... 日本京都市3月1日起正式上调住宿税。住宿税新规根据酒店收费分为五档,最高税额为每人每晚1万日元(约合...
IPO动态丨本周美股预告:1家... 回顾:上周7只新股上市,其中6只为SPAC,如下: Generate Biomedicines (G...
油价、金价大涨 总台记者当地时间3月1日获悉,受中东局势持续升级影响,国际油价大幅上涨,布伦特原油价格当天一度上涨近...
伊朗封锁海峡利好油运,物流ET... 截至3月2日13点15分,上证指数涨0.41%,深证成指跌0.32%,创业板指跌0.34%。油气开采...
马斯克:你不必为AI失业焦虑 ... “10年内,人类的劳动将仅仅变成一种可选项。你可以为了享受去种菜,但绝不必为了生存而劳作。”近日,埃...
股价飙升却遭接连减持,超三成股... 本报记者 董红艳 北京报道 近年来,四川黄金股份有限公司(下称“四川黄金”,001337.SZ)接连...
东吴证券:拟收购东海证券 今日... 东吴证券3月2日早间公告,公司正在筹划通过发行A股股份的方式收购东海证券股份有限公司控制权。经公司申...