挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4 挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4
admin
2024-03-13 11:02:37
0

机器之心报道

编辑:小舟、泽南

又一个媲美 GPT-4 的大模型出现了?

本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。

据介绍,Inflection-2.5 将强大的 LLM 能力与 Inflection 标志性的「同理心微调」结合在一起,兼具高情商与高智商,可联网获取事实信息,其性能可与 GPT-4、Gemini 等领先大模型相媲美。

Inflection-2.5 现已向所有 Pi 用户开放,在 PC 端、iOS 和安卓 App 上均是免费可用。ps. 机器之心也简单测试了下,觉得确实还只是「逼近」(不如)GPT-4,感兴趣的读者可以自行体验下。



链接:https://pi.ai/talk

值得注意的是,Inflection-2.5 实现了接近 GPT-4 的性能,而训练过程却仅使用 GPT-4 40% 的算力。

Inflection AI 表示,新一代大模型在编码和数学等智商领域取得了特别的进步。这转化为对关键行业基准的具体改进,确保 Pi 始终处于技术前沿。Pi 现在还融入了世界一流的实时网络搜索功能,以确保用户获得高质量的突发新闻和最新信息。

Inflection-2.5 vs GPT-4

Inflection-1 训练使用的 FLOP 约为 GPT-4 的 4%,在各种「IQ 导向」型任务中,其平均性能约为 GPT-4 水平的 72%。现在,Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练,但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示,Inflection-2.5 的性能取得了全面的显著提升,其中 STEM 领域知识的改进最大。



Inflection-2.5 在两项不同 STEM 考试 —— 匈牙利数学考试、物理学研究生入学考试(GRE)—— 的成绩如下:



如下表所示,该研究还在 MMLU 基准、GPQA Diamond 基准上评估了 Inflection-2.5。MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科,能够有效地测试 LLM 的综合知识能力,而 GPQA Diamond 基准是一个极其困难的专家级基准。



在 BIG-Bench-Hard 基准上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可与 GPT-4 相媲美。BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。



该研究还在 MT-Bench 基准上进行了评估。然而,研究团队意识到该基准在推理、数学和编码类别中有很大一部分(近 25%)的样本示例具有不正确的参考解决方案或前提有缺陷。因此,该研究更正了这些示例,并再次进行评估实验,结果如下表所示:



在 GSM8k 和 MATH 基准上的评估结果表明,Inflection-2.5 在数学和编码能力方面比 Inflection-1 有显著改进:



为了进一步测试 Inflection-2.5 的编码能力,该研究在 MBPP+ 和 HumanEval+ 两个编码基准上进行了评估实验,结果如下表所示:



研究团队在 HellaSwag 和 ARC-C、以及各种模型常识和科学基准上评估了 Inflection-2.5。从下图结果来看,Inflection-2.5 在这些基准上实现了强劲性能。



此外,以上所有评估都是使用现在支持 Pi 的模型完成的。但也需要注意,由于网络检索(以上基准没有使用网络检索)、few-shot 提示的结构以及其他生产方面的影响,用户体验可能略有差异。

总的来说,Inflection-2.5 保持了 Pi「走心」的特性和极高的安全标准,成为了一个更全面的有用模型。

最近一段时间,大语言模型的技术竞争进入了白热化阶段,在众多科技公司中,Mistral AI(Mistral Large)、Anthropic(Claude 3)脱颖而出,提出的新技术实现了与 GPT-4、Gemini Ultra 接近的能力。昨天出现的 Inflection-2.5,似乎也要加入第一梯队的行列。

作为硅谷明星创业公司,Inflection AI 的来头不小,它成立与 2022 年,三位联合创始人分别是原 DeepMind 联合创始人 Mustafa Suleyman、Linkedln 联合创始人 Reid Hoffman,还有前 DeepMind 首席科学家 Karen Simonyan。



去年 6 月,Inflection AI 宣布获得 13 亿美元融资,由微软、英伟达以及 Reid Hoffman、比尔・盖茨、谷歌前 CEO 埃里克・施密特领投。目前,Inflection AI 已成为全球第四大生成式 AI 创业公司。

https://inflection.ai/inflection-2-5

相关内容

热门资讯

我国自3月1日起对原产于加拿大... 新华社北京2月28日电(记者谢希瑶)商务部28日公布对原产于加拿大的进口油菜籽反倾销调查的最终裁定,...
原创 硬... 美国这回在关税问题上栽了个大跟头。 不是小打小闹,是硬生生被自己最高法院拦腰斩断了政策根基。 特朗普...
原创 美... 特朗普在2026年2月24日那天,站在国会大厅里,一口气讲了1小时47分钟。 这是美国历史上最长的一...
【招商引资项目】华能上都新能源... 华能上都新能源外送基地联营项目是锡林郭勒盟聚焦清洁能源外送、深化央地合作、服务京津冀能源保障的重点招...
刘军连:白癜风患者如何护理肘部... 肘部是白癜风的高发部位,此处关节活动频繁,易受衣物摩擦、桌面挤压,且长期暴露在外,易受紫外线直射,皮...
谷歌的世纪豪赌:借百年的钱,买... 作者 | 丁卯 2月10日,谷歌母公司Alphabet在全球债券市场投下一枚震撼炸弹。 此次Alph...
仁东控股集团股份有限公司 一、重要提示 本年度报告摘要来自年度报告全文,为全面了解本公司的经营成果、财务状况及未来发展规划,投...
原创 深... 你要说这两年深圳的“港味儿”有多浓?去趟山姆超市或者COCO Park溜达一圈就知道了。别说普通话,...
原创 下... 黄金市场正处在一个前所未有的紧绷时刻。 2026年2月26日,伦敦现货黄金价格在一天之内上演了深V反...
上海安路信息科技股份有限公司2... 本公司董事会及全体董事保证本公告内容不存在任何虚假记载、误导性陈述或者重大遗漏,并对其内容的真实性、...
日本试采深海稀土泥,成本是中国... 来源:市场资讯 (来源:时报新征途) 央视网近日报道,日本是全球第二大稀土消费国,仅次于中国。但日...
原创 雷... 本来以为2月28日晚上,小米在巴塞罗那的发布会就是走个过场,把小米17系列在海外发一发,结果雷总根本...
人民币汇率破6.87,按现价算... 这段时间人民币兑美元汇率一直在不断上升。 截至目前,人民币在岸和离岸对美元汇率纷纷都破了6.87,其...
原创 扛... 特朗普向中国服软,中方禁令引起连锁反应。 2月26日,中国就将继续推进对中国履行中美第一阶段经贸协议...
原创 发... 先看一个老生常谈的现象:春节酒店价格又涨了。 今年春节出游的情绪明显回升,外出“旅游式过年”与返乡“...
经纪业务管理薄弱、营销宣传不规... (图片来源:视觉中国) 蓝鲸新闻2月28日讯(记者 王婉莹)中山证券合规问题再添“新伤”。日前,深圳...
以色列突袭伊朗!炸弹落在德黑兰... 来源:市场资讯 (来源:预见能源) 德黑兰市中心的爆炸声,让全球石油市场的神经瞬间绷到最紧。 2月...
金饰克价,冲上1600元!最新... 据央视新闻消息,当地时间28日,伊朗首都德黑兰发生爆炸。以色列国防部长表示,以色列对伊朗发动了先发制...
做到全球第一却累亏28亿,大疆... 出品 | 创业最前线 作者 | 星空 编辑 | 蛋总 美编 | 倩倩 审核 | 颂文 在全球人口老龄...
卷入“关联交易”风波,陆金所换... 作者 |付影 来源 | 独角金融 正处于“多事之春”的陆金所控股(6623.HK;LU.US),再现...