挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4 openai发布gpt-4模型联网 openai的计算能力大幅度下降
admin
2024-03-12 19:25:31
0

机器之心报道

编辑:小舟、泽南

又一个媲美 GPT-4 的大模型出现了?

本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。

据介绍,Inflection-2.5 将强大的 LLM 能力与 Inflection 标志性的「同理心微调」结合在一起,兼具高情商与高智商,可联网获取事实信息,其性能可与 GPT-4、Gemini 等领先大模型相媲美。

Inflection-2.5 现已向所有 Pi 用户开放,在 PC 端、iOS 和安卓 App 上均是免费可用。ps. 机器之心也简单测试了下,觉得确实还只是「逼近」(不如)GPT-4,感兴趣的读者可以自行体验下。



链接:https://pi.ai/talk

值得注意的是,Inflection-2.5 实现了接近 GPT-4 的性能,而训练过程却仅使用 GPT-4 40% 的算力。

Inflection AI 表示,新一代大模型在编码和数学等智商领域取得了特别的进步。这转化为对关键行业基准的具体改进,确保 Pi 始终处于技术前沿。Pi 现在还融入了世界一流的实时网络搜索功能,以确保用户获得高质量的突发新闻和最新信息。

Inflection-2.5 vs GPT-4

Inflection-1 训练使用的 FLOP 约为 GPT-4 的 4%,在各种「IQ 导向」型任务中,其平均性能约为 GPT-4 水平的 72%。现在,Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练,但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示,Inflection-2.5 的性能取得了全面的显著提升,其中 STEM 领域知识的改进最大。



Inflection-2.5 在两项不同 STEM 考试 —— 匈牙利数学考试、物理学研究生入学考试(GRE)—— 的成绩如下:



如下表所示,该研究还在 MMLU 基准、GPQA Diamond 基准上评估了 Inflection-2.5。MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科,能够有效地测试 LLM 的综合知识能力,而 GPQA Diamond 基准是一个极其困难的专家级基准。



在 BIG-Bench-Hard 基准上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可与 GPT-4 相媲美。BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。



该研究还在 MT-Bench 基准上进行了评估。然而,研究团队意识到该基准在推理、数学和编码类别中有很大一部分(近 25%)的样本示例具有不正确的参考解决方案或前提有缺陷。因此,该研究更正了这些示例,并再次进行评估实验,结果如下表所示:



在 GSM8k 和 MATH 基准上的评估结果表明,Inflection-2.5 在数学和编码能力方面比 Inflection-1 有显著改进:



为了进一步测试 Inflection-2.5 的编码能力,该研究在 MBPP+ 和 HumanEval+ 两个编码基准上进行了评估实验,结果如下表所示:



研究团队在 HellaSwag 和 ARC-C、以及各种模型常识和科学基准上评估了 Inflection-2.5。从下图结果来看,Inflection-2.5 在这些基准上实现了强劲性能。



此外,以上所有评估都是使用现在支持 Pi 的模型完成的。但也需要注意,由于网络检索(以上基准没有使用网络检索)、few-shot 提示的结构以及其他生产方面的影响,用户体验可能略有差异。

总的来说,Inflection-2.5 保持了 Pi「走心」的特性和极高的安全标准,成为了一个更全面的有用模型。

最近一段时间,大语言模型的技术竞争进入了白热化阶段,在众多科技公司中,Mistral AI(Mistral Large)、Anthropic(Claude 3)脱颖而出,提出的新技术实现了与 GPT-4、Gemini Ultra 接近的能力。昨天出现的 Inflection-2.5,似乎也要加入第一梯队的行列。

作为硅谷明星创业公司,Inflection AI 的来头不小,它成立与 2022 年,三位联合创始人分别是原 DeepMind 联合创始人 Mustafa Suleyman、Linkedln 联合创始人 Reid Hoffman,还有前 DeepMind 首席科学家 Karen Simonyan。



去年 6 月,Inflection AI 宣布获得 13 亿美元融资,由微软、英伟达以及 Reid Hoffman、比尔・盖茨、谷歌前 CEO 埃里克・施密特领投。目前,Inflection AI 已成为全球第四大生成式 AI 创业公司。

https://inflection.ai/inflection-2-5

相关内容

热门资讯

原创 人... 当全世界都在谈论“脱钩”和“关税战”时,中国却在2025年悄悄创下了一个人类经济史上前所未有的纪录:...
多家石油和天然气巨头及贸易商暂... 据贸易消息人士透露,多家油轮船东、石油巨头和贸易商已暂停经霍尔木兹海峡运输原油、燃料和液化天然气。此...
珠海心理咨询中心推荐榜单 在寻求专业心理咨询服务时,选择具备扎实理论根基、规范服务流程与明确专业特色的机构至关重要。本文旨在从...
金价银价,突然飙涨,油价或出现... 当地缘政治风险升温时,资金纷纷涌入黄金等避险资产,推动其价格快速上涨。2月28日,国际金价再度上涨,...
娃哈哈精机公司被决议解散 曾担... 每经记者|叶晓丹 每经编辑|廖丹 近日,有接近杭州娃哈哈精密机械有限公司(以下简称娃哈哈精机)人士...
原创 三... 凤凰岛这个项目一开始就野心勃勃,2002年从填海起步,目标是建个国际邮轮港加度假区。填海花了好几年,...
瑞幸陷入外卖“魔咒”,单季利润... 出品|达摩财经 2025年“外卖大战”潮起潮落,“咖啡一哥”瑞幸咖啡(LKNCY)的业绩表现随之起伏...
实探|3月手机集体再提价?有卖... 消费者在线下手机卖场选购。新京报贝壳财经记者 张晓慧 摄 “手机大概率会在近期涨价。”此次涨价风声已...
金饰克价突破1600元!金价银... 2月28日,国内品牌黄金饰品价格对比显示,多数金店金饰价格突破1600元/克,较昨日上涨32元/克左...
法国见!徐梦桃社媒晒照 米兰冬... 北京时间3月1日消息,昨日,中国奥运冠军徐梦桃在社媒晒出与苏翊鸣、谷爱凌、王心迪在米兰冬奥会总结大会...
从瘫痪到站立:一场跨越数月的生... 大众卫生报·新湖南客户端2月26日讯( 通讯员 陈雁斌 胡远虹)近日,70岁的刘奶奶在家人的搀扶下,...
美伊冲突引市场巨震,油价或历史... 来源:21世纪经济报道 记者丨冯紫彤 刘雪莹 编辑丨周炎炎 曾芳 曾静娇 2月28日,随着美国与以色...
GUESS宣布关闭全国店铺,长... 华声在线2月28日讯(全媒体记者 仝若楠)2月27日,在社交媒体平台,多位消费者表示收到了GUESS...
涨价了!000636,包揽AI... 近一周机构调研个股有20多只,风华高科调研机构数最多。 据证券时报·数据宝统计,风华高科(00063...
白癜风医生郑华国:白癜风与铁元... 铁元素是人体必需的微量元素,参与血红蛋白合成、氧气运输和皮肤细胞代谢,对白癜风患者而言,铁元素缺乏会...
2025年度中国营商环境研究报... 今天(2月28日)上午,中国贸促会举行新闻发布会,会上发布《2025年度中国营商环境研究报告》。 ...
求是网评论员:要坚持消费和投资... 加快培育完整内需体系,是畅通国民经济循环、增强国内大循环主体地位的重要基础。提振消费和扩大投资是完整...
百度财报新信号:告别广告舒适区... 来源:华夏时报 本报(chinatimes.net.cn)记者卢晓 北京报道 当传统广告业务遭受严...
原创 3... 今年3月马上就要迎来一轮涉及四大类商品的降价潮! 咱中国最近消息一个接一个,降价风暴不仅卷到房子上...
骏马迎春至 兴福暖万家——兴业... 鲁网2月28日讯春节前夕,兴业银行围绕“惠民生、促消费”主线,以“龙马精神 兴福万里——好运兴福年”...