挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4 openai的计算能力大幅度下降 open ai发布新模型
admin
2024-03-12 09:17:50
0

机器之心报道

编辑:小舟、泽南

又一个媲美 GPT-4 的大模型出现了?

本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。

据介绍,Inflection-2.5 将强大的 LLM 能力与 Inflection 标志性的「同理心微调」结合在一起,兼具高情商与高智商,可联网获取事实信息,其性能可与 GPT-4、Gemini 等领先大模型相媲美。

Inflection-2.5 现已向所有 Pi 用户开放,在 PC 端、iOS 和安卓 App 上均是免费可用。ps. 机器之心也简单测试了下,觉得确实还只是「逼近」(不如)GPT-4,感兴趣的读者可以自行体验下。



链接:https://pi.ai/talk

值得注意的是,Inflection-2.5 实现了接近 GPT-4 的性能,而训练过程却仅使用 GPT-4 40% 的算力。

Inflection AI 表示,新一代大模型在编码和数学等智商领域取得了特别的进步。这转化为对关键行业基准的具体改进,确保 Pi 始终处于技术前沿。Pi 现在还融入了世界一流的实时网络搜索功能,以确保用户获得高质量的突发新闻和最新信息。

Inflection-2.5 vs GPT-4

Inflection-1 训练使用的 FLOP 约为 GPT-4 的 4%,在各种「IQ 导向」型任务中,其平均性能约为 GPT-4 水平的 72%。现在,Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练,但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示,Inflection-2.5 的性能取得了全面的显著提升,其中 STEM 领域知识的改进最大。



Inflection-2.5 在两项不同 STEM 考试 —— 匈牙利数学考试、物理学研究生入学考试(GRE)—— 的成绩如下:



如下表所示,该研究还在 MMLU 基准、GPQA Diamond 基准上评估了 Inflection-2.5。MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科,能够有效地测试 LLM 的综合知识能力,而 GPQA Diamond 基准是一个极其困难的专家级基准。



在 BIG-Bench-Hard 基准上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可与 GPT-4 相媲美。BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。



该研究还在 MT-Bench 基准上进行了评估。然而,研究团队意识到该基准在推理、数学和编码类别中有很大一部分(近 25%)的样本示例具有不正确的参考解决方案或前提有缺陷。因此,该研究更正了这些示例,并再次进行评估实验,结果如下表所示:



在 GSM8k 和 MATH 基准上的评估结果表明,Inflection-2.5 在数学和编码能力方面比 Inflection-1 有显著改进:



为了进一步测试 Inflection-2.5 的编码能力,该研究在 MBPP+ 和 HumanEval+ 两个编码基准上进行了评估实验,结果如下表所示:



研究团队在 HellaSwag 和 ARC-C、以及各种模型常识和科学基准上评估了 Inflection-2.5。从下图结果来看,Inflection-2.5 在这些基准上实现了强劲性能。



此外,以上所有评估都是使用现在支持 Pi 的模型完成的。但也需要注意,由于网络检索(以上基准没有使用网络检索)、few-shot 提示的结构以及其他生产方面的影响,用户体验可能略有差异。

总的来说,Inflection-2.5 保持了 Pi「走心」的特性和极高的安全标准,成为了一个更全面的有用模型。

最近一段时间,大语言模型的技术竞争进入了白热化阶段,在众多科技公司中,Mistral AI(Mistral Large)、Anthropic(Claude 3)脱颖而出,提出的新技术实现了与 GPT-4、Gemini Ultra 接近的能力。昨天出现的 Inflection-2.5,似乎也要加入第一梯队的行列。

作为硅谷明星创业公司,Inflection AI 的来头不小,它成立与 2022 年,三位联合创始人分别是原 DeepMind 联合创始人 Mustafa Suleyman、Linkedln 联合创始人 Reid Hoffman,还有前 DeepMind 首席科学家 Karen Simonyan。



去年 6 月,Inflection AI 宣布获得 13 亿美元融资,由微软、英伟达以及 Reid Hoffman、比尔・盖茨、谷歌前 CEO 埃里克・施密特领投。目前,Inflection AI 已成为全球第四大生成式 AI 创业公司。

https://inflection.ai/inflection-2-5

相关内容

热门资讯

阿里等三巨头抢朴朴超市?电商要... 作者|白婉嘉 编辑|文定 一场竞购传闻,把朴朴超市推到了台前。 5月25日,多家媒体报道称,阿里、美...
宁波土耳其购房移民机构怎么选? 宁波地区有土耳其购房移民需求的客户群体主要集中在企业主、金融从业者、跨境电商经营者和专业人士等,其核...
芯跳加速时这一红利ETF却半个... 5月28日,芯片半导体和红利方向同步走强,杠杆资金上演哑铃投资新范式。截至10:27,中证红利ETF...
强强携手共谋发展——京东电商平... 5月20日,京东电商平台相关负责人莅临菏泽华运食品公司,开展实地考察与合作洽谈。菏泽华运食品公司总经...
千问正在“夺舍”阿里云 文|象先志 5月26日,阿里云在新加坡面向海外市场发布全新AI产品官网Qwen Cloud、Age...
原创 5... 5月27日黄金价格小幅回落,国内基础金价和中国黄金基础金价均为994.0元/克,黄金回收价为977元...
中汇人寿潍坊中心支公司被罚15... 蓝鲸新闻5月28日讯,近日,国家金融监督管理总局潍坊监管分局公布行政处罚决定书,对中汇人寿保险股份有...
天源迪科:董事长陈友解除留置 天源迪科午间公告,今日,公司收到江西省景德镇乐平市监察委员会签发的《解除留置通知书》,已对公司董事长...
胡衡华,辞去重庆市长职务 5月28日,重庆市人民代表大会常务委员会发布关于接受胡衡华辞职的决定: 据《中华人民共和国地方各级人...
社媒帖子点燃欧洲半导体妖股 晶... 财联社5月28日讯(编辑 赵昊)周三(5月27日),一个鲜为人知的欧洲芯片制造商股价一度暴涨逾70%...
原创 A... 今日A股三大指数集体下跌,截至收盘,上证指数跌1.25%,深证成指跌0.88%,创业板指涨0.07%...
大盘下跌白酒板块又涨了!行业仍... 大盘下跌的时候,白酒板块又“如无意外”地成为资金关注的目标。 5月27日A股跌破4100点时,白酒板...
消费基金重仓科技 合规还是越界... 记者 洪小棠 截至2026年5月27日,A股市场的结构性行情正在以一种近乎撕裂的方式演绎。一边是近年...
人工智能板块延续调整,人工智能... 5月27日,人工智能板块延续调整,截至收盘,中证人工智能主题指数下跌1.8%,中证科创创业人工智能指...
原创 长... 国内存储芯片龙头长鑫科技在5月27日顺利通过科创板上市委审议,距离正式挂牌交易仅剩最后一步。这不仅仅...
南京跑出“数字人第一股”! 8... 「IPO全观察」栏目聚焦首次公开募股公司,报道企业家创业经历与成功故事,剖析公司商业模式和经营业绩,...
“飞轮”之上:财通资管是这样炼... 2001年,知名管理学者吉姆·柯林斯出版了著作《飞轮效应》。这部书描绘了一个常见的商业现象: 在同样...
嘉戎技术收购,宁德时代背书 见习记者刘墨 值得关注的是,宁德时代深度参与本次交易,不仅通过旗下产业基金参与并购主体,宁德时代实控...