挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4 openai的计算能力大幅度下降 国内和openai接近的模型
admin
2024-03-08 19:09:03
0

机器之心报道

编辑:小舟、泽南

又一个媲美 GPT-4 的大模型出现了?

本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。

据介绍,Inflection-2.5 将强大的 LLM 能力与 Inflection 标志性的「同理心微调」结合在一起,兼具高情商与高智商,可联网获取事实信息,其性能可与 GPT-4、Gemini 等领先大模型相媲美。

Inflection-2.5 现已向所有 Pi 用户开放,在 PC 端、iOS 和安卓 App 上均是免费可用。ps. 机器之心也简单测试了下,觉得确实还只是「逼近」(不如)GPT-4,感兴趣的读者可以自行体验下。



链接:https://pi.ai/talk

值得注意的是,Inflection-2.5 实现了接近 GPT-4 的性能,而训练过程却仅使用 GPT-4 40% 的算力。

Inflection AI 表示,新一代大模型在编码和数学等智商领域取得了特别的进步。这转化为对关键行业基准的具体改进,确保 Pi 始终处于技术前沿。Pi 现在还融入了世界一流的实时网络搜索功能,以确保用户获得高质量的突发新闻和最新信息。

Inflection-2.5 vs GPT-4

Inflection-1 训练使用的 FLOP 约为 GPT-4 的 4%,在各种「IQ 导向」型任务中,其平均性能约为 GPT-4 水平的 72%。现在,Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练,但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示,Inflection-2.5 的性能取得了全面的显著提升,其中 STEM 领域知识的改进最大。



Inflection-2.5 在两项不同 STEM 考试 —— 匈牙利数学考试、物理学研究生入学考试(GRE)—— 的成绩如下:



如下表所示,该研究还在 MMLU 基准、GPQA Diamond 基准上评估了 Inflection-2.5。MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科,能够有效地测试 LLM 的综合知识能力,而 GPQA Diamond 基准是一个极其困难的专家级基准。



在 BIG-Bench-Hard 基准上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可与 GPT-4 相媲美。BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。



该研究还在 MT-Bench 基准上进行了评估。然而,研究团队意识到该基准在推理、数学和编码类别中有很大一部分(近 25%)的样本示例具有不正确的参考解决方案或前提有缺陷。因此,该研究更正了这些示例,并再次进行评估实验,结果如下表所示:



在 GSM8k 和 MATH 基准上的评估结果表明,Inflection-2.5 在数学和编码能力方面比 Inflection-1 有显著改进:



为了进一步测试 Inflection-2.5 的编码能力,该研究在 MBPP+ 和 HumanEval+ 两个编码基准上进行了评估实验,结果如下表所示:



研究团队在 HellaSwag 和 ARC-C、以及各种模型常识和科学基准上评估了 Inflection-2.5。从下图结果来看,Inflection-2.5 在这些基准上实现了强劲性能。



此外,以上所有评估都是使用现在支持 Pi 的模型完成的。但也需要注意,由于网络检索(以上基准没有使用网络检索)、few-shot 提示的结构以及其他生产方面的影响,用户体验可能略有差异。

总的来说,Inflection-2.5 保持了 Pi「走心」的特性和极高的安全标准,成为了一个更全面的有用模型。

最近一段时间,大语言模型的技术竞争进入了白热化阶段,在众多科技公司中,Mistral AI(Mistral Large)、Anthropic(Claude 3)脱颖而出,提出的新技术实现了与 GPT-4、Gemini Ultra 接近的能力。昨天出现的 Inflection-2.5,似乎也要加入第一梯队的行列。

作为硅谷明星创业公司,Inflection AI 的来头不小,它成立与 2022 年,三位联合创始人分别是原 DeepMind 联合创始人 Mustafa Suleyman、Linkedln 联合创始人 Reid Hoffman,还有前 DeepMind 首席科学家 Karen Simonyan。



去年 6 月,Inflection AI 宣布获得 13 亿美元融资,由微软、英伟达以及 Reid Hoffman、比尔・盖茨、谷歌前 CEO 埃里克・施密特领投。目前,Inflection AI 已成为全球第四大生成式 AI 创业公司。

https://inflection.ai/inflection-2-5

相关内容

热门资讯

战火波及!股市休市2天,这国宣... 中东金融市场,受到战火波及! 阿联酋日前宣布,阿布扎比证券交易所和迪拜金融市场于3月2日和3日休市。...
假肢接受腔发黄、有异味?2个简... 戴假肢第一年夏天,有件事我一直没好意思说。 每次下班脱掉假肢,接受腔里总有股闷了一天的味道。擦也擦了...
原创 烂... 买房买到烂尾楼,这种滋味,没经历过的人永远体会不到! 近日,胶州市委副书记、市长于冬泉,在“民生...
从技术人到创业家,中国GEO实... 对话刘敏:为什么GEO是企业AI时代的“最后窗口期”? 【深圳,2026年2月28日电】初见刘敏(L...
罕见!石油类LOF基金,涨停潮... 受中东地缘政治局势显著升级影响,国际原油市场迎来剧烈波动。 3月首个交易日,A股油气产业链全线爆发,...
深夜暴跌!白银跳水,美股开盘大... 全线走低。 当地时间3月2日,美股三大指数大幅低开,纳指一度跌1.6%,道指、标普500指数一度跌约...
港股IPO周报:胜宏科技等多家... 财联社3月1日讯(编辑 冯轶)财联社为您带来每周港股新股资讯。 据利弗莫尔证券显示,本周(2月2...
全国政协委员刘永好:鼓励传统产... 封面新闻记者 张馨心 3月2日,新希望集团媒体沟通会在京举行。全国政协委员、新希望集团董事长刘永好透...
天津劝华集团、津投资本分别与天... ⤴ 点击蓝字关注 | 国 企 动 态 2月27日下午,天津劝业华联集团有限公司(以下简称“劝华集团”...
原创 涨... 2026 年开年,黄金稳稳涨了 10% 到 15%,本以为已经是市场顶流,没想到家里那些被当成垃圾的...
申能集团副总周磊任东方证券董事... 3月2日盘后,东方证券(600958.SH)发布董事会决议公告,选举周磊为公司董事长、执行董事和董事...
8.5克足金手链不同金店估价差... 来源:滚动播报 (来源:上观新闻) 美伊开战,引爆市场避险情绪,3月2日国际金价盘中突破5400美...
原创 马... 在2026年的今天,马斯克再次强调“太阳能是万物之源”,他在达沃斯世界经济论坛及后续采访中透露,特斯...
密集落子,经济第一省能否扳回一... 消费是拉动经济增长的“主引擎”。近日,广东多个重点项目接连迎来新消息。 3月2日,据“南方Plus”...
汇元科技(832028),宣布... 本次发行H股尚需取得股东会审议通过,中国证监会、香港证监会、香港联合交易所等相关政府机构、监管机构批...
烟火里的乡村消费密码 来源:滚动播报 (来源:运城新闻网) 2026年丙午马年的春节,乡村大集依然是最浓墨重彩的年俗符号。...
中东再燃战火 避险情绪升温 大... (央视财经《经济信息联播》)中东地区紧张局势骤然升级,地缘风险快速发酵,全球大宗商品市场暗流涌动,避...
迈克生物及子公司斩获多项医疗器... 来源:财中社 3月2日,迈克生物(300463)发布公告,近期公司及全资子公司获得多项医疗器械注册证...
315还没到,椰子水先“塌房”... 出品丨搜狐财经 作者丨饶婷 编辑丨李文贤 315还没到,网红椰子水怎么就先“塌房”了? 最近,新京报...
上市PCB大企HDI项目落户江... 1、春节后首个工作日签约! PCB上市大企HDI项目落户江苏(来源:HNPCA整理) 开年即冲刺!...