面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3! 面壁智能2b模型发布会重点 面壁智能发布大模型luca
admin
2024-05-02 01:13:18
0

[雷峰网]两周前,面壁发布领先的开源大模型「Eurux-8x22B 」。相比口碑之作 Llama3-70B,发布时间更早,综合性能相当,尤其是拥有更强的推理性能——刷新开源大模型推理性能 SOTA,堪称开源大模型中「理科状元」。激活参数仅 39B,支持 64k 上下文,相比 Llama3速度更快、可处理更长文本。


图注:面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA这两个具有挑战性的基准测试中,刷新开源大模型推理性能 SOTA。


图注:面壁Eurux-8x22B 模型综合性能比肩 LlaMa3-70B,超越开源模型 WizardLM-2-8x22b, Mistral-8x22b-Instruct,DeepSeek-67b,以及闭源模型 GPT-3.5-turbo。

Eurux-8x22B 由 Mistral-8x22B对齐而来。强劲战斗力,来自面壁 Ultra 对齐技术上新UltraInterat 大规模、高质量对齐数据集。此前,面壁 Ultra 对齐系列数据集已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。

Eurux-8x22B模型+对齐数据集,全家桶开源:

https://github.com/OpenBMB/Eurus

https://huggingface.co/openbmb/Eurux-8x22b-nca

开源大模型「理科状元」开源大模型「理科状元」

复杂推理能力是体现大模型性能差异的最核心能力之一,也是大模型真正落地应用所需的关键能力所在。

Eurux-8x22B在代码和数学等复杂推理的综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA,堪称「理科状元」。特别在 LeetCode (180道LeetCode真题)和 TheoremQA(美国大学水准的STEM题目)这两个具有挑战性的基准测试中,超过现有开源模型。


图注:Eurux-8x22B 在代码和数学等复杂推理综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA。

开源大模型「理科状元」Eurux-8x22B在实际应用中表现如何呢?

在近期LeetCode 周赛,这一检验人类程序员编程能力的真实竞技场上:Eurux-8x22B 在 Python 编程方面取得综合排名超越了80% 的人类参赛选手的优秀成绩,成功解决四道算法题中的三道,可以初步通过互联网大厂的程序员编程面试。

下面是本次周赛中Eurux-8x22B对一道中等难度的算法题的真实解答:



除了代码能力优秀,Eurux-8x22B解答数学题也是轻而易举。

例如给它一道高中排列组合题,Eurux-8x22B 首先给出了清晰的解题思路,然后一步步地拆解执行,再进行结果汇总,最后得到正确答案。



再考察它一道代数题,Eurux-8x22B 直击要害,运用二项式定理,清晰简洁地给出了正确的解答。


接着给它一道向量代数题,Eurux-8x22B 也能轻松拿下。


高考函数题可能是令很多人回忆起来就头疼的一类题,Eurux-8x22B 也能解答无误。


(需要说明的是,Eurux-8x22B 没有针对中文语料进行额外的微调和对齐!)


面壁 Ultra 对齐技术,大模型上分神器!

本次大模型「理科状元」 Eurux-8x22B 的优异表现,得益于来自面壁 Ultra 对齐技术的大规模、高质量对齐数据集UltraInteract上新。

好数据,才有好模型。此前,面壁 Ultra 对齐技术已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。

➤UltraInterat对齐数据集地址:

?https://github.com/OpenBMB/Eurus

UltraInteract是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集,包含了覆盖数学、代码和逻辑推理问题的12个开源数据集的86K条指令和220K偏好对,共有五十万(条)左右数据。相比而言,LLaMA 3-70B模型则是使用了千万量级的对齐数据,这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。UltraInteract 数据集开源后在社区受到了广泛好评。




从领先的端侧模型「小钢炮」MiniCPM,到开源模型推理新 SOTA 的Eurux-8x22B,为什么面壁智能总能推出同等参数、性能更优的「高效大模型」?答案是,大模型是一项系统工程,而面壁作为国内极少数兼具大模型算法与 infra 能力的团队,拥有自研的全流程高效生产线:面壁 Ultra 对齐技术、Infra 工艺、独家「模型沙盒」实验和现代化数据工厂,从数据、训练到调校工艺环环相扣,一条优秀的大模型Scaling Law增长曲线由此而生。

Infra工艺方面,面壁构建了全流程优化加速工具套件平台ModelForce,可以实现 10 倍推理加速,90% 成本降低。


算法方面,通过上千次以上的「模型沙盒」实验,探索更加科学的训模方法。以小见大,寻找高效模型训练配置,实现模型能力快速形成。



➤Eurux-8x22B模型GitHub地址:

https://github.com/OpenBMB/Eurus

➤Eurux-8x22B模型HuggingFace地址:https://huggingface.co/openbmb/Eurux-8x22b-nc

➤UltraInterat对齐数据集地址:

https://github.com/OpenBMB/Eurus

相关内容

热门资讯

剑指账户管理等问题 两大银行同... 财联社2月15日讯,根据央行2月14日公布的行政处罚公示显示,两大国有银行中国建设银行与上海浦东发展...
原创 排... 传统淡季的1月,上海房地产交易中心却人满为患;春节前的最后一个周末,中介门店的带看量不减反增。 刚刚...
原创 中... 美国国会那219票,不是突然冒出来的。 它背后是加油站涨价、建材报价单翻页、超市收银台前沉默的皱眉。...
原创 3... 中国人民银行最新公布的一月份金融数据显示,人民币存款余额达到了惊人的336.77万亿元,当月新增额高...
屏山县有哪些特色菜推荐 在四川宜宾的南部,有一座生态环境优美的小城——屏山县。这里不仅山清水秀,还藏着许多独具风味的特色菜肴...
日本经济重回增长 为加息扫清道... 来源:环球市场播报 尽管受到美国关税冲击,日本经济在 2025 年第四季度恢复增长,为日本央行继续加...
囤年货,教你怎样选购与保鲜 贴春联、剪窗花、买年货…… 家家户户拉开了辞旧迎新的序幕 置办年货还讲究采购顺序? 买回家该如何储存...
正面硬刚Gemini 3 Pr... 用17B激活参数“掀翻”万亿参数的牌桌。 作者|栗子 2月16日,除夕,阿里巴巴正式开源全新一代基座...
天才股神坦言:但凡涨停股,尾盘... 可以等待,但决不让等来的机会错失 我认为,除了经验和技术,更重要的是一个惯性思维的问题。很多人一看到...
春晚,合作上市公司曝光!科技新... 导读:“四十余载春晚路,半部中国商业史。”回顾历届春晚合作伙伴,从八十年代的手表、自行车,到九十年代...
【财经早报】关于AI应用等,华... 重要新闻提示 四部门:加大农村地区企业上市辅导培育力度,帮助更多企业利用多层次资本市场进行融资 市场...
阿里发布新一代基模千问3.5,... 大象新闻记者 李莉 张迪驰 2月16日除夕当天,阿里巴巴开源全新一代大模型千问Qwen3.5-Plu...
原创 德... “一年前,我们还对来自中国的热泵设备将信将疑。现在,我们的订单已经排到半年后了。”一位德国热泵经销商...
春节教养课:五句箴言,让孩子成... 每逢春节,本应温馨的团圆时刻,却常因孩子的行为失当蒙上阴影。知乎上“过年有哪些现象让你感到不悦?”的...
4.2亿关联项目:滨海能源子公... 来源:财中社 2月13日,滨海能源(000695)发布公告,控股子公司邢台旭阳新能源科技有限公司与旭...
逆差暴跌,美元信用要崩?美国人... 美国一直保持着巨大的逆差,而且已经几十年都如此。画一张图如下: 所以美国为什么常年如此?答曰这是与...
平安基金总经理肖宇鹏:持续提升... 一元复始,岁月展新。在马年春节到来之际,我谨代表平安基金恭祝各位投资者和合作伙伴新春快乐,万事顺意!...
原创 非... 联合国秘书长刚喊完话,中国对53个非洲国家的零关税政策就冲上热搜。别以为这只是国际新闻——你家超市的...
视频丨机器人手术与传统手术的对... 专访嘉宾: 刘合利 中南大学湘雅医院胃肠外科主任 医学博士 主任医师 博士研究生导师 Q:机器人手术...
当AI入驻春晚,红包、技术、场... 每经记者:毕媛媛 每经编辑:魏官红 "" 除夕夜,白酒广告还在,手机厂商也没有缺席。但和往年不同,今...