面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3! 面壁智能2b模型发布会重点 面壁智能发布大模型luca
admin
2024-05-02 01:13:18
0

[雷峰网]两周前,面壁发布领先的开源大模型「Eurux-8x22B 」。相比口碑之作 Llama3-70B,发布时间更早,综合性能相当,尤其是拥有更强的推理性能——刷新开源大模型推理性能 SOTA,堪称开源大模型中「理科状元」。激活参数仅 39B,支持 64k 上下文,相比 Llama3速度更快、可处理更长文本。


图注:面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA这两个具有挑战性的基准测试中,刷新开源大模型推理性能 SOTA。


图注:面壁Eurux-8x22B 模型综合性能比肩 LlaMa3-70B,超越开源模型 WizardLM-2-8x22b, Mistral-8x22b-Instruct,DeepSeek-67b,以及闭源模型 GPT-3.5-turbo。

Eurux-8x22B 由 Mistral-8x22B对齐而来。强劲战斗力,来自面壁 Ultra 对齐技术上新UltraInterat 大规模、高质量对齐数据集。此前,面壁 Ultra 对齐系列数据集已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。

Eurux-8x22B模型+对齐数据集,全家桶开源:

https://github.com/OpenBMB/Eurus

https://huggingface.co/openbmb/Eurux-8x22b-nca

开源大模型「理科状元」开源大模型「理科状元」

复杂推理能力是体现大模型性能差异的最核心能力之一,也是大模型真正落地应用所需的关键能力所在。

Eurux-8x22B在代码和数学等复杂推理的综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA,堪称「理科状元」。特别在 LeetCode (180道LeetCode真题)和 TheoremQA(美国大学水准的STEM题目)这两个具有挑战性的基准测试中,超过现有开源模型。


图注:Eurux-8x22B 在代码和数学等复杂推理综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA。

开源大模型「理科状元」Eurux-8x22B在实际应用中表现如何呢?

在近期LeetCode 周赛,这一检验人类程序员编程能力的真实竞技场上:Eurux-8x22B 在 Python 编程方面取得综合排名超越了80% 的人类参赛选手的优秀成绩,成功解决四道算法题中的三道,可以初步通过互联网大厂的程序员编程面试。

下面是本次周赛中Eurux-8x22B对一道中等难度的算法题的真实解答:



除了代码能力优秀,Eurux-8x22B解答数学题也是轻而易举。

例如给它一道高中排列组合题,Eurux-8x22B 首先给出了清晰的解题思路,然后一步步地拆解执行,再进行结果汇总,最后得到正确答案。



再考察它一道代数题,Eurux-8x22B 直击要害,运用二项式定理,清晰简洁地给出了正确的解答。


接着给它一道向量代数题,Eurux-8x22B 也能轻松拿下。


高考函数题可能是令很多人回忆起来就头疼的一类题,Eurux-8x22B 也能解答无误。


(需要说明的是,Eurux-8x22B 没有针对中文语料进行额外的微调和对齐!)


面壁 Ultra 对齐技术,大模型上分神器!

本次大模型「理科状元」 Eurux-8x22B 的优异表现,得益于来自面壁 Ultra 对齐技术的大规模、高质量对齐数据集UltraInteract上新。

好数据,才有好模型。此前,面壁 Ultra 对齐技术已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。

➤UltraInterat对齐数据集地址:

?https://github.com/OpenBMB/Eurus

UltraInteract是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集,包含了覆盖数学、代码和逻辑推理问题的12个开源数据集的86K条指令和220K偏好对,共有五十万(条)左右数据。相比而言,LLaMA 3-70B模型则是使用了千万量级的对齐数据,这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。UltraInteract 数据集开源后在社区受到了广泛好评。




从领先的端侧模型「小钢炮」MiniCPM,到开源模型推理新 SOTA 的Eurux-8x22B,为什么面壁智能总能推出同等参数、性能更优的「高效大模型」?答案是,大模型是一项系统工程,而面壁作为国内极少数兼具大模型算法与 infra 能力的团队,拥有自研的全流程高效生产线:面壁 Ultra 对齐技术、Infra 工艺、独家「模型沙盒」实验和现代化数据工厂,从数据、训练到调校工艺环环相扣,一条优秀的大模型Scaling Law增长曲线由此而生。

Infra工艺方面,面壁构建了全流程优化加速工具套件平台ModelForce,可以实现 10 倍推理加速,90% 成本降低。


算法方面,通过上千次以上的「模型沙盒」实验,探索更加科学的训模方法。以小见大,寻找高效模型训练配置,实现模型能力快速形成。



➤Eurux-8x22B模型GitHub地址:

https://github.com/OpenBMB/Eurus

➤Eurux-8x22B模型HuggingFace地址:https://huggingface.co/openbmb/Eurux-8x22b-nc

➤UltraInterat对齐数据集地址:

https://github.com/OpenBMB/Eurus

相关内容

热门资讯

嘉兴银行“新帅”确定:行长王芳... 嘉兴银行“新帅”确定:行长王芳升任党委书记 人民财讯5月19日电,据嘉兴银行消息,嘉兴市委常委、常务...
这届年轻人的置业逻辑变了!报告... 5月18日,58同城、安居客发布《2026青年置业报告》。这份基于数千名20-35岁年轻人的调研,揭...
金融让生活更美好|上银财富“5... 为更好地满足广大客户多元化、多层次的财富保值增值需求,上海银行于5月18日正式启动“518财富理想节...
追觅俞浩回应设立上百个BU:A... 来源:中国企业家 做企业不是开故事会,发展才能解释问题,发展才能解决问题 文|《中国企业家》记者 ...
原创 强... 2026年5月13日,深圳。华为和总资产1.5万亿的中国中化,正式签下一份深化战略合作协议。 一家...
金价,还在跌!警惕骗局—— 5月18日早盘,现货黄金短时下跌,失守4500美元/盎司,为3月底以来首次。 【此前报道:】5月19...
中国电信:选举柯瑞文为董事长;... 据每日经济新闻:5月19日,中国电信(601728.SH)公告称,公司第九届董事会第一次会议选举柯瑞...
2026第六届中国贵州国际能源... 5月18日,2026第六届中国贵州国际能源产业博览交易会(简称“贵州能博会”)在贵阳国际会议展览中心...
华为轮值董事长徐直军访问东风汽... 2026年5月19日,华为轮值董事长徐直军,华为公司高级副总裁、引望公司CEO靳玉志一行到访东风汽车...
20cm股热度渐升!涨停数追平... 财联社5月19日讯(编辑 梓隆),近期,创业板、科创板股热度较高,截至今日(5月19日)收盘,累计共...
原创 告... 1499,这个数字陪了我们好几年。买飞天茅台的人,对它太熟悉了。可就在3月30日晚上,贵州茅台一纸公...
美国30年期国债收益率升至20... 美国30年期国债收益率上升至5.177%,为2007年以来的最高水平。 (本文来自第一财经)
一人掌控2家国产存储龙头,57... 一个老板,左手握着国内芯片设计龙头兆易创新,右手攥着国产DRAM市场第一的长鑫科技,57亿关联交易深...
跟宇树一比,云深处太贵了? 营收仅宇树五分之一,估值倍数贵了约60%。 AIX财经(AIXcaijing)原创 作者|王汉星 编...
华曦达将在港交所上市:业绩波动... 来源|贝多商业&贝多财经 5月18日,深圳市华曦达科技股份有限公司(下称“华曦达”,HK:00901...
微纳星空科创板IPO拟募资50... 上交所&深交所 新 股 上 市 5月12日-5月18日,上交所无公司上市;深交所主板有2家公司上市。...
突发!伊朗股市,重新开市!特朗... 刚刚,伊朗股市恢复交易! 据央视新闻报道,当地时间5月19日,伊朗德黑兰证券交易所恢复股票交易。目前...
龙湖完成“21龙湖04”本息兑... 5月19日,龙湖集团如期完成“21龙湖04”的本金兑付与付息,涉及总金额约15.54亿元,包含本金1...
600759,连续12个跌停 【导读】市场情绪整体不错! 中国基金报记者 泰勒 大家好啊,今天的市场,尽管外围行情似乎风雨飘摇,但...