最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发 最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发
admin
2024-01-19 14:33:51
0


新智元报道

编辑:桃子

【新智元导读】Mixtral 8x7B模型开源后,AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B,在主流基准测试中击败了Mixtral Instruct。

Mixtral 8x7B开源模型的诞生,正如Llama一样,为开源社区了带来曙光。

前段时间,Mixtral刚刚发布了8x7B模型的论文。在基准测试结果中,其性能达到或超过 Llama 2-70B和GPT-3.5。

甚至,Mixtral在数学、代码生成和多语言理解任务方面表现亮眼。


最近,一个开源研究小组Nous Research推出了新一代旗舰大模型Nous-Hermes 2 Mixtral 8x7B。

这是首个通过RLHF训练的模型,并在主流基准测试中超越Mixtral Instruct,成为最佳开源模型。


此外,Nous Research团队发布的SFT和SFT+DPO模型,以及DPO适配器将为用户提供更多选择。


在所有的基准测试中,Nous-Hermes 2 Mixtral 8x7B模型也略不逊色。


目前,这些模型同样在Hugging Face上开源上线。


最佳开源模型诞生

据介绍,最新模型是在Mixtral 8x7B MoeLLM微调训练而来。

具体来说,Nous-Hermes 2 Mixtral 8x7B是在1,000,000个条目进行了训练(主要是GPT-4生成的数据),以及整个AI领域开放数据集等其他高质量数据集。


研究人员同时还发布了SFT Only版本,以及SFT+DPO版本。



模型演示

那么,Nous Research团队最新的模型能力有多强?

编写可视化数据代码完全是小菜一碟。


它还能写赛博朋克的迷幻诗。


可以执行反向翻译,从输入文本中创建提示信息。


基准测试

与Mixtral基础模型相比,Mixtral 8x7B上的Nous-Hermes 2在以下基准测试中取得了全面提升,也是MistralAI首次击败旗舰型号Mixtral Finetune。

在GPT4All中,Nous-Hermes Mixtral 8x7B(SFT+DPO)拿下了75.7分,位列榜单第三。


在AGIEval的排行中,Nous-Hermes Mixtral 8x7B(SFT+DPO)拿下了46.05的成绩。


此外,在BigBench Reasoning Test中,Nous-Hermes 2 Mixtral 8x7B(SFT+DPO)霸榜第一。


背后团队

成立于2023年,Nous Research是一个在大模型领域发布开源研究而闻名的私人应用研究小组。

去年12月,这个研究团队成员曾发布了一款轻量的视觉语言模型——Nous Hermes 2 Vision。

这个模型以希腊神使赫尔墨斯的名字命名。它通过用户上传的图像数据,通过自然语言提供详细的答案。


就在前几天,Nous Research宣布了一轮520万美元的种子融资,涉及了多位天使投资人。

到目前为止,Nous Research已经发布了40多个开源模型,包括Hermes、YaRN、Capybara、Puffin和Obsidian系等系列。


Mixtral模型,会将成为开源版GPT-4

继2023年年初Llama发布之后,一系列羊驼家族瞬间爆发。年底,Mixtral的开源MoE发布,更是为开源年做了一个完美的收尾。

有网友表示,Mixtral或将有实力将于今年接管GPT-4。


在Chatbot Arena排行榜上,Mixtral成为(继GPT-4、Claude和Mistral Medium之后)唯一能打的开源模型,也是仅有7B参数的最小模型,甚至比谷歌的Gemini Pro还要好!


而且它是开源的!任何人可以获取该模型,并将其部署到自己的设备,而且可以对其进行微调,可以随心所欲地使用它。


现在,在Mixtral-7B上进行微调、部署的模型案例,也是非常的多。

比如,有网友用树莓派在本地跑起了Phi-2、Mistral和LLaVA等模型。


还有人出了一款APP,名为Offline Chat:Private AI,能够在iPhone上离线跑Mistral 7B模型。

这样一来,模型生成的内容,可以保障安全和隐私。


还有人用直接偏好微调了Mistral-7B模型。


具体来说,研究人员将使用一种类似RLHF的技术:直接偏好优化(DPO)对OpenHermes-2.5进行微调,从而创建NeuralHermes-2.5。

为此,他们还引入了一个偏好数据集,描述DPO算法的工作原理,并将其应用到模型中。我们将看到它显著提高了OpenLLM排行榜上基本模型的性能。


有网友进行的海底捞针实验中, Mistral-7B-Instruct-v0.2在80000 token情况下,召回率下降。


相信未来,Mixtral模型会向羊驼家族一样,迎来大爆发。

参考资料:

https://twitter.com/NousResearch/status/1746988416779309143


相关内容

热门资讯

走进小城看消费丨江西资溪:低碳...   夏日时节下午4点,江西省抚州市资溪县大觉山景区漂流终点依然热闹。来自南昌的游客余鑫漂流结束后没有...
【中原晨会0625】市场分析专... 来源:市场资讯 (来源:中原证券研究所) 本期重点研报目录 【中原策略】市场分析:电子半导体领涨 ...
南向资金连买4日!低费率+可月... 6月25日早盘,港股红利资产震荡整理。截至11时14分,港股红利低波ETF招商(520550)下跌0...
618成交破百万!紫荆花用一套... 一年一度的618年中大促,是消费市场的晴雨表,也是品牌间最激烈的角力场。当各大品牌在直播间里铆足了劲...
原创 黄... 2026年6月25日的国际金价已经从前期的5500美元高点跌到4200美元下方,累计跌幅超过22%,...
英伟达CEO:Vera Rub... 截至9:38,中证半导体材料设备主题指数(931743)涨2.36%创新高;权重股中,中微公司涨3....
再被催债16亿!“钢铁大王”戴... 澎湃新闻记者 贺梨萍 因“铁本事件”入狱五年的戴国芳重返钢铁行业,但他并没有完成从阶下囚再到“钢铁大...
周三原油价格下跌 随着美国和伊朗在和平谈判中取得进展,越来越多的油轮公开穿越霍尔木兹海峡,原油在战时的价格上涨已经蒸发...
这种蛋白是大脑衰老的开关 这种蛋白是大脑衰老的开关 清晨,假设一位五十岁左右的王女士发现自己常常把手机放在熟悉的抽屉里又找不到...
信通院牵头算力Token出海生... 盘面上,截至11:04,中证科创创业50指数(931643)涨1.68%,创历史新高;权重股中,芯原...
海外 774 亿营收背后:日本... 文 | 游戏价值论 6月23日,彭博社报道了腾讯正在围绕出售多家日本游戏工作室少数股权开展谈判,包...
餐饮“抢人”大战:把店开到公交... 作者 |餐饮老板内参 内参君 医院、公交站、演唱会…餐饮品牌,正在无孔不入 在北京儿童医院,肯德基...
快讯 | 外资扫货!陈翊庭:港... 港交所行政总裁陈翊庭在接受《中国证券报》专访时指出,国际资本对中国资产的看法已彻底扭转,布局中国市场...
2777.77元!A股“股王”... 25日早盘,昨天创下历史新高的A股“股王”联讯仪器,今天上午继续走强,盘中股价再度刷新历史新高。 截...
原创 今... 欧洲自己的媒体直接下结论,欧盟衰退躲不掉,内部分裂拦不住,现在就连欧洲顶尖工业巨头,都偷偷在用中国的...
黄仁勋股东大会放言:本轮AI基... 在当地时间6月24日的英伟达(NVDA.O)2026年度股东大会上,股东批准了该公司全部10名董事会...
国际油价大跌 新华社消息, 纽约原油期货主力合约价格24日盘中跌破每桶70美元,为伊朗战事爆发以来首次。 市场分析...
马云带队插秧,什么信号? 一场别开生面的“务农”,让外界看到了一个不一样的阿里巴巴。 近日,阿里巴巴合伙人、高德董事长刘振飞在...
全球最大产能,最高丰度达99.... 本文转自【科技日报】; 6月23日,高丰度硼-10同位素技术暨产业化成果发布会在山东省东营市举办,全...
黄金大跳水!金饰克价年内暴跌近... 25日,现货黄金盘中震荡,截至发稿,报3985.070美元/盎司,跌0.17%。 当地时间24日,...