最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发 最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发
admin
2024-01-19 14:33:51
0


新智元报道

编辑:桃子

【新智元导读】Mixtral 8x7B模型开源后,AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B,在主流基准测试中击败了Mixtral Instruct。

Mixtral 8x7B开源模型的诞生,正如Llama一样,为开源社区了带来曙光。

前段时间,Mixtral刚刚发布了8x7B模型的论文。在基准测试结果中,其性能达到或超过 Llama 2-70B和GPT-3.5。

甚至,Mixtral在数学、代码生成和多语言理解任务方面表现亮眼。


最近,一个开源研究小组Nous Research推出了新一代旗舰大模型Nous-Hermes 2 Mixtral 8x7B。

这是首个通过RLHF训练的模型,并在主流基准测试中超越Mixtral Instruct,成为最佳开源模型。


此外,Nous Research团队发布的SFT和SFT+DPO模型,以及DPO适配器将为用户提供更多选择。


在所有的基准测试中,Nous-Hermes 2 Mixtral 8x7B模型也略不逊色。


目前,这些模型同样在Hugging Face上开源上线。


最佳开源模型诞生

据介绍,最新模型是在Mixtral 8x7B MoeLLM微调训练而来。

具体来说,Nous-Hermes 2 Mixtral 8x7B是在1,000,000个条目进行了训练(主要是GPT-4生成的数据),以及整个AI领域开放数据集等其他高质量数据集。


研究人员同时还发布了SFT Only版本,以及SFT+DPO版本。



模型演示

那么,Nous Research团队最新的模型能力有多强?

编写可视化数据代码完全是小菜一碟。


它还能写赛博朋克的迷幻诗。


可以执行反向翻译,从输入文本中创建提示信息。


基准测试

与Mixtral基础模型相比,Mixtral 8x7B上的Nous-Hermes 2在以下基准测试中取得了全面提升,也是MistralAI首次击败旗舰型号Mixtral Finetune。

在GPT4All中,Nous-Hermes Mixtral 8x7B(SFT+DPO)拿下了75.7分,位列榜单第三。


在AGIEval的排行中,Nous-Hermes Mixtral 8x7B(SFT+DPO)拿下了46.05的成绩。


此外,在BigBench Reasoning Test中,Nous-Hermes 2 Mixtral 8x7B(SFT+DPO)霸榜第一。


背后团队

成立于2023年,Nous Research是一个在大模型领域发布开源研究而闻名的私人应用研究小组。

去年12月,这个研究团队成员曾发布了一款轻量的视觉语言模型——Nous Hermes 2 Vision。

这个模型以希腊神使赫尔墨斯的名字命名。它通过用户上传的图像数据,通过自然语言提供详细的答案。


就在前几天,Nous Research宣布了一轮520万美元的种子融资,涉及了多位天使投资人。

到目前为止,Nous Research已经发布了40多个开源模型,包括Hermes、YaRN、Capybara、Puffin和Obsidian系等系列。


Mixtral模型,会将成为开源版GPT-4

继2023年年初Llama发布之后,一系列羊驼家族瞬间爆发。年底,Mixtral的开源MoE发布,更是为开源年做了一个完美的收尾。

有网友表示,Mixtral或将有实力将于今年接管GPT-4。


在Chatbot Arena排行榜上,Mixtral成为(继GPT-4、Claude和Mistral Medium之后)唯一能打的开源模型,也是仅有7B参数的最小模型,甚至比谷歌的Gemini Pro还要好!


而且它是开源的!任何人可以获取该模型,并将其部署到自己的设备,而且可以对其进行微调,可以随心所欲地使用它。


现在,在Mixtral-7B上进行微调、部署的模型案例,也是非常的多。

比如,有网友用树莓派在本地跑起了Phi-2、Mistral和LLaVA等模型。


还有人出了一款APP,名为Offline Chat:Private AI,能够在iPhone上离线跑Mistral 7B模型。

这样一来,模型生成的内容,可以保障安全和隐私。


还有人用直接偏好微调了Mistral-7B模型。


具体来说,研究人员将使用一种类似RLHF的技术:直接偏好优化(DPO)对OpenHermes-2.5进行微调,从而创建NeuralHermes-2.5。

为此,他们还引入了一个偏好数据集,描述DPO算法的工作原理,并将其应用到模型中。我们将看到它显著提高了OpenLLM排行榜上基本模型的性能。


有网友进行的海底捞针实验中, Mistral-7B-Instruct-v0.2在80000 token情况下,召回率下降。


相信未来,Mixtral模型会向羊驼家族一样,迎来大爆发。

参考资料:

https://twitter.com/NousResearch/status/1746988416779309143


相关内容

热门资讯

机构席位买入1317.94万 ... 每经讯,2026年1月14日,北交所上市公司大鹏工业(920091,收盘价:96.46元)登上龙虎榜...
人民日报关注!福州增加体育消费... 1月14日 《人民日报》聚焦福州 “改善型服务消费如何激发活力” 专栏刊发 《福建福州增加体育消费空...
医院IPTV领域实力厂商榜单:... 在医疗信息化与智慧养老产业快速发展的背景下,医院IPTV系统作为连接医患、优化服务流程的核心载体,其...
ERP系统深度测评:它如何重塑... 想象一下,一家中型制造企业的会议室里,销售部门抱怨库存数据不准导致丢单,财务部门为月底对不上账而焦头...
时代更替浪潮下:从陈景河荣退看... 最近,亚布力论坛理事、紫金矿业创始人陈景河的荣退,让我心里涌起不少感慨——这不仅是一位矿业巨擘44年...
股价再度“一字”跌停!这只白酒... 昨日, *ST岩石公告称,公司预计2025年度营业收入不足3亿元且扣非前后净利润均为负,将触及财务类...
焦点复盘沪指午后跳水一度逼近4... 财联社1月14日讯,今日102股涨停,59股炸板,封板率为63%,直真科技5连板,三维通信、省广集团...
美国外资审查新动向!CFIUS... 过去一年间,随着美国政府换届及“美国优先投资政策”的推行,美国外国投资委员会(CFIUS)的审查逻辑...
建议收藏!凌春鸣总结的12条酒... 摘 要 入行二十余载,从外贸到酒业,从中喜的创立到“嬉阁”的坚守,我目睹了行业的潮起潮落。在这张看似...
年入117亿,广东阳江姐弟卖猪... 作者 | 华泰诗 “一到晚上猪肉就打折卖”的钱大妈,也要去港股上市了。 仅仅14年前,钱大妈还只是东...
因电池缺陷,沃尔沃在多国市场召... 红星资本局1月14日消息 2026年开年,沃尔沃在全球多个市场发起了一项召回计划,原因为车辆搭载的高...
新三板创新层公司华清飞扬大宗交... 每经讯,2026年1月14日,新三板创新层公司华清飞扬(834195,收盘价:2.29元)发生一笔大...
原创 我... 普瑞巴林,一种在带状疱疹治疗中几乎成为“标配”的处方药,被推到了风口浪尖上。 该药于2004年获美国...
马云前助理去世,曾撰写《这就是... 据电商大V倪叔透露,马云前助理陈伟去世。 追悼会现场摆放着马云夫妇献的花圈,挽联上写「爱得真诚,获一...
1.14:突发消息,A股跳水,... 周三,沪深A股主要的大盘指数调整,符合昨天分析的预期。中午分析中,也指出了上午上涨和昨天大盘释放的信...
利空?融资保证金上调至100%... 沪深北三大交易所同步发布通知,宣布经中国证监会批准,将投资者融资买入证券时的融资保证金最低比例从现行...
每日收评沪指冲高回落小幅收跌,... 财联社1月14日讯,市场冲高回落,沪指午后快速翻绿,此前一度涨超1%。沪深两市成交额3.94万亿,较...
原创 3... 哈喽,大家好,今天小墨这篇评论,主要来分析黄金超越美元成储备王者的变局,拆解普通人该紧跟的财富新逻辑...
量化派入选2025北京信用领跑... 在市场经济中,企业信用连接着企业与社会、市场与消费者,是企业生存与发展的生命线。良好的企业信用,不仅...
视频丨“新国补”政策落地 消费... 新年伊始,河南积极落实2026年国家“以旧换新”补贴新政,迅速释放政策红利,汽车、电子消费品等市场消...