10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清围观 10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清围观
admin
2024-04-05 14:19:45
0

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

“只需”10万美元,训练Llama-2级别的大模型。

尺寸更小但性能不减的MoE模型来了:

它叫JetMoE,来自MIT、普林斯顿等研究机构。

性能妥妥超过同等规模的Llama-2。





贾扬清转发

要知道,后者可是数十亿美元级别的投入成本。



JetMoE发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级GPU就能进行微调。

不得说,大模型的打造成本,真的比人们想的要便宜更多了。

Ps. Stable Diffusion前老板Emad也点了赞:

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。

(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)

它的注意力层中仍然使用了MoE:

80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合(MoA)和MLP专家混合(MoE)。

每个MoA和MoE层又有8个专家,每次输入token激活2个。



JetMoE-8B使用公开数据集中的1.25T token进行训练,学习率5.0 x 10-4,全局batch size为4M token。

具体训练方案遵循MiniCPM(来自面壁智能,2B模型就能赶超Mistral-7B)的思路,共包含两阶段

第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的1万亿个token进行训练,这些数据集包括RefinedWeb、Pile、Github data等等。

第二阶段则使用指数学习率衰减,用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。



最终,团队使用96×H100的GPU集群,花费2周时间、约8万美元搞定JetMoE-8B。

更多技术细节将在不久后发布的技术报告上揭露。

而在推理过程中,由于JetMoE-8B仅具有22亿个激活参数,因此计算成本大大降低——

同时,它还收获了不错的性能表现。

如下图所示:

JetMoE-8B在8个评测基准上获得了5个sota(包括大模型竞技场Open LLM Leaderboard),超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。



在MT-Bench基准上得分6.681,也超过了130亿参数的LLaMA2、Vicuna等模型。



作者介绍

JetMoE一共4位作者,分别是:

Yikang Shen

MIT-IBM Watson Lab研究员,研究方向NLP。

本硕毕业于北航,博士经历于Yoshua Bengio创办的Mila研究机构。

国振(Gavin Guo)

MIT博士在读, 研究方向为3D成像的数据高效机器学习。

UC伯克利本科毕业,去年夏天作为学生研究员加入MIT-IBM Watson Lab,导师为Yikang Shen等人。

蔡天乐

普林斯顿博士在读生,本科毕业于北大应用数学和计算机科学,目前也是Together.ai 的兼职研究员,与Tri Dao合作。

Zengyi Qin

MIT博士在读,同时在创业,MyShell的AI研发主管。

这家公司刚刚融资了1100万美元,投资者包括Transformer的作者。



传送门:
https://github.com/myshell-ai/JetMoE
参考链接:
https://twitter.com/jiayq/status/1775935845205463292

相关内容

热门资讯

亚朵节后价格“跳水”超70% 春节过后,部分热门小城的亚朵酒店房价上演“过山车”行情,房价节前飙升,节后迅速跳水,巨大的价格波动引...
原创 金... 你绝对想不到,同样一克999足金,在深圳水贝批发市场只要1334元,走进周大福门店却变成1545元,...
德兰明海冲击港交所!递表前大手... 又一家储能企业“叩响”了港交所大门。近期,港交所官网显示,中小型用户侧储能企业深圳市德兰明海新能源股...
绿茶集团、猫眼娱乐发布正面盈利... |2026年2月25日 星期三| NO.1绿茶集团发布正面盈利预告 2月24日港股收市后,绿茶集团(...
安宁市的历史文化及名人有哪些 安宁市,这座坐落在彩云之南的城市,宛如一颗璀璨明珠,散发着迷人的历史文化魅力。在这里,岁月留下了深深...
中国央行连续12个月加量续作M... 来源:中国新闻网 中新社北京2月24日电 (陶思阅)中国央行24日发布中期借贷便利(MLF)招标公告...
不是15%?特朗普10%全球关... 据美国海关及边境保卫局(CBP)发布消息,特朗普政府将实施的新全球关税为10%。 第一财经收到的CB...
2026年春节出游人次、消费金... 2026年春节,为期9天的超长假期点燃了全国消费热情,多项核心数据创下历史纪录。 经文化和旅游部数据...
美国联邦存款保险公司(FDIC... 美国联邦存款保险公司(FDIC):美国银行业存款季环比下滑2%。
2026春节AI大战深度复盘:... 主编温静导读:2026年春节,元宝、千问、豆包三大巨头以红包、免单为杠杆,发动了一场规模空前的用户争...
期市节后首日金属板块普涨 白银... 本报记者 王宁 2月24日,春节后的首个交易日,国内期货市场呈现涨多跌少态势。 从板块表现来看,农产...
月跌超10%背后:软件行业,将... 此前一天,2月23日,人工智能公司Anthropic宣布,其Claude Code工具可用于在IBM...
公告精选 |《飞驰人生3》票房... 控制权收购 东阳光(600673.SH):公司正在筹划通过发行股份的方式收购宜昌东数一号投资有限责任...
东阳光:筹划收购东数一号控制权... 上证报中国证券网讯(记者 骆民)东阳光公告,公司正在筹划通过发行股份的方式收购宜昌东数一号投资有限责...
原创 高... 你有没有发现,几年前人人都在拼命买房,而现在,越来越多人开始思考,房子,到底还是不是财富? 这几年,...
这个春节,中国经济热力值拉满 2026年的春节,注定要在中国消费市场上留下浓墨重彩的一笔。 当9天的超长假期遇上持续加码的政策红利...
2026年中国汽车产业十大趋势... 2025年,中国汽车产业在连续17年产销量稳居全球第一的基础上,再次交出了一份充满变革与挑战的答卷。...
2022年天猫烘焙厨电行业趋势... 今天分享的是:2022年天猫烘焙厨电行业趋势白皮书 报告共计:7页 烘焙厨电迎来新变革:从“功能单一...