英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑 英伟达大模型详细信息曝光 英伟达大模型完整版曝光
admin
2024-02-29 14:32:38
0


新智元报道

编辑:桃子

【新智元导读】许久未更新大模型的英伟达推出了150亿参数的Nemotron-4,目标是打造一个能在单个A100/H100可跑的通用大模型。

最近,英伟达团队推出了全新的模型Nemotron-4,150亿参数,在8T token上完成了训练。

值得一提的是,Nemotron-4在英语、多语言和编码任务方面令人印象深刻。


论文地址:https://arxiv.org/abs/2402.16819

在7个评估基准上,与同等参数规模的模型相比,Nemotron-4 15B表现出色。

甚至,其性能超过了4倍大的模型,以及专用于多语言任务的模型。


如今LLM已经非常多了,英伟达新发布的语言模型,有何不同?

打造最强通用LLM,单个A100/H100可跑

最近发表的LLM研究受到了Chinchilla模型「缩放定律」的启发——给定固定计算预算,数据和模型大小一同优化。

而过去,研究主要针对模型大小进行缩放。

研究表明,给定两个数据分布类似的IsoFLOP GPT模型,一个是在1.4万亿token上的65亿参数模型,另一个是3000亿token上的2800亿参数模型。

显然,65B的模型在下游任务上的准确性更高。


从推理的角度来看,将计算分配给更多数据的训练,而不是增加模型大小特别有吸引力,可以减少延迟和服务模型所需的计算量。

因此,语言建模训练工作的主要焦点已转向从CommonCrawl等公共资源中,收集高质量的数万亿token数据集。

对此,英伟达研究人员提出了Nemotron-4 15B,来延续这一趋势。

具体来说,Nemotron-4 15B是在8万亿个token,包括英语、多语种、编码文本的基础上进行训练。

英伟达称,Nemotron-4 15B的开发目的:

成为能在单个英伟达A100或H100 GPU上运行的最佳「通用大模型」。

架构介绍

Nemotron-4采用了标准的纯解码器Transformer架构,并带有因果注意掩码。

核心的超参数,如表1所示。


Nemotron-4有32亿个嵌入参数和125亿个非嵌入参数。

研究人员使用旋转位置编码(RoPE)、SentencePiece分词器、MLP层的平方ReLU激活、无偏置项(bias terms)、零丢失率,以及无限制的输入输出嵌入。

通过分组查询关注(GQA),可实现更快的推理和更低的内存占用。

数据

研究人员在包含8万亿个token的预训练数据集上训练Nemotron-4 15B。

分为三种不同类型的数据:英语自然语言数据(70%)、多语言自然语言数据(15%)和源代码数据(15%)。


英语语料库由来自各种来源和领域的精选文档组成,包括网络文档、新闻文章、科学论文、书籍等。

代码和多语言数据包括一组多样化的自然语言和编程语言。

研究人员发现,从这些语言中适当地采样token是在这些领域获得高准确度的关键。

此外,研究人员分别在图3和图4中共享预训练数据集中用于代码和多语言标记的分布。



预训练

Nemotron-4使用384个DGX H100节点进行训练。每个节点包含8个基于英伟达Hopper架构的H100 80GB SXM5 GPU。

在执行无稀疏性的16位浮点(bfloat16)算术时,每个H100 GPU的峰值吞吐量为989 teraFLOP/s。

每个节点内,GPU通过NVLink和NVSwitch(nvl)连接;GPU到GPU的带宽为900 GB/s(每个方向450 GB/s)。

每个节点都有8个NVIDIA Mellanox 400 Gbps HDR InfiniBand主机通道适配器(HCA),用于节点间通信。

研究人员使用8路张量并行和数据并行的组合来训练模型,还使用了分布式优化器,将优化器状态分片到数据并行副本上。随着批大小的增加,数据并行度从96增加到384。

表2总结了批大小提升的3个阶段,包括每次迭代时间和模型FLOP/s利用率(MFU)。MFU量化了GPU在模型训练中的利用效率。训练大约在13天内完成。


再训练

与最近的研究类似,研究人员发现在模型训练结束时,切换数据分布和学习率衰减时间表,可以极大地提高模型质量。

具体来说,在对整个8T预训练数据集进行训练之后,使用相同的损失目标,并对与预训练token相比的较少的token进行持续训练。

在这一额外的继续训练阶段,利用两种不同的数据分布。

第一个分布是,从持续训练期间大部分token采样。它利用在预训练期间已经引入的token,但其分布将更大的采样权重放在更高质量来源上。

第二个分布,引入了少量基准式对齐示例,以更好地让模型在下游评估中回答此类问题,同时还增加来自模型性能较低区域的数据源的权重。

实验结果

研究人员在涵盖各种任务和领域的下游评估领域评了 Nemotron-4 15B。

常识推理

作者使用LM-Evaluation Harness在所有上述任务中评估Nemotron-4 15B。

表3显示了Nemotron-4 15B在这组不同的任务中实现了最强的平均性能。


热门的综合基准

从表4可以看出,Nemotron-4 15B在现有模型中获得了BBH的最佳分数,增长了近7%。

此外,Nemotron-4在BBH基准测试中明显优于LLaMA-2 70B模型,其中LLaMA-2 70B的得分为51.2,Nemotron-4的得分为58.7。

Nemotron-4 15B另外还获得了极具竞争力的MMLU分数。


数学和代码

表5重点介绍了Nemotron-4 15B在数学和代码任务上的性能。

具体来说,在数学推理上,Nemotron-4 15B表现强劲,得分与Gemma 7B相似,但落后于Baichuan-2和QWEN等模型。

在代码任务中,Nemotron-4的性能与QWEN 14B相当,但略落后于Gemma 7B。

在这两种类型的任务中,Nemotron-4 15B的性能均优于Mistral 7B和LlaMA-213B/34B。


几乎所有类似规模的开放模型都只根据Python相关任务的性能来确定其代码能力,而忽略了对其他编程语言能力的评估。

在表6中,展示了Nemotron-4 15B在Multiple-E基准上的结果,涉及11种不同的编程语言。

结果发现,Nemotron-4 15B在各种编程语言中都有很强的编码性能,平均性能优于Starcoder和Mistral 7B。

研究人员特别强调了Nemotron-4 15B在Scala、Julia和R等低资源编程语言上的卓越性能。


多语言

分类

在表7中,可以清楚地看到Nemotron-4在所有模型中实现了最佳性能,在4次设置中实现了近12%的改进。


生成

表8显示Nemotron-4 15B实现了最佳性能。

令人印象深刻的是,Nemotron-4 15B能够显著改进下一个最佳模型PaLM 62B-cont。


表9显示了MGSM上的性能,进一步证明了Nemotron-4 15B令人印象深刻的多语言能力。

在这项评估数学和多语言能力交集的挑战性任务中,Nemotron-4 15B在比较模型中实现了最佳性能,并且比最接近的分数提高了近30%。


机器翻译

如表10所示,Nemotron-4 15B的性能远远优于LLaMA-2 13B和Baichuan-2 13B,性能分别提高了90.2%和44.1%。

Nemotron-4 15B不仅在中文翻译成英文方面表现出色,而且在中文直接翻译成其他语言方面也能取得令人印象深刻的效果。

这种能力凸显了Nemotron-4 15B对广泛的自然语言的深刻理解。


参考资料:

https://arxiv.org/abs/2402.16819

相关内容

热门资讯

海南自贸港“样板间”抢抓开放机... 中新网海口5月16日电 (记者 王子谦)洋浦经济开发区是海南自贸港“样板间”,也是外界观察自贸港建设...
净利增速2.98%,违规频发!... 近期,中信银行2025年年报与2026年一季报接连公布,报告显示,中信银行总资产站稳10万亿元台阶,...
原创 放... 全网的人几乎都在挤破头往海外大都市扎,可有一个女博主,却偏偏反着来。她拥有五百多万粉丝,本可以继续在...
原创 在... 在中国,买卖虚拟货币,到底行不行? 这个问题,很多人心里都犯嘀咕。有人说,法无禁止即可为;也有人说,...
龙粤慈善事业高质量发展与互联网... 近日,为加快培育数字慈善新生态,助力“善行边疆”活动走深走实,“龙粤慈善事业高质量发展与互联网公开募...
黄金大局已定:不出意外的话,2... 在投资领域,贵金属一直是备受关注的资产类别,尤其是黄金,其价格走势和投资价值牵动着无数投资者的心。随...
后巴菲特时代,伯克希尔哈撒韦新... 【导读】伯克希尔哈撒韦最新持仓公布!清仓亚马逊,建仓达美航空 中国基金报记者 张舟 伯克希尔哈撒韦“...
布朗46分胡金秋20+8 广厦... 【搜狐体育战报】北京时间5月16日CBA季后赛,主场作战的浙江浙商证券以111-102击败深圳马可波...
美联储任命鲍威尔担任临时主席 美国联邦储备委员会理事会5月15日发布公告,任命杰罗姆·鲍威尔担任美联储临时主席,直至凯文·沃什宣誓...
李从悠:白癜风患者,夏季防汗疹... 夏季高温多雨,白癜风患者皮肤屏障受损,出汗后汗液无法及时蒸发,易堵塞毛孔,诱发汗疹(热疹),汗疹引发...
最低涨价60元!4款非标茅台酒... 在飞天茅台涨价之后,部分非标茅台酒也提了价。 5月16日早间,贵州茅台自营渠道i茅台发布公告,宣布对...
邯郸10亿共享智造基金落地,撬... 图片为AI生成 据天眼查App显示,近日邯郸市共享智造股权投资基金(有限合伙)正式登记成立,总出资额...
AI制药行业深度:行业概况、市... 一、AI制药行业概况 1、AI药物研发概述 AI制药是指将NLP、深度神经网络,生成模型等AI技...
世界杯在即:国产彩电的出海故事... 球还没看,彩电先破防了 撰文/ 孟会缘 编辑/ 陈邓新 排版/ Annalee 国产彩电品牌,正深陷...
医疗健康领域投融资日报(5月1... 据亿欧数据统计,昨日(2026年5月15日)共披露16起投融资事件,涉及15家国内企业,1家国外企业...
深圳中创商业咨询携手海旗控股集... 海旗控股集团旗下宁波锦曼程新材料有限公司,自创立以来始终深耕高分子材料领域,秉承推动行业创新与可持续...
原创 关... 前言 大家好,我是老金。 国际地缘博弈的棋盘上,从来没有绝对的秘密,只有刻意或无意的战略试探,近期...
原创 欧... 今天来给大家聊一下最近的欧盟,自从特朗普说要来访华,欧洲的动作有点让人看不懂。从四月中旬到五月初,欧...
心系投资者 携手共行动 ——人... 为落实监管工作要求,切实维护金融消费者合法权益,在 “5・15 全国投资者保护宣传日” 当天,人保寿...
黄仁勋打卡蜜雪冰城 同款产品销... 财联社5月16日讯(记者 沈娇娇)5月15日上午,英伟达CEO黄仁勋现身北京南锣鼓巷,并且进入一家蜜...