中信证券:LLaMA3开源发布 喂入海量训练数据效果远超预期 中信证券:LLaMA3开源发布 喂入海量训练数据效果远超预期
admin
2024-04-23 11:14:29
0

智通财经APP获悉,中信证券发布研报称,Meta于北京时间2024年4月18日开源了最新的大语言模型LLaMA-3,提供了8B、70B和400B+三个版本的Dense模型。其中70B版本的性能已达GPT-3.5+水平,逼近GPT-4,而400B+版本有望进一步缩小与GPT-4的差距。LLaMA-3打破了业界对Chinchilla定律的认知,证实了通过持续喂入海量优质数据,即使是8B和70B的小模型也能获得超出预期的能力提升。这为通过小模型+大数据的模式在性能和效率间取得更好平衡提供了新思路。

LLaMA-3创新性地使用LLaMA-2模型对训练数据进行质量把控,但代价在于更加高昂的成本。在明确增加训练数据量是提升性能的最好方法的前提下,合成数据或将成为高质量数据获取的主要途径,其发展情况将直接影响开源与闭源模型的差距。商业化方面,Meta已将LLaMA-3应用于全新AI助手,并将通过Facebook、Instagram等平台和AR眼镜推出服务。国内厂商可通过中文化微调迅速获得接近GPT-4水准的基础模型。

综上,看好LLaMA-3引领的从应用层到算力层的认知智能变革,建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的。

中信证券主要观点如下:

技术迭代:架构小幅更新,性能显著提升

LLaMA-3在总体架构上延续了前代的Transformer结构,主要改进包括:1)Token词典从32K扩展到128K,增强编码效率2)支持长达8K tokens的上下文输入,但仍不及竞品3)引入Grouped Query Attention (GQA),提高推理效率。根据在MMLU、GPQA、HumanEval等数据集上的评测,LLaMA-3-70B的分数分别达到了82.0分、39.5分、81.7分表现已经超越了Claude-Sonnet、Mistral-Medium等同级别模型,基本达到GPT-3.5+的水平,逼近GPT-4。随后的LLaMA-3-400B+版本有望进一步缩小与GPT-4的差距,对标Gemini Ultra以及Claude3等模型。

重要突破:打破Chinchilla定律,小模型高效利用海量数据

LLaMA-3颠覆了业界对Chinchilla定律的认知。其8B、70B版本的训练数据规模分别高达15T和50T tokens,远超Chinchilla定律预测的8B规模最优数据量160B和70B规模最优数据量(1.4T)。这意味着,即使是固定规模的小模型,只要持续喂入优质数据也能获得类似对数线性的能力提升。这为性价比优化和开源生态发展开辟了新的思路,即通过小模型+海量数据的模式,也有望实现性能和效率的兼顾。在有足够优质数据喂养的前提下,中小模型未来的上限可能远超预期。

数据处理:创新性使用前代模型做质量把关,但成本高昂

LLaMA-3的训练数据来自Meta内部和外部,并经过了极其缜密的筛选、清洗流程,尤其创新性地使用了LLaMA-2模型本身作为数据质量分类器进行再次清洗。以LLaMA-2-70B的推理成本$1/1M tokens估算,光是对15T规模的数据进行质量把控,就需要耗资1500万美元。

可以预见,随着后续参数的急剧增长,传统的人工数据采集和清洗方式将难以为继,在高昂成本的推动下利用模型合成与清洗新数据是最有效的手段。LLaMA-3已经向我们表明对于当前的参数规模,不断扩大训练集大小仍然是最有效的Scaling手段,因此后续合成数据技术的发展情况直接决定了开源模型与闭源模型的差距。如果合成数据技术快速成熟,闭源模型公司能够通过资源与资本的优势不断扩充自己的数据集,在高质量合成数据方面与普通的开源模型拉开差距。

商业化落地:结合LLaMA-3发布新一代AI助手Meta AI

Meta已经将LLaMA-3应用到了其最新的AI助手产品Meta AI中。用户可以通过Facebook、Instagram等平台,以及即将推出的AR眼镜Ray-Ban,体验由LLaMA-3驱动的智能对话与任务协助服务。参考LLaMA3 8B模型对于同业其他小模型的显著优势,我们认为对于Meta在边缘端的布局可以投入更高的期待。对于国内厂商而言,LLaMA-3的开源无疑将是重大利好。通过对模型进行中文化微调改造,有望在较短时间内获得一个接近GPT-4水准的基础模型,用于支撑面向企业和个人用户的大模型应用。

投资策略:

LLaMA-3的发布打破了业界对Chinchilla定律的认知,证实了固定规模小模型也能通过增大优质数据量实现显著性能提升。这意味着高质量训练数据的获取成为后续大模型发展的关键。建议关注在合成数据、自动化数据优化等前沿技术领域有突破潜力的企业。

随着大模型体量增长,多模态能力和推理效率成为业界竞争新焦点。Dense架构在处理图像、视频等非结构化数据时效率较低,预计未来1-2年MoE等新型架构将成为主流。看好在这一方向有先发优势的厂商。此外,大模型推理成本和工程效率也是掣肘,建议关注算力芯片、加速卡、大算力平台等领域的科技公司。

商业化方面,Meta已将LLaMA-3应用于最新AI助手产品,成熟小模型与垂直场景结合有望催生新增长点。综上,看好LLaMA-3引领的大模型技术变革,从应用层到模型层再到算力层,认知智能提升将带来新一轮行业增长机会。未来3-5年,建议重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的。

风险因素:

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

相关内容

热门资讯

持续打造一批具有国际辨识度的文... 5月21日,在2026深蓝媒体智库年度论坛上,北京市文化和旅游局二级巡视员杨连霞在致辞中表示,当前,...
差异化与自有品牌开发能力成考验 硬折扣超市调查之观点与展望 虽然硬折扣被多家企业看好,但这依然不是一块好啃的骨头。2024年,三只松...
原创 大... 银行柜台前的队伍,最近又长了起来。不是大爷大妈来取退休金,是一群中青年攥着身份证,咬牙凑齐20万,就...
金日观察 | 十年金价突破89... 来源:中国黄金网 很多读者在后台留言或私信,表示不理解有时发布内容看涨、有时看空,这里统一为大家解释...
原创 淘... 过去一年每次与朋友们讨论外卖大战,总要争个面红耳赤,我们多纠结在: 1)外卖大战开启之前,整个行业增...
超三成收入来自AI,联想全年营... 在人工智能的强势推动下,联想集团(HKSE:992;ADR:LNVGY)2025/26财年全年业绩首...
苏州一天新增两家上市公司! 今天(5月22日) 又有两家苏州企业携手登陆资本市场 其中 江苏朗信电气股份有限公司 在北京证券交易...
张江融资租赁公司揭牌并首单业务... 来源:市场资讯 (来源:租赁小哥) 日前,上海张江融资租赁有限公司(下称“张江租赁”)揭牌并实现首单...
原创 存... 最近去银行存定期的朋友,估计心里都凉透了。三年前,3年期定期存款还有3.3%的利率,10万块钱存进去...
Arm收涨16%!市值破300... 受全球AI算力需求暴涨推动,Arm总市值首次突破3000亿美元大关。 5月21日,Arm股价收涨16...
从各大城市“一季报”看中国经济... 上海北京GDP双双破万亿 武汉规上高技术制造业增加值增长45.4% 从各大城市“一季报”看中国经济韧...
81岁任正非突然登陆《新闻联播... 2026年5月8日晚,在央视《新闻联播》的镜头下,81岁,淡出公众视野许久的任正非,罕见地再次出现在...
江西油价调整!5月21日24时... 据央视新闻报道,5月8日国内成品油价格调整以来,国际市场原油价格震荡上行后有所回落,本次调价的前10...
原创 中... 提到中国最"可惜"的城市,很多人脑子里第一个蹦出来的就是汕头。这座粤东沿海小城曾经是1980年首批四...
原创 美... 一场席卷全球的债市抛售风暴正在上演,30年期美债收益率突破5%,刷新2007年以来最高纪录。经济学家...
长鑫科技董事长朱一明,自掏腰包... 国内DRAM(动态随机存取存储器)龙头企业长鑫科技集团股份有限公司(下称“长鑫科技”)日前更新科创板...
原创 签... 全球棋局,一步一新。我是老墨,与您纵览世界大势。 5月19日至20日,普京到中国访问,中俄连续敲定多...
三星内存工人或将获得280万人... 财联社5月21日讯(编辑 马兰)由于三星电子管理层与工会在最后一刻达成协议,避免了罢工,三星电子股价...
世界杯如何把一张门票卖成奢侈品 企业把世界杯当成全球顶级商务社交场,2023年-2026年周期,国际足联的票务收入首次超过商业赞助 ...