中信证券:LLaMA3开源发布 喂入海量训练数据效果远超预期 中信证券:LLaMA3开源发布 喂入海量训练数据效果远超预期
admin
2024-04-23 11:14:29
0

智通财经APP获悉,中信证券发布研报称,Meta于北京时间2024年4月18日开源了最新的大语言模型LLaMA-3,提供了8B、70B和400B+三个版本的Dense模型。其中70B版本的性能已达GPT-3.5+水平,逼近GPT-4,而400B+版本有望进一步缩小与GPT-4的差距。LLaMA-3打破了业界对Chinchilla定律的认知,证实了通过持续喂入海量优质数据,即使是8B和70B的小模型也能获得超出预期的能力提升。这为通过小模型+大数据的模式在性能和效率间取得更好平衡提供了新思路。

LLaMA-3创新性地使用LLaMA-2模型对训练数据进行质量把控,但代价在于更加高昂的成本。在明确增加训练数据量是提升性能的最好方法的前提下,合成数据或将成为高质量数据获取的主要途径,其发展情况将直接影响开源与闭源模型的差距。商业化方面,Meta已将LLaMA-3应用于全新AI助手,并将通过Facebook、Instagram等平台和AR眼镜推出服务。国内厂商可通过中文化微调迅速获得接近GPT-4水准的基础模型。

综上,看好LLaMA-3引领的从应用层到算力层的认知智能变革,建议未来两个季度内年重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的。

中信证券主要观点如下:

技术迭代:架构小幅更新,性能显著提升

LLaMA-3在总体架构上延续了前代的Transformer结构,主要改进包括:1)Token词典从32K扩展到128K,增强编码效率2)支持长达8K tokens的上下文输入,但仍不及竞品3)引入Grouped Query Attention (GQA),提高推理效率。根据在MMLU、GPQA、HumanEval等数据集上的评测,LLaMA-3-70B的分数分别达到了82.0分、39.5分、81.7分表现已经超越了Claude-Sonnet、Mistral-Medium等同级别模型,基本达到GPT-3.5+的水平,逼近GPT-4。随后的LLaMA-3-400B+版本有望进一步缩小与GPT-4的差距,对标Gemini Ultra以及Claude3等模型。

重要突破:打破Chinchilla定律,小模型高效利用海量数据

LLaMA-3颠覆了业界对Chinchilla定律的认知。其8B、70B版本的训练数据规模分别高达15T和50T tokens,远超Chinchilla定律预测的8B规模最优数据量160B和70B规模最优数据量(1.4T)。这意味着,即使是固定规模的小模型,只要持续喂入优质数据也能获得类似对数线性的能力提升。这为性价比优化和开源生态发展开辟了新的思路,即通过小模型+海量数据的模式,也有望实现性能和效率的兼顾。在有足够优质数据喂养的前提下,中小模型未来的上限可能远超预期。

数据处理:创新性使用前代模型做质量把关,但成本高昂

LLaMA-3的训练数据来自Meta内部和外部,并经过了极其缜密的筛选、清洗流程,尤其创新性地使用了LLaMA-2模型本身作为数据质量分类器进行再次清洗。以LLaMA-2-70B的推理成本$1/1M tokens估算,光是对15T规模的数据进行质量把控,就需要耗资1500万美元。

可以预见,随着后续参数的急剧增长,传统的人工数据采集和清洗方式将难以为继,在高昂成本的推动下利用模型合成与清洗新数据是最有效的手段。LLaMA-3已经向我们表明对于当前的参数规模,不断扩大训练集大小仍然是最有效的Scaling手段,因此后续合成数据技术的发展情况直接决定了开源模型与闭源模型的差距。如果合成数据技术快速成熟,闭源模型公司能够通过资源与资本的优势不断扩充自己的数据集,在高质量合成数据方面与普通的开源模型拉开差距。

商业化落地:结合LLaMA-3发布新一代AI助手Meta AI

Meta已经将LLaMA-3应用到了其最新的AI助手产品Meta AI中。用户可以通过Facebook、Instagram等平台,以及即将推出的AR眼镜Ray-Ban,体验由LLaMA-3驱动的智能对话与任务协助服务。参考LLaMA3 8B模型对于同业其他小模型的显著优势,我们认为对于Meta在边缘端的布局可以投入更高的期待。对于国内厂商而言,LLaMA-3的开源无疑将是重大利好。通过对模型进行中文化微调改造,有望在较短时间内获得一个接近GPT-4水准的基础模型,用于支撑面向企业和个人用户的大模型应用。

投资策略:

LLaMA-3的发布打破了业界对Chinchilla定律的认知,证实了固定规模小模型也能通过增大优质数据量实现显著性能提升。这意味着高质量训练数据的获取成为后续大模型发展的关键。建议关注在合成数据、自动化数据优化等前沿技术领域有突破潜力的企业。

随着大模型体量增长,多模态能力和推理效率成为业界竞争新焦点。Dense架构在处理图像、视频等非结构化数据时效率较低,预计未来1-2年MoE等新型架构将成为主流。看好在这一方向有先发优势的厂商。此外,大模型推理成本和工程效率也是掣肘,建议关注算力芯片、加速卡、大算力平台等领域的科技公司。

商业化方面,Meta已将LLaMA-3应用于最新AI助手产品,成熟小模型与垂直场景结合有望催生新增长点。综上,看好LLaMA-3引领的大模型技术变革,从应用层到模型层再到算力层,认知智能提升将带来新一轮行业增长机会。未来3-5年,建议重点配置高质量训练数据构建、多模态大模型研发、MoE等新型架构创新、算力基础设施升级等领域的优质标的。

风险因素:

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

相关内容

热门资讯

原创 与... 作品声明:内容仅供参考,如有不适及时就医 双相情感障碍是一种长期的精神疾病,其特征是情绪波动剧烈,...
洛阳市孟津区筑牢基层网底 加强... 近日,记者从洛阳市孟津区卫生健康委获悉,孟津区以乡村一体化管理为主线,深化“乡聘村用”改革,强化大学...
原创 黄... 2月18日,国内黄金现货价1104元/克,白银18.9元/克,品牌零售价显著高于水贝批发价,周大福等...
“全款买房”和“贷款30年”,... 大家好,在进入正文之前,给大家做一个推荐。 我的一个设计师好友夏夏,从LXD离职后,经历过设计创业的...
港股马年首秀:智谱暴涨43%市... 大年初四(2月20日),当A股仍在享受春节假期时,港股已率先敲响马年交易的锣声。这匹"金融骏马"的首...
突发! 某大型国有汽车集团原董... 2026年2月,临近60岁法定退休年龄的方红卫终未等来功成身退。 从车间技术员到陕汽控股董事长,方红...
【首都除夕 护卫健康】最暖“年... 春节万家团圆、灯火可亲,而对于北京朝阳医院急诊医学中心的医护人员来说,这个节日往往意味着更重的责任与...
门窗紧闭容易“攒”出一身病,医... 过年了,走亲访友、家人团聚,屋里热热闹闹,门窗也关得严严实实。可待久了,不少人开始觉得头昏脑涨、胸闷...
全年减少6768亿元,3个现象... 开篇先给大家讲个故事,我一个发小在某个二线城市买了一套房,买房那一年正好是2019年,当时这个城市房...
德林控股宣布:德林证券已向合资... 深圳商报·读创客户端记者 李薇 2月20日,德林控股(01709)发布公告,宣布德林证券近日已向合资...
餐饮茶饮集体涨价:不是想涨,是... 最近几年,只要说起餐饮茶饮市场,几乎大家都在说的就是低价策略,这些年在行业内卷的情况下,各家企业都在...
深圳春节“悦己经济”持续升温 深圳商报·读创客户端首席记者 董思 “爱你老己”成为年轻人自我关怀的热梗,以情绪价值为核心的“悦己消...
港股马年开市:AI、机器人概念... 澎湃新闻记者 孙铭蔚 2026年马年首个交易日,港股三大股指低开低走,国产AI大模型、机器人等概念股...
银行理财“收益打榜”?监管出手... 备受关注的银行理财“收益打榜”现象,真的像一些媒体和研报预测的那样,引来监管出手纠偏了。 证券时报·...
原创 春... 2026年春节买金现场直击:国际金价在5000美元高位震荡,国内品牌金饰每克报价1529元到1562...
黄力晨:地缘紧张局势加剧 避险... 昨日周四我们认为,美伊谈判仅取得有限进展,俄乌会谈也无果而终,这导致市场避险情绪再度升温,避险买盘支...
港股马年开市现结构性行情,两大... 来源:21世纪经济报道 21世纪经济报道记者 黄子潇 A股尚处春节休市期,港股已抢先开市。 大年初四...
原创 2... 2026年2月,你走进周大福、老凤祥的柜台,为婚礼买下的那枚金饰,标签上赫然写着每克1550元。 几...
涨超40%!AI“新秀”爆发 2月20日,港股在马年首个交易日走弱,三大指数集体收跌。 Wind数据显示,截至收盘,恒生指数跌1....
大涨220.51% 【导读】三大AI大模型股齐创新高,智谱2月以来累计涨幅达220.51% 中国基金报记者 格林 2月2...