林达华谈大模型发展之路:未来会有更高效的模型结构出现 林达华谈大模型发展之路:未来会有更高效的模型结构出现
admin
2024-03-24 17:27:28
0

·大模型的上下文长度快速增长,超长上下文解锁新应用,但推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。


上海人工智能实验室领军科学家林达华。

过去一年,人工智能领域风起云涌,模型架构、训练数据、多模态、超长上下文、智能体发展突飞猛进。大模型的技术演进路在何方?

3月24日,在2024全球开发者先锋大会的大模型前沿论坛上,上海人工智能实验室领军科学家林达华分享了对大模型的思考。他表示,大规模生产高质量数据是大模型研发机构的竞争力所在。当前主流的大模型无一例外都建立在Transformer架构堆叠的基础上,但产业界和学术界在不断探索更加高效的架构,随着验证逐渐成功,未来它们会慢慢进入产业界,带来模型架构新的黄金期。

林达华表示,在大模型时代,技术演进有两股主要的驱动力量,一方面是研究人员对通用人工智能的追求和对尺度定律(Scaling Law)的信仰,从而不断突破边界,寻求接近通用人工智能的道路。另一方面,产业界也看到了大模型带来产业革命的可能性,无数企业投入了巨大资源。两股力量交织,促成了人工智能行业的迅猛发展。过去一年,人工智能领域所取得的技术突破远远超过了过去十年甚至几十年的突破和进展。

在模型架构方面,当前主流的大模型无一例外都建立在Transformer架构堆叠的基础上,但林达华表示,这种架构的问题是对计算资源的消耗特别大,反观人脑的效率远高于主流大模型架构。人脑有大约100万亿个神经连接,远远超过现有大模型体量,但人脑的运行功率只有20瓦,而千亿参数模型的推理功率是它的百倍以上,处理的信息也更单一。

过去一年,产业界和学术界在不断探索更加高效的架构,其中MoE是宏观结构稀疏化的一种简单形态,经过良好训练的MoE可取得比同等激活参数量的稠密模型更好的性能。“但这仅仅是一个起点,未来还会有更加高效的稀疏模型结构出现。”林达华表示,这些架构现在还停留在学术研究阶段,但随着验证的逐渐成功,它们会慢慢进入产业界,从而带来模型架构新的黄金时期。

在训练数据方面,最初训练数据并不被认为是大模型训练最重要的要素。2022年,DeepMind的研究报告提到,模型的数据量要跟参数量同步增长,才能训练出最佳模式。“从那时候起,人们开始关注模型的数据。”林达华表示,去年一年,大模型的参数体量没有呈现指数级的增长速度,但无论是开源模型还是闭源模型,数据量增长了近一个数量级。

到去年中期,大家慢慢观察到数据质量扮演了越来越重要的角色,高质量数据对模型能力和模型天花板有重要的正面意义,“大规模生产高质量的数据是一个开放性的问题,也是大模型研发机构的竞争力所在。”林达华表示,好的数据要有多样性,单一数据对模型性能具有破坏性影响,“10%的带有重复模式的数据注入到训练集里,有可能会使得模型降级到原来1/2的体量。”

在多模态方面,多模态融合将成为重要技术趋势,但技术探索仍在路上。相比语言,多模态模型的训练多了一个重要维度,即图像和视频的分辨率对多模态模型最终的性能表现有重要影响。如果使用非常高的分辨率进行多模态的训练和推理,模型能够得到巨大提升,但高分辨率会带来高计算成本。“如何在高分辨率和合理计算成本之间取得最佳平衡,这为架构研究带来了很大的创新空间。”

在上下文方面,上下文长度快速增长。去年上半年,上下文基本处于4K水平。GBT-4突破到32K,今年3月,支持1M或更长上下文的模型出现。超长上下文解锁新应用,2K的上下文只能从事简单的聊天和短文分析;32K可以长时间对话,完成长文分析;上下文支持能力突破到1M时,就能阅读长篇小说,实现项目级的代码分析和构建。但超长上下文的推理计算代价高昂,上下文本身对于信息不会进行压缩,不能直接捕捉其中的深层知识和规律。

在智能体方面,随着GPT-4的突破,智能体在去年成为领域内的一个关注方向。林达华表示,智能体并不是一个简单的流程化过程,它需要建立在一个非常坚实的基础模型上,具有很强的指令跟随能力、理解能力、反思能力和执行能力。

在计算环境方面,林达华表示,芯片进入到后摩尔定律时代,未来算力会变成体量的拓展,越来越多的芯片连接在一起,建成越来越大的计算中心,支撑对通用人工智能的追求。最终瓶颈不再是芯片,而是能源。现在,小规格的大语言模型已具备较强性能水平和实用可能性,优秀的模型越做越小,可以进入到手机直接运行。林达华表示,端侧算力快速增长,端侧即将迎来黄金增长期,云端协同将成为未来重要趋势。

2024全球开发者先锋大会大模型前沿论坛由全球开发者先锋大会组委会指导,上海人工智能实验室及上海市人工智能行业协会共同主办。首届书生·浦源大模型挑战赛(春季赛)于现场揭晓比赛结果,同时启动2024浦源大模型系列挑战赛(夏季赛)。

相关内容

热门资讯

贷款也“拼团” 银行抢单忙 购物能“拼团”,贷款也能! 近日,一场“拼团融资”的银企对接活动在省工业和信息化厅拉开帷幕。 “贷款...
逛花展、赶市集、嗨直播!202... 5月23日 “2026北京直播电商购物月” 在丰台区丽泽金融商务区·2026北京国际花展 正式拉开帷...
2026中关村毕业季|AI“吃... “上帝会掷骰子吗?” 在联想未来中心的“与智者同场”展区,一位海淀学子对着屏幕问道。 爱因斯坦微微前...
原创 今... 今日为5月23日,国际现货黄金价格在4500美元/盎司整数关口附近徘徊不前,日内最低触及4480美元...
三连亏后变为“无主”状态,农尚... 从吴亮手中接盘农尚环境(300536)不足三年后,林峰如今让出了公司控制权,上市公司进入“无主”状态...
55岁湖南女首富出手!豪掷13... 快科技5月24日消息,与马斯克、库克并肩而坐,刚参加完国宴的湖南女首富周群飞就买了家上市企业。 近日...
外资加仓A股,岂是跟风这么简单... 熬过忙碌的交易日,在周末安静时段,理清接下来布局方向。本篇为大家准备了5条要闻,涵盖市场动态、行业变...
原创 俄... 在全球能源的残酷牌桌上,手里攥着石油,腰杆子才能硬气。长期以来,中东的沙漠、俄罗斯的冰原、美国的页岩...
喜力啤酒有产品将涨价,华润啤酒... 来源:红星新闻 红星资本局5月22日消息,今日,红星资本局从雪花啤酒(厦门)有限公司、华润啤酒方面获...
原创 金... 心理预期调整刻不容缓,五月二十二日,黄金价格或将重现十五年前的历史性低迷。 近期若您密切关注着黄金市...
原创 马... 埃隆·马斯克如果能让SpaceX实现“科幻小说”级别的目标,他可能获得1万亿美元的收入。 埃隆·马斯...
涨涨涨!放开限制、可加杠杆!这... 韩国股市站在风口上! 据最新消息,为吸引更多海外资金进入股市,韩国政府计划放开限制,允许境外投资者直...
下周9家上会丨科创板首单IPO... IPO及再融资上会预告 据交易所官网审核动态信息,下周(5.25-5.29)IPO上会审核6家企业,...
富途、老虎市值蒸发1/4!或被... 来源:金融时报 5月22日,中国证监会宣布依法对Tiger Brokers (NZ) Limited...
马爸爸的好兄弟钱多多搞了杀猪盘... *此图由AI生成 作者| 史大郎&猫哥 来源| 是史大郎&大猫财经Pro 上周四,港股经纬天地大崩盘...
原创 壳... 编辑:XL 国际能源圈最近炸开了锅,壳牌这家百年石油巨头在2026年3月与委内瑞拉政府正式签署多项油...
存储热潮愈演愈烈!奖金拿到手软... 财联社5月24日讯(编辑 卞纯)在席卷全球的存储芯片热潮中,韩国“存储芯片双雄”SK海力士和三星无疑...
揽牌、合作、生态,跨境支付头部... 近日,国内头部跨境支付机构密集落地海外重要布局,一方面,连连数字、PingPong两家公司相继在中东...
原创 帮... 老铁们,周末好!我是帮主郑重。刚扫了一眼下周的财经日历,好家伙,事件一个接一个,堪称“消息面轰炸周”...
海南省住建厅与中国石化海南石油... 5月22日,中国石化海南石油分公司代表、党委书记李新强、总经理蔡文东一行赴海南省住建厅拜访交流。省住...