算力不足,小模型成AI模型发展下个方向? 算力不够可以训练ai模型吗 算力不足
admin
2024-04-24 17:19:16
0

文|新火种 一号 编辑|美美

大模型不是AI的唯一出路,把模型做小也是本事。

这段时间,AI模型界是真的热闹,新的模型不断涌现,不管是开源还是闭源,都在刷新成绩。就在前几天,Meta就上演了一出"重夺开源铁王座"的好戏。发布了Llama 3 8B和70B两个版本,在多项指标上都超越了此前开源的Grok-1和DBRX,成为了新的开源大模型王者。


并且Meta还透露,之后还将推出400B版本的Llama 3,它的测试成绩可是在很多方面上都追上了OpenAI闭源的GPT-4,让很多人都直呼,开源版的GPT-4就要来了。尽管在参数量上来看,相比Llama 2,Llama 3并没有特别大的提升,但是在某些表现上,Llama 3最小的8B版本都比Llama 2 70B要好。可见,模型性能的提升,并非只有堆参数这一种做法。

Llama 3重回开源之王

当地时间4月18日,"真·OpenAI"——Meta跑出了目前最强的开源大模型Llama 3。本次Meta共发布了两款开源的Llama 3 8B和Llama 3 70B模型。根据Meta的说法,这两个版本的Llama 3是目前同体量下,性能最好的开源模型。并且在某些数据集上,Llama 3 8B的性能比Llama 2 70B还要强,要知道,这两者的参数可是相差了一个数量级。


能够做到这点,可能是因为Llama 3的训练效率要高3倍,它基于超过15T token训练,这比Llama 2数据集的7倍还多。在MMLU、ARC、DROP等基准测试中,Llama 3 8B在九项测试中领先于同行,Llama 3 70B也同样击败了Gemini 1.5 Pro和Claude 3 Sonnet。


尽管在参数量上并没有特别大的提升,但毫无疑问,Llama 3的性能已经得到了很大的进步,可以说是用相近的参数量获得了更好的性能,这可能是在算力资源短期内无法满足更大规模运算的情况下所作出的选择,但这体现了AI模型的研发并非只有堆砌参数这一条"大力出奇迹"的道路。

把大模型做小正成业内共识

实际上,在Llama 3之间的两位开源王者,Grok-1和DBRX也致力于把模型做小。和以往的大模型,使用一个模型解决一切问题的方式不同,Grok-1和DBRX都采用了MoE架构(专家模型架构),在面对不同问题的时候,调用不同的小模型来解决,实现在节省算力的情况下,保证回答的质量。


而微软也在Llama 3发布后没几天,就出手截胡,展示了Phi-3系列小模型的技术报告。在这份报告中,仅3.8B参数的Phi-3-mini在多项基准测试中都超过了Llama 3 8B,并且为了方便开源社区使用,还特意把它设计成了与Llama系列兼容的结构。更夸张的是,微软的这个模型,在手机上也能直接跑,经4bit量化后的phi-3-mini在iPhone 14 pro和iPhone 15使用的苹果A16芯片上能够跑到每秒12 token,这也就意味着,现在手机上能本地运行的最佳开源模型,已经做到了ChatGPT水平。


而除了mini杯外,微软也一并发布了小杯和中杯,7B参数的Phi-3-small和14B参数的Phi-3-medium。在技术报告中,微软也说了,去年研究团队就发现,单纯堆砌参数量并非提升模型性能的唯一路径,反而是精心设计训练的数据,尤其是利用大模型本身去生成合成数据,并配合严格过滤的高质量数据,能够让中小模型的能力大幅跃升,所以他们也说,Textbooks are all you need,教科书级别的高质量数据才是重要的。

AI模型发展正着力于摆脱限制

自英伟达乘着AI的东风,成为行业内说一不二,当之无愧的"卖铲子的人",各家AI公司都将英伟达的GPU视为"硬通货",以致于谁囤有更多的英伟达的GPU,谁的AI实力就强。但英伟达的GPU的交付并未能始终跟上市场的需求。

因此,很多AI公司开始另谋出路,要么找其他的GPU生产商,要么决定自己研发AI芯片。即使你囤够了英伟达的GPU,也还有其他限制,OpenAI在前段时间就被爆出,因为训练GPT-6,差点把微软的电网搞瘫痪。马斯克也曾说过,当前限制AI发展的主要因素是算力资源,但在未来,电力会成为限制AI发展的另一阻碍。


显然,如果持续"大力出奇迹",通过堆砌参数量来实现AI性能的提升,那么以上这些问题迟早会遇到,但是如果把大模型做小,使用较小的参数量,实现同样或者更好的性能,那么将可以显著减少对算力资源的需求,进而减少对电力资源的消耗,从而让AI在有限资源的情况下,得到更好的发展。

因此,接下来,谁能在将模型做小的同时,还能实现性能的增长,也是实力的体现。

相关内容

热门资讯

三星内存工人或将获得280万人... 财联社5月21日讯(编辑 马兰)由于三星电子管理层与工会在最后一刻达成协议,避免了罢工,三星电子股价...
世界杯如何把一张门票卖成奢侈品 企业把世界杯当成全球顶级商务社交场,2023年-2026年周期,国际足联的票务收入首次超过商业赞助 ...
开出3万尺卖场,京东继续横扫香... 来源:源Sight 作者:白河 京东终于要把自家的线下“大卖场”京东MALL开到香港去了。 据多家媒...
加快完善中央银行制度!国常会讨... 5月21日,国务院总理李强主持召开国务院常务会议,研究推进全国统一大市场建设有关工作,审议通过《现代...
毕业人数历史新高,大城市却还在... 今年的毕业生人数要破纪录了,预计1270万人,和去年相比又增长了48万,再创历史新高。 按理来说,就...
28.5万亿美元——这是Spa... 全球太空探索领军者SpaceX最新发布的这份万众瞩目IPO招股说明书显示,其自行评估的SpaceX总...
乐聚智能冲击IPO,聚焦人形机... 2025年以来全球人形机器人行业进入爆发期,无论是企业数量,还是融资规模均实现跨越式增长。 据人形机...
年轻人把澡堂子玩成了社交顶配 ... 花上几百元,甚至上千元,到澡堂子待一天——这是时下最流行的休闲消费方式。当然,澡堂子们也把名字升级为...
原创 五... 无营生可做,无房产置办,也无心做任何投资,整日里就单纯陪着父亲左右度日。 这话是他说的,5月13日,...
合肥居家闲置黄金整理指南 轻松... 随着近年来黄金市场行情持续向好,合肥不少市民开始整理家中闲置的黄金首饰、金条等物品,希望通过合理处置...
廿载荣耀见证!52位券商领军者... 权威集结,见证行业标杆! 由证券时报主办的“2026中国证券业君鼎奖”活动即将进入专家评审阶段。本届...
小米YU7首战Model Y八... 快科技5月21日消息,今晚小米人车家全生态新品发布会上,雷军宣布正式推出小米YU7标准版,售价23....
小米跑车级SUV YU7 GT... 记者|李星 编辑|陈柯名 裴健如 杜恒峰 校对|程鹏 5月21日晚间,小米YU7 GT正式上市,售价...
霍尔木兹海峡封锁 日本原油进口... 据日本共同社5月21日报道,日本财务省21日公布4月贸易统计初值(通关口径)显示,从中东进口原油38...
鲍威尔任内最后一次会议纪要公布... 当地时间5月20日,美国联邦储备委员会公布的4月货币政策会议纪要表明,如果美国通胀持续高于目标水平,...
晚间开售,非标提价,茅台改革进... 出品|中访网 审核|李晓燕 5月18日,贵州茅台接连抛出两大市场动作,瞬间搅动白酒行业神经。继5月1...
海关律师、走私辩护律师邵丹:罗... 近日,罗湖海关查获旅客走私红酒3支。 某日,罗湖海关关员在对进境旅客进行监管时,发现一名男性旅客进...
原创 三... 目前全球所有的电子产品中,涨的最猛的,就是内存。 最近一年以来,平均涨了四五倍,内存厂商们是大赚特赚...
长鑫科技科创板IPO将于5月2... 观点网讯:5月20日,据上交所网站披露,上交所上市审核委员会定于5月27日召开2026年第27次上市...
345.68亿!上海S基金交易... 来源:看看新闻KNEWS 日前,由上海股权托管交易中心、上海科创中心股权投资基金管理有限公司联合主办...