“如果把大模型比作火箭,算力就是发动机,而今天我们用的发动机,钥匙却挂在别人腰上。”上周新加坡一场闭门论坛,清华大学魏少军一句话让现场麦克风都安静了三秒。他没绕弯子,直接点名英伟达:继续把命脉押注在GPU上,中国AI迟早要体验“心脏停跳”是什么滋味。
这不是学术唠叨。美国新一轮出口管制把算力天花板往下又压了十厘米,A100、H100、B100依次被拉进黑名单,国内大模型团队只能把训练周期拉长三成,或者花双倍价钱去收“水货”。更尴尬的是,部分云厂商刚下单的H20被曝出“可能有后门”,消息一出,某头部大厂连夜把原定上线的千亿级模型回炉,重新拆卡、洗数据,烧掉几千万只是开胃菜,时间成本才是真正的肉疼。
魏少军把话挑明:GPU不是原罪,盲目崇拜才是。英伟达今天能横着走,核心只有两段历史,一是2006年CUDA横空出世,把图形芯片改成“通用打工人”;二是此后十年AI爆发,恰好需要大规模矩阵乘法,GPU像插了翅膀。但别忘了,这套架构最初是给游戏画面服务的,它并不是为Transformer而生,只是“够用且领先”就让整个行业陷入路径依赖。现在美国把门一关,大家才发现,原来自己住在别人的屋檐下,连装修资格都没有。
想搬家,得先找到新房子。魏少军给出的思路很干脆:别再把时间浪费在“如何仿制GPU”上,直接为大模型量身定制一颗ASIC,从晶体管阶段就写进注意力机制的计算特征,效率想不爆表都难。听起来像吹牛,但博通上周刚公布的财报却提供了现实样本:他们为北美云巨头做的定制AI芯片,实测推理性能对标H100,功耗还低18%,一口气拿下百亿美元订单。华尔街当天用股价表态:GPU垄断开始裂缝了。
国内其实也有人悄悄试水。年初DeepSeek发布新一代MoE模型,参数跳到1.3万亿,训练却只用了封锁名单之外的“寒武纪+华为昇腾”混合卡,全程没碰英伟达。知情人士透露,团队把算子拆到指令集层面重写,让数据在片内SRAM里多待5个时钟周期,带宽压力骤降,最终把训练成本砍掉42%。这件事验证了魏少军的判断:算法与芯片一旦“谈恋爱”,落后两代的制程也能打出王炸。关键是你得先敢拆GPU的“标准答案”。
当然,搬家不是搬个行李箱那么简单。国产EDA最尖端工具目前只能稳住7nm,再往下就要靠进口IP,流一次片5000万美元,失败就得再烧一轮;框架层面,TensorFlow和PyTorch虽然留了插件接口,但真要把算子映射到自家ASIC,还得自己写底层驱动,代码量以十万行起步。更头疼的是产能,台积电先进制程排期已经看到2026年,大陆晶圆厂愿意接单,也要面对良率爬坡的魔鬼曲线。任何一环掉链子,新房子就可能变烂尾楼。
有人担心:换道会不会把追赶时间拉得更长?魏少军用一句话回怼,“继续跟着GPU跑,你只会永远看见别人的尾灯。”打不了全场就先打半场。推理侧芯片就是突破口:任务单一、精度可控、对生态依赖小,先把推荐、搜索、安防这些高并发场景吃下,用市场利润反哺下一代训练芯片。只要现金流滚起来,资本自然敢陪跑流片。华为、阿里、百度今年陆续公布的ASIC路线图都指向同一逻辑:先让推理芯片“养活自己”,再冲击训练级大怪兽。
政策端也在给梯子。上周市场流出的一份征求意见稿显示,央企云采购将设“国产加速卡配额”,2025年起不低于30%,且按年度递增。别小看这条行政线,国内公有云增量的一半掌握在央企手里,一纸公文等于把百万张芯片订单直接塞进国产厂商口袋。有了确定的量,晶圆厂才敢扩产,EDA厂商才敢把预算砸进7nm以下工具链,开发者才敢放弃CUDA投奔新框架。算力自主化不是技术问题,而是市场信心问题,信心得靠订单喂出来。
回到最初那个比喻:火箭发动机。GPU是别人卖给我们的现货引擎,推力大却随时可能被叫停;ASIC是自己重新画图纸、自己开生产线的新引擎,推力可能暂时小一点,但每一颗螺丝都在自己仓库。魏少军没有承诺三年就能超车,他强调的是“把钥匙握在自己手里”,哪怕慢,也是往自由世界前进,而不是在别人的围墙上搭梯子。围墙一旦加高,梯子就会被抽走,这是过去几年芯片行业最血淋淋的教训。
夜深了,某些实验室的灯还亮着。工程师盯着7nm版图,一遍遍跑仿真,窗外是城市熄灭的霓虹;另一间办公室,产品经理把刚出炉的推理卡塞进服务器,开机那一刻,风扇声像起跑枪。没有人喊口号,他们心里都清楚,自己正在写的不是代码,也不是PPT,而是中国AI能不能把心脏安回自己胸膛的说明书。英伟达的GPU仍会是好工具,但再也不是唯一信仰。明天太阳升起来,新的流片数据就会送到魏少军的邮箱,他会打开附件,看看这颗“心脏”离第一次跳动还有多远。
上一篇:基金投顾规模“加速度”下的新抉择
下一篇:没有了