2023 年 6 月,英伟达市值刚刚站上 1 万亿美元;到了 2025 年 7 月,它成为全球首家市值突破 4 万亿美元的科技公司。再往后不到一年的时间,如今其已经逼近 5 万亿美元关口。
一家起家于显卡的公司,为什么能在 AI 时代一路“加速”,甚至改写全球市值的天花板?答案显然不只在 GPU 本身。
在最近一场长达 103 分钟的深度对话中,英伟达 CEO 黄仁勋接受知名主持人 Dwarkesh Patel 专访,集中回应了外界最关注的一系列问题:当软件被 AI 快速“商品化”,英伟达会不会也走向同样的命运?面对 Google TPU 的持续逼近,它的优势还能维持多久?在全球先进制程产能高度紧张的背景下,英伟达如何真正“锁住”供应链?以及一个更具争议的问题——如何看待芯片出口管制?
这些问题背后,指向的是同一个核心:英伟达的护城河,到底只是技术领先,还是一整套难以复制的产业能力。
在这场对话中,黄仁勋给出了非常直接的判断以及一些独特鲜明的看法,其表示:
输入是电子,输出是 token,中间就是英伟达。
如果未来几年市场规模达到万亿美元级别,英伟达是有供应链能力去承接的。
水管工和电工会成为 AI 行业“稀缺人才”。
曾经我并没有真正意识到,打造像 OpenAI、Anthropic 这样的顶级 AI 实验室有多困难,也没有意识到,这些实验室需要来自供应商的巨额投资。这是我的失误。
英伟达只做必要之事,尽可能少做额外之事。
如果世界分裂为两大生态:开源生态仅运行于外国技术栈,封闭生态依附于美国技术栈,这对美国而言将是极度愚蠢的结果。
认为中国无法获得 AI 芯片的说法,完全是无稽之谈。
原文采访地址:https://www.dwarkesh.com/p/jensen-huang
英伟达最大的护城河,是它对稀缺供应链的掌控吗?
Dwarkesh Patel:我们已经看到,一批软件公司的估值出现下跌,因为大家预期 AI 会让软件变成“同质化商 品”。有一种可能比较直观、但也有点天真的理解方式是这样的:你看,英伟达把一个 GDS2 文件 (集成电路或 IC 布局图稿电子设计自动化 (EDA) 数据交换的事实行业标准)交给台积电,由台积电来制造逻辑芯片和交换机,再和 SK 海力士、美光、三星生产的 HBM 一起封装。之后,这些组件被送到台湾的 ODM 厂商那里组装成整机机架。
从这个角度看,英伟达本质上是在做软件,而制造是由别人完成的。如果软件最终被“商品化”了,那英伟达会不会也被商品化?
黄仁勋:归根结底,总得有东西把“电子”层面的计算转化为“token”。而这个从电子到 token 的转化过程,以及让这些 token 随时间变得更有价值, 本质上是很难被完全商品化的。
从电子到 token 的转化,是一段非常不可思议的旅程。创造一个 token,就像是让一个分子比另一个分子更有价值,让一个 token 比另一个更有价值。为了让这个 token 具备价值,整个行业在其背后投入了大量的艺术、工程、科学和发明。我们现在正实时见证这一切的发生。这个转化过程、制造过程,以及其中涉及的所有科学原理,都远没有被完全理解,这条路也远远没有走完。所以我不认为它会变成一种简单的商品。
当然,我们会不断提升效率。你刚才描述问题的方式,其实和我看待我们公司的方式是一样的: 输入是电子,输出是 token,中间就是英伟达。
我们的工作,是在这个转化过程中“ 做尽可能多必要的事,同时尽可能少地做不必要的事”。所谓“尽可能少”,就是凡是不需要我们亲自做的部分,我们就和合作伙伴一起完成,把它纳入我们的生态体系。
如果你看今天的英伟达,我们可能拥有最大的合作伙伴生态之一——无论是上游供应链,还是下游的整机厂商、应用开发者、模型开发者。
如果把 AI 比作一个“”,我们在这五层里都有完整的生态布局。我们尽量少做,但那些必须由我们来做的部分,恰恰是极其困难的。我不认为这些核心能力会被商品化。
事实上,我也不认同“企业软件会被边缘化”的看法。现在的大多数软件公司,本质上都是“工具制造商”。当然,也有一些不是,比如工作流编排系统。但大量公司本质上是在做工具。举个例子,Excel 是工具,PowerPoint 是工具,Cadence 做的是工具,Synopsys 也是做工具。
而我看到的趋势,恰恰和很多人相反。我认为, Agent 的数量会指数级增长,而使用这些工具的“用户”数量也会指数级增长。换句话说,这些工具的使用实例数量,很可能会暴涨。比如,Synopsys Design Compiler 的使用实例很可能会大幅增加,同时使用 floor planner(布局规划工具)、版图工具、设计规则检查工具的 Agent 数量也会激增。
今天我们的瓶颈在于工程师数量,而未来,这些工程师会被大量 Agent 辅助。我们将以前所未有的方式探索设计空间,而所使用的,依然是今天这些工具。
我认为,正是“工具使用”的爆发,会推动软件公司的增长。之所以现在还没有发生,是因为 Agent 还不够擅长使用这些工具。接下来,要么这些公司自己去做 Agent,要么 Agent 本身变得足够强大,能够熟练使用这些工具。我觉得最终会是两者的结合。
Dwarkesh Patel:我记得在你们最近的财报中提到,英伟达在晶圆厂、内存和封装方面的采购承诺接近 1000 亿美元。SemiAnalysis 的报道甚至说,这类采购承诺可能会达到 2500 亿美元。
有一种解读是,英伟达真正的护城河,其实是你们锁定了未来几年大量稀缺的关键组件。也就是说, 别人或许也能设计出加速器,但他们真的能拿到足够的内存来生产吗?能拿到足够的逻辑芯片吗?这是不是英伟达未来几年的核心优势所在?
黄仁勋:这确实是我们能做到、而别人很难做到的事情之一。我们在上游做了非常巨大的投入和承诺。一部分是公开的,也就是你刚才提到的那些采购承诺;另一部分是隐性的。比如说,上游供应链中有大量投资,其实是我们的合作伙伴自己做出的。原因在于,我会和这些公司的 CEO 交流:“让我告诉你这个行业未来会有多大,我来解释为什么会这样,我们一起推演这个逻辑,我也会把我看到的趋势讲给你听。”
在这个“传递信息、激发信心、对齐认知”的过程中,上游各个行业的 CEO 会愿意投入资金。那为什么他们愿意为我投资,而不是为别人?因为他们知道,我有能力把他们的产能消化掉,并通过下游市场把产品卖出去。事实上,英伟达的下游需求规模非常大,我们的出货能力也很强,因此他们愿意在上游进行投入。
如果你看 ,很多人都会惊叹它的规模和参会者阵容。那其实是一个 360 度的全景——整个 AI 生态几乎都汇聚在一个地方,可谓包罗万象。之所以大家都会来,是因为他们需要彼此交流。
我把这些人聚在一起,让下游能看到上游,上游也能看到下游,同时让所有人都能看到 AI 的最新进展。更重要的是,他们还能接触到那些“原生 AI 公司”、各种 AI 初创企业,以及正在发生的各种创新,从而亲眼验证我平时告诉他们的那些判断。我花了大量时间,以直接或间接的方式,让我们的供应链、合作伙伴以及整个生态系统理解眼前的机会。
有些人会说:“Jensen,你的主题演讲总是一项接一项发布新东西。”但实际上,我们的 Keynote 有一部分听起来甚至有点“像在上课”,甚至有点“折磨人”。但这正是我有意为之。
我需要确保整个供应链,无论是上游还是下游以及整个生态,都能理解接下来会发生什么、为什么会发生、什么时候发生、规模有多大,并且能像我一样,用系统性的方式去推演这些事情。
至于你说的“护城河”,我们确实具备为未来构建能力的条件。 如果未来几年市场规模达到万亿美元级别,我们是有供应链能力去承接的。
如果没有我们现在这样的覆盖范围和业务运转速度——不仅仅是现金流,还有供应链的流动速度、库存周转——是做不到这一点的。没有人会为一种架构去建立完整供应链,除非这个业务本身的周转足够快、规模足够大。
我们之所以能够维持这样的规模,本质上是因为下游需求极其强劲。而这些需求,上游也看得到、听得到,他们知道这一切正在发生。正是这一点,让我们能够以现在这样的规模,去做我们正在做的事情。
Dwarkesh Patel:我想更具体地理解一下,上游供应链是否真的能跟上。过去很多年里,你们的营收几乎每年都在翻倍增长,同时每年向世界提供的算力(FLOPS)也在三倍以上增长。
黄仁勋:在现在这个规模下还能做到翻倍增长,其实已经非常惊人了。
Dwarkesh Patel:确实。但如果看逻辑层面,你们是台积电 N3 制程最大的客户之一,在 N2 上也是最大客户之一。而根据 SemiAnalysis 的数据,今年整个 AI 已经占到 N3 产能的 60%,明年可能会达到 86%。
如果你已经是市场里的主导者,要怎么实现“翻倍增长”?而且还是一年接一年地持续翻倍?我们现在是不是已经进入这样一种阶段:因为上游供给的限制,AI 算力的增长速度不得不放缓?你有没有看到绕开这种瓶颈的可能性?从根本上来说,我们要怎么做到每年把晶圆厂规模再扩大一倍?
黄仁勋:在某种层面上,全球在某一时刻的瞬时需求,确实已经超过了上下游的总供给。 甚至在任何一个瞬间,我们都可能被“水管工”数量限制住,这种情况确实发生过。
不过,这其实也是一种理想状态。你会希望处在这样一个行业里:瞬时需求大于整个行业的总供给。反过来的情况显然就没那么好了。如果供需差距拉得太大,或者某个关键环节严重短缺,那么整个行业就会“蜂拥而上”去解决它。比如你可以注意到,现在大家已经不太怎么讨论 CoWoS 了。
原因就是过去两年,我们对这个环节进行了大规模的“围攻式扩张”:翻倍、再翻倍、连续几轮翻倍。现在情况已经改善很多。台积电现在非常清楚,CoWoS 的供给必须跟上逻辑芯片和内存的需求。他们正在以和逻辑制程相同的节奏扩展 CoWoS 以及未来的封装技术。
这其实是件好事。因为在很长一段时间里,CoWoS 和 HBM 内存都属于“特殊工艺”,但现在它们已经不再是小众技术,而是主流计算基础设施的一部分。
当然,我们现在也更有能力去影响更大范围的供应链了。在 AI 革命刚开始的时候,我现在说的这些判断,其实五年前就已经在讲了。有些人相信并提前投入了,比如 Sanjay 和美光(Micron)团队。我还清楚记得当时那次会议,我非常明确地讲了这个行业会发生什么、为什么会发生,以及今天这些结果是怎么一步步走来的。他们选择了加大投入。我们在 LPDDR 和 HBM 内存上深度合作,他们也做了大规模投资,这对公司来说显然是非常成功的。有些人来得晚一点,但现在大家都已经进入这个体系了。
这些瓶颈问题都受到了高度关注。现在,我们正在提前数年预先解决这些瓶颈问题。比如过去几年,我们和 Lumentum、Coherent 以及整个硅光子生态系统的合作,已经在重塑供应链结构。我们围绕台积电构建了一整套供应体系,并与他们在 COUPE 等技术上合作,发明了很多新技术,还把相关专利授权给供应链,以保持整个生态的开放性。
我们通过发明新技术、新工作流、新测试设备(比如双面探测),以及对企业进行投资,帮助它们扩产,来提前准备供应链。你可以看到,我们其实是在主动塑造整个生态系统,让供应链能够承载未来的规模。
Dwarkesh Patel:看起来有些瓶颈比其他瓶颈更容易解决。
黄仁勋:其实我刚才已经说到最难的那个瓶颈了。
Dwarkesh Patel:哪个?
黄仁勋:水管工和电工。这其实也引出了我对“工作消失论”的担忧。有些人认为 AI 会终结工作、消灭就业。 但如果我们让年轻人不再愿意当软件工程师,那未来反而会出现软件工程师短缺。
十年前也发生过类似的预测。当时一些“末日论者”说:“千万别去做放射科医生,这个职业很快会被 AI 取代。”你现在还能在网上看到这些视频。但现实是,我们现在反而缺放射科医生。
Dwarkesh Patel:如果从制造角度看,要每年把逻辑芯片产能翻倍,但最终无论是内存还是逻辑,都被光刻(EUV)设备限制。那你们怎么做到每年 EUV 数量翻倍?
黄仁勋:这些东西其实都不是“无法扩展”的。只要有需求信号,在两三年时间内,它们都是可以扩展的。一旦你能造一台,就能造十台;一旦能造十台,就能造一百万台。这些都不是本质上难以复制的东西。
Dwarkesh Patel:那你们会往供应链下游推进到什么程度?你会直接去找 ASML 说:“如果三年后英伟达做到 2 万亿美元规模,我们需要更多 EUV 光刻机”吗?
我的核心观点是: 没有哪个瓶颈会持续超过两三年,所有瓶颈最终都会被解决。与此同时,我们还在不断提升计算效率——10 倍、20 倍,在 Hopper 到 Blackwell 之间甚至是 30 到 50 倍的提升。
我们还在通过 CUDA 的灵活性不断发明新算法、新技术,进一步提升效率。所以这些都不会让我担心。
真正让我更在意的是下游问题,比如能源政策。如果能源受限,就无法建立新的工业体系。你不可能在没有能源的情况下建立一个制造业帝国。
我们希望推动美国再工业化:把芯片制造、计算机制造、封装产业带回来,同时发展电动车、机器人,以及 AI 工厂。但这一切都离不开能源,而且能源基础设施的建设是非常长期的。
芯片产能扩张是两三年的问题,CoWoS 扩产也是两三年的问题。
TPU 会动摇英伟达在 AI 算力上的统治吗?
Dwarkesh Patel:我想聊聊你的竞争对手。如果看 TPU,你会发现世界上最顶尖的三个模型里,有两个——Claude 和 Gemini——都是在 TPU 上训练的。这对英伟达未来意味着什么?
黄仁勋:我们做的是完全不同的东西。英伟达构建的是“加速计算”,而不是某种单一的张量处理单元。加速计算可以用于非常多领域:分子动力学、量子色动力学、数据处理、结构化与非结构化数据分析,也可以用于流体力学和粒子物理。当然,也包括 AI。
加速计算的应用范围要广得多。虽然今天大家讨论的焦点是 AI,而且它确实非常重要,但计算本身的范围远不止于此。
英伟达所做的,其实是重新定义了计算方式——从通用计算转向加速计算。我们的市场覆盖面,远远大于任何 TPU 或 ASIC 能触及的范围。
如果看我们的定位,我们是唯一一家可以加速各种不同应用的公司。我们拥有一个极其庞大的生态系统,各种框架和算法都可以运行在英伟达平台上。
因为我们的计算机是设计给“别人来使用”的,所以任何运营者都可以购买并使用我们的系统。而很多自研系统并没有这种灵活性,它们往往只能自己用,因为没有为外部用户设计。
正因为任何人都能使用我们的系统,我们才得以进入所有云平台,包括 Google、Amazon、Azure 和 OCI。
如果你要把系统作为服务出租,那你必须拥有足够大的客户生态作为“下游承接”。如果是自用型部署,我们也可以帮客户自己运营,比如我们为马斯克和 xAI 做的那样。
无论是在企业内部、还是跨行业使用,我们都能支持运营,比如 Lilly 这样的公司,可以用我们的系统构建用于科学研究和药物发现的超级计算机,我们也能帮助他们运行这些系统,并支持整个药物研发和生物科学的计算流程。
我们能覆盖的应用场景非常多,这是 TPU 做不到的。英伟达的 CUDA 不仅可以当作优秀的张量处理工具,它还能覆盖数据处理、计算、AI 等整个生命周期。因此我们的市场机会更大,覆盖范围也更广。
现在,因为我们支持全球所有应用,你可以在任何地方构建英伟达系统,并且知道一定会有客户使用它。这是完全不同的一件事。
Dwarkesh Patel:你们的营收非常惊人,但并不是靠量子计算赚到每季度 600 亿美元的,而是因为 AI 这一前所未有的技术正在以极快速度增长。所以问题是:对 AI 本身来说,什么架构更优?
我和一些 AI 研究人员聊过,他们说:“TPU 是一个巨大的脉动阵列,非常适合做矩阵乘法;而 GPU 更灵活,适合有分支结构或不规则内存访问的情况。”
但 AI 本身不就是大量重复的矩阵乘法吗?如果是这样,你其实不需要为线程调度器、warp scheduler 或不同内存银行之间的切换浪费芯片面积。
TPU 看起来就是为当前 AI 计算爆发式增长的核心需求量身定制的。我想知道你怎么回应这种说法。
黄仁勋:矩阵乘法确实是 AI 的重要组成部分,但它不是全部。
如果你想设计一种新的注意力机制,用不同方式拆分计算,或者发明一种全新的架构——比如混合 SSM 模型——你需要的是一个“通用可编程”的架构。
如果你想把扩散模型和自回归模型融合在一起,你同样需要可编程的系统。我们可以运行你能想到的任何模型,这正是优势所在。
这种通用性让新算法的发明变得更容易,而 AI 的进步,本质上正是由算法创新驱动的。
TPU 和其他芯片一样,都受制于摩尔定律,大概每年提升 25%。但如果你想实现 10 倍甚至 100 倍的跃迁,就必须改变算法本身以及计算方式。
这正是英伟达的核心优势。Blackwell 到 Hopper 能做到 50 倍提升,这不是靠摩尔定律实现的。当我第一次说 Blackwell 会比 Hopper 节能 35 倍时,没人相信。后来有人甚至写文章说我“保守了”,其实是 50 倍。
这种提升不可能仅靠硬件工艺实现。
我们是通过新模型来做到的,比如 MoE(专家混合模型),把计算并行化、解耦并分布到整个系统中。
如果没有 CUDA 这种能力去深入开发新的 kernel,要做到这一点几乎是不可能的。
真正关键的是:我们架构的可编程性,以及 英伟达作为一个“极致协同设计公司”的能力。
我们甚至可以把计算下放到不同层级,比如 NVLink 互连层,或者 Spectrum-X 网络层,在处理器、系统、互联结构、库函数和算法多个层面同时优化。
如果没有 CUDA,我甚至不知道从哪里开始做这些事情。
Dwarkesh Patel:这引出了一个关于英伟达客户群体的有趣问题。你们 60% 的收入都来自这五大超大规模云服务商。在客户群体不同的另一个时代——比如做实验的教授们——他们离不开 CUDA,没法使用其他加速芯片,只需要搭载 CUDA 运行 PyTorch,让所有程序实现最优适配即可。
但这些超算服务商有足够的资源自行编写内核。事实上,为了在自身特定架构上榨取最后 5% 的性能,他们也必须这么做。Anthropic 和谷歌主要使用自研加速芯片,或是 TPU、Trainium 芯片。就连采用 GPU 的 OpenAI,也自研了 Triton,因为他们需要专属内核。他们摒弃了 cuBLAS 和 NCCL 库,转而使用 CUDA C++ 底层开发,搭建了一套可兼容其他加速芯片的自有技术栈。如果你的大部分客户都有能力、也确实在替代 CUDA,那么 CUDA 究竟在多大程度上,才是推动前沿 AI 依托英伟达平台发展的核心关键?
黄仁勋:CUDA 是一个庞大完善的生态系统。想要在任何计算机平台上开发产品,优先基于 CUDA 搭建都是极为明智的选择。因为这个生态足够丰富,我们支持所有主流框架。即便你想开发定制内核也没问题——比如我们就为 Triton 投入了大量技术支持,Triton 的后端集成了大量英伟达的核心技术。
我们乐于助力每一个框架发挥最大价值。市面上的框架数不胜数,除了 Triton,还有 vLLM、SGLang 等。如今还涌现出一批全新的强化学习框架,比如 Verl 和 NeMo RL。随着模型后训练与强化学习技术的发展,整个领域都在飞速扩张。因此,选择基于 CUDA 搭建技术架构是最合理的,你能享受到成熟完善的生态支持。
你会清楚,一旦程序出现问题,大概率是自身代码的漏洞,而非底层庞大代码库的故障。别忘了搭建这类系统时,你要处理的代码量极其庞大。当程序运行异常时,你总希望问题出在自己身上,同时能完全信任底层硬件。诚然,我们的系统也存在不少漏洞,但经过反复打磨优化,至少能为开发者提供稳固的开发基础。这是第一点:CUDA 生态的丰富性、可编程性与功能性。
第二点,对于任何开发者而言,最重要的莫过于庞大的装机量。你希望自己编写的软件能在海量设备上运行,而非仅服务于自身。作为框架开发者,你的产品是为自家服务器集群,乃至所有厂商的服务器集群服务的。英伟达的 CUDA 生态,正是我们最核心的财富。
目前我们的 GPU 装机量已达数亿台,各大云服务商均有部署,产品线覆盖 A10、A100、H100、H200,以及 L 系列、P 系列等多个型号,规格形态十分丰富。如果是机器人企业,还能让 CUDA 技术栈直接运行在机器人本体上。我们的产品几乎无处不在。庞大的装机量意味着,你开发的软件或模型,能在所有场景中发挥作用,这一价值无可估量。
最后一点,我们的产品覆盖所有云平台,这是独一无二的优势。对于 AI 企业或开发者来说,往往无法确定最终合作的云服务商,也不确定部署场景。而我们的技术能适配所有平台,也支持本地部署。正是生态的丰富性、装机量的广泛性,以及部署场景的灵活性,让 CUDA 具备了不可替代的价值。
Dwarkesh Patel:这很有道理。我真正好奇的是,这些优势对你的核心客户而言究竟有多重要。这类优势对很多人或许意义重大,但贡献你大部分收入的,恰恰是那些有能力自建软件栈的客户。尤其在未来,AI 在具备严密验证闭环、可进行强化学习的任务上会表现得愈发出色……如何写出能在大规模场景下最高效实现注意力机制或多层感知机计算的内核,这本身就是一个验证性极强的反馈闭环。
所有超大规模云服务商都能为自己编写这类定制内核吗?英伟达依然拥有出色的性价比,所以他们或许仍会选择英伟达。但问题在于,这会不会最终变成单纯比拼谁能在同等成本下提供更好的参数、更高的算力与内存带宽。而过去,英伟达凭借 CUDA 的护城河,在整个 AI 软硬件领域一直保持着业内最高的利润率,超过 70%。关键问题是, 如果你的大部分客户都有能力自建技术栈,不再依赖 CUDA 护城河,你还能维持这样的利润率吗?
黄仁勋:我们派驻到这些 AI 实验室的工程师数量极其庞大,全程与他们协作,优化其技术栈。原因很简单,没有人比我们更了解自己的架构。这类架构并不像 CPU 那样通用。CPU 就像一辆凯迪拉克,行驶平稳舒适,速度不会太快,谁都能轻松驾驶,配有定速巡航,一切都很简单。
但在很多层面上,英伟达的 GPU、加速芯片就像 F1 赛车。我想每个人都能把它开到一百英里每小时,但要将其性能压榨到极限,则需要极高的专业能力。我们运用大量 AI 技术来开发现有的内核。
我很确定 ,在未来相当长一段时间里,我们依然不可或缺。我们的专业技术常常能轻松帮助 AI 实验室合作伙伴将其技术栈性能再提升一倍。经过我们对其技术栈或特定内核的优化,模型速度提升 2 倍、3 倍甚至 50% 的情况屡见不鲜。
这是极为可观的提升,尤其考虑到他们所拥有的服务器集群规模,以及大量 Hopper 和 Blackwell 架构芯片。性能提升一倍,就意味着收入直接翻倍,这会直接转化为营收。
英伟达的计算栈拥有全球无可匹敌的最优总拥有成本性价比。没有任何一家厂商能向我证明,当下全球有任何一个平台的性能总拥有成本比我们更出色。一家都没有。事实上,现有基准测试已经说明了一切。Dylan 的 InferenceMAX 基准测试工具对所有人开放,却没有一家竞品参与……谷歌 TPU 参与,亚马逊 Trainium 也不参与。
我很欢迎他们使用 InferenceMAX,展示其所谓惊人的推理成本优势,但这实在太难了,没人愿意现身。还有 MLPerf 基准测试。我很期待 Trainium 能展示它们一直宣称的 40% 性能优势,也很想听听谷歌展示 TPU 的成本优势。在我看来这完全站不住脚,根本毫无道理。从基本原理上就说不通。
所以我认为我们如此成功的原因很简单,就是我们的总拥有成本极具优势。其次,你提到我们 60% 的收入来自前五家云厂商,但其中大部分业务都是面向外部客户的。比如 AWS 上的英伟达产品,绝大多数都服务于外部客户,而非内部使用。Azure 的客户显然也全部是外部客户,OCI 同样如此。他们青睐我们的原因,是我们的覆盖范围足够广,能为他们带来全球所有优质客户,而这些客户都基于英伟达平台构建。所有这些公司选择英伟达,正是因为我们的覆盖范围与通用性无人能及。
因此我认为,这一良性循环的核心在于庞大的装机量、架构的可编程性、丰富的生态系统,以及全球数量众多的 AI 公司——如今已有数万家。如果你是一家 AI 初创企业,你会选择怎样的架构?你一定会选择存量最充足的架构,而我们在全球的存量最大;你会选择装机量最广的架构,而我们的装机量遥遥领先;你也会选择生态最丰富的架构。
这就是飞轮效应。原因在于几点结合:第一,我们的单位成本算力极强,能实现最低的 token 成本;第二,我们的单位功耗算力全球领先。如果我们的合作伙伴搭建一座 1 吉瓦的数据中心,这座数据中心必须实现最大的营收与 token 产出,而 token 直接对应营收。企业都希望尽可能多地产出 token,最大化数据中心的营收。我们的架构是全球单位功耗产出 token 最多的。最后,如果你的目标是出租算力基础设施,我们拥有全球最多的客户。这就是这一循环能够成立的原因。
Dwarkesh Patel:如果性价比、性能、单位功耗性能等优势都如你所说属实,那为什么像 Anthropic 这样的公司,几天前刚宣布与博通、谷歌达成数吉瓦规模的合作,采用 TPU,且其大部分算力都依赖这些方案?
显然谷歌自身的算力也以 TPU 为主。所以我观察到,这些大型 AI 公司的算力布局,曾经一度完全依赖英伟达,如今却不再如此。我很好奇, 如果纸面数据都站在英伟达这边,他们为何还要选择其他加速芯片?
黄仁勋:Anthropic 只是个例,并非行业趋势。如果没有 Anthropic,谷歌 TPU 根本不会有任何增长,其增长完全 100% 依靠 Anthropic。
如果没有 Anthropic,亚马逊 Trainium 也不会有任何增长,同样 100% 依靠Anthropic。
我想这一点已是业内公认的事实。 专用定制芯片的市场机会并不多,只有 Anthropic 这一家客户。
Dwarkesh Patel:但 OpenAI 与 AMD 达成了合作……他们还在自研 Titan 加速芯片。
黄仁勋:没错,但我们都清楚,他们使用的算力绝大部分依然来自英伟达。我们今后仍会展开大量合作。我并不介意其他厂商尝试使用别的产品。如果他们不去试试其他方案,又怎么能知道我们的产品有多出色?有时候,对比反而能让人更清醒。我们也必须不断证明自己,才能守住现在的位置。
行业里从不缺少夸大其词的宣传。你看看有多少专用 ASIC 芯片项目最终被取消了。就算下定决心要做一款 ASIC……也必须做出比英伟达更优秀的产品才行。 想要超越英伟达,并没有那么容易,实际上也并不划算。
说真的,英伟达一定是在某些方面无可替代。凭借我们的规模和迭代速度,我们是全球唯一一家每年都能推出新一代产品的公司,而且每一代都实现巨大飞跃。
Dwarkesh Patel:我想他们的逻辑是:“我们不需要做得比你更好,只要性能差距不超过 70% 就行”,毕竟他们要为你 70% 的利润率买单。
黄仁勋:不对,别忘了,就算是 ASIC 芯片,利润率也相当高。就算英伟达的利润率是 70%,ASIC 的利润率也能达到 65%。你到底能省下多少钱?
Dwarkesh Patel:你是说博通这类厂商的利润率?
黄仁勋:没错。你总要向供应商付费。在我看来,ASIC 的利润率高得惊人。他们自己也很清楚这一点,甚至还对如此可观的 ASIC 利润率引以为傲。
回到你刚才的问题,原因其实很简单。在很早之前,我们并没有能力做到这一点。 那时候,我并没有真正意识到,打造像 OpenAI、Anthropic 这样的顶级 AI 实验室有多困难,也没有意识到,这些实验室需要来自供应商的巨额投资。我们当时没有能力向 Anthropic 投入数十亿美元,以换取他们使用我们的算力。但谷歌和 AWS 做到了,他们在初期投入巨额资金,作为交换,Anthropic 使用了他们的算力。我们在当时确实不具备这样的条件。
我认为这是我的失误,我没有深刻认识到他们当时别无选择——风投机构绝不会为一家 AI 实验室投入 50 到 100 亿美元,赌它能成长为今天的 Anthropic。这是我的疏忽。但即便我当时意识到了,以我们那时的体量,恐怕也无力做到。不过我不会再犯同样的错误。
我很乐意投资 OpenAI,帮助他们扩大规模,我也认为这至关重要。后来当 Anthropic 找到我们时,我也很高兴能成为投资方,助力他们发展。我们只是在最初阶段无能为力。 如果一切可以重来,如果当时的英伟达就拥有如今的规模,我一定会非常乐意参与投资。
英伟达为何不自己做超大规模云服务商?
Dwarkesh Patel:多年来,英伟达一直是 AI 领域赚钱、赚大钱的一方。现在你也在进行投资。据报道,你向 OpenAI 投资了高达 300 亿美元,向 Anthropic 投资了 100 亿美元。而如今这些公司的估值已经大幅上涨,而且我相信还会继续走高。
这么多年来,你们一直为它们提供算力,也看清了行业的发展方向。几年前,甚至在某些情况下一年前,这些公司的估值还只有现在的十分之一左右,而你们当时手握大量现金。其实完全存在另一种可能:要么英伟达自己成立一家大模型实验室,投入巨资把这件事做成;要么更早地以当时的估值达成现在这样的投资交易,而且你们完全有资金这么做。所以我其实很好奇,为什么没有更早行动?
黄仁勋:我们是在有能力行动的第一时间就做了。只要条件允许,我们早就动手了,如果可以的话,我还想更早。当年 Anthropic 需要我们出手投资的时候,我们当时根本不具备那样的条件,那样做也不符合我们当时的经营逻辑。
Dwarkesh Patel:具体是为什么?是现金流方面的问题吗?
黄仁勋:是的,是投资规模的问题。 我们当时从未对外进行过如此大规模的投资,也没有意识到有这个必要。我当时一直觉得,它们完全可以像其他所有公司一样,去找风投融资,这不是理所当然的吗?但后来才发现,它们想做的事情,靠风投根本做不成。OpenAI 想做的事,也不是风投能支撑起来的。这些我现在都明白了,但当时并没有意识到。
不过这也正是它们的过人之处,这就是为什么它们足够聪明。它们在当时就意识到必须走这样的路。我也很高兴它们这么做了。即便因为我们当时没能出手,导致 Anthropic 不得不转向其他投资方,我依然为这件事的发生感到高兴。Anthropic 的存在对整个世界都是好事,我由衷为此开心。
Dwarkesh Patel:我想你们现在依然赚得盆满钵满,而且每个季度的利润都在大幅增长。
黄仁勋:即便如此, 心里有遗憾也很正常。
Dwarkesh Patel:既然走到今天这一步,你们又持续获得巨额现金流,英伟达应该拿这些钱做什么?有一种思路是,现在已经出现了一整套中间生态,帮助这些 AI 实验室把资本支出转化为运营支出,让它们可以租用算力。因为芯片本身非常昂贵,而随着 AI 模型不断优化,芯片在整个生命周期里能创造极高的价值。它们生成的 token 价值在不断提升,但前期搭建成本极高。英伟达完全有资金承担这类资本支出。事实上,有报道称,你们为 CoreWeave 提供了最高 63 亿美元的资金支持,并直接投资了 20 亿美元。
那英伟达为什么不自己做云服务商?为什么不亲自成为超大规模云厂商,直接对外出租算力?你们完全有足够的现金去做这件事。
黄仁勋:这是公司的经营理念,我认为这一理念是明智的: 只做必要之事,尽可能少做额外之事。对于构建我们的计算平台这件事,如果我们不去做,我确信就不会有人做成。如果我们没有承担那些风险——没有按现在的方式打造 NVLink,没有搭建完整的技术栈,没有构建如今这样的生态,没有在长达 20 年里持续投入 CUDA、即便大部分时间都在亏损——如果我们没做这些,就不会有其他人来做。
如果我们没有开发出所有 CUDA-X 库,没有让它们覆盖各个专业领域……十五年前,我们就开始推进领域专用库,因为我们意识到,如果我们不开发这些库,无论是光线追踪、图像生成,还是早期的 AI 模型、数据处理、结构化数据处理、向量数据处理, 都不会有人去做。对此我十分确定。我们还开发了一个用于计算光刻的库 cuLitho,如果我们不做,也不会有其他人做。 所以说,如果没有我们的努力,加速计算就不会取得今天这样的进展。
这些事我们必须做。我们应该倾尽全力、全身心投入去做这些事。 但另一方面,做云服务的厂商已经有很多了,就算我们不做,也会有别人来做。因此,秉持“只做必要之事,尽可能少做”的理念,至今仍是公司的核心准则。我做任何决策,都会遵循这一原则。
说到云服务,如果我们没有扶持 CoreWeave 这类新兴 AI 云厂商,它们根本不会存在。如果没有我们的支持,CoreWeave 不会走到今天;Nscale、Nebius 也一样。而现在它们都发展得非常出色。
这算是一种商业模式吗?我们的原则依然是只做必要之事,尽可能少做。我们投资生态,是希望生态能够繁荣发展,希望我们的架构、AI 技术能够触达更多行业、更多国家,让整个世界都能建立在 AI 和美国技术栈之上。这正是我们追求的愿景。
你刚才提到的一点是,现在有很多优秀的大模型公司,我们会尽量投资所有这些公司。这也是我们的做法之一: 我们不押注某一家赢家,而是支持所有人。这既是我们乐于做的事,也对我们的业务至关重要。我们刻意避免偏袒任何一方,投资其中一家,就会投资所有同类公司。
Dwarkesh Patel:你为什么刻意不押注赢家?
黄仁勋:首先,这不是我们该做的事。其次,英伟达刚成立时,市场上有 60 家 3D 图形公司,最后只有我们活了下来。 如果当时让你从这 60 家里挑谁能成功,英伟达大概率会是最不被看好的那一个。
那是很早以前的事了,当时英伟达的图形架构可以说是完全走错了方向,不是小问题,而是根本性错误,开发者根本不可能支持这样的架构,基本没有成功的可能。我们当时基于合理的底层逻辑做了推导,最终却得出了错误的方案。 所有人都不看好我们,但我们还是走到了今天。
所以我足够谦逊,也清楚这一点: 不要去挑选赢家,要么让它们各自发展,要么就全部支持。
Dwarkesh Patel:有一点我不太理解:你说“我们扶持这些新兴云厂商,不只是因为它们是新玩家就刻意扶植”,但你又列举了好几家,说没有英伟达它们就不会存在。这两种说法怎么能自洽?
黄仁勋:首先,它们自己要有生存下去的意愿,主动来找我们寻求帮助。它们要有商业计划、专业能力和创业热情,自身显然也要具备一定实力。但如果最终它们需要一些投资才能起步,我们就会伸出援手。当然,我们也希望它们能尽快跑通自己的商业飞轮。
你的问题其实是“我们想做金融投资生意吗?”答案是否定的。市场上有专门做金融投资的机构,我们更愿意和这些机构合作,而不是自己变成投资方。我们的目标是专注于自身业务,保持商业模式尽可能简洁,同时扶持好整个生态。
像 OpenAI 这样的公司,在 IPO 之前需要 300 亿美元规模的投资,而我们深度信任它们,我坚信它们会成为……它们现在已经是一家非凡的公司,未来更会成就卓越。世界需要它们存在,也希望它们存在,我个人也希望它们发展壮大。它们正处于上升期,我们理应支持它们扩大规模。这类投资我们会做,因为它们确实需要我们的帮助。但我们不会追求尽可能多的投资,而是尽可能少做。
Dwarkesh Patel:这个问题可能很直白,但这么多年来 GPU 一直处于短缺状态,而且随着模型效果越来越好,短缺情况还在加剧。
黄仁勋:我们的 GPU 确实供不应求。
Dwarkesh Patel:没错。英伟达在分配稀缺产能时,并不是只看谁出价更高,还会考虑“我们要让这些新兴云厂商活下来,分给 CoreWeave 一些,分给 Crusoe 一些,分给 Lambda 一些”。这么做对英伟达有什么好处?首先, 你认同这种“拆分市场、多方分配”的说法吗?
黄仁勋:不认同。你的前提本身就是错的。我们在这些事情上考虑得非常周全,也十分谨慎。首先,如果你不下采购订单,说再多都没用。没有采购订单,我们什么都做不了。所以第一步,我们会和所有客户全力沟通,做好需求预测,因为芯片生产周期很长,数据中心建设也需要很久。我们通过预测来平衡供需,这是首要工作。
其次,我们会尽可能和更多客户做预测。如果你的数据中心还没建好,或是某些配件没到位,无法立刻启用算力,我们可能会先把产能分配给其他已经就绪的客户。这只是为了最大化工厂的出货效率,会做一些调整。
除此之外,优先级基本就是先到先得。你必须下采购订单,不下单就没用。当然外界有很多传言,比如有文章说拉里·埃里森(Oracle 董事长)和埃隆·马斯克跟我一起吃饭,求我给 GPU。这事根本没发生。我们确实一起吃了饭,气氛也很好,但他们从来没有求过 GPU,只需要正常下单就行。一旦下单,我们会尽力为他们协调产能。我们的规则并不复杂。
Dwarkesh Patel:明白了。听上去是有排队顺序,根据数据中心是否就绪、下单时间来分配,而不是价高者得。这么做是有什么特别原因吗?
黄仁勋:我们从来不会价高者得。绝对不会。
Dwarkesh Patel:为什么不直接价高者得?
黄仁勋:因为这是很差的商业做法。我们定好价格,客户自主选择买或不买。我知道芯片行业有些公司会在需求高涨时涨价,但我们不会,这从来不是我们的行事方式。大家可以信赖我们。我更愿意做一个可靠的伙伴,做整个行业的基石。你不需要去猜测揣摩,我给你报了价,就是这个价。就算需求暴涨,也不会变。
Dwarkesh Patel:从另一方面说,这也是你们和台积电合作顺畅的原因,对吧?
黄仁勋:是的。英伟达和台积电合作就要满 30 年了。 我们之间甚至没有正式法律合同,更多是一种默契与公道。有时候我占优,有时候他们占优;有时候我们拿到更好的条件,有时候则一般。但整体来看,这段合作关系无与伦比,我完全可以信任他们、依靠他们。
大家可以放心的一点是,今年我们会推出非常强大的 Vera Rubin,明年会有 Vera Rubin Ultra,后年是 Feynman,再之后的产品名称我还没公布。每一年,你都可以信赖我们会有新一代产品问世。你去找世界上任何一家做专用芯片的团队试试看,有没有哪家能让你放心押上全部身家、相信他们每年都能如期交付,相信 token 成本每年都会大幅下降,像钟表一样稳定可靠。
我刚才说到台积电,历史上也没有其他代工厂能做到这一点。但今天的英伟达可以。你每年都可以信赖我们。你想采购十亿美元的 AI 算力,没问题;一亿美元,没问题;一千万美元,甚至只是一个机柜,都没问题;就算只买一张显卡,也没问题。就算你想下单一千亿美元的 AI 算力工厂,我们也接得住。目前全球只有我们一家公司能做到这一点。
台积电也是如此。买一颗芯片,还是十亿颗,都没问题,我们只需要走规划流程,用成熟的方式推进合作。英伟达能成为全球 AI 产业的基石,这个地位是我们花了几十年时间、付出巨大投入与专注才换来的。公司的稳定、行事的一贯性,至关重要。
如何看待中国芯片技术?
Dwarkesh Patel:就在几天前,Anthropic 发布了 Mythos Preview。这款 Mythos 模型甚至没有公开发布,因为其具备极强的网络攻击能力,他们认为在修复所有零日漏洞之前,世界还未做好接纳它的准备。该模型在各大主流操作系统、主流浏览器中发现了数千个高危漏洞,甚至在专为防范零日漏洞设计的 OpenBSD 系统中,找到了一个已存在 27 年的漏洞。
那么,如果中国企业、中国实验室能够获得 AI 芯片,训练出具备此类网络攻击能力的 Claude Mythos 级模型,并凭借更充足的算力运行数百万个实例,这是否会对美国企业构成威胁?
黄仁勋:首先,Mythos 的训练所使用的算力规模相当普通,只是研发团队极为出色。其训练所需的算力类型与总量,在中国完全可以轻松获得。你必须先认清一个事实: 中国本身就拥有大量芯片。
他们生产了全球 60% 以上的主流芯片,这是一个规模庞大的产业。他们拥有全球顶尖的计算机科学家,你也清楚,全球各大 AI 实验室中,半数研究人员都来自中国,中国占据了全球 AI 研究者的半壁江山。
所以问题在于,考虑到他们已掌握的各类资源——充沛的能源、充足的芯片、绝大多数 AI 研究者——如果你真的对此感到担忧,怎样做才能构建一个安全的世界?
打压他们、将其塑造成敌人,显然不是最优解。他们确实是竞争对手,我们也希望美国能够胜出。但我认为, 开展对话与学术交流,或许才是最安全的方式。而由于当前我们将中国视为对手的态度,这一关键领域的交流严重缺失。美国的 AI 研究者与中国的 AI 研究者必须保持沟通,双方必须就 AI 的禁用场景达成共识,这一点至关重要。
至于利用 AI 查找软件漏洞,这本就是 AI 的应有功能。它必然会发现大量软件漏洞,毕竟软件中本就存在无数漏洞,AI 系统自身也不例外。我很高兴 AI 已经发展到能大幅提升我们工作效率的水平。
有一点常常被忽视:围绕网络安全、AI 安全、隐私保护与 AI 伦理的生态体系极为丰富。大量 AI 初创企业正在构建未来安全格局——一个超强 AI 主体,由数千个 AI 智能体守护其安全,这一未来必然会实现。
放任一个无人监管的 AI 智能体肆意运行,这种想法本身就很荒谬。我们深知,这一生态需要蓬勃发展,而它离不开开源技术、开源模型与开源技术栈,只有这样,全球优秀的 AI 研究者与计算机科学家才能构建出强大且安全的 AI 系统。因此,我们必须确保开源生态充满活力,这一点不容忽略。而大量开源成果正来自中国,我们不应扼杀这一生态。
针对中国问题,我们当然希望美国拥有尽可能充足的算力。目前我们受限于能源供应,但已有大量团队着手解决,绝不能让能源成为国家发展的瓶颈。同时,我们更要确保全球 AI 开发者都基于美国技术栈开展研发,让 AI 领域的进步——尤其是开源成果——反哺美国生态。 如果世界分裂为两大生态:开源生态仅运行于外国技术栈,封闭生态依附于美国技术栈,这对美国而言将是极度愚蠢的结果。
Dwarkesh Patel:没错,中国拥有算力,但有估算显示,由于芯片制造出口管制,他们无法获得 EUV 光刻机,只能生产 7nm 工艺芯片,实际可用算力仅为美国的十分之一。
那么,他们最终能否训练出 Mythos 级别的模型?答案是肯定的。但关键在于,美国凭借更充足的算力,实验室能率先突破这类技术。就像 Anthropic 率先研发出 Mythos,他们选择先保密一个月,向美国企业开放权限,协助修复所有漏洞后再公开发布。
此外,即便他们训练出同类模型,规模化部署能力也至关重要。对于网络攻击而言,拥有一千个实例与一百万个实例,危险程度天差地别,推理算力的作用极为关键。事实上,中国拥有大量顶尖 AI 研究者,这一点反而更令人担忧——决定这些研发人员效率的核心,正是算力。
你去询问美国任何一家 AI 实验室,他们都会说算力是最大瓶颈。深度求索(DeepSeek)创始人、通义千问团队负责人等都曾表示,算力制约了他们的发展。那么问题来了:让拥有更多算力的美国企业率先突破 Mythos 级技术,为社会做好防御准备,再等到算力较弱的中国追赶上来,这样难道不是更安全吗?
黄仁勋:我们理应始终保持领先,拥有更多算力。但你描述的理想场景,需要将对方的算力压制到零才能实现。只要他们拥有一定规模的算力,核心问题就变成:究竟需要多少算力才能达成目标?
中国的算力规模极为庞大,是全球第二大计算市场。如果他们整合现有算力,完全能够汇聚出惊人的总量。
Dwarkesh Patel:事实真的如此吗?
黄仁勋:我来说明真相。中国的能源储备极为充足,不是吗?AI 本身是并行计算问题,既然能源成本低廉,他们为什么不能用四倍、十倍数量的芯片堆叠算力?只要愿意,即便只是 7nm 芯片,他们也能通过大规模集群实现算力突破。
他们的芯片制造能力位居全球前列,半导体行业都清楚,他们垄断了主流芯片市场,产能甚至出现过剩。 认为中国无法获得 AI 芯片的说法,完全是无稽之谈。
当然,如果你问我,若全球其他国家完全没有算力,美国是否会更具优势?答案是肯定的,但这根本不现实。中国早已拥有充足算力,远超你所担忧的风险阈值。
我认为你误解了 AI 的五层架构,最底层便是能源。能源充足可以弥补芯片性能短板,芯片充足也能抵消能源限制。比如美国能源供应紧张,这也是英伟达持续迭代架构、推进极致协同设计的原因——在能源有限、芯片出货量受限的情况下,实现极致的每瓦算力。
但如果能源近乎无限、成本低廉,每瓦性能便不再重要。即便使用老旧芯片也足够应对,7nm 芯片的性能基本等同于 Hopper 架构。要知道,当前主流模型大多基于 Hopper 架构训练,7nm 芯片完全够用。充沛的能源,正是他们的核心优势。
Dwarkesh Patel:但问题在于,他们能否制造出足够数量的芯片。
黄仁勋:他们完全可以。证据就在眼前:华为刚刚创下公司史上最佳年度业绩。
Dwarkesh Patel:但这无法改变一个事实:最先进的 HBM 芯片必须依赖 EUV 光刻机制造。
黄仁勋:这一说法完全错误。他们可以像我们通过 NVL72 技术互联芯片一样,将大量芯片集群联动,而且他们已经展示了硅光互联技术,能够将所有算力整合为一台巨型超级计算机。
事实是,中国的 AI 研发进展十分顺利。全球最顶尖的 AI 研究者,在算力受限的情况下,反而研发出了极为精妙的算法。我之前提到过,摩尔定律每年推进约 25%,而优秀的计算机科学能让算法性能提升 10 倍。也就是说,顶尖的算法研发才是核心驱动力。
混合专家模型(MoE)无疑是伟大发明,各类注意力机制也有效降低了算力消耗。我们必须承认, AI 领域的大部分进步源于算法突破,而非单纯的硬件升级。如果大部分进展来自算法、计算机科学与编程实现,那么中国庞大的 AI 研究者队伍,就是他们的核心优势。DeepSeek 的突破绝非小事。
Dwarkesh Patel:为什么这么说?目前像 DeepSeek 这样的开源模型,可以在任何加速芯片上运行,未来为何会改变这一现状?
黄仁勋:假设未来不再兼容,假设模型专为中国架构优化,我们的技术栈就会陷入劣势。你刚才描述的场景,在我看来本是好消息:一家企业研发的 AI 模型,最优运行于美国技术栈。但你却将其预设为坏消息。而我要告诉你真正的坏消息:如果全球 AI 模型都最优适配非美国硬件,对我们而言将是巨大危机。
Dwarkesh Patel:我没有看到任何证据表明,芯片之间的迁移存在巨大壁垒。美国实验室的模型本就可以在各大云平台、各类加速芯片上运行——
黄仁勋:我就是最好的证据。你把专为英伟达优化的模型放到其他芯片上运行试试。
Dwarkesh Patel:但美国实验室确实在这么做。
黄仁勋:但性能绝不会更优。英伟达的成功就是最有力的证明:AI 模型基于我们的技术栈研发,也在我们的平台上表现最佳,这一逻辑难道难以理解吗?
Dwarkesh Patel:Anthropic 的模型既能在 GPU 上运行,也能适配 Trainium 与 TPU。
黄仁勋:这需要投入大量工程资源进行适配。但放眼全球南方国家、中东地区,如果开箱即用的 AI 模型都最优运行于他国技术栈,你还要坚称这对美国有利,那未免太过荒谬。
Dwarkesh Patel:我还是无法理解你的逻辑。假设中国企业率先研发出下一代 Mythos 模型,率先发现美国软件的安全漏洞,即便他们使用英伟达硬件开展研究,并将模型推向全球市场,这对我们有什么好处?
黄仁勋:没有任何好处。
Dwarkesh Patel:没错。
黄仁勋:这绝不是好事,我们必须避免这种情况发生。
Dwarkesh Patel:你为何认为芯片完全可替代?如果我们不向其出售算力,他们就只能使用自己的芯片。
黄仁勋:这一观点完全站不住脚,现实证据就摆在眼前:中国的芯片产业规模极为庞大。
Dwarkesh Patel:你的核心论点是,他们拥有充足的待利用能源,需要用芯片填满这些算力基础设施。
黄仁勋:而且他们擅长制造芯片。
Dwarkesh Patel:我相信他们最终有望实现产能超越,但关键就在未来这几年。
黄仁勋:你所说的关键年份,具体是指什么?
Dwarkesh Patel:未来几年。即将出现能够实施大规模网络攻击的 AI 模型。
黄仁勋:如果未来几年至关重要,我们就更要确保,在这一关键时期,全球所有 AI 模型都基于美国技术栈研发。
Dwarkesh Patel:即便基于美国技术栈研发,又如何阻止他们凭借更先进的技术,发起等同于 Mythos 的网络攻击?
黄仁勋:这一点没有绝对的保障。
Dwarkesh Patel:但我们率先掌握技术,就能提前做好防御。
黄仁勋:你想想,为什么要牺牲 AI 产业的一个环节,去成全另一个环节?AI 产业有五大层级,每一层都必须成功,其中最关键的其实是 AI 应用层。你为何要执着于单一模型、单一公司?这毫无意义。
Dwarkesh Patel:因为正是这些模型催生出了极强的攻击性能力,而运行它们需要算力支撑。
黄仁勋:真正起作用的是能源、芯片,以及庞大的 AI 研究者生态。
Dwarkesh Patel:但 AI 既能用于正面用途,也能带来危害。但如果这份算力能跑起一个可以对全美软件发起零日漏洞攻击的模型,这怎么不算一种武器?
黄仁勋:首先,解决这个问题的方式,是和研究者对话、和中国对话、和所有国家对话,确保人们不会以这种方式滥用技术。这种对话必须发生,明白吗?这是第一点。
第二,我们也要确保美国保持领先,确保 Vera Rubin、Blackwell 这些架构在美国海量部署、充足供应。显然我们的成果已经说明了这一点,供应极其充裕。我们拥有强大的算力、顶尖的 AI 研究者,我们理应保持领先。
但同时我们也必须认识到,AI 不只是模型。AI 是一个五层架构,每一层都至关重要,我们希望美国在每一层都赢,包括芯片层。长期来看,放弃整个市场,不可能让美国在芯片层、在计算技术栈上赢得科技竞赛。这是不争的事实。
Dwarkesh Patel:那核心问题就变成:现在向他们出售芯片,如何帮助我们长期取胜?特斯拉长期向中国出售非常优秀的电动车,iPhone 也在中国热销,产品都很出色,但并没有形成锁定。中国依然造出了自己的电动车,而且占据主导,智能手机也是一样。
黄仁勋:我们今天对话一开始,你就承认英伟达的地位截然不同,你还用了“护城河”这个词。对我们公司而言,最重要的就是以开发者为核心的繁荣生态,而全球 50% 的 AI 开发者都在中国。美国不应该放弃这部分资源。
Dwarkesh Patel:但美国也有大量英伟达开发者,这并不妨碍美国实验室未来使用其他加速芯片。事实上,他们现在就在混用其他芯片,这本身没问题。我不明白为什么在中国就不一样——就算你卖给他们英伟达芯片,他们照样可以像谷歌用 TPU 一样,同时用自己的芯片。
黄仁勋:我们必须持续创新,而且你可能也知道,我们的市场份额一直在增长,而非萎缩。那种“就算我们在中国参与竞争,最终也会丢掉市场”的前提……你不是在跟一个天生的失败者说话。这种失败者心态、失败者逻辑,我无法认同。
我们不是汽车。今天买这个品牌、明天换那个品牌,很容易。计算产业不是这样的。x86 能形成垄断、ARM 拥有极强黏性,都是有原因的。这类生态很难被替代,替换需要耗费巨大的时间和精力,大多数人根本不愿意这么做。所以我们的职责是持续培育生态、不断推进技术,从而在市场中具备竞争力。
基于你描述的前提就放弃一个市场,我完全无法接受,这毫无道理。因为我不认为美国是失败者,我们的行业也不是。这种认输的论调、失败主义的心态,我无法理解。
Dwarkesh Patel:我想核心分歧已经慢慢清晰了,谢谢你陪我把这些绕来绕去的问题聊透。
黄仁勋:核心问题在于你走向了极端。你的论证从极端假设出发:只要在这个狭窄窗口期给他们一丁点儿算力,我们就会满盘皆输。这种极端化的说法很幼稚。
Dwarkesh Patel:让我把我的观点说清楚。关键并不在于存在某个关键算力阈值,而是任何增量算力都是有帮助的。算力越多,就能训练出更好的模型。
黄仁勋:那我也希望你承认,对美国科技行业而言,任何增量销售都是有利的。
Dwarkesh Patel:我其实并不认同……如果跑在这些芯片上的 AI 模型具备网络攻击能力,或是芯片被用来训练攻击性模型并大规模部署,它虽然不是核武器,但确实在支撑某种武器化能力。
黄仁勋:按你的逻辑,你大可以把这套说法套在微处理器、DRAM,甚至电本身身上。
Dwarkesh Patel:但事实上,我们确实对制造最先进 DRAM 相关的技术实施出口管制,对中国各类芯片制造设备都有各式各样的管制。
黄仁勋:我们依然向中国出售大量 DRAM 和 CPU,而且我认为这是正确的。
你能否认我们曾经在该市场拥有巨大份额,如今却已不再占据优势吗?你也要承认,中国市场约占全球科技产业的 40%。对美国科技行业而言,放弃这个市场,是对国家的损害,是对国家安全的损害,是对美国技术领导力的损害,仅仅为了某一家公司的利益,这完全说不通。
Dwarkesh Patel:我有点困惑。你好像在同时表达两种观点:一是只要允许我们参与竞争,我们就能凭借更优秀的芯片在与中国竞争中取胜;二是就算没有我们,他们照样会做一模一样的事情。这两件事怎么可能同时成立?
黄仁勋:显然可以同时成立。没有更好选择时,人就会退而求其次。这有什么不符合逻辑的?再合理不过了。
Dwarkesh Patel:他们想要英伟达芯片,就是因为性能更好。
黄仁勋:没错。
Dwarkesh Patel:更好就意味着更强算力,更强算力就能训练出更好的模型。
黄仁勋:不,不只是算力更强。更好是因为更容易编程,我们拥有更完善的生态。但无论优势体现在哪方面……我们当然会向他们提供算力,那又如何?事实是,美国会从中受益。别忘了,我们巩固了美国的技术领导力,让更多开发者基于美国技术栈开发。当 AI 模型向全球扩散时,美国技术栈会成为最优选择,我们可以持续推进并输出美国技术。我相信这是正面价值,也是美国技术领导力至关重要的一部分。
而你所主张的政策,已经导致美国电信行业在全球范围内被政策排挤,最终甚至失去了对自身电信产业的掌控。我不认为这是明智之举。这种思路有些狭隘,并且会带来我刚才所说的一系列意外后果,而你似乎很难理解这一点。
Dwarkesh Patel:好,我们再退一步。核心矛盾显然在于潜在收益与潜在风险的权衡,我们要判断收益是否值得风险。我希望你能承认潜在风险:算力是训练强大模型的投入,而强模型确实具备网络攻击这类强攻击性能力。美国公司率先达到 Mythos 这种级别是件好事,他们选择暂时不公开这类能力,让美国企业和政府先加固软件安全,再对外披露。
如果中国拥有更多算力,或是更充足的集群算力,更早造出 Mythos 级模型并大规模部署,后果将非常严重。这件事至今没有发生,原因之一就是美国有英伟达这样的企业,提供了更充足的算力。这就是向中国出售芯片的风险。我们先不谈收益,你是否承认这是一种潜在代价?
黄仁勋:我同样可以告诉你另一个潜在代价:我们放任 AI 技术栈中最重要的一层——芯片层——放弃全球第二大市场,让他们有机会建立规模、培育自有生态,让未来的 AI 模型朝着与美国技术栈完全不同的方向优化。当 AI 向全球扩散时,他们的标准、他们的技术栈会因为模型开源而变得比我们更具优势。
Dwarkesh Patel:我只是足够相信英伟达的内核工程师和 CUDA 团队,认为他们完全可以做优化——
黄仁勋:你也清楚,AI 不只是内核优化那么简单。
Dwarkesh Patel:当然,但能做的事情还有很多,比如把模型蒸馏优化到更适配你们芯片的形态。
黄仁勋:我们会尽最大努力。
Dwarkesh Patel:你们掌握着全套软件。很难想象中国生态能形成长期锁定,哪怕他们的开源模型在一段时间内略占优势。
黄仁勋:中国是全球开源软件最大贡献者,这是事实。中国是全球开源模型最大贡献者,这也是事实。而目前这些成果都构建在美国技术栈、英伟达技术栈之上,这同样是事实。
AI 技术栈的五个层级都至关重要,美国理应在全部五个层级取得胜利,它们缺一不可。其中最重要的,无疑是 AI 应用层。真正渗透进社会、被广泛使用的那一层,将从这场产业革命中获益最多。但我的核心观点是, 每一层都必须成功。
如果我们把整个国家吓得以为 AI 就是某种核弹,让所有人厌恶 AI、恐惧 AI,我不知道这对美国有什么帮助,反而是在伤害它。如果我们把所有人都吓离软件工程岗位,宣称 AI 会消灭所有相关工作,最终导致美国没有软件工程师,那同样是在损害国家利益。
如果我们把所有人都吓出放射科,让没人愿意成为放射科医生,理由是计算机视觉完全免费、AI 不会比医生做得更差,那我们就彻底误解了职业与任务的区别。放射科医生的工作是患者照护,读片只是其中一项任务。如果我们对此产生如此深刻的误解,把所有人都吓出医学院,我们就会面临放射科医生短缺、医疗质量下降的局面。
所以我想表达的是, 当你把前提推向极端,非黑即白、非零即无穷,最终只会以不实的方式制造恐慌。现实并非如此。我们希望美国领先吗?当然希望。我们需要在技术栈的每一层都保持领先吗?当然需要,毫无疑问。今天你在讨论 Mythos,因为它很重要,这很好。
但我可以预测,几年之后,当我们希望美国技术栈、美国科技向全球输出——进入印度、中东、非洲、东南亚——当国家希望出口技术、输出标准时,我希望到那天我们能再进行一次同样的对话。我会清清楚楚地告诉你今天的讨论,告诉你你所主张的政策与想象,是如何让美国毫无必要地放弃了全球第二大市场。
我们不该主动放弃。就算最终输掉,那也是竞争结果,但为什么要拱手相让?现在没有人主张非此即彼。我们理应在本土保有最先进、最充足的技术,并且率先应用。但我们同时也应该在全球范围内竞争并取胜。这两件事完全可以并行,它需要分寸、需要成熟理性,而不是极端绝对化。世界本就不是非黑即白的。
Dwarkesh Patel:争论的关键就在这里。几年后,他们会打造出适配自家最优芯片的模型,这些芯片会出口到世界各地,进而确立标准。但正如我们所说,由于 EUV 出口管制,你们会一路推进到 1.6nm 工艺,而他们几年后依然会停留在 7nm。
在他们国内或许说得通:“我们能源充足,可以大规模制造,继续用 7nm 就行。”但说到出口,他们的 7nm 芯片必须和你们的 1.6nm 芯片竞争。他们的模型必须深度优化到 7nm 平台,以至于在 7nm 上跑比在你们 1.6nm 上效果更好才行。
黄仁勋:那我们不妨看看事实。Blackwell 的光刻工艺比 Hopper 先进 50 倍吗?有 50 倍吗?差得远呢。我一再强调,摩尔定律已经失效。从 Hopper 到 Blackwell,单看晶体管本身提升大约 75%,前后相隔三年,也就 75%。但 Blackwell 的整体能力是 Hopper 的 50 倍。
我想说的是,架构至关重要,计算机科学至关重要。半导体物理固然重要,但计算机科学更加关键。AI 的进步很大程度来自计算栈,这也是 CUDA 如此高效、如此受青睐的原因。它是一套生态、一种计算架构,拥有极高的灵活性。哪怕你想彻底重构架构——做出混合专家模型、扩散模型,或是去中心化的新结构——都可以轻松实现。
事实是,AI 既依赖底层架构,也同样依赖上层技术栈。我们拥有为自身生态优化的架构与软件栈,这显然是巨大优势,就像我们今天开场时谈到的,英伟达的生态无比丰富。为什么开发者总是优先选择 CUDA 编程?他们确实如此,中国的研究者也一样。
但如果我们被迫退出中国市场,这首先就是一项政策失误,显然会产生反噬,对美国造成不利后果。这反而扶持、加速了他们的芯片产业,迫使他们的整个 AI 生态转向自研架构。现在回头还不算晚,但影响已经发生。
未来你会看到,他们显然不会一直卡在 7nm。他们擅长制造,会从 7nm 继续向前迭代。5nm 和 7nm 之间有 10 倍差距吗?答案是否定的。架构重要,网络互联重要——这也是英伟达收购 Mellanox 的原因。能源同样重要。所有这些因素都在起作用,并非你试图简化的那样简单。
英伟达为何不打造多种不同的芯片架构?
Dwarkesh Patel:现在你已经占据了 3nm 工艺的大部分产能,未来还会主导 2nm 工艺,那么你有没有可能回过头利用 7nm 这类成熟工艺的闲置产能,说一句:“AI 需求实在太旺盛,先进制程扩产跟不上,我们干脆用今天掌握的数值计算技术和你刚才提到的各类改进,重新打造一版 Hopper 或者 Ampere 架构?”你觉得 2030 年之前会出现这种情况吗?
黄仁勋:没有这个必要。原因在于,每一代产品的架构提升远不止晶体管尺寸这么简单,它还涉及到工程设计、封装堆叠、数值计算和系统架构。
产能不足就轻易退回到旧工艺,这种研发成本是没人承受得起的。我们有能力向前迭代,但没有余力回头重做。当然我们可以做个思想实验:如果有一天,我们彻底没有办法再扩大先进制程产能,我会不会回头用 7nm?那肯定会,毫不犹豫。
Dwarkesh Patel:有个朋友问过我一个问题:英伟达为什么不同时推进多个完全不同架构的芯片项目?比如做 Cerebras 那样的晶圆级芯片,做 Dojo 那种超大规模封装,甚至做一套不依赖 CUDA 的架构。你们有资金也有人才,完全可以并行推进。 既然 AI 和架构的未来走向充满未知,为什么要把所有鸡蛋放在一个篮子里?
黄仁勋:我们当然可以这么做,只是我们没有找到更优的方案。这些方向我们全都在模拟器里验证过,结果证明更差,所以我们不会付诸实践。我们只聚焦在真正有价值的项目上。除非未来负载形态发生根本性变化——我指的不是算法,而是市场需求驱动的实际负载模式——我们才会考虑增加其他类型的加速芯片。
举个例子,我们最近收购了 Groq,并会把它整合进 CUDA 生态。之所以这么做,是因为 token 的价值已经大幅提升,可以出现不同定价的 token 服务。就在几年前,token 还几乎是免费的,或者价格极低。但现在客户群体出现分层,不同客户需要不同的响应效果。比如我们的软件工程师这类用户,如果能提供响应更迅捷的 token,大幅提升他们的工作效率,他们愿意为此付费。
这个市场直到最近才真正成型。所以我们现在可以针对响应速度,对同一模型做市场细分。这也是我们拓展性能边界、推出一类低吞吐量但高响应速度推理芯片的原因。在此之前,行业一直认为吞吐量越高越好。但我们认为, 未来会出现高单价 token 的市场,即便算力工厂吞吐量更低,单价也足以弥补差距。
这是我们拓展架构的唯一原因。除此之外,从架构本身来看,如果我有更多资金,只会进一步加码英伟达现有架构。
Dwarkesh Patel:最后一个问题。假如深度学习革命从未发生,英伟达现在会在做什么?
黄仁勋:做 加速计算,和我们一直以来做的事情一样。公司成立的初衷就是,摩尔定律逐渐走到尽头,通用计算虽然用途广泛,但在很多计算场景下效率并不理想。
于是我们把 GPU、CUDA 与 CPU 结合,让 CPU 的工作负载可以被加速。把不同的代码内核或算法卸载到 GPU 上运行,应用性能就能提升 100 倍、200 倍。
这些能力能用在哪里?
显然,它适用于工程、科研、物理模拟、数据处理、计算机图形、图像生成等方方面面。就算今天 AI 不存在,英伟达依然会是一家规模极大的公司。
背后的原因非常简单:通用计算的持续扩展能力基本已经见顶,而实现突破的重要路径就是领域专用加速。我们最早从计算机图形起步,但可覆盖的领域还有很多,比如粒子物理、流体模拟、结构化数据处理,各类算法都能从 CUDA 中受益。
我们的使命,一直是把加速计算带向全世界,拓展通用计算无法胜任的应用类型,把性能扩展到能助力科学突破的级别。早期应用就包括分子动力学、能源勘探的地震处理、图像处理等,这些领域用通用计算实在太过低效。
如果没有 AI,我会很遗憾。但正是我们在计算领域的突破,才让深度学习得以普及,让全球任何一位研究者、科学家、学生,都能通过 PC 或者 GeForce 显卡做出了不起的科研成果。这个核心使命从未改变,分毫未变。