Utilidata与欧洲AI云服务提供商NexGen Cloud正在部署一个AI驱动的电力编排平台,该平台旨在释放现有数据中心内更多的计算容量——在不需要额外电网电力的情况下,可能将可用AI基础设施提升多达50%。
此次合作的核心是Utilidata的Karman平台,该平台将在NexGen Cloud的数据中心部署,首先在蒙特利尔的展示设施开始。Karman运行在定制的英伟达模块上,作为数据中心电力基础设施的智能层,实时动态优化电力在机架和GPU集群间的分配。
两家公司表示,Karman可以挖掘"闲置"能源——由于保守的容量规划或工作负载分配不均而在数据中心内被困的未使用电力。通过在机架级别编排电力并相应调整GPU利用率,Karman旨在将未使用的余量转换为额外的AI计算容量。
这一举措出现在生成式AI和大规模模型训练的快速扩张对全球电力基础设施造成前所未有压力的背景下。虽然许多AI提供商正在推进大规模的新数据中心项目,但电网连接和电气升级可能需要数年时间才能完成。在现有电力范围内提高计算密度的技术变得越来越有价值。
对NexGen Cloud而言,此次部署将支持其Hyperstack AI云平台,该平台为AI、机器学习和可视化工作负载提供按需GPU基础设施。NexGen Cloud正计划在北美和北欧地区进行一系列"AI工厂"部署,作为其更广泛基础设施扩展的一部分。该公司也是新兴"新云"提供商类别中的一员——为AI工作负载构建基础设施的新型GPU中心云公司。
为了探索AI电力编排的工作原理以及它如何重塑数据中心经济学,Data Center Knowledge采访了CEO Josh Brumberger。
DCK:与NexGen Cloud部署背后的宏观目标是什么?
JB:从高层面来看,Utilidata在过去十多年中一直在构建AI驱动的工具来优化电网。我们的软件最初是为电力公司设计的,用于提高电网性能和可靠性。
在过去一年中,很明显这些相同的能力在数据中心内具有直接价值,数据中心本质上是封闭的电网。AI基础设施正在以惊人的速度扩展,但电力可用性正成为主要约束。因此我们将为公用事业开发的技术直接带入数据中心环境。
我们的平台称为Karman,是一个小型嵌入式AI计算机结合软件,直接集成到电力基础设施中。在这次部署中,它成为管理电力如何在AI服务器和GPU集群间分配的智能层。
目标是展示我们所说的Karman嵌入式AI工厂——一个可以在相同电力范围内安全运行更多计算的数据中心。
DCK:您说这种方法可以释放多达50%的计算容量。在不增加电网电力的情况下如何实现?
JB:关键理念是现代数据中心从电力角度来看大量过度建设。系统中的一切——从电网互连一直到机架——都是为最坏情况设计的。
例如,一个机架可能有四个电源供应,设计成如果一条线路故障,其他三条可以承载负载。因此,这些线路通常运行在约75%的利用率以维持冗余。这在整个系统中创造了未使用的容量。
通过深度可视性和极快的控制,您可以动态管理这些电力流,而不是让这些余量未被使用。如果出现故障,系统可以立即调节工作负载或重新平衡电力以维持稳定。
因此,一种思考方式是增加"油箱"的大小。您允许更多可用电力范围用于计算。第二个组成部分是提高效率——以更有效使用可用电力的方式运行工作负载。
这两个因素结合可以显著增加在相同电网连接下运行的计算基础设施数量。
DCK:系统如何处理不同的AI工作负载,特别是推理的突发性质?
JB:训练和推理都受益于这种方法,因为大多数环境中存在未使用的容量。但推理工作负载特别有趣,因为它们可能非常动态和不可预测。
Karman提供极其精细的电力状况可视性——每秒多达100万个采样——控制响应时间不到20毫秒。这意味着系统几乎可以瞬间看到并响应工作负载需求的快速变化。
对于需求可能快速峰值的推理工作负载,这种响应性让运营商能够安全地使用更多可用电力而不影响可靠性。
在某种程度上,这种可视性实际上增加了可靠性,因为您对电力基础设施实时发生的情况有更清晰的了解。
DCK:您认为这项技术会扩展到NexGen Cloud等新云提供商之外吗?
JB:绝对会。目前,新云提供商行动非常迅速,高度积极地采用新的基础设施技术,这使它们成为自然的早期采用者。
但根本问题更加广泛。电力现在已成为计算增长的主要约束。过去是GPU或网络。现在是电力。
这意味着每个人——从新AI数据中心开发商到老旧设施运营商——都在寻找在现有电力约束下获得更多计算的方法。
对于曾经在5或10兆瓦时看起来很大的较小或较老数据中心,这项技术可以帮助它们在不等待新电网连接的情况下显著扩展AI能力。
DCK:预期数据中心需求在未来几年将激增。您如何看待随着AI基础设施规模扩大,Utilidata的角色演变?
JB:我们从核心优势开始:我们是将AI引入电网的电力专家。现在我们将这种专业知识带入数据中心。
机会在于构建成为AI计算结构一部分的基础设施。如果您能证明100兆瓦电网连接应该实际支持130兆瓦或更多AI计算,这从根本上改变了人们对基础设施规划的思考方式。
随着时间推移,我们还希望平台开放,以便其他人可以在其上构建应用程序。这允许生态系统中的多个参与者——云提供商、设备供应商和开发商——从额外容量中受益。
最终,目标是创建成为AI基础设施标准层的技术。如果我们成功做到这一点,它不仅会改变数据中心——还可能扩展到AI向边缘移动的其他行业。
DCK分析:创造智能千瓦时
Utilidata与NexGen Cloud的合作是一个强烈信号,表明"电力智能"在AI竞赛中正变得与GPU一样具有战略意义。将数据中心视为可控制的微型电网并算法回收闲置容量正是市场的发展方向。如果Karman能够可靠地在相同电网范围内提供多达50%的可用计算,它就改变了AI建设的经济学:突然间,您已经支付的兆瓦变成了额外的产生收入的GPU,而无需等待新互连或变电站的多年时间。
NexGen Cloud部署也是一个明智的滩头:新云和AI专家首先感受到电力紧缩并更愿意实验。如果这种模式得到证明并可以标准化,AI电力"操作系统"层可能成为大型运营商的基本要求,重塑容量规划、PUE目标,甚至合同如何定义和定价兆瓦AI就绪电力——因为在下一波AI基础设施浪潮中,最智能的千瓦时胜出。
Q&A
Q1:Karman平台是什么?它如何提升数据中心的计算能力?
A:Karman是Utilidata开发的AI驱动电力编排平台,运行在定制英伟达模块上,作为数据中心电力基础设施的智能层。它通过实时动态优化电力在机架和GPU集群间的分配,挖掘由于保守容量规划而被困的"闲置"电力,将这些未使用的余量转换为额外的AI计算容量。
Q2:为什么现有数据中心能释放50%的额外计算容量而不增加电网电力?
A:现代数据中心从电力角度大量过度建设,一切都为最坏情况设计,通常线路运行在75%利用率以维持冗余,创造了大量未使用容量。Karman通过深度可视性和极快控制动态管理电力流,允许更多可用电力用于计算,同时提高运行效率,两者结合可显著增加计算基础设施数量。
Q3:Karman技术适用于哪些类型的AI工作负载?
A:Karman既适用于训练也适用于推理工作负载。特别对于推理工作负载很有价值,因为它们动态且不可预测。Karman提供每秒100万个采样的精细电力可视性,控制响应时间不到20毫秒,能瞬间响应工作负载需求的快速变化,让运营商安全使用更多可用电力而不影响可靠性。
下一篇:美指大涨,黄金快跌!