AI数据中心耗电量, 真不是开玩笑

  • 2025-07-22 00:27:26
  • 261

#头号创作者激励计划#

想象一下,2028年数据中心的电力消耗占美国总电力消耗的12%。

AI数据中心的能源消耗速度大约是电网新增电量速度的四倍,这为发电方式、AI数据中心的建设地点以及更高效的系统、芯片和软件架构的根本性转变奠定了基础。

这些数字在美国和中国尤为惊人,两国正在竞相加速建设人工智能数据中心。美国能源部委托进行的一份2024年报告显示,去年美国数据中心消耗了总发电量的约4.4%,即约176太瓦时。到2028年,这一数字预计将增至325至580太瓦时,分别占美国总发电量的6.7%至12%。

与此同时,预计中国明年的能源消耗量将达到400太瓦时,虽然这些数字看起来与美国相当,但国际能源署指出,中国公民的能源消耗远低于美国同行。在全球范围内,能源消耗量每年增长30%,主要原因是人工智能,其中美国和中国约占这一增长的80%。

西门子EDA硬件辅助验证副总裁兼总经理Jean-Marie Brunet表示:“电力不再是玩笑。”“想象一下,2028年数据中心的电力消耗占美国总电力消耗的12%。这太疯狂了。我们必须重建整个电网。”

其他人也同意。“发电将是一件大事,”英伟达首席执行官黄仁勋在最近与Cadence首席执行官Anirudh Devgan的讨论中指出。“原因在于电网将不足以支撑这个行业的发展。我们希望在美国建设这个行业,如果你想这样做,那么我们将看到大量的柴油发电机以及各种各样的东西。”

距离和降压损耗

与数据一样,电力传输也存在成本。根据美国能源信息管理局的数据,平均5%的电力在输配过程中损失。反直觉的是,运行数百英里的高压线路(约2%)的损耗低于运行较短距离的低压线路(约4%)。这些数字也受到电源的复合影响,因为不同的电源有不同的转换率。

Saras Micro Devices首席商务官Eelco Bergman表示:“理想情况下,你应尽可能保持高电压,这意味着电流尽可能低。”“损耗是电流的平方乘以电阻。所以你会一直损失功率。无论高压线是什么,你都在不断地降压。进入数据中心可能是400伏,然后转换为机架的48伏,最终降压到12伏到负载点。但在每一步中,你都希望在数据中心旁边发电以减少距离并尽可能保持高电压,并将电压带到靠近你的终端点。”

这里的权衡是电压与电流。电流越高,热量越大。而且没有什么是100%高效的,所以当电力移动到离封装更近的地方时,会产生一些热量。反过来,这又会因为封装内部发生的一切而加剧,包括数据处理、数据在内存之间的来回移动以及互连中的电阻/电容。除此之外,AI数据中心需要处理更多数据,因此这些工作负载需要更高的利用率,这使得散热量更难以跟上。

Bergman说,因此,从高压线到低压线,再到PCB、封装,最后到单个芯片,每一步都会有功率损耗。“如何缩短距离?我能把多少电压尽可能地靠近?效率如何?我能散热吗?这些都是行业正在关注的问题。”

芯片产业在这里扮演着重要角色。“由于现有的基础设施,我们有太多的中间电压水平,导致步骤过多,”弗劳恩霍夫IIS自适应系统工程部门高效电子部负责人Andy Heinig表示。“当然,我们可以在这里节省大量能源。我们还看到处理器和电源调节器需要协同工作。目前,电源调节器并不智能。它们只跟随处理器发出的电流。但是处理器知道它们在下一个周期要做什么,它们可以通知电源转换器即将发生巨大的跳跃或者某些东西被关闭。因此,在某些地方我们可以协同优化处理器和电压调节器,减少中间电压水平的数量将有所帮助。”

移动数据

另一个挑战是构建系统,使数据更靠近源头进行处理。这可以减少需要移动的数据量。但除此之外,数据必须传输的距离也需要缩短。这是3D-IC封装背后的关键驱动因素之一。与在SoC中布线不同,组件可以垂直战略性放置,以减少这些距离。这可以提高性能,并减少驱动信号所需的电量。

Arteris产品管理与营销副总裁Andy Nightingale表示:“目前我们客户面临的最大挑战之一是设计中的布线长度。”“多芯片是一个独立的挑战,但在每个单片芯片上,在进入多芯片之前,缩短布线长度对功耗至关重要。我们关注的一个方面是拥塞。我们的设计分析中也有热力图,用于查看拥塞情况,因为那是许多导线在交换机处汇合的关键点。我们也在平面图内工作,可视化物理设计,这样我们可以将交换机移出拥塞点,并且仍在平面图内工作,以减少某个区域的散热和功耗拥塞。”

这也需要思维模式的转变,因为在AI数据中心中,电力仍然次于性能。但如果没有更多的电力可用,或者电价飙升,那么AI公司将别无选择,只能认真对待电力问题。

“如今,AI设计的重点仍然是性能,这意味着虽然功耗非常非常重要,但它仍然是次要的考量,首要目标是从这些芯片中获得最佳速度和性能,”Ansys产品营销总监Marc Swinnen表示。“功耗/性能之间总是有权衡,这是根本性的。所以如果你真的想降低功耗,你就必须降低性能。遵循摩尔定律会有帮助,可以降低功耗。另一个问题是,大部分功耗都花在了GPU与不同元件之间的通信上,甚至数据中心的背板也是如此。英伟达推出了共封装光网络,正是为了降低机架内和机架之间的通信功耗。”

解决这些问题需要整个芯片行业的变革。“它始于芯片,如果芯片非常耗电,而你想构建一个LLM,那么你就必须训练它,”西门子的Brunet说。“你通过添加多个功能和扩展来训练它。但是如果你把这些东西加起来,从一个非常耗电的单一元件开始,那么整个系统就会变得极其耗电。你还有一个数字孪生体,你也需要巨大的电力来计算这个数字孪生体。但这不仅仅是EDA行业的问题。这是整个世界的问题。”

高效处理

好消息是,有一些显而易见的唾手可得的成果。Movellus总裁兼首席执行官Mo Faisal表示:“仅仅因为缺乏可见性,就会额外消耗20%的电力。”“例如,假设你设计了一个在2 GHz下功耗为500瓦的芯片。当你完成系统级测试并准备部署时,你会发现所有这些电力系统的构建目标都不同。所以现在,如果你想保持在500瓦以内,你需要将频率降低10%到20%。这基本上是一种限制。而芯片组只会让情况变得更糟,因为现在你面临同样的问题,但你要乘以你正在处理的芯片组数量。每个芯片组都可能有不同的工艺角,或者可能处于不同的工艺中。”

这只是其中的一部分。“通过从芯片到系统再到数据中心安装更多可见性,还可以额外获得20%到30%的增益,”Faisal说。“这两者是复合的,而不是非此即彼。原因是芯片设计师关注风险。‘嘿,我不想芯片出故障。所以他们会通过冗余来过度预留。但在部署时,当你设计数据中心时,你并不是为最大工作负载而设计的。你是为峰值工作负载而设计的。原因在于工作负载和软件的变化速度比芯片快得多。不可能用你在现场看到的所有工作负载组合来测试芯片,因为工作负载、模型和Transformer以及代理都在快速变化。所以你必须将其计入利润。数据中心容量比你在最大负载下看到的超额配置了30%。”

理解半导体将如何使用对这个等式也至关重要。仅仅增加冗余和为最坏情况下的边缘情况进行保护性设计,会增加驱动信号通过额外电路所需的功率以及由于导线中的电阻/电容而需要散发的热量。

摩尔定律也在这里发挥作用。虽然每个新工艺节点处理器性能的提升正在减弱,但功耗的提升预计将是巨大的——高达30%,具体取决于工艺和晶圆厂。与任何新工艺一样,这些数字会因架构和工作负载而异。

冷却

经验法则是,数据中心要为电力支付两次费用。第一次是为服务器机架和存储供电。第二次是为它们降温,以防止过热,这正成为一个更大的问题,因为动态电流密度随着AI服务器利用率的提高而增加。训练大型(甚至小型)语言模型需要更多的处理能力,为生成式和代理式AI搜索供电也需要更多的处理能力。这反过来又会增加各种计算元素的利用率,使它们在更长时间内全速运行。

Saras的Bergman说:“冷却的电力开销约为30%到40%,如果只采用液冷而不使用冷水机组,可以将其减半。”“但如果加上冷水机组,功耗又会上升。这里需要玩一个优化游戏。”

这个等式中的转折点是水的可用性。在封闭系统中运行水需要冷却。使用当地供水则不需要。但根据环境与能源研究学会的数据,一个大型数据中心每天可消耗多达500万加仑的水,这大约是一个拥有1万到5万人口的城镇的用水量。

两种替代方案是单个芯片的直接冷却和浸没式冷却。直接冷却可能涉及微流体通道,这是IBM在1980年代首次提出的想法,后来因难度太大而放弃。但随着热密度的增加,芯片制造商可能别无选择,只能采用某种微流体技术。尽管如此,实施这种方法会增加结构和制造方面的挑战。这个想法是很好理解的,因为水冷技术已经使用了半个多世纪。但在封装或芯片内部,更靠近晶体管的地方实施它,仍然是一个挑战。

英特尔高级首席工程师兼公司热核心能力组负责人Rajiv Mongia解释说:“如果你正在研究一种冷却技术,就会涉及热传递效率,这通常从热阻角度来看待,以及从一般意义上的结到流体温度。”“但如果你从热力学角度来看,它就不是结到流体入口温度,而是结到流体出口温度。基本上,你让流体离开封装或封装区域时的温度越高,下游的一切从热传递角度来看就越容易管理。这会影响你的冷却厂、冷水机组等等的总效率。”

这是堆叠芯片的一个关键考虑因素。Mongia说:“当我们谈到3D-IC时,你可能需要在结构内部引入流体,比如芯片背面的硅微通道。”“这是一种效益与复杂性之比。你可以用这种类型的板子放在背面来冷却。但是一旦3D堆栈中有足够多的体积发热——想象一个某种立方体——你就无法再通过硅片的一侧传导热量。你必须以某种方式从硅片内部抽取热量。归根结底,将需要某种奇特的机制,因为你在那个体积的硅片内产生了如此多的能量,而不是仅仅在一个表面上。”

可持续性和成本

这些对于芯片行业来说并非秘密。为了向前发展并以至少与今天相同的速度持续增长,需要解决两个相关问题——可持续性和成本。这些最终将决定AI数据中心的部署速度、它们可以处理的计算量,以及从传输角度和芯片/系统/封装设计角度所需的变化。

西门子数字化工业软件首席执行官Mike Ellow表示:“可持续性始终是我们考虑的问题,因为几十年来,企业一直面临着更有效利用自然资源的压力。”“这就是我们前进的方向,半导体作为支柱将帮助许多行业。如果你看看数据中心的功耗,我们现在的发展方向是不可持续的。对我们来说,挑战在于如何将四倍、五倍或六倍的计算能力,整合到现有数据中心的相同功耗配置文件中。”

商业基础也融入了这幅图景。“归根结底,这是总拥有成本,”英特尔的Mongia说。“无论是你正在创建的大型语言模型还是你试图生成的一个推断,这都涉及资本成本和运营成本。散热既属于资本成本也属于运营成本。那么,平衡点是什么?投资回报率是什么?升级到液冷解决方案需要多少成本,因为液冷历来比风冷更昂贵。所有这些AI数据中心或AI解决方案主要采用液冷。为了构建它,你需要从你的封装中获得更多价值,这意味着更多的推断或在生成语言模型时获得更高的性能,从而随着时间的推移降低运营成本。”

结论

为了更好地理解这一点,请考虑内华达州胡佛大坝每年发电量约为4太瓦时;亚利桑那州帕洛弗迪核电站每年发电量为32太瓦时,而中国三峡大坝预计每年发电量为90 太瓦时。但考虑到目前的增长速度,2028 年至 2030 年间,AI 数据中心的电力需求将增加350太瓦时,这几乎是所有这些发电设施总能耗的三倍。

没有任何单一的改变能够缩小这一差距。半导体行业要想继续以目前的速度增长,就需要从电网向下,到芯片向上进行变革。即便如此,目前还不清楚这是否真的能弥合差距,或者是否只会让AI数据中心变得更大。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!