signals header
Data center with glowing blue and orange server racks.
Data center with glowing blue and orange server racks.

SIGNALS+ 在线快讯订阅

持续关注Signals+,了解有关连接、数字健康、电气化和智能工业的最新见解、信息和想法并加以利用。

点击“订阅”,即表示您同意接收来自Analog Devices, Inc.及其子公司的邮件,并同意我们的隐私政策。设置您的隐私.

谢谢您的订阅,请查看您的邮箱确认邮件并完成注册.

您将实时接收突破性技术如何在全球范围内产生深远影响!

关闭
Donal McCarthy
Donal McCarthy,

汽车雷达产品线总监

作者详情
Donal McCarthy
Donal McCarthy是ADI汽车雷达产品线总监。Donal拥有科克大学电气工程学士学位、波斯顿大学MBA学位以及都柏林爱尔兰管理学院营销学位。Donal担任过多个职位,包括MACOM设计工程师、Hittite现场销售工程师和营销职位以及ADI公司营销经理和总监职位。
关闭详情

应对数据中心散热挑战

May 22, 2026

关键要点

  • 现代数据中心需要采取集成生态系统的思路,使供电、散热管理和实时监控三者无缝协作。
  • 液冷对于AI级数据中心至关重要,超大规模云服务商建设液冷设施,以处理风冷无法高效应对的算力密度。
  • 800V直流配电加上智能监控和AI驱动的维护,让数据中心能够在支撑高算力密度的同时,大幅减少能源浪费。

 

随着数据、AI和复杂计算任务需求的迅猛增长,数据中心正经历快速转型与扩张。服务器机架中硬件密度的不断提高,使数据中心面临两项关键挑战:如何高效供电和散热。

现代AI系统,尤其是那些专为AI和机器学习而构建的系统,将海量算力压缩进越来越小的空间中。更多的晶体管、更密集的GPU集群和高性能加速器,不仅导致功耗攀升,也让有限空间内的热积聚问题愈发棘手。

数据中心的瓶颈已从机房面积和供电变成散热能力。放眼整个行业,从传统运营商到超大规模云服务商,这一散热管理拐点正倒逼业界从根本上重新思考系统的设计、管理和优化方式。

“热墙”困境

密度持续快速提升。
传统机架的运行功率在数十千瓦级别。AI工作负载,例如ChatGPT这样的大语言模型,需要40kW到60kW的GPU机架功率。新兴的超大规模“AI工厂”专为AI训练和推理而建造,单机架功率已突破100kW,未来的设计目标更是直指500kW乃至1MW。

风冷无法有效扩展。
空气是一种低效的传热介质。在更高算力密度下,空气无法以足够快的速度带走热量。要维持运行,只能提高气流速度、风扇功率和机架级复杂度,但这种做法不可持续。当单机架功率超过约50kW至100kW时,传统CRAC/CRAH系统便既不可行又不划算。

热风险不断放大。
散热不足会导致性能下降、故障、组件寿命缩短和运营成本增加。热量(而非空间或供电)正成为限制性能、正常运行时间和容量的主要因素。

每多一瓦用于散热,就少一瓦用于计算。

重新思考供电与散热

随着处理器功率的增加和芯片密度的提升,系统发热量超出了传统风冷系统能够高效或经济应对的极限。这一瓶颈促使数据中心采用液冷技术,从根本上重新设计散热管理,使散热效率比风冷高出几个数量级。如今,散热技术与供电、机架布局和气流设计协同发展。正是这种系统化整合,使超大规模AI数据中心得以突破以往的密度上限。

液冷方案。
液体凭借优异的导热性能,能够在热源处直接带走热量。虽然采用液冷会带来额外的复杂性和成本,但这种转型已经势不可挡。超大规模云服务商正在建设100%液冷式设施。现有数据中心则采用混合策略:高密度机架采用液冷,其他区域保留风冷。液冷不仅对解决当下热负荷问题至关重要,更是各种规模的数据中心持续支撑AI工作负载增长的关键。

防止热量产生。
运营商必须在移除热量与防止热量产生之间取得平衡。这不仅是一个热管理问题,更涉及整个供电链路。更具决定性的手段,是从源头抑制热量的产生:通过提高电源转换效率、减少阻性损耗、优化电压调节,减少以热量形式白白浪费的能源。这样一来,散热压力在成为问题之前,就已经被提前化解。

为未来赋能:800V直流配电。
AI大规模集群机架对传统电力系统构成严峻挑战:12V、48V和415VAC依赖大量铜线、笨重的电源单元和效率低下的转换链路,这些都会增加发热量。行业正向800V直流配电转型,目的是减少导体用量、降低阻性损耗并简化供电链路。

ADI公司为800V直流架构提供了热插拔控制器、高效DC-DC转换、电源监控和高级保护功能,确保供电稳定高效。

机架智能

Close-up of server rack lights in a data center.

高级监控功能可实时跟踪电压、电流和温度,从而实现资源精准分配。当散热泵无需全速运行时,若仍让其保持满负荷运转,将造成不必要的能源浪费。借助精确计量器件和精密器件(如低噪声放大器)测量电流检测分流信号,是实现高效供电和散热管理的关键。

为了确保可靠性,运营商通常将系统运行功率控制在99.95%左右,而非100%。ADI监控解决方案会实时跟踪这些功率水平,让运营商能够动态调整负载结构,在性能与系统寿命之间取得平衡。

AI的进步,一方面加剧了对电力和强大数据中心的需求,另一方面也提供了高效管理这些需求所需的智能。AI扮演着智能助手的角色,通过处理传感器数据来识别模式、预测故障并自动完成调整,从而提升运维精度。因此,运营商能够在宕机之前检测到异常情况,并根据实时工作负载动态调整散热策略,将被动维护转变为主动管理。

在机架层面,一系列专用器件使性能提升成为可能:

  • 热插拔控制器和保护IC: 管理带电插拔操作,限制冲击电流,防止尖峰,检测故障,确保安全运行,这些对800V供电和兆瓦级负载至关重要。
  • 电压调节和DC-DC转换: 利用高效率稳压器和多相控制器,将800V直流电压降至GPU、CPU、内存和器件所需的电压。ADI解决方案可优化转换效率,将损耗和热负载尽可能降低。
  • 数字遥测和热监测: 在高密度环境中提供实时可见性和控制,使运营商能够发现问题并管理热边界。
  • 电池和电容备用电源系统:能够监控为IT机架供电的背板电压。当电力发生波动或中断时,这些系统会根据需要提供电力或吸收电荷。ADI的电池管理解决方案最初为汽车应用开发,能够在电源切换期间确保不间断运行。

这些器件共同支撑起稳定的高压分配和精准的功率/热控制,使高密度液冷机架变得实用、安全且易于管理。

智能数据中心基础设施商业案例

  • 液冷技术带来的效率提升,使整体能源需求降低15%至20%1
  • 效率提高,意味着电力成本降低
  • 减排15%至21%,同时降低了水资源和辅助电力消耗1

 

新的架构和先进技术助力数据中心实现显著的效能提升。

  • 精准检测和AI驱动的维护有助于减少停机时间并延长设备寿命。
  • 智能控制系统根据需求调配资源,提高能源利用效率。
  • 液冷技术使现有空间可实现更高的算力密度。

企业和组织采用这些方法后,通常能够降低运营成本、减少故障次数,并稳步推进可持续发展目标的实现。随着整体运营规模的扩大,由此带来的效益也会放大。

为未来铺平道路

未来的数据中心将是一个精密协同的生态系统,从电源管理、传感检测到光连接和电池管理,各类先进组件无缝配合。这种一体化方法既能应对当下的挑战,又能支撑未来的计算需求。无论是改造老旧设施还是规划新建部署,液冷技术都能在各种规模的数据中心发挥作用,使数据中心继续充当数字创新的关键枢纽。

数据中心的转型,不止聚焦散热管理和能效,更在于开启新的疆域,释放无限可能。

参考文献

1 Zachary Skidmore,“Microsoft Study Finds Liquid Cooling Can Cut Data Center Emissions by up to 21%”,Data Centre Dynamics,2025年5月。