SIGNALS+ 在线快讯订阅
持续关注Signals+,了解有关连接、数字健康、电气化和智能工业的最新见解、信息和想法并加以利用。
应对数据中心散热挑战
关键要点
|
随着数据、AI和复杂计算任务需求的迅猛增长,数据中心正经历快速转型与扩张。服务器机架中硬件密度的不断提高,使数据中心面临两项关键挑战:如何高效供电和散热。
现代AI系统,尤其是那些专为AI和机器学习而构建的系统,将海量算力压缩进越来越小的空间中。更多的晶体管、更密集的GPU集群和高性能加速器,不仅导致功耗攀升,也让有限空间内的热积聚问题愈发棘手。
数据中心的瓶颈已从机房面积和供电变成散热能力。放眼整个行业,从传统运营商到超大规模云服务商,这一散热管理拐点正倒逼业界从根本上重新思考系统的设计、管理和优化方式。
“热墙”困境
密度持续快速提升。
传统机架的运行功率在数十千瓦级别。AI工作负载,例如ChatGPT这样的大语言模型,需要40kW到60kW的GPU机架功率。新兴的超大规模“AI工厂”专为AI训练和推理而建造,单机架功率已突破100kW,未来的设计目标更是直指500kW乃至1MW。
风冷无法有效扩展。
空气是一种低效的传热介质。在更高算力密度下,空气无法以足够快的速度带走热量。要维持运行,只能提高气流速度、风扇功率和机架级复杂度,但这种做法不可持续。当单机架功率超过约50kW至100kW时,传统CRAC/CRAH系统便既不可行又不划算。
热风险不断放大。
散热不足会导致性能下降、故障、组件寿命缩短和运营成本增加。热量(而非空间或供电)正成为限制性能、正常运行时间和容量的主要因素。
每多一瓦用于散热,就少一瓦用于计算。
重新思考供电与散热
随着处理器功率的增加和芯片密度的提升,系统发热量超出了传统风冷系统能够高效或经济应对的极限。这一瓶颈促使数据中心采用液冷技术,从根本上重新设计散热管理,使散热效率比风冷高出几个数量级。如今,散热技术与供电、机架布局和气流设计协同发展。正是这种系统化整合,使超大规模AI数据中心得以突破以往的密度上限。
液冷方案。
液体凭借优异的导热性能,能够在热源处直接带走热量。虽然采用液冷会带来额外的复杂性和成本,但这种转型已经势不可挡。超大规模云服务商正在建设100%液冷式设施。现有数据中心则采用混合策略:高密度机架采用液冷,其他区域保留风冷。液冷不仅对解决当下热负荷问题至关重要,更是各种规模的数据中心持续支撑AI工作负载增长的关键。
防止热量产生。
运营商必须在移除热量与防止热量产生之间取得平衡。这不仅是一个热管理问题,更涉及整个供电链路。更具决定性的手段,是从源头抑制热量的产生:通过提高电源转换效率、减少阻性损耗、优化电压调节,减少以热量形式白白浪费的能源。这样一来,散热压力在成为问题之前,就已经被提前化解。
为未来赋能:800V直流配电。
AI大规模集群机架对传统电力系统构成严峻挑战:12V、48V和415VAC依赖大量铜线、笨重的电源单元和效率低下的转换链路,这些都会增加发热量。行业正向800V直流配电转型,目的是减少导体用量、降低阻性损耗并简化供电链路。
ADI公司为800V直流架构提供了热插拔控制器、高效DC-DC转换、电源监控和高级保护功能,确保供电稳定高效。
机架智能
高级监控功能可实时跟踪电压、电流和温度,从而实现资源精准分配。当散热泵无需全速运行时,若仍让其保持满负荷运转,将造成不必要的能源浪费。借助精确计量器件和精密器件(如低噪声放大器)测量电流检测分流信号,是实现高效供电和散热管理的关键。
为了确保可靠性,运营商通常将系统运行功率控制在99.95%左右,而非100%。ADI监控解决方案会实时跟踪这些功率水平,让运营商能够动态调整负载结构,在性能与系统寿命之间取得平衡。
AI的进步,一方面加剧了对电力和强大数据中心的需求,另一方面也提供了高效管理这些需求所需的智能。AI扮演着智能助手的角色,通过处理传感器数据来识别模式、预测故障并自动完成调整,从而提升运维精度。因此,运营商能够在宕机之前检测到异常情况,并根据实时工作负载动态调整散热策略,将被动维护转变为主动管理。
在机架层面,一系列专用器件使性能提升成为可能:
- 热插拔控制器和保护IC: 管理带电插拔操作,限制冲击电流,防止尖峰,检测故障,确保安全运行,这些对800V供电和兆瓦级负载至关重要。
- 电压调节和DC-DC转换: 利用高效率稳压器和多相控制器,将800V直流电压降至GPU、CPU、内存和器件所需的电压。ADI解决方案可优化转换效率,将损耗和热负载尽可能降低。
- 数字遥测和热监测: 在高密度环境中提供实时可见性和控制,使运营商能够发现问题并管理热边界。
- 电池和电容备用电源系统:能够监控为IT机架供电的背板电压。当电力发生波动或中断时,这些系统会根据需要提供电力或吸收电荷。ADI的电池管理解决方案最初为汽车应用开发,能够在电源切换期间确保不间断运行。
这些器件共同支撑起稳定的高压分配和精准的功率/热控制,使高密度液冷机架变得实用、安全且易于管理。
智能数据中心基础设施商业案例
|
新的架构和先进技术助力数据中心实现显著的效能提升。
- 精准检测和AI驱动的维护有助于减少停机时间并延长设备寿命。
- 智能控制系统根据需求调配资源,提高能源利用效率。
- 液冷技术使现有空间可实现更高的算力密度。
企业和组织采用这些方法后,通常能够降低运营成本、减少故障次数,并稳步推进可持续发展目标的实现。随着整体运营规模的扩大,由此带来的效益也会放大。
为未来铺平道路
未来的数据中心将是一个精密协同的生态系统,从电源管理、传感检测到光连接和电池管理,各类先进组件无缝配合。这种一体化方法既能应对当下的挑战,又能支撑未来的计算需求。无论是改造老旧设施还是规划新建部署,液冷技术都能在各种规模的数据中心发挥作用,使数据中心继续充当数字创新的关键枢纽。
数据中心的转型,不止聚焦散热管理和能效,更在于开启新的疆域,释放无限可能。
参考文献
1 Zachary Skidmore,“Microsoft Study Finds Liquid Cooling Can Cut Data Center Emissions by up to 21%”,Data Centre Dynamics,2025年5月。