因應AI領域的±400V/800V熱插拔保護與遙測技術
因應AI領域的±400V/800V熱插拔保護與遙測技術
作者:ADI資料中心電源行銷總監Donal McCarthy
摘要
隨著GPU功耗的持續攀升,AI伺服器環境中的供電需求不斷增加,本文圍繞此趨勢展開討論。文中重點闡述供電架構從48V向800V的轉型變化,並探討隨著資料中心基礎設施的演進,ADI在高壓熱插拔保護領域的持續創新成果。
資料中心熱插拔控制器的未來發展
隨著AI工作負載不斷加重,伺服器環境中的GPU催生了前所未有的供電需求,推動機櫃級供電架構向800V轉型。這種高壓架構為系統保護與監控帶來了新的挑戰,尤其是在托盤實施帶電插拔的過程中。為因應這些挑戰,新一代熱插拔控制器因運而生:相關元件不僅要具備管理高壓湧浪電流的能力,還需要能提供可靠的遙測功能,以支援系統診斷與安全防護。ADI在12V與48V熱插拔技術領域是公認的業界領導廠商,如今正將此方面的技術專長拓展至800V領域,以支援產業向高壓架構轉型。
為何800V架構如此重要?
在AI伺服器基礎設施中,有兩大核心趨勢正推動機櫃級供電向更高電壓轉型。
- GPU功耗持續攀升: 隨著GPU的計算性能不斷提升,其供電需求也大幅增加。
- 單機櫃運算密度增高:為實現大規模AI訓練與推理場景下的性能最大化,並盡可能降低連線延遲,越來越多的GPU被整合到單一機櫃中。這種共置方式透過縮短加速器之間的資料傳輸路徑,不僅提升了頻寬效率,還減少了通訊開銷。
為滿足由此激增的機櫃級供電需求,產業正逐漸轉向分散式供電架構。在這種模式下,傳統供電元件(如配電單元(PDU)、電池備份單元(BBU)與電容單元(CU))不再部署在IT主機櫃內,而是轉移至相鄰的供電側櫃(sidecar)中。這種分離設計不僅支援800V等更高電壓的電力傳輸,還能騰出機櫃內的寶貴空間,用於容納更多運算資源。
現有的供電方式
AI機架採用48V匯流排進行供電(見圖1)。交流電透過機櫃內的電源單元(PSU)轉換為48V直流電源(VDC)。48V匯流排為以下設備供電:IT設備(包括伺服器PSU、GPU節點、交換器)、自帶雙向直流-直流轉換器的電池備份單元(BBU),以及用於快速暫態支撐與瞬態處理的超級電容單元(SCU)。
機櫃上的每個節點(例如伺服器托盤)都需要具備在設備運行狀態下實現接入與斷開的能力。試想一個場景:一名技術人員到現場更換伺服器時,如果為了更換單台伺服器而關閉整個機櫃是不可行的,因為這種操作會對資料中心的運作造成極大干擾,更不用說伺服器停機帶來的高額損失。只有在出現重大電力問題(如匯流排或設施供電相關故障)時,才會將機櫃下線。除此之外,由於節點均採用熱插拔方式,因此技術人員無需關閉其他任何設備,即可取下待更換節點、完成替換並重新裝回。
在此過程中,節點的熱插拔控制器會在內部切斷電源,確保節點可安全移除;而機櫃的匯流排仍保持通電狀態,繼續為其他所有節點、BBU及SCU供電。當替換節點安裝到位後,預充電電路會在完全接通前限制湧浪電流,這也是熱插拔控制器的一項關鍵功能。隨後,替換節點會自動啟動並重新接入AI集群(通常由編排工具負責負載再平衡)。
圖2展示了AI伺服器從48V匯流排到處理器的供電分配情況,其中清晰地將熱插拔控制器標註為「首個介面」,讓技術人員能夠安全、高效地移除節點。
ADI擁有豐富的48V熱插拔控制器產品系列,具備PMBus®電源監控功能,例如LTC4286與LTC4287二者均為7 mm × 7 mm QFN封裝的熱插拔控制器,分別採用單閘極與雙閘極架構。最近,該產品系列又新增了LTC4284雙閘極解決方案,其封裝規格為5 mm × 8 mm QFN。
向更高電壓演進
隨著AI處理器的功耗不斷增加,機櫃級高壓直流配電正成為新的發展方向。ADI不僅身處技術前端,並與業界領先企業緊密合作,共同解決相關難題。
機櫃側已定義新的配電電壓等級(±400V或800V),由供電側櫃直接輸送至IT機櫃。圖3展示了此一擬議架構。
機櫃級電壓向更高水準轉型的主要驅動力,是單機櫃不斷攀升的供電需求。隨著供電功率增加,流經匯流排的電流也會相應增大。為維持符合要求的熱性能與電性能,電流增大表示需要更大、更重的匯流排,而這在機械實用性與系統設計層面帶來了高度挑戰。透過提高供電電壓,所需電流可按比例降低,進而能夠使用尺寸更精巧、更易管理的匯流排及互聯元件。這種向更高電壓的轉型,對於在下一代AI伺服器機櫃中實現可擴展、高效且機械可行的配電非常重要。
值得注意的是,如此架構演進過程中可能存在轉換階段:機櫃內仍使用48V匯流排。在此情況下,PSU會升級至更高功率規格,在機櫃側接收±400V/800V電壓,然後降壓轉換為48V,以適配現有的48V匯流排。但這並非長期方案,因為其供電能力存在侷限(單機櫃功率可能最高僅達250kW);而業界的目標是實現單機櫃算力最大化,也就是到這個十年結束時,將單機櫃供電功率提升至1MW。因此,PSU與BBU最適合部署在IT電腦櫃外部,如圖3所示。
未來,固態變壓器可望投入使用,可直接向每個IT電腦櫃分配高壓,無需再依賴這些供電側櫃。
熱插拔技術邁向新高度
ADI在資料中心電源領域擁有深厚的專業技術累積,正與雲端服務供應商及半導體製造商合作,共同開發下一代機櫃級高壓供電解決方案。
要實現高壓熱插拔,需明確許多設計考量,也需突破各類技術難題,方能打造出最優解決方案。
- 功率密度:功率密度是關鍵因素:因為±400V/800V熱插拔電路最終需整合在IT機櫃內的伺服器卡上。這些伺服器卡的空間極為寶貴,且隨著機櫃密度提升(即在單一機櫃內整合更多伺服器),空間限制將愈嚴格。因此,高壓熱插拔解決方案必須設計為佔用盡可能小的空間。
- 高壓控制與保護:向±400V及800V電壓轉型,帶來了嚴峻的安全挑戰。48V電壓的觸電風險極低,而高電壓則可能危及生命。因此,熱插拔電路必須在微秒級時間內處理大幅電流湧浪,也使得精準控制變得非常重要。管控湧浪電流上升斜率是核心,這能避免機櫃設備損壞,同時保障技術人員安全。此外,系統還需協調時序、檢測過電流或欠壓事件,並在必要時實現平穩關機。
- 遙測:作為節點供電路徑中的第一個元件,熱插拔控制器是資料擷取的理想位置。其必須精準測量電壓、電流與功率,以滿足系統規格要求,同時還需記錄過流、欠壓、熱關斷等事件日誌。此外,熱插拔控制器還應上報功率開關(MOSFET)或附近印刷電路板(PCB)區域的溫度資料。精準的熱插拔遙測技術能為系統帶來顯著價值:透過即時分析負載電流,改善能源需求預測。熱插拔環節收集的歷史電流資料,既支援預測性維護(例如在PSU觸發故障前識別異常),也能為機櫃級配電容量規劃模型提供資料支撐。ADI正積極開發新型高壓熱插拔控制器解決方案,以支援新興的機櫃級供電架構。依託在電源保護與遙測領域經過驗證的智慧財產權,ADI正將自身的技術能力拓展至±400V與800V領域。透過與領先的資料中心OEM及功率開關供應商合作,ADI的下一代解決方案在設計上充分滿足熱插拔系統不斷演進的需求,包括精巧的外型尺寸、精準的高功率控制及更高的資料擷取準確度。這些創新對於保障高壓AI伺服器環境安全高效運行皆非常重要。
結語
本文重點闡述了AI伺服器機櫃向800V供電架構轉型的關鍵趨勢,此一轉型,目的在滿足先進GPU日益增加的功耗需求,並支援更高的運算密度。新架構將供電元件遷移至獨立的供電側櫃,進而優化主機櫃內計算資源的空間配置。ADI處於此技術發展的前端,所開發的下一代高壓熱插拔控制器能夠有效管理湧浪電流、提供全面的系統診斷與安全遙測功能,並確保運行可靠性。從系統層面審視機櫃供電的演進後,開發業者將可協助雲端伺服器供應商與系統整合業者獲得新的洞察,進而達到節省成本的目的。