概要
AIを利用した機能を提供するサーバ(以下、AIサーバ)では、電力に対する需要が急増しています。その背景にあるのは、GPU(Graphics Processing Unit)による消費電力の増加です。これを受けて、AIサーバ用の電源アーキテクチャで使用される電源電圧は48Vから800Vへと移行しつつあります。本稿では、その理由について詳しく説明します。また、アナログ・デバイセズは、データ・センターのインフラの進化に応じ、高電圧に対応可能な保護機能を備えるホット・スワップ・コントローラを継続的に提供してきました。本稿では、同コントローラに関するイノベーションについても解説します。
未来のデータ・センターに必要なホット・スワップ・コントローラ
AIによる処理負荷の激増に伴い、サーバ環境で使用されるGPUはかつてないほどの電力を消費するようになりました。それに応じ、ラックのレベルの給電用アーキテクチャでは、800Vの電圧が使用されるようになると見込まれています。ただ、サーバ環境では、通電したままの状態でトレイの抜き挿しを行えるようにする必要があります。そのため、800Vという高い電圧は、システムを監視/保護する機能に対して新たな課題をもたらします。そうした課題に対処するには、次世代のホット・スワップ・コントローラが必要です。それにより、高電圧を使用している際の突入電流を管理することが可能になります。それだけでなく、システムの診断を行ったり、安全性を確保したりするための堅牢性の高いテレメトリ機能も必要になります。アナログ・デバイセズは、12V/48Vに対応したホット・スワップ技術を提供する企業として高い評価を得てきました。現在は、800Vへの移行を支援するために、その専門技術を進化させるべく取り組みを進めています。
800Vが重要である理由
上述したように、AIサーバはラックのレベルでより高い電圧を使用する方向に進んでいます。それを促しているのは、以下に示す2つのトレンドです。
- GPUの消費電力の増加:GPUの演算性能は継続的に向上しています。それに伴い、消費電力も大幅に増加しています。
- ラック当たりの演算密度の増加:AIの大規模なトレーニングや推論を実施するためには、性能を最大化しつつ、インターコネクトによる遅延を最小化しなければなりません。そのため、1つのラックにより多くのGPUが実装されるようになっています。このコロケーションにより、帯域幅の利用効率が高まります。また、アクセラレータの間のデータ・パスが短くなることで、通信に伴うオーバーヘッドが低減されます。
上記のトレンドにより、ラックのレベルの電力に対する需要は急激に高まっています。それに対応するために、この分野では分散型の電力アーキテクチャへの移行が進んでいます。従来のアーキテクチャでは、電力分配ユニット(PDU:Power Distribution Unit)、バッテリ・バックアップ・ユニット(BBU:Battery Backup Unit)、キャパシタ・ユニット(CU:Capacitor Unit)などのパワー・コンポーネントが使われてきました。新たなアーキテクチャでは、これらのコンポーネントがIT向けのメインのラックから、それに隣接するパワー・サイドカーへ移設されます。このような分散を図ることにより、800Vといった高い供給電圧に対応することが可能になります。それだけでなく、ラック内の貴重なスペースを追加の演算リソース向けに解放することができます。
従来の給電方法
現在、AI向けのラックは48Vのバスバーを使用して動作しています(図1)。入力されるAC電圧は、ラック内の電源ユニット(PSU:Power Supply Unit)によって48VDCに変換されます。48VDCのバスバーからは、IT向けの装置(サーバのPSU、GPUのノード、スイッチなど)、双方向に対応するDC/DCコンバータを備えたBBU、高速なライドスルーやトランジェントに対応するスーパーキャパシタ・ユニット(SCU:Supercapacitor Unit)などに対して電力が供給されます。
ラック上の各ノード(例えば、サーバ・トレイ)は、システムが稼働している最中に挿抜可能でなければなりません。ここでサービス技術者が現場に赴き、いずれかのノードを交換する状況を思い浮かべてみてください。1つのノードを交換するために、ラック全体をシャットダウンするのは現実的ではありません。そのようなことをすれば、データ・センターの運用を大きく阻害することになります。それだけでなく、サーバのダウンタイムによって莫大なコストが発生してしまいます。ラックがオフラインになるのは、バスバーや施設の送電網などに関連する重大な電気的トラブルが発生した場合だけです。いずれかのノードを交換したい場合には、ラック全体を停止するのではなく、そのノードだけをホット・スワップします。サービス技術者は対象となるノードを取り外し、それを新たなノードに交換します。ホット・スワップの機能を実現することにより、他の装置を停止させることなく、そのノードだけを交換することが可能になるのです。
上記の交換を実施する際、ノードが備えるホット・スワップ・コントローラは内部で電源を切断し、そのノードを安全に取り外せる状態にします。ラックのバスバーは通電したままであり、他のすべてのノード、BBU、SCUに電力を供給し続けます。交換用のノードを挿入する際には、プリチャージ回路によって、完全にノードが接続される前の突入電流が制限されます。これは、ホット・スワップ・コントローラの重要な機能です。その後、ノードは自動的にブートし、AIに対応するクラスタに再度加わります(多くの場合、オーケストレーション・ツールによるリバランスの処理が行われます)。
図2は、AIサーバにおいて48Vのバスバーから各種のプロセッサに電力が分配される様子を表したものです。この図において紫色で示したのがホット・スワップ・コントローラです。同コントローラは、サービス技術者が安全かつ効率的にノードを取り外せるようにするための最初のインターフェースとして機能します。
アナログ・デバイセズは、48Vに対応する数多くのホット・スワップ・コントローラを提供してきました。ここでは、PMBus®に対応する電力監視機能を備えた製品をいくつか紹介しておきます。「LTC4286」と「LTC4287」は、それぞれシングルゲートとデュアルゲートのアーキテクチャを採用したホット・スワップ・コントローラです。パッケージは7mm×7mmのQFNであり、互いにピン互換性を有しています。また、新たな製品の例としては「LTC4284」が挙げられます。これは、5mm×8mmのQFNパッケージを採用したデュアルゲートのソリューションです。
より高い電圧への対応
先述したように、AI向けのプロセッサによる電力負荷は急増しています。それに伴い、より高いDC電圧をラックに分配できる新たなアーキテクチャが出現しつつあります。アナログ・デバイセズは、それに向けた最先端のソリューションを提供すべく尽力しています。特に、AIの分野を牽引するリーディング企業と密に連携することによって課題の解決に取り組んでいます。
ラックへの給電に用いられる新たな電圧は800Vと定義されています。この電圧は、サイドカーからIT向けのラックに直接供給されます。図3は、現在提案されているアーキテクチャの概念図です。
このように、現在はラックのレベルでより高い電圧を使用する方向に移行しつつあります。それを後押しする最大の要因は、ラック当たりの電力需要が増加していることです。電力が増加するということは、バスバーを流れる電流も増加するということを意味します。そのように電流量が増大するなか、許容される熱性能と電気的な性能を維持するためには、より大きく重いバスバーが必要になります。その結果、機械的な実用性やシステム設計の面で深刻な課題が生じました。それに対し、供給電圧を高くすれば、それに比例して必要な電流量は減少します。そうすれば、よりコンパクトで扱いやすいサイズのバスバーやインターコネクトを使用できるようになります。800Vという非常に高い電圧への移行は、次世代のAIサーバに対応するために不可欠です。それにより、ラックにおいてスケーラブルで効率的で機械的な面でも対応力のある電力分配を維持することが可能になります。
上述したとおり、現在はアーキテクチャの進化の過程にあります。そのため、実際には48Vのバスバーがラック内で使用される中間的な段階が生じる可能性があることにも注意しなければなりません。その場合、大電力に対応できるようにPSUを設計し、ラックに供給される800Vの電圧を48Vに降圧することで既存のバスバーに接続することになるでしょう。但し、その場合は電力の量が制限されることになります(恐らくラック当たり最大250kW程度)。つまり、これは長期的に存続する状態ではありません。最終的な目標(2029年末)は、1つのラックに最大限の演算能力を持たせられるよう、ラック当たりの供給電力を1MWまで高めることです。したがって、図3に示したとおり、PSUとBBUはIT向けコンピュータ・ラックの外側に配置するべきです。
将来的には、IT向けコンピュータ・ラックに直接高電圧を分配するために、ソリッド・ステート変圧器が使用されるようになるでしょう。そうすると、サイドカーは不要になる可能性があります。
次世代のホット・スワップ回路
アナログ・デバイセズは、データ・センター向けの電力分野全般にわたる豊富な専門技術を有しています。また、クラウド・サービスのプロバイダや半導体メーカーと連携し、高電圧を使用する次世代のラック・レベルのパワー・ソリューションを開発しています。
高電圧に対応可能なホット・スワップを実現するには、設計にあたって検討しなければならない数多くの事柄が存在します。また、最適なソリューションを構築するために克服しなければならない技術的な課題も明らかになっています。代表的な課題としては、以下に示すようなものがあります。
- 電力密度:800Vに対応するホット・スワップ回路は、最終的にIT向けラック内のサーバ・カード上に配置されます。そのため、同回路は非常に重要な要素に位置づけられます。そのカード上のスペースは非常に貴重です。より多くのサーバが各ラックに収容され、実装密度や電力密度が高まると、より厳しい制約が課せられます。したがって、高電圧に対応するホット・スワップ回路の実装スペースを最小限に抑えられるように設計しなければなりません。
- 高電圧の制御と保護:800Vへの移行は、安全性に関する深刻な課題をもたらします。48Vであれば感電のリスクは抑えられますが、800Vという高電圧は人の命を脅かすおそれがあります。そのため、ホット・スワップ回路は、大きな電流サージに数マイクロ秒以内に対応できるようにしなければなりません。言い換えれば、そのための精密な制御が不可欠だということです。非常に重要なのは、突入電流のランプを管理することです。それにより、ラックの損傷や技術者への危害を防ぐことが可能になります。ホット・スワップ回路は、タイミングを調整し、過電流や低電圧といった事象を検出し、必要に応じてグレースフルにシャットダウンする必要があります。
- テレメトリ:ホット・スワップ・コントローラは、ノードの電力パスの初段に配置されるコンポーネントです。その場所は、データ・アクイジションにとって理想的な位置でもあります。システムの仕様を満たした状態を維持するためには、電圧、電流、電力を正確に測定することが不可欠です。それだけでなく、過電流、低電圧、過熱などの事象も検出/記録する必要があります。また、パワー・スイッチ(MOSFET)やプリント回路基板の近くのエリアの温度も測定/報告しなければなりません。ホット・スワップ回路における正確なテレメトリは、リアルタイムの負荷電流のプロファイリングを可能にします。加えて、エネルギー需要の予測の精度を改善することにも役立ちます。つまり、システムに対して大きな価値をもたらすということです。更に、ホット・スワップ回路で収集されたデータの履歴を活用すれば、故障に至る前にPSUの性能の低下を検出することができます。これは予知保全につながります。その履歴は、電力を分配するためのラック・レベルのキャパシティ・プランニングのモデルでも活用可能です。アナログ・デバイセズは、次世代のラック・レベルの電力アーキテクチャを実現するために、高電圧に対応する新たなホット・スワップ・コントローラの開発に尽力しています。電源の保護とテレメトリの分野で実績のある知的財産を活用し、800Vの領域に向けた技術展開を進めています。次世代のソリューションを実現するための手段として、データ・センターで使われる機器のベンダーやパワー・スイッチのベンダーとの連携を強化しています。そのソリューションは、コンパクトなフォーム・ファクタ、大電力の精密な制御、高度かつ高精度のデータ・アクイジションといった新たな要件に対応します。これらのイノベーションは、高電圧を使用するAIサーバの安全かつ効率的な運用を可能にする上で極めて重要です。
まとめ
本稿で説明したとおり、AIサーバに対応するラックは800Vの電圧を使用する方向に進んでいます。この移行は、高度なGPUによる消費電力の増大に対応しつつ、より高い演算密度をサポートするために不可欠です。新たなアーキテクチャでは、パワー・コンポーネントをラックの外にあるサイドカーに移すことになります。それにより、メインのラック内の演算リソースに振り分けられるスペースを最適化することが可能になります。この移行を実現するには、高電圧に対応する次世代のホット・スワップ・コントローラが不可欠です。アナログ・デバイセズは、その開発の最前線にいます。同コントローラには、突入電流を効果的に管理する機能に加え、システムの診断や安全性の確保を目的とした包括的なテレメトリ機能が必要です。それにより、信頼性の高い運用を保証できるようになります。重要なのは、ラックの電力に関する機能の進化をシステムの視点から捉えることです。そうすれば、クラウド・サーバのプロバイダやシステム・インテグレータが新たな知見を創出してコストを削減できるよう支援することが可能になります。
