検索
特集

次世代AIチップレットで重要度が高まるインターコネクト技術AIデータセンターに対応(1/3 ページ)

電力効率やコストが懸念されるAIデータセンターでは、チップレット集積の適用が現実的だとされる。チップレット集積技術の進化の鍵を握るのが、インターコネクト技術だ。

Share
Tweet
LINE
Hatena

 AIの大規模導入には、ワークロードに膨大な演算性能と高速通信帯域幅が必要になるため、非常に大きな課題となっている。

 大規模なAIクラスタには、プロセッサやメモリ、ストレージ間のデータフローを処理するための膨大なネットワークインフラが必要だ。これがなければ、最先端モデルでさえも性能がボトルネックになる可能性がある。Metaによれば、データがデータセンターに存在している時間全体の約40%が、ネットワークに置かれているだけで無駄になっているという。

Metaが示したデータによれば、データがデータセンターに存在している時間全体の約40%が、ネットワークに置かれているだけで無駄になっているという[クリックで拡大] 出所:Meta
Metaが示したデータによれば、データがデータセンターに存在している時間全体の約40%が、ネットワークに置かれているだけで無駄になっているという[クリックで拡大] 出所:Meta

 つまり、コネクティビティがネットワークを抑制しているのだ。AIには、最大限の通信帯域幅を備えた専用ハードウェアが必要である。

既存のデータセンターとは異なるAIデータセンター

 AIデータセンターは既存のデータセンターとは異なり、フロントエンドネットワーク内にAI処理専用のコンピューティングインフラを保有し、バックエンドとして機械学習アクセラレーテッドクラスタを組み込んでいる。

 AIの大規模なトレーニングワークロードは、バックエンドネットワーク上に高帯域幅のトラフィックを生成する。このトラフィックは通常、規則的なパターンで流れ、フロントエンドネットワークで必要とされるパケットごとの処理は不要だ。全てが正常に機能している時は、非常に高いレベルのアクティビティーで動作する。

 他のリソースへの高速アクセスが必要なため、低レイテンシが重要であり、それはフラットな階層によって実現される。高価なコンピュートが十分に活用されないまま放置されるのを防ぐためには、スイッチングもノンブロッキングでなければならない。ここで注意すべきは、パケットロスが頻繁に発生するリンクが1つでも存在すると、AIネットワークの性能がボトルネックになり得るという点だ。ネットワークの堅牢性と信頼性も重要であるため、バックエンドの機械学習ネットワークの設計ではこの点についても考慮される。

AIデータセンターに必要なコネクティビティ

 必要なコネクティビティについては、ネットワークを2つのCPUまたはXPUだけに簡素化してみると分かる。

AIデータセンターにおけるネットワークのイメージ[クリックで拡大] 出所:Alphawave Semi
AIデータセンターにおけるネットワークのイメージ[クリックで拡大] 出所:Alphawave Semi

 フロントエンドネットワークを接続するCPUから始まり、これは今もイーサネットの範囲内にある。現在は112Gだが、将来的には224Gが標準実装となる予定だ。

 フロントエンドのネットワークインタフェースカード(およびその他の周辺機器)は、PCIe(PCI Express)経由で接続されている。通常はGen5またはGen6だが、最終的にはGen7が確定され、2025年にはデータセンターに導入される見込みだ。現在CPU/XPUは、PCIeまたはCXL(Compute Express Link)(v3)のいずれかを介してストレージにアクセスし、レイテンシを低減している。また将来的には、シリコンストレージとGPUが直接データをやりとりするStorage-to-GPU接続が実現し、専用ラックに集約されたプールの分散型ストレージが提供される可能性がある。

 バックエンドについて見てみると、例えばNVIDIAのInfiniBandのように、イーサネット/PCIeがある程度カスタマイズされている。また、100Gビット/200Gビットイーサネット標準をベースとした、他のリンクの進化/標準化なども見られる。

 サーバ内のXPU間およびCPU上の内部接続に関しては、NVLink(NVIDIA)や新しいUALink(Ultra Accelerator Link Consortium)など、さまざまなソリューションがある。そして最後に、XPUとそのメモリ間の接続には、広帯域メモリ(HBM)が使われている。

Copyright © ITmedia, Inc. All Rights Reserved.

       | 次のページへ
ページトップに戻る