次世代AIチップレットで重要度が高まるインターコネクト技術：AIデータセンターに対応（1/3 ページ）

電力効率やコストが懸念されるAIデータセンターでは、チップレット集積の適用が現実的だとされる。チップレット集積技術の進化の鍵を握るのが、インターコネクト技術だ。

[Letizia Giuliano（Alphawave Semi），EE Times] PC用表示関連情報

LINE

Hatena

　AIの大規模導入には、ワークロードに膨大な演算性能と高速通信帯域幅が必要になるため、非常に大きな課題となっている。

　大規模なAIクラスタには、プロセッサやメモリ、ストレージ間のデータフローを処理するための膨大なネットワークインフラが必要だ。これがなければ、最先端モデルでさえも性能がボトルネックになる可能性がある。Metaによれば、データがデータセンターに存在している時間全体の約40％が、ネットワークに置かれているだけで無駄になっているという。

Metaが示したデータによれば、データがデータセンターに存在している時間全体の約40％が、ネットワークに置かれているだけで無駄になっているという［クリックで拡大］出所：Meta

　つまり、コネクティビティがネットワークを抑制しているのだ。AIには、最大限の通信帯域幅を備えた専用ハードウェアが必要である。

既存のデータセンターとは異なるAIデータセンター

　AIデータセンターは既存のデータセンターとは異なり、フロントエンドネットワーク内にAI処理専用のコンピューティングインフラを保有し、バックエンドとして機械学習アクセラレーテッドクラスタを組み込んでいる。

　AIの大規模なトレーニングワークロードは、バックエンドネットワーク上に高帯域幅のトラフィックを生成する。このトラフィックは通常、規則的なパターンで流れ、フロントエンドネットワークで必要とされるパケットごとの処理は不要だ。全てが正常に機能している時は、非常に高いレベルのアクティビティーで動作する。

　他のリソースへの高速アクセスが必要なため、低レイテンシが重要であり、それはフラットな階層によって実現される。高価なコンピュートが十分に活用されないまま放置されるのを防ぐためには、スイッチングもノンブロッキングでなければならない。ここで注意すべきは、パケットロスが頻繁に発生するリンクが1つでも存在すると、AIネットワークの性能がボトルネックになり得るという点だ。ネットワークの堅牢性と信頼性も重要であるため、バックエンドの機械学習ネットワークの設計ではこの点についても考慮される。

AIデータセンターに必要なコネクティビティ

　必要なコネクティビティについては、ネットワークを2つのCPUまたはXPUだけに簡素化してみると分かる。

AIデータセンターにおけるネットワークのイメージ［クリックで拡大］出所：Alphawave Semi

　フロントエンドネットワークを接続するCPUから始まり、これは今もイーサネットの範囲内にある。現在は112Gだが、将来的には224Gが標準実装となる予定だ。

　フロントエンドのネットワークインタフェースカード（およびその他の周辺機器）は、PCIe（PCI Express）経由で接続されている。通常はGen5またはGen6だが、最終的にはGen7が確定され、2025年にはデータセンターに導入される見込みだ。現在CPU／XPUは、PCIeまたはCXL（Compute Express Link）（v3）のいずれかを介してストレージにアクセスし、レイテンシを低減している。また将来的には、シリコンストレージとGPUが直接データをやりとりするStorage-to-GPU接続が実現し、専用ラックに集約されたプールの分散型ストレージが提供される可能性がある。

　バックエンドについて見てみると、例えばNVIDIAのInfiniBandのように、イーサネット／PCIeがある程度カスタマイズされている。また、100Gビット／200Gビットイーサネット標準をベースとした、他のリンクの進化／標準化なども見られる。

　サーバ内のXPU間およびCPU上の内部接続に関しては、NVLink（NVIDIA）や新しいUALink（Ultra Accelerator Link Consortium）など、さまざまなソリューションがある。そして最後に、XPUとそのメモリ間の接続には、広帯域メモリ（HBM）が使われている。

チップレットの必要性

原文へのリンク

　　　　　　 | 次のページへ