次世代AIチップレットで重要度が高まるインターコネクト技術:AIデータセンターに対応(1/3 ページ)
電力効率やコストが懸念されるAIデータセンターでは、チップレット集積の適用が現実的だとされる。チップレット集積技術の進化の鍵を握るのが、インターコネクト技術だ。
AIの大規模導入には、ワークロードに膨大な演算性能と高速通信帯域幅が必要になるため、非常に大きな課題となっている。
大規模なAIクラスタには、プロセッサやメモリ、ストレージ間のデータフローを処理するための膨大なネットワークインフラが必要だ。これがなければ、最先端モデルでさえも性能がボトルネックになる可能性がある。Metaによれば、データがデータセンターに存在している時間全体の約40%が、ネットワークに置かれているだけで無駄になっているという。
つまり、コネクティビティがネットワークを抑制しているのだ。AIには、最大限の通信帯域幅を備えた専用ハードウェアが必要である。
既存のデータセンターとは異なるAIデータセンター
AIデータセンターは既存のデータセンターとは異なり、フロントエンドネットワーク内にAI処理専用のコンピューティングインフラを保有し、バックエンドとして機械学習アクセラレーテッドクラスタを組み込んでいる。
AIの大規模なトレーニングワークロードは、バックエンドネットワーク上に高帯域幅のトラフィックを生成する。このトラフィックは通常、規則的なパターンで流れ、フロントエンドネットワークで必要とされるパケットごとの処理は不要だ。全てが正常に機能している時は、非常に高いレベルのアクティビティーで動作する。
他のリソースへの高速アクセスが必要なため、低レイテンシが重要であり、それはフラットな階層によって実現される。高価なコンピュートが十分に活用されないまま放置されるのを防ぐためには、スイッチングもノンブロッキングでなければならない。ここで注意すべきは、パケットロスが頻繁に発生するリンクが1つでも存在すると、AIネットワークの性能がボトルネックになり得るという点だ。ネットワークの堅牢性と信頼性も重要であるため、バックエンドの機械学習ネットワークの設計ではこの点についても考慮される。
AIデータセンターに必要なコネクティビティ
必要なコネクティビティについては、ネットワークを2つのCPUまたはXPUだけに簡素化してみると分かる。
フロントエンドネットワークを接続するCPUから始まり、これは今もイーサネットの範囲内にある。現在は112Gだが、将来的には224Gが標準実装となる予定だ。
フロントエンドのネットワークインタフェースカード(およびその他の周辺機器)は、PCIe(PCI Express)経由で接続されている。通常はGen5またはGen6だが、最終的にはGen7が確定され、2025年にはデータセンターに導入される見込みだ。現在CPU/XPUは、PCIeまたはCXL(Compute Express Link)(v3)のいずれかを介してストレージにアクセスし、レイテンシを低減している。また将来的には、シリコンストレージとGPUが直接データをやりとりするStorage-to-GPU接続が実現し、専用ラックに集約されたプールの分散型ストレージが提供される可能性がある。
バックエンドについて見てみると、例えばNVIDIAのInfiniBandのように、イーサネット/PCIeがある程度カスタマイズされている。また、100Gビット/200Gビットイーサネット標準をベースとした、他のリンクの進化/標準化なども見られる。
サーバ内のXPU間およびCPU上の内部接続に関しては、NVLink(NVIDIA)や新しいUALink(Ultra Accelerator Link Consortium)など、さまざまなソリューションがある。そして最後に、XPUとそのメモリ間の接続には、広帯域メモリ(HBM)が使われている。
Copyright © ITmedia, Inc. All Rights Reserved.