Googleは、2024年後半に発売予定の次世代TPU v6eであるTrilliumの“プレビュー”結果を発表した。Trilliumは画像生成モデル「Stable Diffusion」を、サーバモードで4.49クエリ秒、オフラインモードで5.44サンプル/秒で推論できる。同じラウンドの現世代のTPU v5eと比較すると、性能は約3倍になる。NVIDIA GH200(「Grace Hopper」144GB)と比較すると、GH200はサーバモードで2.02クエリ/秒、オフラインモードで2.30サンプル/秒で、これはTrilliumの約半分の性能である。
Googleは、「Trilliumは、より大きな行列乗算ユニットとより高速なクロック速度によって、前世代と比較してピーク演算性能が4.7倍向上する見通しだ」と述べている。HBMの容量と帯域幅も倍増し、カスタム光インターコネクトにより、チップ間の帯域幅も2倍になったという。
IntelはAI推論用CPUを披露した(今回はHabanaからの応募はなかった)。次世代「Xeon」サーバプロセッサである「Granite Rapids」(開発コード名)は、全てのパフォーマンスコア(Pコア、効率コアまたはEコア)を搭載している。Granite Rapidsは、前世代のXeon CPUの1.9倍の性能を提供する。これは、GPT-J(6B)までの小型モデルのみを含む、提出された全てのワークロードの平均値である。
同社は、新しいデータ型の導入やAMX(Advanced Matrix eXtensions)命令セット拡張の効率向上など、CPUロードマップにおいてAIへの投資を継続しているという。
【翻訳:滝本麻貴、編集:EE Times Japan】
Copyright © ITmedia, Inc. All Rights Reserved.