推論性能でNVIDIAに挑む　AIチップは「省エネ」が競争の軸に：「MLPerf」の最新スコアを公開（4/4 ページ）

推論ベンチマーク「MLPerf」の最新ラウンドのスコアが公開された。その結果からは、AI用プロセッサの新たな競争の軸が、性能そのものよりも「電力効率」に移りつつあることが読み取れる。

LINE

Hatena

Googleは「Trillium」のプレビュー結果を提出

　Googleは、2024年後半に発売予定の次世代TPU v6eであるTrilliumの“プレビュー”結果を発表した。Trilliumは画像生成モデル「Stable Diffusion」を、サーバモードで4.49クエリ秒、オフラインモードで5.44サンプル/秒で推論できる。同じラウンドの現世代のTPU v5eと比較すると、性能は約3倍になる。NVIDIA GH200（「Grace Hopper」144GB）と比較すると、GH200はサーバモードで2.02クエリ/秒、オフラインモードで2.30サンプル/秒で、これはTrilliumの約半分の性能である。

　Googleは、「Trilliumは、より大きな行列乗算ユニットとより高速なクロック速度によって、前世代と比較してピーク演算性能が4.7倍向上する見通しだ」と述べている。HBMの容量と帯域幅も倍増し、カスタム光インターコネクトにより、チップ間の帯域幅も2倍になったという。

Intelの「Granite Rapids」

　IntelはAI推論用CPUを披露した（今回はHabanaからの応募はなかった）。次世代「Xeon」サーバプロセッサである「Granite Rapids」（開発コード名）は、全てのパフォーマンスコア（Pコア、効率コアまたはEコア）を搭載している。Granite Rapidsは、前世代のXeon CPUの1.9倍の性能を提供する。これは、GPT-J（6B）までの小型モデルのみを含む、提出された全てのワークロードの平均値である。

　同社は、新しいデータ型の導入やAMX（Advanced Matrix eXtensions）命令セット拡張の効率向上など、CPUロードマップにおいてAIへの投資を継続しているという。

【翻訳：滝本麻貴、編集：EE Times Japan】

原文へのリンク

推論性能でNVIDIAに挑む AIチップは「省エネ」が競争の軸に：「MLPerf」の最新スコアを公開（4/4 ページ）

Googleは「Trillium」のプレビュー結果を提出

Intelの「Granite Rapids」

関連記事

推論性能でNVIDIAに挑む　AIチップは「省エネ」が競争の軸に：「MLPerf」の最新スコアを公開（4/4 ページ）