AIチップで「GoogleがNVIDIAを打倒」は誇張しすぎ：Googleの主張を正しく見る

Googleの研究者らは2023年4月、自社製AI（人工知能）アクセラレーターチップ「TPU v4」の性能について説明する論文を発表。これをメディアが「Googleが最新AIスーパーコンピュータを披露し、NVIDIAを打倒したと主張」などと報じたが、それは誇張しすぎといえる。

[Sally Ward-Foxton，EE Times] PC用表示関連情報

LINE

Hatena

　Googleの研究者らは2023年4月4日（米国時間）、自社製AI（人工知能）アクセラレーターチップ「TPU v4」の性能について説明する論文を発表した。論文の中で研究者らは、同チップと市場をリードするNVIDIAのGPUを比較している。複数のメディアがこれについて報道していて、中でもCNBCは「Googleが最新AIスーパーコンピュータを披露し、NVIDIAを打倒したと主張」などと伝えている。

　論文では、研究者らはTPU v4がNVIDIAの現行世代のフラグシップAIアクセラレーター「H100」をしのいでいるとは主張してはない。Googleは論文でTPU v4とNVIDIAの前世代品「A100」とを比較している。そのことから、業界観測筋の中には報道の仕方について批判する向きもある。

　GoogleはNVIDIAを“打倒”しているのか、あるいは不当な比較をしているのか。実際のところ、そのどちらでもない。

NVIDIAの前世代品との比較は適切

　A100はTPU v4の比較対象として適切だ。いずれも2020年に展開され、7nmプロセス技術を採用している。Googleは論文で、NVIDIAのどの世代のハードウェアと比較しているのかを明記している。

　Googleの研究者らは論文の中で、「より新しい700WのH100は、2022年にはAWSやAzure、Google Cloudで利用できなかった。H100と適切な比較対象となるのは、同様の時期と技術（例えば2023年、4nmプロセス）で展開されるTPU v4の後継品だろう」と述べている。

　AIチップに対するメディアの関心の高まりは、データセンターでのAI作業負荷の需要の急増に基づいている。そしてその背景には、ChatGPT のような生成AIモデルの大規模な学習や推論へのニーズがある。

　Googleは2020年7月、2021年1月、2021年6月、2022年7月に、TPU v4の機械学習の業界標準ベンチマーク「MLPerf」のベンチマーク結果を提出している。ただ、H100のスコアが初めて明らかにされたラウンドである2022年11月には、Googleはスコアを提出していない。いずれにせよ、公開されたベンチマークを用い、TPU v4とH100のどちらがより高速にChatGPTをトレーニングできるかを試そうとした場合、おおよその検討をつけることは可能かもしれない。

　自然言語処理モデルの「Bert」は現時点でChatGPT に最も近いMLPerfベンチマークだ。2021年6月、Googleの64個のTPU v4が4.68分でBertを学習させた。2022年11月にH100のスコアが明らかにされた際、NVIDIAの32個のH100は1.797分でBertを学習させた。しかし、GoogleはTPU v4システムの推論結果を提出することはなかった。

　TPU v4がNVIDIAの現行世代技術を打倒していないのは明らかで、Googleは論文でその点について主張していない。Googleは公表されているMLPerfの学習結果を用い、「同等サイズのシステムにおいて、TPUv4はA100よりも1.15倍速く、IPU（GraphcoreのBow）より約4.3倍速くBertを学習させた」という結論を出している。

論文にあった興味深い記述

　いずれにせよ、論文にはGoogleのTPUv4およびTPUv4スーパーコンピュータについて興味深い記述が多くあった。

Googleのデータセンターでのトレーニングのうち90％以上がTPU上で行われている。2022年10月の時点で、そのワークロードの58％はTransformerモデルだった（うち26％がBertで、31％は大規模言語モデル［LLM］）。また、TPU上で行われたトレーニングの24％はレコメンデーション（推奨）モデルだった。
GoogleのTPU v4スーパーコンピュータは、自社開発した新たな光回路スイッチ「Palomar」を採用している。Palomarは、ミリ秒レベルで切り替わる3D MEMSミラーを搭載した作りになっている。この光スイッチング技術によって、非常に大規模なニューラルネットワーク学習に必要な異なる種類の並列性（データ並列、テンソル並列および／またはパイプライン並列）に合わせてトポロジーを変更できる。さらに、GoogleはAIを用い、LLMの学習で最も効率的な結果を出せるようスーパーコンピュータのトポロジーを構成している。GPT-3の事前トレーニングにおいて、AIが設計したトポロジーは人間の専門家による設計に比べ性能が1.2倍高かった。
TPUv4は16nmから7nmノードに移行した（TPU v3は16nmだった）。これにより、行列乗算器は2倍となり、クロックは11％高速化された。その結果、ピーク性能は2.2倍に高まった。BF16のピーク性能は275TFLOPSである。
TPUv4の各ダイには2個のテンソルコアが搭載されている。各テンソルコアは、128×128の行列乗数ユニットと128レーンのベクトル処理ユニットを備えている。
Googleは、数世代のTPUで、組み込み学習用にドメイン特化型のアクセラレーター「SparseCore」を採用してきた。SparseCoreはダイ領域の約5％を占め、電力の5％を消費する。

　論文に関するGoogleのブログや論文自体は閲覧できるが、この戦いの真の勝者が誰かを知るには、GoogleがTPU v5を構築するまで待たねばならないだろう。

【翻訳：青山麻由子、編集：EE Times Japan】

原文へのリンク

AIチップで「GoogleがNVIDIAを打倒」は誇張しすぎ：Googleの主張を正しく見る

NVIDIAの前世代品との比較は適切

論文にあった興味深い記述

関連記事