メディア

AIチップで「GoogleがNVIDIAを打倒」は誇張しすぎGoogleの主張を正しく見る

Googleの研究者らは2023年4月、自社製AI(人工知能)アクセラレーターチップ「TPU v4」の性能について説明する論文を発表。これをメディアが「Googleが最新AIスーパーコンピュータを披露し、NVIDIAを打倒したと主張」などと報じたが、それは誇張しすぎといえる。

» 2023年04月13日 11時30分 公開
[Sally Ward-FoxtonEE Times]

 Googleの研究者らは2023年4月4日(米国時間)、自社製AI(人工知能)アクセラレーターチップ「TPU v4」の性能について説明する論文を発表した。論文の中で研究者らは、同チップと市場をリードするNVIDIAのGPUを比較している。複数のメディアがこれについて報道していて、中でもCNBCは「Googleが最新AIスーパーコンピュータを披露し、NVIDIAを打倒したと主張」などと伝えている。

 論文では、研究者らはTPU v4がNVIDIAの現行世代のフラグシップAIアクセラレーター「H100」をしのいでいるとは主張してはない。Googleは論文でTPU v4とNVIDIAの前世代品「A100」とを比較している。そのことから、業界観測筋の中には報道の仕方について批判する向きもある。

 GoogleはNVIDIAを“打倒”しているのか、あるいは不当な比較をしているのか。実際のところ、そのどちらでもない。

NVIDIAの前世代品との比較は適切

 A100はTPU v4の比較対象として適切だ。いずれも2020年に展開され、7nmプロセス技術を採用している。Googleは論文で、NVIDIAのどの世代のハードウェアと比較しているのかを明記している。

 Googleの研究者らは論文の中で、「より新しい700WのH100は、2022年にはAWSやAzure、Google Cloudで利用できなかった。H100と適切な比較対象となるのは、同様の時期と技術(例えば2023年、4nmプロセス)で展開されるTPU v4の後継品だろう」と述べている。

 AIチップに対するメディアの関心の高まりは、データセンターでのAI作業負荷の需要の急増に基づいている。そしてその背景には、ChatGPT のような生成AIモデルの大規模な学習や推論へのニーズがある。

 Googleは2020年7月、2021年1月、2021年6月、2022年7月に、TPU v4の機械学習の業界標準ベンチマーク「MLPerf」のベンチマーク結果を提出している。ただ、H100のスコアが初めて明らかにされたラウンドである2022年11月には、Googleはスコアを提出していない。いずれにせよ、公開されたベンチマークを用い、TPU v4とH100のどちらがより高速にChatGPTをトレーニングできるかを試そうとした場合、おおよその検討をつけることは可能かもしれない。

 自然言語処理モデルの「Bert」は現時点でChatGPT に最も近いMLPerfベンチマークだ。2021年6月、Googleの64個のTPU v4が4.68分でBertを学習させた。2022年11月にH100のスコアが明らかにされた際、NVIDIAの32個のH100は1.797分でBertを学習させた。しかし、GoogleはTPU v4システムの推論結果を提出することはなかった。

 TPU v4がNVIDIAの現行世代技術を打倒していないのは明らかで、Googleは論文でその点について主張していない。Googleは公表されているMLPerfの学習結果を用い、「同等サイズのシステムにおいて、TPUv4はA100よりも1.15倍速く、IPU(GraphcoreのBow)より約4.3倍速くBertを学習させた」という結論を出している。

論文にあった興味深い記述

 いずれにせよ、論文にはGoogleのTPUv4およびTPUv4スーパーコンピュータについて興味深い記述が多くあった。

  • Googleのデータセンターでのトレーニングのうち90%以上がTPU上で行われている。2022年10月の時点で、そのワークロードの58%はTransformerモデルだった(うち26%がBertで、31%は大規模言語モデル[LLM])。また、TPU上で行われたトレーニングの24%はレコメンデーション(推奨)モデルだった。
  • GoogleのTPU v4スーパーコンピュータは、自社開発した新たな光回路スイッチ「Palomar」を採用している。Palomarは、ミリ秒レベルで切り替わる3D MEMSミラーを搭載した作りになっている。この光スイッチング技術によって、非常に大規模なニューラルネットワーク学習に必要な異なる種類の並列性(データ並列、テンソル並列および/またはパイプライン並列)に合わせてトポロジーを変更できる。さらに、GoogleはAIを用い、LLMの学習で最も効率的な結果を出せるようスーパーコンピュータのトポロジーを構成している。GPT-3の事前トレーニングにおいて、AIが設計したトポロジーは人間の専門家による設計に比べ性能が1.2倍高かった。
  • TPUv4は16nmから7nmノードに移行した(TPU v3は16nmだった)。これにより、行列乗算器は2倍となり、クロックは11%高速化された。その結果、ピーク性能は2.2倍に高まった。BF16のピーク性能は275TFLOPSである。
  • TPUv4の各ダイには2個のテンソルコアが搭載されている。各テンソルコアは、128×128の行列乗数ユニットと128レーンのベクトル処理ユニットを備えている。
  • Googleは、数世代のTPUで、組み込み学習用にドメイン特化型のアクセラレーター「SparseCore」を採用してきた。SparseCoreはダイ領域の約5%を占め、電力の5%を消費する。

 論文に関するGoogleのブログ論文自体は閲覧できるが、この戦いの真の勝者が誰かを知るには、GoogleがTPU v5を構築するまで待たねばならないだろう。

【翻訳:青山麻由子、編集:EE Times Japan】

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.