Googleの研究者らは2023年4月、自社製AI(人工知能)アクセラレーターチップ「TPU v4」の性能について説明する論文を発表。これをメディアが「Googleが最新AIスーパーコンピュータを披露し、NVIDIAを打倒したと主張」などと報じたが、それは誇張しすぎといえる。
Googleの研究者らは2023年4月4日(米国時間)、自社製AI(人工知能)アクセラレーターチップ「TPU v4」の性能について説明する論文を発表した。論文の中で研究者らは、同チップと市場をリードするNVIDIAのGPUを比較している。複数のメディアがこれについて報道していて、中でもCNBCは「Googleが最新AIスーパーコンピュータを披露し、NVIDIAを打倒したと主張」などと伝えている。
論文では、研究者らはTPU v4がNVIDIAの現行世代のフラグシップAIアクセラレーター「H100」をしのいでいるとは主張してはない。Googleは論文でTPU v4とNVIDIAの前世代品「A100」とを比較している。そのことから、業界観測筋の中には報道の仕方について批判する向きもある。
GoogleはNVIDIAを“打倒”しているのか、あるいは不当な比較をしているのか。実際のところ、そのどちらでもない。
A100はTPU v4の比較対象として適切だ。いずれも2020年に展開され、7nmプロセス技術を採用している。Googleは論文で、NVIDIAのどの世代のハードウェアと比較しているのかを明記している。
Googleの研究者らは論文の中で、「より新しい700WのH100は、2022年にはAWSやAzure、Google Cloudで利用できなかった。H100と適切な比較対象となるのは、同様の時期と技術(例えば2023年、4nmプロセス)で展開されるTPU v4の後継品だろう」と述べている。
AIチップに対するメディアの関心の高まりは、データセンターでのAI作業負荷の需要の急増に基づいている。そしてその背景には、ChatGPT のような生成AIモデルの大規模な学習や推論へのニーズがある。
Googleは2020年7月、2021年1月、2021年6月、2022年7月に、TPU v4の機械学習の業界標準ベンチマーク「MLPerf」のベンチマーク結果を提出している。ただ、H100のスコアが初めて明らかにされたラウンドである2022年11月には、Googleはスコアを提出していない。いずれにせよ、公開されたベンチマークを用い、TPU v4とH100のどちらがより高速にChatGPTをトレーニングできるかを試そうとした場合、おおよその検討をつけることは可能かもしれない。
自然言語処理モデルの「Bert」は現時点でChatGPT に最も近いMLPerfベンチマークだ。2021年6月、Googleの64個のTPU v4が4.68分でBertを学習させた。2022年11月にH100のスコアが明らかにされた際、NVIDIAの32個のH100は1.797分でBertを学習させた。しかし、GoogleはTPU v4システムの推論結果を提出することはなかった。
TPU v4がNVIDIAの現行世代技術を打倒していないのは明らかで、Googleは論文でその点について主張していない。Googleは公表されているMLPerfの学習結果を用い、「同等サイズのシステムにおいて、TPUv4はA100よりも1.15倍速く、IPU(GraphcoreのBow)より約4.3倍速くBertを学習させた」という結論を出している。
いずれにせよ、論文にはGoogleのTPUv4およびTPUv4スーパーコンピュータについて興味深い記述が多くあった。
論文に関するGoogleのブログや論文自体は閲覧できるが、この戦いの真の勝者が誰かを知るには、GoogleがTPU v5を構築するまで待たねばならないだろう。
【翻訳:青山麻由子、編集:EE Times Japan】
Copyright © ITmedia, Inc. All Rights Reserved.