AIチップで「GoogleがNVIDIAを打倒」は誇張しすぎ:Googleの主張を正しく見る
Googleの研究者らは2023年4月、自社製AI(人工知能)アクセラレーターチップ「TPU v4」の性能について説明する論文を発表。これをメディアが「Googleが最新AIスーパーコンピュータを披露し、NVIDIAを打倒したと主張」などと報じたが、それは誇張しすぎといえる。
Googleの研究者らは2023年4月4日(米国時間)、自社製AI(人工知能)アクセラレーターチップ「TPU v4」の性能について説明する論文を発表した。論文の中で研究者らは、同チップと市場をリードするNVIDIAのGPUを比較している。複数のメディアがこれについて報道していて、中でもCNBCは「Googleが最新AIスーパーコンピュータを披露し、NVIDIAを打倒したと主張」などと伝えている。
論文では、研究者らはTPU v4がNVIDIAの現行世代のフラグシップAIアクセラレーター「H100」をしのいでいるとは主張してはない。Googleは論文でTPU v4とNVIDIAの前世代品「A100」とを比較している。そのことから、業界観測筋の中には報道の仕方について批判する向きもある。
GoogleはNVIDIAを“打倒”しているのか、あるいは不当な比較をしているのか。実際のところ、そのどちらでもない。
NVIDIAの前世代品との比較は適切
A100はTPU v4の比較対象として適切だ。いずれも2020年に展開され、7nmプロセス技術を採用している。Googleは論文で、NVIDIAのどの世代のハードウェアと比較しているのかを明記している。
Googleの研究者らは論文の中で、「より新しい700WのH100は、2022年にはAWSやAzure、Google Cloudで利用できなかった。H100と適切な比較対象となるのは、同様の時期と技術(例えば2023年、4nmプロセス)で展開されるTPU v4の後継品だろう」と述べている。
AIチップに対するメディアの関心の高まりは、データセンターでのAI作業負荷の需要の急増に基づいている。そしてその背景には、ChatGPT のような生成AIモデルの大規模な学習や推論へのニーズがある。
Googleは2020年7月、2021年1月、2021年6月、2022年7月に、TPU v4の機械学習の業界標準ベンチマーク「MLPerf」のベンチマーク結果を提出している。ただ、H100のスコアが初めて明らかにされたラウンドである2022年11月には、Googleはスコアを提出していない。いずれにせよ、公開されたベンチマークを用い、TPU v4とH100のどちらがより高速にChatGPTをトレーニングできるかを試そうとした場合、おおよその検討をつけることは可能かもしれない。
自然言語処理モデルの「Bert」は現時点でChatGPT に最も近いMLPerfベンチマークだ。2021年6月、Googleの64個のTPU v4が4.68分でBertを学習させた。2022年11月にH100のスコアが明らかにされた際、NVIDIAの32個のH100は1.797分でBertを学習させた。しかし、GoogleはTPU v4システムの推論結果を提出することはなかった。
TPU v4がNVIDIAの現行世代技術を打倒していないのは明らかで、Googleは論文でその点について主張していない。Googleは公表されているMLPerfの学習結果を用い、「同等サイズのシステムにおいて、TPUv4はA100よりも1.15倍速く、IPU(GraphcoreのBow)より約4.3倍速くBertを学習させた」という結論を出している。
論文にあった興味深い記述
いずれにせよ、論文にはGoogleのTPUv4およびTPUv4スーパーコンピュータについて興味深い記述が多くあった。
- Googleのデータセンターでのトレーニングのうち90%以上がTPU上で行われている。2022年10月の時点で、そのワークロードの58%はTransformerモデルだった(うち26%がBertで、31%は大規模言語モデル[LLM])。また、TPU上で行われたトレーニングの24%はレコメンデーション(推奨)モデルだった。
- GoogleのTPU v4スーパーコンピュータは、自社開発した新たな光回路スイッチ「Palomar」を採用している。Palomarは、ミリ秒レベルで切り替わる3D MEMSミラーを搭載した作りになっている。この光スイッチング技術によって、非常に大規模なニューラルネットワーク学習に必要な異なる種類の並列性(データ並列、テンソル並列および/またはパイプライン並列)に合わせてトポロジーを変更できる。さらに、GoogleはAIを用い、LLMの学習で最も効率的な結果を出せるようスーパーコンピュータのトポロジーを構成している。GPT-3の事前トレーニングにおいて、AIが設計したトポロジーは人間の専門家による設計に比べ性能が1.2倍高かった。
- TPUv4は16nmから7nmノードに移行した(TPU v3は16nmだった)。これにより、行列乗算器は2倍となり、クロックは11%高速化された。その結果、ピーク性能は2.2倍に高まった。BF16のピーク性能は275TFLOPSである。
- TPUv4の各ダイには2個のテンソルコアが搭載されている。各テンソルコアは、128×128の行列乗数ユニットと128レーンのベクトル処理ユニットを備えている。
- Googleは、数世代のTPUで、組み込み学習用にドメイン特化型のアクセラレーター「SparseCore」を採用してきた。SparseCoreはダイ領域の約5%を占め、電力の5%を消費する。
論文に関するGoogleのブログや論文自体は閲覧できるが、この戦いの真の勝者が誰かを知るには、GoogleがTPU v5を構築するまで待たねばならないだろう。
【翻訳:青山麻由子、編集:EE Times Japan】
関連記事
- AIチップ/RISC-Vプロセッサの新興企業、日本に本格進出
著名なハードウェアエンジニアであるJim Keller氏が率いるスタートアップTenstorrentが、本格的に日本に進出した。まずは自動車分野をターゲットに、AIアクセラレーターや、RISC-VプロセッサのIPを提供する。 - AIチップ設計拠点が23年4月に本格始動
新エネルギー・産業技術総合開発機構は2023年3月17日、中小/ベンチャー企業などのAIチップ開発を加速するため、2019年から試験運転していた「AIチップ設計拠点」(東京都文京区)を2023年4月1日から本格運用すると発表した。 - AIチップ新興Hailo、新ビジョンプロセッサSoCを開発
AIチップのスタートアップHailoは、新型AIビジョンチップとして、AIアクセラレーターとCPU、DSPを備えたSoC(System on Chip)である「Hailo-15」シリーズを発表した。 - Transformerモデルの推論を実行するエッジAIチップ
XperiからスピンアウトしたAIチップ開発の新興企業Perceiveが、第2世代チップ「Ergo 2」をリリースした。1万パラメータ超のTransformerモデルの推論をエッジで実行可能だという。 - 低消費電力で高速な推論を実現する組み込みAIチップ
ルネサス エレクトロニクス(以下、ルネサス)は2022年12月8日、NEDOのプロジェクトにおいて、従来技術に比べて最大10倍の電力効率を実現したAI(人工知能)チップを開発したと発表した。 - 予約注文100万ドルに、ニューロモーフィックAIの仏新興企業
ニューロモーフィックコンピューティングを手掛けるフランスの新興企業GrAI Matter Labsが米国EE Timesに語ったところによると、同社の「GrAI VIP」チップは100万米ドルの予約注文を受けているという。
Copyright © ITmedia, Inc. All Rights Reserved.