MLPerfベンチマーク、Googleが4つで最高スコアを記録：他社も含めスコアが著しく向上（1/2 ページ）

Googleは、機械学習の業界標準ベンチマーク「MLPerf」の最終ラウンドにおいて、全8個のベンチマークのうち4個で最高スコアを達成した。

LINE

Hatena

　Googleは、機械学習の業界標準ベンチマーク「MLPerf」の最終ラウンドにおいて、全8個のベンチマークのうち4個で最高スコアを達成した。NVIDIAは、2つのアクセラレーターベースのベンチマークにおいて、Googleを打ち負かしたと主張する。また、その他の4個のワークロードに関しては、他の競合メーカーは存在しなかったという。

　今回のラウンドには、世界最先端のハードウェア／システムがエントリーしている。例えば、Googleの「TPU v4」システム（4096基のTPUで構成）や、NVIDIAの「A100」システムの他、GraphcoreやHabana Labs（Intelにより買収済み）の最新世代ハードウェアなども挙げられる。またMosaic MLのように、ソフトウェアのみのスコアを提出するという興味深いエントリーもあった。

　NVIDIAは今回、同社の最新ハードウェア「H100」についてはスコアを提出しておらず、次のベンチマークラウンドにおいて投入予定だとしている。このため、GoogleやGraphcore、Habana Labsの最新世代のハードウェアは、NVIDIAが2年前に投入したA100と対決したことになる。

　今回のラウンドのスコアは全体的に、著しい性能向上を達成している。MLPerfのエグゼクティブディレクターを務めるDavid Kanter氏は、オーストリアの経営学者Peter Drucker氏の言葉を引用し、「What gets measured gets improved.（測定できるものは、必ず改善することができる）」と述べた。

　MLPerfがトレーニングのベンチマークスコア測定を開始して以来、「ムーアの法則」に比べ純粋に3.5倍のスピードで性能向上を実現できると期待されていた。しかし、最新ラウンドのスコアを見ると、業界ではハードウェア／ソフトウェアのイノベーションにより、同じ期間中にムーアの法則を10倍上回る速さで成長を遂げていることが分かる。またKanter氏の分析によれば、今回最速のトレーニングスコアでは、前回のラウンドにおいて最大規模のシステムが達成したスコアに対し、1.88倍の性能向上を実現している他、最大50％の性能向上を実現したアクセラレーターシステムもある。

　Kanter氏は、「業界の進捗を示すバロメーターとしては、全てが非常に順調だと言える」と語った。

　今回スコアを提出したハードウェアメーカー各社はいつものように、一連の結果から、自社こそが真の勝者であると主張している。以下に、各社が提出したスコアに関する概要説明と、その意味について述べていきたい。

Google

　Googleは、TPU v4システムについて、2種類のスコア結果を提出している。同システムは現在、一般利用が可能だ。米国オクラホマ州にあるGoogleのデータセンターに設置されており、動作エネルギー全体の90％をカーボンフリーでまかない、電力利用効率は1.1と、世界で最もエネルギー効率が高いデータセンターの一つとされている。

　TPUv4システムは、ResNetが0.191分、BERTが0.179分で、NVIDIAのA100はResNetが0.319分、BERTが0.206分だったことから、GoogleがNVIDIAを打ち負かす結果となった。

　またGoogleは、小型TPUシステムでも、新しい物体検出ベンチマークであるRetinaNetで2.343分、Mask R-CNNで2.253分を達成し、勝利を収めている。

　Googleは、全8個のベンチマークスコアのうち5個を提出しており、前回のラウンドから著しい性能向上を実現している。Googleのスコアは、Googleの次に最も速いメーカーのスコアと比べて平均1.42倍の高速化を、またGoogleの2021年6月のスコアと比べて1.5倍の高速化を、それぞれ実現している。

Google「TPU v4」のMLPerfのスコア（NVIDIAの「A100」搭載システムと比較している）［クリックで拡大］出所：Google

　Googleは、「われわれは、TPUソフトウェアスタックの性能向上を実現するために、多大な取り組みを行ってきた。TPUコンパイラやランタイムの拡張性および性能の最適化を実現すべく、例えば組み込みルックアップの高速化や、複数のTPU全体のモデル重量配分の向上などを進めてきた」と述べている。

　報道によると、Googleの社内開発チームは、TensorFlowではなくJAXを採用する方向に進んでいるという。しかし今回のラウンドのスコア結果には、そのような動きの兆候が見られない。同社が今回のラウンドで提出したスコア結果は全て、TensorFlowを使用している。2021年のスコアでは、TensorFlowとJAXの両方が採用されていたが、同じワークロードのカテゴリーでは使われていない。次のラウンドでは、JAXの方がより高効率かどうかについて、洞察を得られるかもしれない。

NVIDIAとGraphcoreのスコア

原文へのリンク

　　　　　　 | 次のページへ