新興企業Syntiant、tinyMLベンチマークで圧勝：MLPerfの推論スコア（2/2 ページ）

エンジニアリングコンソーシアムのMLCommonsが最近、機械学習の業界標準ベンチマーク「MLPerf」の推論（Inference）ラウンドのスコア結果を発表した。MLPerf Tinyでは、米国の新興企業Syntiantが、キーワードスポッティングのレイテンシとエネルギー消費量のベンチマークでトップの座を獲得している。一方NVIDIAとQualcommは、エッジ／データセンターのカテゴリーにおいて再び激しい争いを繰り広げた。

[Sally Ward-Foxton，EE Times] PC用表示関連情報

LINE

Hatena

前のページへ | 　　　　　　

モバイル部門では2社が競争

　モバイル部門には、2社がエントリーした。

　Qualcommは、同社の最新プロセッサ「Snapdragon 8 Gen 1」を搭載したXiaomiのスマートフォン「Xiaomi 12」を使用して、モバイルベンチマークスイートを実行した。これにより、Samsung Electronicsの「Galaxy S22」（アプリケーションプロセッサ「Exynos 2200」を搭載）に対抗している（Samsungは、自然言語処理以外の全てのワークロード向けに、Exynos 2200のNPU／DSPを使用）

　今回のラウンドでは、Qualcommが、わずかながらも全てのベンチマークで勝利を獲得した。全体的には、前回のラウンドと比べると平均で約2倍の性能向上を実現している。

エッジ部門で強さを見せつけたNVIDIA

　NVIDIAは、エッジとデータセンター推論部門の両方において優位性を獲得した。NVIDIAだけでなく、LenovoやGigabyte、Supermicroなどのシステムパートナー各社から、数百件規模のスコアが提出されている。

NVIDIAの「Jetson Orin」出所：NVIDIA

　NVIDIAが今回選んだのは、2022年3月に開催した自社イベント「GTC（Graphic Technology Conference）」で発表したばかりのSoC「Jetson Orin」だ。ロボティクスや自動運転車などのアプリケーションをターゲットにしている。同社によると、「Jetson AGX Orin」は、旧品種である「AGX Xavier」と比べて、性能が最大5倍、エネルギー効率は最大2.3倍を実現するという。

　こうしたスコアをめぐり、Orinの主要な競合相手となったのが、Qualcommの「Cloud AI 100」だ。この部門において、Cloud AI 100の熱設計電力（TDP：Thermal Design Power）は20Wに抑えられている（GigabyteもQualcommのCloud AI 100でスコアを提出しているが、TDPは75Wだった）

　NVIDIAは、アクセラレーター単位でのシングルストリーム性能で勝利を収めたと主張した。例えば、Bertシングルストリームのレイテンシは、Jetson Orinが7.64ミリ秒であるのに対し、QualcommのCloud AI 100は15.41ミリ秒だった。一方で、Qualcommは、ResNet-50のマルチストリームで1秒あたりに処理されたレイテンシとオフラインサンプルを含め、2つのワークロードでOrinをしのいだ。

　Qualcommの最高性能は、ResNet-50のシングルストリームで達成されたもの。その際のレイテンシは0.89マイクロ秒だったが、NVIDIAのOrinは0.69マイクロ秒で、NVIDIAに軍配が上がっていた。同じ2つのシステムを比較した結果、QualcommはResNet-50のマルチストリームの性能でNVIDIAをしのいでいたことが明らかになり（Orinより1.2倍速かった）、1秒あたりのオフラインサンプルでも1.59倍となることが分かった。

　韓国の新興企業FuriosaAIは、ResNet向けAIアクセラレーターチップ「Warboy」とSSDエッジのベンチマークのスコアを提出した。同社のSSD-Smallの結果は特に注目に値するものだ。レイテンシの結果が15％向上した上に、オフラインのスループットはコンパイラの強化によって前回のラウンドでの同じシリコンと比べ2倍となった。同社は現在、既存のWarboyチップの10倍の性能を備えた次世代AI推論システムの開発に取り組んでいるという。

データセンター部門ではInspurが圧勝

　データセンターシステムの性能ベンチマークのほとんどで、Inspurのシステム（NVIDIAのA100を12コア搭載）が圧勝した。同システムは、スコアが提出されたシステムの中でアクセラレータの数が最も多い。DLRM（Deep Learning Recommendation Model）ベンチマークでは、同じくInspurの、NVIDIA A100を8コア搭載したシステムが勝利した。

　新興企業のNeuchipsは、データセンター向けアクセラレーター「RecAccel」を手掛ける。今回、FPGAベースのスコアを再提出したが、最新版の設計では前回のラウンドと比べ性能が40％向上している。同社は2022年第2四半期にASICのサンプルをリリース予定だ。

　データセンターのオープン部門（企業はモデルの変更が可能）で注目すべきはDeciである。同社はイスラエルを拠点とする企業で、精度とコンピュータ性能を向上させるため、「neural architecture search（ニューラルアーキテクチャサーチ）」と呼ばれる技術を用いてモデルを最適化している。DeciはIntelのCPU上でモデルを動作させた。ベースラインのResNet-50モデルに比べ、Deciのモデルはスループットが2.8～4倍（ハードウェアによる）向上するとともに、精度も上がったという。

　今回のスコアの詳細は、こちらに全て掲載されている。

【翻訳：青山麻由子、滝本麻貴、田中留美、編集：EE Times Japan】

原文へのリンク

新興企業Syntiant、tinyMLベンチマークで圧勝：MLPerfの推論スコア（2/2 ページ）

モバイル部門では2社が競争

エッジ部門で強さを見せつけたNVIDIA

データセンター部門ではInspurが圧勝

関連記事