推論性能でNVIDIAに挑む AIチップは「省エネ」が競争の軸に:「MLPerf」の最新スコアを公開(3/4 ページ)
推論ベンチマーク「MLPerf」の最新ラウンドのスコアが公開された。その結果からは、AI用プロセッサの新たな競争の軸が、性能そのものよりも「電力効率」に移りつつあることが読み取れる。
カナダ新興のUntether
Untetherは、同社の第2世代アクセラレーター「speedAI240」の性能と電力のスコアを複数の異なるシステム構成で測定した、初のMLPerf結果を発表した。speedAI240は、電力効率に優れたAI推論向けに設計された、1400以上のRISC-Vコアを搭載する2-PFLOPSアクセラレーターである。
Untetherの6チップ構成の「Slim」PCIeカードは、それぞれ75Wの電力で動作するアクセラレーター1個を搭載し、2Uに収まる。ResNet-50 v1.5のベンチマークでは、サーバモードで30万9752クエリ/秒を処理できる。これは、米国のSuper Micro Computer(以下、Supermicro)が提出したNVIDIA 100-SXM-80GBの8チップ搭載システムの約半分の性能だが、Supermicroのシステムは2倍大きい4Uで、TDP(熱設計電力)は10倍以上である。アクセラレーターごとに正規化すると、この構成では、1つのUntether speedAI240の性能はH100の約65%に相当する。ただし、UntetherはHBMを使用していない。Untetherのアクセラレーターは、帯域幅100GB/秒で最大64GBのLPDDR5メモリを搭載している。
Untetherは、プレビューカテゴリーの(つまり、まだ市場に出回っていない)システムの結果も提出した。同システムは、より大きなシングルチップPCIeカードをベースとしているため、アクセラレーターが利用可能な電力は2倍の150Wで、クロック周波数もわずかに向上している。ResNet-50のベンチマーク結果は、アクセラレーターごとに、サーバモードで35%、オフラインモードで26%向上した。2枚のカードを組み合わせると、性能が2倍になり、線形スケーラビリティが実証された。
Untetherは、電力効率において非常に優れた結果を示している。ResNet-50の場合、スリムカード(各75W)の6個のアクセラレーターは、サーバモードでワット当たり314クエリ/秒を推論できるのに対し、NVIDIAのH200-141GB 8個では96クエリ/秒で、UntetherはNVIDIAの現世代のハードウェアと比較して約3倍の電力効率を実現している。
Untetherは、「次のラウンドでは、4アクセラレーターカードのベンチマークを実施し、Googleの自然言語処理モデル『BERT』やより大きなLLMワークロードに挑戦する予定だ」と述べている。
Copyright © ITmedia, Inc. All Rights Reserved.