Ampere Computingは、昨今急速に普及している生成AIでは、学習よりも推論の消費電力が大きな課題になると指摘した。「推論のスケールアウトの問題は、確実に破壊的な影響をもたらすだろう」と同氏は懸念を示している。
Ampere Computing(以下、Ampere)でCPO(最高製品責任者)を務めるJeff Wittich氏は、米EE Timesの取材に対し、「大規模AI推論はデータセンターにとって、特に消費電力量の面で、トレーニングの場合よりもはるかに大きな問題になるだろう」と述べている。
Wittich氏は、「ここ1年ほどの間、AIトレーニング(学習)の中でも特にLLM(大規模言語モデル)のトレーニングが非常に重要視されている。しかし、オープンソースの基本モデルの普及により、推論へと焦点が移りつつある。このため、AIインフラが構築されていくと、その大半は、トレーニングではなく推論向けに使われるようになるだろう」と述べる。
「推論のスケールアウトの問題は、確実に破壊的な影響をもたらすだろう。推論は現在、AI演算サイクル全体の約85%を占めている」(Wittich氏)
また同氏は、「問題の内容は全く異なる。トレーニングは、多かれ少なかれスパコンの問題であり、実行に数カ月間を要するため、専用のインフラを用意するのも理にかなっているだろう。しかし推論は、まったく別のタスクである。全体的な演算サイクルははるかに大きいが、1つの巨大なジョブが膨大な演算サイクルを消費するのではなく、何十億もの小さいジョブが、それぞれ相当量の演算サイクルを消費し、結果的に大きな量になるのだ」と付け加えた。
「その解決策となるのが、CPUである。AI推論は、数多くのシリコンソリューションを必要とする幅広いアプリケーションだが、CPUが重要な役割を担う」(Wittich氏)
また同氏は、「大半のユースケースでは、GPUを使わないAI推論が最適なソリューションとなる。CPU上でこのようなモデルを実行する方がはるかに簡単だ。(CPUは)もともと電力効率が高く、柔軟性も優れている。1つのタスク向けにGPUを調達した場合、そのタスクしか実行できなくなる」と述べている。
「短期的には、柔軟性が求められ、インフラは多様なワークロードを実行する必要があるかもしれない。CPUのような汎用ソリューションは、そのような柔軟性を提供することができる」(Wittich氏)
「AI推論は、単独で実行されるわけではない。このような推論結果は、どこか別の場所に送られ、アプリケーションやある種のウェブサーバ経由で提供される。アプリケーションレイヤーや、キャッシングレイヤー、データベースなど、推論と同時に実行されるさまざまなものが存在する。そして、AI推論とその他のタスクとのバランスは、変化する可能性があるのだ」(Wittich氏)
研究段階のモデルは大型化し続けるが、スパース化やプルーニング(枝刈り)、量子化などの技術が成熟していくにつれ、導入用モデルのサイズは縮小していくだろう。これが、CPUのケースを増加させる。
Copyright © ITmedia, Inc. All Rights Reserved.