メディア

AIの消費電力、学習よりも推論がはるかに大きな課題：Ampereが懸念を示す（1/2 ページ）

Ampere Computingは、昨今急速に普及している生成AIでは、学習よりも推論の消費電力が大きな課題になると指摘した。「推論のスケールアウトの問題は、確実に破壊的な影響をもたらすだろう」と同氏は懸念を示している。

» 2024年07月08日 11時30分公開

　Ampere Computing（以下、Ampere）でCPO（最高製品責任者）を務めるJeff Wittich氏は、米EE Timesの取材に対し、「大規模AI推論はデータセンターにとって、特に消費電力量の面で、トレーニングの場合よりもはるかに大きな問題になるだろう」と述べている。

Ampere ComputingのJeff Wittich氏出所：Ampere Computing

　Wittich氏は、「ここ1年ほどの間、AIトレーニング（学習）の中でも特にLLM（大規模言語モデル）のトレーニングが非常に重要視されている。しかし、オープンソースの基本モデルの普及により、推論へと焦点が移りつつある。このため、AIインフラが構築されていくと、その大半は、トレーニングではなく推論向けに使われるようになるだろう」と述べる。

　「推論のスケールアウトの問題は、確実に破壊的な影響をもたらすだろう。推論は現在、AI演算サイクル全体の約85％を占めている」（Wittich氏）

　また同氏は、「問題の内容は全く異なる。トレーニングは、多かれ少なかれスパコンの問題であり、実行に数カ月間を要するため、専用のインフラを用意するのも理にかなっているだろう。しかし推論は、まったく別のタスクである。全体的な演算サイクルははるかに大きいが、1つの巨大なジョブが膨大な演算サイクルを消費するのではなく、何十億もの小さいジョブが、それぞれ相当量の演算サイクルを消費し、結果的に大きな量になるのだ」と付け加えた。

　「その解決策となるのが、CPUである。AI推論は、数多くのシリコンソリューションを必要とする幅広いアプリケーションだが、CPUが重要な役割を担う」（Wittich氏）

　また同氏は、「大半のユースケースでは、GPUを使わないAI推論が最適なソリューションとなる。CPU上でこのようなモデルを実行する方がはるかに簡単だ。（CPUは）もともと電力効率が高く、柔軟性も優れている。1つのタスク向けにGPUを調達した場合、そのタスクしか実行できなくなる」と述べている。

　「短期的には、柔軟性が求められ、インフラは多様なワークロードを実行する必要があるかもしれない。CPUのような汎用ソリューションは、そのような柔軟性を提供することができる」（Wittich氏）

　「AI推論は、単独で実行されるわけではない。このような推論結果は、どこか別の場所に送られ、アプリケーションやある種のウェブサーバ経由で提供される。アプリケーションレイヤーや、キャッシングレイヤー、データベースなど、推論と同時に実行されるさまざまなものが存在する。そして、AI推論とその他のタスクとのバランスは、変化する可能性があるのだ」（Wittich氏）

　研究段階のモデルは大型化し続けるが、スパース化やプルーニング（枝刈り）、量子化などの技術が成熟していくにつれ、導入用モデルのサイズは縮小していくだろう。これが、CPUのケースを増加させる。

消費電力が膨大に

　　　　　　 1|2 次のページへ