メディア

GPUの台頭と進化がサーバの消費電力を急増させる：福田昭のデバイス通信（472） AIサーバの放熱技術（5）（1/2 ページ）

AI（人工知能）対応でCPUとGPUの消費電力は増大している。そのため、既存のデータセンターの冷却に大きな負担がかかっている。

» 2024年09月25日 11時30分公開

[福田昭，EE Times Japan]

人工知能（AI）用途でサーバへの要求性能が急激に上昇

　サーバやデータセンターなどの放熱技術に注目が集まっている。演算処理を担うGPUとCPUの最大消費電力（熱設計電力（TDP））が増加しつつあることで、効率の高い放熱技術が強く求められるようになってきた。

　そこで本コラムでは、サーバやデータセンターなどを支える最新の放熱技術を本コラムの第468回から、シリーズで説明している。前回は、オープンエリアのデータセンターで使われていた従来方式の放熱技術を簡単に説明した。

　従来方式では、ラックマウントしたサーバを配列した部屋（コンピュータルーム）の床下から低温の空気をサーバに送り、サーバで温められて上昇した高温の空気を天井から回収する。回収した高温の空気をコンピュータルームの空調機（CRAC：Computer Room Air Conditioner、「クラック」とも呼ぶ）によって冷やし、低温の空気を床下に送り込む。「強制対流空気冷却（強制空冷）」と呼ばれる方式の1つである。データセンターの冷却システムとしては、コストが最も低い。

　しかし最近では、サーバの発熱量が増加したことにより、単なる強制空冷ではサーバの発熱を処理しきれない。何らかの工夫が必要となりつつある。その背景にあるのがAI用途における要求性能の急速な上昇だ。いわゆる「生成AI」を生み出した大規模言語モデル（LLM：Large Language Model）は、モデルのパラメータ数を増やすとモデルの性能（精度）が一気に上昇する。パラメータ数はここ数年で指数関数的（1年で約10倍）に増加してきた。

　例えば米国の人工知能開発企業OpenAIが2020年に開発した大規模言語モデル「GPT-3」はパラメータ数が1750億、トークン数（100トークンが75ワードに相当）が3000億という途方もない規模に達している。前世代の「GPT-2」（2019年に公開）はパラメータ数が15億だったので、1世代でパラメータ数が117倍に激増したことになる。GPT-3の学習（訓練）には、発表当時の最先端GPU「A100」を合計で100個搭載したAIサーバ群でも34日間を必要とした。

　「学習（訓練）」期間を短くするためには、AI用サーバ（AIサーバ）の演算処理能力も指数関数的に向上させなければならない。このことはCPUとGPUの消費電力の増大をもたらした。前回で述べたように2020年の時点でCPUの消費電力は200W、GPUの消費電力は300Wを超えていた。それが2024年後半にはCPUの消費電力は500W、GPUの消費電力は1000Wに達すると予測されている（参考：Supermicroが国際学会Hot Chips 2024のチュートリアルで講義した「Thermal Techniques for Data Center Compute Density」の内容から）。消費電力はCPUが2.5倍、GPUが3.3倍に達する。