メディア

IBMが「AIスパコン」をアップグレード生成AIの台頭を考慮し

生成AI(人工知能)の台頭を考慮し、IBMが「AIスーパーコンピュータ(AIスパコン)」をアップグレードした。GPU間の通信の遅延を低減する技術などが導入されている。

» 2024年02月22日 11時00分 公開

 生成AI(人工知能)を研究するには、大規模モデルの学習を扱うためにAIスーパーコンピュータが必要になり、それは同研究で不可欠な部分となっている。だが、内部データやモデルの学習のためにそうしたAIスーパーコンピュータを構築するためには膨大なコストが掛かる。CPUやGPUから成るラックが大量に必要になるからだ。IBMは、生成AIの基礎となるモデルの初期研究を進めるため、社内向けAIスーパーコンピュータを独自に開発した。このシステムは「Vela」と呼ばれており、IBMのAI「watsonx」やデータプラットフォームで利用可能な基盤モデルの学習に使われている。

 研究者らはクラウドコンピューティングに用いられている技術を用いてVelaを構築した。仮想化を運用し、標準的なイーサネットスイッチを使ってIBM Cloud内のラックに接続することにしたのだ。その結果、AIスーパーコンピュータをより容易に、かつ安価で構築/スケーリングすることができた。IBMはVelaを「クラウドネイティブなAIスーパーコンピュータ」と呼ぶ。

 Velaをきっかけに、IBM ResearchはAI学習向けの他のGPUクラスタを顧客用(現時点では米国内の顧客のみ)に構築することにした。Velaは主に市販の部品を用いて設計され、空冷式なので、標準的なデータセンターで容易かつ迅速に導入できる。

 標準的なイーサネットプロトコルとスイッチは、データをCPUからGPUに移す際にパケット管理のオーバーヘッドが発生する。また、ベアメタル上でコードを動かさないことから、ソフトウェアでもいくらかのオーバーヘッドがある。IBMはそうしたオーバーヘッドについて、ネイティブなベアメタルノード当たりの性能の5%以内であったと主張している。各ノードにはNVIDIAのGPU「A100」が8基ずつ、Intelのプロセッサ「Xeon Scalable」が2基ずつ搭載されているという。

 8基のGPUはNVLinkを介して内部で接続されている他、CPUとGPUはラック上部のスイッチへの100GbE(ギガビットイーサネッ)のデュアルリンクに接続されている(新たなバージョンのVelaは200GbEのデュアルリンクを搭載)

 Velaの性能が優れていたことから、社内研究用のシステムを超えて、現在ではIBMのwatsonx.aiの中枢を担うまでになった。IMBが基板モデル研究とwatsonxのサービスを拡張したことに伴い、信頼性に妥協することなくラックの高密度化やネットワークの高速化、そして保全性の強化を実現するために、Velaのシステムアーキテクチャもアップグレードする必要があった。

プロセッサ間の通信遅延を改善する

 生成AIの台頭により、モデルはますます増加している。IBMは、そうしたモデルを学習、導入するためにGPUの数やより高速なネットワーキングという観点で要件が加わったことを見いだしている。

 IBMは、この生成AIの波には、「GPUの数」「より大きなモデルのトレーニングに向けたより高速なネットワーク」において、さらなる要件があると考えた。GPU間の通信が演算処理の障壁とならないようにするためだ。そこでIBMはVelaのネットワークを大幅にアップグレードし、RoCE(RDMA over Converged Ethernet)とGDR(GPU-Direct RDMA)を導入した。

 RDMA(Remote Direct Memory Access)により、ある1つのプロセッサが別のプロセッサのメモリにアクセスする際、どちらのプロセッサのOSも介さずに済む。これにより、プロセッサ間の通信のレイテンシが大幅に削減される。GDRは、ネットワークカードを使ってイーサネットを経由し、あるシステム上のGPUが、別のノード/ラックのGPUのメモリにアクセスできるようにする技術だ。IBMによれば、Velaのイーサネットネットワーク上でGDRを実現したことで、ネットワークスループットが従来の2〜4倍になったという。

RDMAとGDRの導入前後の通信パスの違い[クリックで拡大] 出所:IBM

 将来的にIBMは、「AIU(人工知能ユニット)」と呼ばれる独自のAIチップの開発により、さらに高性能なコンポーネントでVelaアーキテクチャを進化させる可能性がある。AIUは、AI推論で使用される多精度演算用に設計されていて、消費電力を削減し、性能を向上させるという。AIUは推論用に2ビットまでの整数演算をサポートし、5nm世代のプロセスで製造される。

【翻訳:青山麻由子、編集:EE Times Japan】

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.