IBMが「AIスパコン」をアップグレード:生成AIの台頭を考慮し
生成AI(人工知能)の台頭を考慮し、IBMが「AIスーパーコンピュータ(AIスパコン)」をアップグレードした。GPU間の通信の遅延を低減する技術などが導入されている。
生成AI(人工知能)を研究するには、大規模モデルの学習を扱うためにAIスーパーコンピュータが必要になり、それは同研究で不可欠な部分となっている。だが、内部データやモデルの学習のためにそうしたAIスーパーコンピュータを構築するためには膨大なコストが掛かる。CPUやGPUから成るラックが大量に必要になるからだ。IBMは、生成AIの基礎となるモデルの初期研究を進めるため、社内向けAIスーパーコンピュータを独自に開発した。このシステムは「Vela」と呼ばれており、IBMのAI「watsonx」やデータプラットフォームで利用可能な基盤モデルの学習に使われている。
研究者らはクラウドコンピューティングに用いられている技術を用いてVelaを構築した。仮想化を運用し、標準的なイーサネットスイッチを使ってIBM Cloud内のラックに接続することにしたのだ。その結果、AIスーパーコンピュータをより容易に、かつ安価で構築/スケーリングすることができた。IBMはVelaを「クラウドネイティブなAIスーパーコンピュータ」と呼ぶ。
Velaをきっかけに、IBM ResearchはAI学習向けの他のGPUクラスタを顧客用(現時点では米国内の顧客のみ)に構築することにした。Velaは主に市販の部品を用いて設計され、空冷式なので、標準的なデータセンターで容易かつ迅速に導入できる。
標準的なイーサネットプロトコルとスイッチは、データをCPUからGPUに移す際にパケット管理のオーバーヘッドが発生する。また、ベアメタル上でコードを動かさないことから、ソフトウェアでもいくらかのオーバーヘッドがある。IBMはそうしたオーバーヘッドについて、ネイティブなベアメタルノード当たりの性能の5%以内であったと主張している。各ノードにはNVIDIAのGPU「A100」が8基ずつ、Intelのプロセッサ「Xeon Scalable」が2基ずつ搭載されているという。
8基のGPUはNVLinkを介して内部で接続されている他、CPUとGPUはラック上部のスイッチへの100GbE(ギガビットイーサネッ)のデュアルリンクに接続されている(新たなバージョンのVelaは200GbEのデュアルリンクを搭載)
Velaの性能が優れていたことから、社内研究用のシステムを超えて、現在ではIBMのwatsonx.aiの中枢を担うまでになった。IMBが基板モデル研究とwatsonxのサービスを拡張したことに伴い、信頼性に妥協することなくラックの高密度化やネットワークの高速化、そして保全性の強化を実現するために、Velaのシステムアーキテクチャもアップグレードする必要があった。
プロセッサ間の通信遅延を改善する
生成AIの台頭により、モデルはますます増加している。IBMは、そうしたモデルを学習、導入するためにGPUの数やより高速なネットワーキングという観点で要件が加わったことを見いだしている。
IBMは、この生成AIの波には、「GPUの数」「より大きなモデルのトレーニングに向けたより高速なネットワーク」において、さらなる要件があると考えた。GPU間の通信が演算処理の障壁とならないようにするためだ。そこでIBMはVelaのネットワークを大幅にアップグレードし、RoCE(RDMA over Converged Ethernet)とGDR(GPU-Direct RDMA)を導入した。
RDMA(Remote Direct Memory Access)により、ある1つのプロセッサが別のプロセッサのメモリにアクセスする際、どちらのプロセッサのOSも介さずに済む。これにより、プロセッサ間の通信のレイテンシが大幅に削減される。GDRは、ネットワークカードを使ってイーサネットを経由し、あるシステム上のGPUが、別のノード/ラックのGPUのメモリにアクセスできるようにする技術だ。IBMによれば、Velaのイーサネットネットワーク上でGDRを実現したことで、ネットワークスループットが従来の2〜4倍になったという。
将来的にIBMは、「AIU(人工知能ユニット)」と呼ばれる独自のAIチップの開発により、さらに高性能なコンポーネントでVelaアーキテクチャを進化させる可能性がある。AIUは、AI推論で使用される多精度演算用に設計されていて、消費電力を削減し、性能を向上させるという。AIUは推論用に2ビットまでの整数演算をサポートし、5nm世代のプロセスで製造される。
【翻訳:青山麻由子、編集:EE Times Japan】
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
「LLMの巨大化」が生成AIのボトルネックに
急成長が予想されている生成AI(人工知能)においてボトルネックとなるのは、LLM(大規模言語モデル)の巨大化、つまりパラメーター数の増加だという。SambaNova Systemsなどが、こうしたボトルネックについて語った。生成AIの台頭で高まる「光電融合技術」への期待、NTTが意気込みを語る
半導体関連技術の総合展示会「SEMICON Japan 2023」にて、「日本半導体産業の発展に向けて 半導体を取り巻く先端開発」と題した講演が行われた。本稿ではその中から、NTTイノベーティブデバイス 本社 代表取締役副社長の富澤将人氏、経済産業省 商務情報政策局 情報産業課長の金指壽氏の講演内容を紹介する。経産省、2nm以降の先端半導体開発に450億円 Rapidus後押し
経済産業省は2024年2月、「ポスト5G情報通信システム基盤強化研究開発事業」の実施事業者として技術研究組合最先端半導体技術センター(LSTC)を採択した。2nm世代以降の先端半導体開発に向け、計450億円を支援する。経産省、キオクシア四日市/北上工場の設備投資に2429億円助成
経産省がキオクシアホールディングスとWestern Digitalによる先端3D NANDフラッシュメモリ量産に向けた国内2工場への設備投資などに対し、最大2429億円を助成する。SambaNovaが東京オフィスを開設、官公庁や金融業に狙い
AI(人工知能)チップを手掛ける米スタートアップのSambaNova Systemsは2023年12月、東京 大手町にオフィスを開設した。官公庁や金融業をターゲットとする。SambaNovaのCEO(最高経営責任者)であるRodrigo Liang氏は、「AIを“資産”として持つことが、企業の価値向上につながる」と強調した。経産省「大臣が変わっても、半導体への積極投資は止めない」
経済産業省(経産省) 商務情報政策局 情報産業課 デバイス・半導体戦略室長の清水英路氏は、「SEMICON Japan 2023」のグランドフィナーレパネルで登壇し、「経済産業大臣が誰に代わったとしても、経産省が半導体分野に積極投資する姿勢に変わりはない」と、半導体政策の継続性を強調した。