メディア

IBMが「AIスパコン」をアップグレード：生成AIの台頭を考慮し

生成AI（人工知能）の台頭を考慮し、IBMが「AIスーパーコンピュータ（AIスパコン）」をアップグレードした。GPU間の通信の遅延を低減する技術などが導入されている。

» 2024年02月22日 11時00分公開

[Kevin Krewell（Principal Analyst,Tirias Research），EE Times]

　生成AI（人工知能）を研究するには、大規模モデルの学習を扱うためにAIスーパーコンピュータが必要になり、それは同研究で不可欠な部分となっている。だが、内部データやモデルの学習のためにそうしたAIスーパーコンピュータを構築するためには膨大なコストが掛かる。CPUやGPUから成るラックが大量に必要になるからだ。IBMは、生成AIの基礎となるモデルの初期研究を進めるため、社内向けAIスーパーコンピュータを独自に開発した。このシステムは「Vela」と呼ばれており、IBMのAI「watsonx」やデータプラットフォームで利用可能な基盤モデルの学習に使われている。

　研究者らはクラウドコンピューティングに用いられている技術を用いてVelaを構築した。仮想化を運用し、標準的なイーサネットスイッチを使ってIBM Cloud内のラックに接続することにしたのだ。その結果、AIスーパーコンピュータをより容易に、かつ安価で構築／スケーリングすることができた。IBMはVelaを「クラウドネイティブなAIスーパーコンピュータ」と呼ぶ。

　Velaをきっかけに、IBM ResearchはAI学習向けの他のGPUクラスタを顧客用（現時点では米国内の顧客のみ）に構築することにした。Velaは主に市販の部品を用いて設計され、空冷式なので、標準的なデータセンターで容易かつ迅速に導入できる。

　標準的なイーサネットプロトコルとスイッチは、データをCPUからGPUに移す際にパケット管理のオーバーヘッドが発生する。また、ベアメタル上でコードを動かさないことから、ソフトウェアでもいくらかのオーバーヘッドがある。IBMはそうしたオーバーヘッドについて、ネイティブなベアメタルノード当たりの性能の5％以内であったと主張している。各ノードにはNVIDIAのGPU「A100」が8基ずつ、Intelのプロセッサ「Xeon Scalable」が2基ずつ搭載されているという。

　8基のGPUはNVLinkを介して内部で接続されている他、CPUとGPUはラック上部のスイッチへの100GbE（ギガビットイーサネッ）のデュアルリンクに接続されている（新たなバージョンのVelaは200GbEのデュアルリンクを搭載）

　Velaの性能が優れていたことから、社内研究用のシステムを超えて、現在ではIBMのwatsonx.aiの中枢を担うまでになった。IMBが基板モデル研究とwatsonxのサービスを拡張したことに伴い、信頼性に妥協することなくラックの高密度化やネットワークの高速化、そして保全性の強化を実現するために、Velaのシステムアーキテクチャもアップグレードする必要があった。

プロセッサ間の通信遅延を改善する

　生成AIの台頭により、モデルはますます増加している。IBMは、そうしたモデルを学習、導入するためにGPUの数やより高速なネットワーキングという観点で要件が加わったことを見いだしている。

　IBMは、この生成AIの波には、「GPUの数」「より大きなモデルのトレーニングに向けたより高速なネットワーク」において、さらなる要件があると考えた。GPU間の通信が演算処理の障壁とならないようにするためだ。そこでIBMはVelaのネットワークを大幅にアップグレードし、RoCE（RDMA over Converged Ethernet）とGDR（GPU-Direct RDMA）を導入した。

　RDMA（Remote Direct Memory Access）により、ある1つのプロセッサが別のプロセッサのメモリにアクセスする際、どちらのプロセッサのOSも介さずに済む。これにより、プロセッサ間の通信のレイテンシが大幅に削減される。GDRは、ネットワークカードを使ってイーサネットを経由し、あるシステム上のGPUが、別のノード／ラックのGPUのメモリにアクセスできるようにする技術だ。IBMによれば、Velaのイーサネットネットワーク上でGDRを実現したことで、ネットワークスループットが従来の2～4倍になったという。

RDMAとGDRの導入前後の通信パスの違い［クリックで拡大］出所：IBM

　将来的にIBMは、「AIU（人工知能ユニット）」と呼ばれる独自のAIチップの開発により、さらに高性能なコンポーネントでVelaアーキテクチャを進化させる可能性がある。AIUは、AI推論で使用される多精度演算用に設計されていて、消費電力を削減し、性能を向上させるという。AIUは推論用に2ビットまでの整数演算をサポートし、5nm世代のプロセスで製造される。

【翻訳：青山麻由子、編集：EE Times Japan】

原文へのリンク

「LLMの巨大化」が生成AIのボトルネックに
急成長が予想されている生成AI（人工知能）においてボトルネックとなるのは、LLM（大規模言語モデル）の巨大化、つまりパラメーター数の増加だという。SambaNova Systemsなどが、こうしたボトルネックについて語った。
生成AIの台頭で高まる「光電融合技術」への期待、NTTが意気込みを語る
半導体関連技術の総合展示会「SEMICON Japan 2023」にて、「日本半導体産業の発展に向けて半導体を取り巻く先端開発」と題した講演が行われた。本稿ではその中から、NTTイノベーティブデバイス本社代表取締役副社長の富澤将人氏、経済産業省商務情報政策局情報産業課長の金指壽氏の講演内容を紹介する。
経産省、2nm以降の先端半導体開発に450億円　Rapidus後押し
経済産業省は2024年2月、「ポスト5G情報通信システム基盤強化研究開発事業」の実施事業者として技術研究組合最先端半導体技術センター（LSTC）を採択した。2nm世代以降の先端半導体開発に向け、計450億円を支援する。
経産省、キオクシア四日市／北上工場の設備投資に2429億円助成
経産省がキオクシアホールディングスとWestern Digitalによる先端3D NANDフラッシュメモリ量産に向けた国内2工場への設備投資などに対し、最大2429億円を助成する。
SambaNovaが東京オフィスを開設、官公庁や金融業に狙い
AI（人工知能）チップを手掛ける米スタートアップのSambaNova Systemsは2023年12月、東京大手町にオフィスを開設した。官公庁や金融業をターゲットとする。SambaNovaのCEO（最高経営責任者）であるRodrigo Liang氏は、「AIを“資産”として持つことが、企業の価値向上につながる」と強調した。
経産省「大臣が変わっても、半導体への積極投資は止めない」
経済産業省（経産省）商務情報政策局情報産業課デバイス・半導体戦略室長の清水英路氏は、「SEMICON Japan 2023」のグランドフィナーレパネルで登壇し、「経済産業大臣が誰に代わったとしても、経産省が半導体分野に積極投資する姿勢に変わりはない」と、半導体政策の継続性を強調した。