3年かけてついに完成した「CUDA」の代替はAI開発を変えるのか:米新興Modularが発表(2/3 ページ)
「CUDA」の代替となるプラットフォーム開発を目指している新興企業のModularが、ついにその技術を完成させたという。NVIDIAの牙城を崩すのか。
CUDA向けの「フルスタックの代替」を実現
Lattner氏によると、Modularはソフトウェア専業メーカーとして、全てのハードウェア向けに機能するスタックを構築する上で良い位置付けにあるという。
「われわれはただ、ソフトウェア開発者に自社製シリコンを使ってほしいのだ。その障壁を打ち破るための支援を提供し、それを実現できるような幅広い世代のハードウェアに長年にわたり投資を行ってきた」(Lattner氏)
Modularが2023年に発表したAI推論エンジン「Max」は、x86およびArm CPU向けのCPUサポートを備えていたが、最近、NVIDIA GPU向けサポートが追加された。これはつまり、Modularは今や、CUDAプログラミング言語とその上に構築可能なLLM対応スタックをはじめ、CUDA向けの「フルスタックの代替」を実現したということだ。
そして重要なのが、Lattner氏が「Maxは、NVIDIAのGPU『A100』/『H100』のCUDA性能を達成した」と述べている点だ。
「NVIDIAは、当社よりも有利なスタートを切っていた。(NVIDIAには)全世界がNVIDIA製ハードウェア向けに調整を行っているという強みがある上に、A100はその時点で発売から4年目であり、広く普及し最適化されていたことから、非常に高いハードルとなっていた。A100のCUDA性能を達成したことで分かったのは、われわれには拡張可能なスタックと、実行可能なチームがあるということだ」(Lattner氏)
H100の生成AI推論のCUDA性能を達成し、打ち負かすまでには、最初にH100サポートを導入してから2カ月間を要した。Lattner氏はこの成果から、同氏のチームにとって次なるターゲットのハードウェアである「NVIDIA Blackwell」世代のGPUでも再現可能であることを確信しているという。
同氏は「われわれはこのエンジニアリングを、拡張可能な方法で進めている。2年間ではなく、2カ月間でH100に比肩する性能を達成できたのは、技術投資によって規模を拡大し、実際にこうした問題に立ち向かえるようになったからだ」と述べている。
最終的には、あらゆる種類のAIハードウェアの間で性能移植性を実現することを目指すという。
Lattner氏は、「これは、他のスタックにはできないだろう」と述べる。
「NVIDIAでさえも、性能移植性については語るようなことはない。CUDAはA100/H100を制御できるが、NVIDIAはH100でTMA(Tensor Memory Accelerator)ユニットのような新機能を導入しているため、実際のところ、優れた性能を得るにはコードを書き換える必要があるのだ」(Lattner氏)
TMAユニットは、グローバルメモリと共有メモリ間のテンソルの非同期転送を実現するために、「Hopper」世代のGPUで導入されている。Modularがこのようなハードウェア機能向けに高レベルの抽象化を施すことにより、すぐれた移植性が実現されるのだ。Lattner氏は「われわれの目標は、半導体メーカーと、単にハードウェアを使用したいだけだというソフトウェア開発メーカーとの間の懸け橋になることだ」と述べる。
「われわれが、まさに今実現しようとしているこの技術の力を解放すれば、全く新しい分野の人々が、近々市場投入されるあらゆる新しいハードウェアを、一貫性のある方法でプログラムできるようになる。開発メーカーは、ハードウェア側やAI研究側の複雑性を全て把握する必要はない。エージェント型ワークフローやカスタムRAG(Retrieval-Augmented Generation:検索拡張生成)ソリューションを構築することに注力し、エコシステムで生み出されるあらゆるイノベーションからメリットを享受できるようになる。われわれは、それを簡素化して採用可能なものにすることができる」(Lattner氏)
NVIDIA以外のGPUや他の種類のアクセラレーターを対象とするModularのサポートは、2025年末頃に開始する予定だという。
Copyright © ITmedia, Inc. All Rights Reserved.