Modularは、スタック向けのクラスタ管理機能に関する取り組みも進めている。
従来のクラウドシステムは弾力性を提供するため、需要が増加するとノードをダイナミックに追加し、要件を処理することができる。しかしGPUベースのクラウドは、それとは機能の仕方が異なる。GPUは非常に高価であるため、ユーザーは数カ月から数年をかけてGPUの固定ブロックにコミットする必要がある。Lattner氏はこれについて「コスト管理の観点から見ると、オンプレミスGPUの調達/販売に匹敵する」と指摘する。
また、チャットボットのような生成AIワークロードは、ステートフル(状態を維持する)である。つまり、未来のセッションのために、ユーザーからの既存の入力を保存して、そこにアクセスする必要があるということだ。これは「同じユーザーからのクエリを処理する上で最も効率的な方法は、利用可能な他のCPUにクエリを送信するのではなく、同じノードで処理することだ」ということを意味する。
メモリサイズの異なるNVIDIA製GPUであっても、ヘテロジニアスハードウェアを、メモリバウンドまたは計算バウンドのいずれかのLLM層に追加すると、プラットフォームチームにとっては複雑性のレベルが増大する。つまり、AI事業部門の複数のエンジニアリングチームからの絶え間なく変化するワークロードや需要に対応しなければならないという状況に直面する。
Modularは、ノード全体で要件をコヒーレントにルーティングするデータ/制御プレーンを構築し、クラスタ全体の状態/分配を管理している。
Lattner氏は、「『このワークロードをこれだけの数のマシンに投入したい』と言えるレベルの抽象化が必要だ。つまり、どのモデルがどこで最も効率よく動作するのかを明言できるようにする必要がある。一般的には、このような機能の仕組みを誰も理解していないが、われわれは分かっている。このスタック全体を把握する力を使い『OK、このインテリジェントなルーターを構築しよう。極めて簡単に展開/拡張できるようにしよう』と提案できる。これが、われわれが目指していることであり、非常にわくわくしている」と述べる。
「このアイデアは、バッチサイズやシーケンス長のサポートといったトレードオフを考慮し、クエリを適切なハードウェアに適切なタイミングでインテリジェントに転送するというものだ。ワークロードの各部分を、最も適したGPUに分割するというのは、超大手企業には可能だが、その他のほとんど全ての企業にとっては考えたくもないようなことだろう」(Lattner氏)
またLattner氏は「われわれは、企業からAIを取り上げるのではなく、オンプレミスであれクラウドであれ、自社のコンピュータに搭載するためのツールと技術を提供する。これは、『AIは難しすぎるため、全てのデータやモデルをわれわれに提供すれば代行してあげよう』といったような多くの企業とは大きく異なる。われわれは『AIは民主化されている。ソフトウェア開発メーカーに戻して、プラットフォームチームがAIを所有できるようにしよう』と言っているのだ」と述べる。
Modularは、NVIDIAのカンファレンス「GTC 2025」(米国カリフォルニア州サンノゼ、2025年3月17〜21日)に出展した。NVIDIAは、このCUDA代替技術についてどう思っているのだろうか。Modularは、CUDAエコシステムに適合するのだろうか。
Lattner氏は「それについては非常に複雑だ。NVIDIAは、Modularに触発されたとみられるソフトウェア機能をいくつか発表しており、そこにはModularのPython的な(Pythonic)プログラミングへの注力に似たものも含まれている」と指摘する。
「NVIDIAの機能強化はまだ実現しておらず、全てのGPU上で動作するわけでもない。他のメーカーのGPUでは決して動作しないだろうと推測される。しかし、Modularの手法には、信じられないほどの実証性があるといえる。私は、この分野における優れたアイデアがあれば歓迎したい。NVIDIAもわれわれが正しい方向に向かって取り組んでいると思ってくれていることを、とてもうれしく思う」と述べている。
【翻訳:滝本麻貴、田中留美、編集:EE Times Japan】
Copyright © ITmedia, Inc. All Rights Reserved.