FPGAはAIデータセンターの新たな選択肢になるのか:NVIDIAに挑む米新興(3/3 ページ)
データセンターAIシステムのスタートアップPositronは、FPGAベースのソリューションで、NVIDIAのGPUに対抗しようとしている。同社の技術と戦略について聞いた。
メモリ帯域の活用が鍵に
次世代プラットフォームは、Positronのカスタムモジュールフォームファクター(NVIDIAのSXMに類似)を使用し、4つのFPGAシステムを2Uに縮小してDDRメモリを大幅に拡充する予定だ。Sohmers氏によると、このシステムは2025年後半に発表予定で、NVIDIAの「Blackwell」と比べて5倍優れた性能を提供する見込みだという。Positronの第1世代品からのこのような大幅な性能向上は、近々予定されているソフトウェア/FPGAの最適化によるもので、さらに多くの性能を引き出すことが可能だ(ホストCPUからFPGAへのさらなるオペレーション移行なども含む)。Atlasの第1世代バージョンも、入手できるようになれば同様にアップデートされる予定だという。
ではPositronは、FLOPSが低く最小限のメモリしかないハードウェアから、どのようにより優れた性能を達成したのだろうか。Sohmers氏は、「畳み込みニューラルネットワーク(CNN)はコンピュートバウンドだが、トランスフォーマーはメモリ帯域幅とメモリ容量の両面においてメモリバウンドだ。GPUベースの推論ソリューションでは、トランスフォーマー推論で論理上のピークメモリ帯域幅全体の30%未満しか使用していないことが証明されている。Altera Agilex-7Mは、HBMとDDR5メモリの両方を搭載した唯一のFPGAだ。演算FLOPSが制限される場合があるが、重要なのはメモリ帯域幅である」と述べる。
「(GPUでは)非常に高価なメモリや非常に高い論理的メモリ帯域幅にコストが掛かるかもしれないが、根本的にはGPUアーキテクチャが原因となって、そのメモリ帯域を活用するには程遠い状況にある。FPGAに実装された当社の設計は、全てのユースケースにおいて論理上のメモリ帯域幅の93%を達成、維持している」(Sohmers氏)
また同氏は、「残りの7%の性能を達成できないのは、HBMのリフレッシュサイクルを制御できないためだ」と付け加えた。
Positronがこのようなメモリ帯域幅の利用率を実現した方法が、同社の重要なIPとなっている。Sohmers氏は、「われわれは、Alteraの『Quartus』ツールで許容されるレベルよりも低いところで作業し、行列積(matmul)アレイの密度と、それを入力するメモリインターコネクトを最大化できた」と説明する。Positronは、旧世代のHBM搭載Stratixデバイスをベースとした最初のプロトタイプで、論理上のピークメモリ帯域幅の65〜70%を達成している。しかし、Agilexにアップグレードすることで、開発チームがAlteraのハード化された新しいファブリックNoC(Network on Chip)を活用できるようになった。このファブリックNoCは、FPGAのメモリ間の高速伝送をサポートできるよう設計されており、その他のチップのプログラマブルロジックリソース向けに使われるチャネルに依存する必要がない。この新しいNoCには、HBMからプログラマブルロジックアレイ内のどこにでもあるSRAMブロックへの専用経路がある。
Sohmers氏は、「これは新しい機能であるため、Alteraの開発チームと密接に連携し、その潜在能力を最大限に活用できるようにした。線形代数シストリックアレイ設計には、再プログラム可能なクロックレートを確実に維持し、FLOPSとメモリのバランスを1対1にできるよう、さまざまな新しい考え方が必要だった」と述べる。
Agilex-7Mは、4チャンネルのDDR5と32GBのHBM 2eを搭載していて、PositronはSRAMにいくつかの“高度な技”を組み合わせることで、これを階層型キャッシュシステムではなく別のメモリとして使用する。HBMは、高性能が求められる部分で使用され、この場合はモデルの重みの保存に使われている。DDRは、ユーザーのコンキクストやKVキャッシュの他、スワップイン可能なさまざまなモデルを保存するために使われる(Sohmers氏によると、例えば、異なるLoRAファインチューニングを、バッチ内のさまざまなユーザーに適用するなど)。また、最大512GBのDDR5を追加することも可能だとしている。
【翻訳:田中留美、編集:EE Times Japan】
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
生成AIを省電力で実行するアナログインメモリコンピューティング
Sagence AIによると、アナログインメモリコンピューティングチップは、高性能CPUおよびGPUベースのシステムと比較してエネルギー効率とコスト削減を促進することで、AI推論アプリケーションが直面する電力と性能の難題を解決できるという。新方式のAIプロセッサ、開発コストを40分の1に削減
東京大学の研究グループは、開発コストを従来の40分の1に削減しながら、高い電力効率を実現した「ストラクチャードASIC型AIプロセッサ」を開発したと発表した。「フラッシュメモリで」AI演算 消費電力はGPU比で1000分の1に
フローディア(Floadia)が、SONOS構造のフラッシュメモリを用いて超低消費電力で推論を行うCiM(Computing in Memory)技術を開発中だ。GPUに比べ1000分の1ほどの消費電力で積和演算を実行できるという。2025年春ごろには試作チップができ上がる。Pat Gelsinger氏がほれ込むAIチップ新興 推論を100倍高速化
Intelの前CEOであるPat Gelsinger氏が、英国のAIチップスタートアップであるFractileに投資したことをLinkedInで明らかにした。Fractileは、インメモリコンピューティングをベースにしたAIアクセラレーターを手掛けている。このアクセラレーターは、推論を高速化、低価格化するとGelsinger氏は述べている。