DRAMの価格が急騰し供給不足が問題となる中、AIシステム設計にも変化が表れている。大規模なAIモデルが無制限に使用されるのではなく、小規模な特化型モデルがより多く用いられるようになってきている。
DRAMは現在、AIスタックの中で最も制約が厳しいリソースとなっている。各メーカーがデータセンター向けにDDR5や広帯域メモリ(HBM)の製造を優先する中、DRAMの不足はより現実的な問題になってきている。供給が逼迫して価格が高騰し、1年前と比べて3〜4倍の金額に達しつつある。
ハイパースケーラー企業もこの問題を避けられず、希望したうち一部の供給しか受けられないことが増えてきていると報じられている。これは、短期的な混乱ではない。現在の予測では、こうした制約は今後も続き、AIシステムの設計方法そのものを再考せざるを得なくなる見込みだという。
重要なのは、状況はDRAMの中でも容量によって異なるということだ。大容量DRAMモジュールはクラウドインフラ需要に最も密接に結び付いていて、現在では価格上昇幅が最も大きく、リードタイムも最も長い。しかし、1〜2GB(ギガバイト)の低容量メモリは、比較的安定を維持している。
このような不均衡は、システム設計の意思決定にも影響を及ぼしつつある。大容量メモリに依存するAIワークロードは、調達に関する課題やコスト変動などの影響をますます受けるようになっている。一方そうでないシステムは、価格圧力と不透明な供給を回避できる。かつては性能のトレードオフと見なされていたものが、今や戦略的な意思決定になっているのだ。
対応策の1つは、メモリへの依存度を低減することだ。さらに持続的な対応は、可能な限りメモリを取り除くことだ。これは、旧式の画像認識AIワークロードの場合、専用のエッジAIアクセラレーターで実現可能だ。このようなシステムでは、完全な推論パイプラインをオンチップで実行することで、外付けDRAMが不要になる。
その影響は即座に現れる。デバイス1台当たりの部品コストを最大100米ドル削減できることに加え、レイテンシや電力効率、システム信頼性なども高められる。また同様に重要なのが、予測可能性の維持がますます困難になってきている中で、サプライチェーンリスクを減らすことができるという点だ。
生成AIは、DRAMを完全に避けることはできないが、もはやメモリが無制限であるかのようには設計されなくなっている。
生成AIは、必ずしもクラウドで動作する必要はない。文字起こしや要約、翻訳、音声補正といった日常的なタスクは、厳しいメモリ制約内でもローカルで実行でき、結果としてその方が性能が向上する場合も多い。これらは反復可能な明確に定義された機能であり、大規模な汎用モデルは不要だ。
大規模な集中型モデルは現在も、特に複雑なタスクやリソース制約の少ないタスクにおいては重要な役割を持っている。しかし、それを無差別に使用することは非効率的だ。メモリコストが上昇するに伴って、その正当性を証明することはますます難しくなっている。より小規模なドメイン特化型のモデルは、使用箇所にもっと近い場所で高頻度のタスクを処理するのに適していて、予測可能なシステム制約の範囲内で動作可能だ。
小規模言語モデル(SLM)やコンパクトな視覚言語モデル(VLM)の進化によって、こうした移行が実現可能になり、はるかに少ないパラメータ数で強力な性能を提供できるようになった。これはハードウェア開発チームにとって、長年にわたりAIシステム設計に付随してきたメモリ負荷を低減できるということだ。推論パイプライン全体を1〜2GBのDRAMで実行できると、以下のようなメリットがある。
その結果が、ハイブリッド型のアプローチである。ローカルシステムは、継続的かつ確実に実行する必要があるタスクを処理し、クラウドは、より多くのリソースが必要なタスクや頻度の低いタスクなどを処理する。
Copyright © ITmedia, Inc. All Rights Reserved.
記事ランキング