「LLMの巨大化」が生成AIのボトルネックに：「みんなが使える技術」ではなくなる

急成長が予想されている生成AI（人工知能）においてボトルネックとなるのは、LLM（大規模言語モデル）の巨大化、つまりパラメーター数の増加だという。SambaNova Systemsなどが、こうしたボトルネックについて語った。

LINE

Hatena

　生成AI（人工知能）ハードウェアのメーカー各社は現在、大規模言語モデル（LLM）の使用コスト削減と、効率性および柔軟性の最適化に注力しているところだ。

　ソフトウェア／ハードウェアのフルスタック開発企業であるSambaNova Systems（以下、SambaNova）のプロダクト部門担当バイスプレジデントを務めるMarshall Choy氏は、米国EE Timesが最近開催したパネルディスカッションの中で、「ボトルネックの原因の一つになっているのが、LLMのパラメーター数の増加だ。その数は、数十億または数兆という単位で測定されている」と述べている。

SambaNova SystemsのMarshall Choy氏出所：SambaNova Systems

　「われわれは、レイテンシや帯域幅、容量などに全て対応するための3層アーキテクチャを備えたメモリを大量に配置し、このような種類のモデルを実行する上で必要なサイズや経済性を縮小した。その半導体チップの計算部分に関しては、ある程度コモディティ化されているが、われわれにとっては深刻なメモリの問題になってきている」（Choy氏）

　パネルディスカッション「How Can We Keep Up With Generative AI?（生成AIにどう対応していくか）」は、EE Timesが2023年11月に開催したバーチャルイベント「AI Everywhere 2023」で行われたものだ。

　Choy氏は、「LLMのサイズが急拡大することで、アクセス性（LLMを使えるかどうか）という別のボトルネックが生じている。LLMのサイズが拡大し、モデルのパラメーターが1兆個に達すると、利益率が低下することになる。その時点で、LLMを実行するためのハードウェアやコストは、Fortune誌のトップ10または20に入るような企業以外にとっては手が届かないものになる。SambaNovaは、LLMの使用を民主化すべく、旧式の『MoE（Mixture of Experts／混合エキスパート）』手法をチューニングし、名前を変更した」と述べる。

　Choy氏は、「われわれは（Fortune誌に載るような企業以外も含めた）あらゆる企業がLLMを使えるよう、『CoE（Composition-of-Experts）』と呼ぶ手法を採用した」と述べている。

　SambaNovaは、複雑な予測モデリングの問題を解決するためにサブタスクに分類するというMoE手法を採用するのではなく、優れた精度とタスク適合性の実現に向けてドメインエキスパートモデルのトレーニングを行い、1兆パラメーターのCoEモデルを構築する。このモデルは、それまでの学習を犠牲にする必要なく新しいデータでトレーニングを行いながら、計算レイテンシの他、トレーニングやチューニング、推論などのコストを低減することが可能だ。

TenstorrentのMatt Mattina氏出所：Tenstorrent

　AIチップメーカーであるTenstorrentでAIハードウェア／モデル部門担当バイスプレジデントを務めるMatt Mattina氏は、EE Timesの取材に応じ、「『モデルアーキテクチャが、そのトレーニングを行ったハードウェアによって形作られるという固有のフィードバックループ』を断つことにより、効率を向上させられる」と述べている。

　Mattina氏は、「モデルトレーナーは、『HiL（Hardware in the Loop）』でネットワークアーキテクチャ検索のようなモデル技術を採用することにより、トレーニングプロセスの中で、推論を実行しようとしているハードウェアや、その外観、特徴などを指定することができる。探索パラダイムは、モデルのトレーニングを行うマシンには必ずしも適していないが、最終的に推論を実行するマシンには適しているというモデルを見つけ出すことが可能だ」と述べている。

　「現在われわれが目にしているトレーニングプラットフォームとモデルの間には、確実に関連性がある。しかし、その関連性を断ち、より効率的な推論向けモデルを見つけ出すために、大きな関心が集まり、本物のエンジニアリング技術が存在しているのだ」（Mattina氏）

Ampere ComputingのJeff Wittich氏,Ampere ComputingのJeff Wittich氏出所：Ampere Computing

　AIは急激に進化しているため、専用チップやカスタムシリコンを使用することと、システムの柔軟性を確立することとのバランスをいかに取るかが難しい。しかし、クラウドネイティブのプロセッサを手掛けるAmpere Computing（以下、Ampere）でCPO（最高製品責任者）を務めるJeff Wittich氏は、次のように提言している。

　「現時点では、用途に合わせたカスタマイズなどは、システムレベルで行うことが最善ではないだろうか。ハードウェアを変更できなくても、コンポーネントやソリューションの組み合わせによって柔軟に対応できるからだ。一般的に、新しいハードウェアを開発して商用化するためには、5年間を要していた」（Wittich氏）

　Ampereは、そうした柔軟性を推進すべく、さまざまなトレーニング／推論アクセラレーターの開発を手掛ける複数企業と提携している。同氏は、「汎用CPUと、特定のタスクの実行に優れた推論／トレーニングアクセラレーターとを組み合わせることは、理にかなった手法だ。将来的には、こうしたアクセラレーターとCPUを、より密接に連携させることが可能になるだろう」と語る。

　Wittich氏は、「ただし、統合でメリットを得られる部分とそうでない部分を認識する必要がある。統合によって性能や効率を向上させることができるのであれば、それは素晴らしいアイデアだ。柔軟性が低下するだけであれば、良いアイデアとはいえないだろう」と付け加えた。

【翻訳：田中留美、編集：EE Times Japan】

原文へのリンク

「LLMの巨大化」が生成AIのボトルネックに：「みんなが使える技術」ではなくなる

関連記事