メディア

「LLMの巨大化」が生成AIのボトルネックに：「みんなが使える技術」ではなくなる

急成長が予想されている生成AI（人工知能）においてボトルネックとなるのは、LLM（大規模言語モデル）の巨大化、つまりパラメーター数の増加だという。SambaNova Systemsなどが、こうしたボトルネックについて語った。

» 2024年01月10日 11時30分公開

　生成AI（人工知能）ハードウェアのメーカー各社は現在、大規模言語モデル（LLM）の使用コスト削減と、効率性および柔軟性の最適化に注力しているところだ。

　ソフトウェア／ハードウェアのフルスタック開発企業であるSambaNova Systems（以下、SambaNova）のプロダクト部門担当バイスプレジデントを務めるMarshall Choy氏は、米国EE Timesが最近開催したパネルディスカッションの中で、「ボトルネックの原因の一つになっているのが、LLMのパラメーター数の増加だ。その数は、数十億または数兆という単位で測定されている」と述べている。

SambaNova SystemsのMarshall Choy氏出所：SambaNova Systems

　「われわれは、レイテンシや帯域幅、容量などに全て対応するための3層アーキテクチャを備えたメモリを大量に配置し、このような種類のモデルを実行する上で必要なサイズや経済性を縮小した。その半導体チップの計算部分に関しては、ある程度コモディティ化されているが、われわれにとっては深刻なメモリの問題になってきている」（Choy氏）

　パネルディスカッション「How Can We Keep Up With Generative AI?（生成AIにどう対応していくか）」は、EE Timesが2023年11月に開催したバーチャルイベント「AI Everywhere 2023」で行われたものだ。

　Choy氏は、「LLMのサイズが急拡大することで、アクセス性（LLMを使えるかどうか）という別のボトルネックが生じている。LLMのサイズが拡大し、モデルのパラメーターが1兆個に達すると、利益率が低下することになる。その時点で、LLMを実行するためのハードウェアやコストは、Fortune誌のトップ10または20に入るような企業以外にとっては手が届かないものになる。SambaNovaは、LLMの使用を民主化すべく、旧式の『MoE（Mixture of Experts／混合エキスパート）』手法をチューニングし、名前を変更した」と述べる。

　Choy氏は、「われわれは（Fortune誌に載るような企業以外も含めた）あらゆる企業がLLMを使えるよう、『CoE（Composition-of-Experts）』と呼ぶ手法を採用した」と述べている。

　SambaNovaは、複雑な予測モデリングの問題を解決するためにサブタスクに分類するというMoE手法を採用するのではなく、優れた精度とタスク適合性の実現に向けてドメインエキスパートモデルのトレーニングを行い、1兆パラメーターのCoEモデルを構築する。このモデルは、それまでの学習を犠牲にする必要なく新しいデータでトレーニングを行いながら、計算レイテンシの他、トレーニングやチューニング、推論などのコストを低減することが可能だ。

TenstorrentのMatt Mattina氏出所：Tenstorrent

　AIチップメーカーであるTenstorrentでAIハードウェア／モデル部門担当バイスプレジデントを務めるMatt Mattina氏は、EE Timesの取材に応じ、「『モデルアーキテクチャが、そのトレーニングを行ったハードウェアによって形作られるという固有のフィードバックループ』を断つことにより、効率を向上させられる」と述べている。

　Mattina氏は、「モデルトレーナーは、『HiL（Hardware in the Loop）』でネットワークアーキテクチャ検索のようなモデル技術を採用することにより、トレーニングプロセスの中で、推論を実行しようとしているハードウェアや、その外観、特徴などを指定することができる。探索パラダイムは、モデルのトレーニングを行うマシンには必ずしも適していないが、最終的に推論を実行するマシンには適しているというモデルを見つけ出すことが可能だ」と述べている。

　「現在われわれが目にしているトレーニングプラットフォームとモデルの間には、確実に関連性がある。しかし、その関連性を断ち、より効率的な推論向けモデルを見つけ出すために、大きな関心が集まり、本物のエンジニアリング技術が存在しているのだ」（Mattina氏）

Ampere ComputingのJeff Wittich氏,Ampere ComputingのJeff Wittich氏出所：Ampere Computing

　AIは急激に進化しているため、専用チップやカスタムシリコンを使用することと、システムの柔軟性を確立することとのバランスをいかに取るかが難しい。しかし、クラウドネイティブのプロセッサを手掛けるAmpere Computing（以下、Ampere）でCPO（最高製品責任者）を務めるJeff Wittich氏は、次のように提言している。

　「現時点では、用途に合わせたカスタマイズなどは、システムレベルで行うことが最善ではないだろうか。ハードウェアを変更できなくても、コンポーネントやソリューションの組み合わせによって柔軟に対応できるからだ。一般的に、新しいハードウェアを開発して商用化するためには、5年間を要していた」（Wittich氏）

　Ampereは、そうした柔軟性を推進すべく、さまざまなトレーニング／推論アクセラレーターの開発を手掛ける複数企業と提携している。同氏は、「汎用CPUと、特定のタスクの実行に優れた推論／トレーニングアクセラレーターとを組み合わせることは、理にかなった手法だ。将来的には、こうしたアクセラレーターとCPUを、より密接に連携させることが可能になるだろう」と語る。

　Wittich氏は、「ただし、統合でメリットを得られる部分とそうでない部分を認識する必要がある。統合によって性能や効率を向上させることができるのであれば、それは素晴らしいアイデアだ。柔軟性が低下するだけであれば、良いアイデアとはいえないだろう」と付け加えた。

【翻訳：田中留美、編集：EE Times Japan】

原文へのリンク

Rapidusとも提携、Tenstorrentの現状と戦略
2nmプロセスベースのAIエッジデバイス領域での半導体IPに関して、Rapidusと提携を結んだTenstorrent。同社CEOのJim Keller氏が今回、米国EE Timesのインタビューに応じ、事業の現状や戦略などを語った。
半導体設計をサポートするLLMを開発したNVIDIA
NVIDIAが半導体設計に関する一般的な質問への回答、バグドキュメントの要約、EDAツール用スクリプトの作成など、半導体設計に関連するタスクを支援する大規模言語モデル（LLM）である「ChipNeMo」を開発した。
ハーバード中退コンビのLLM向けチップ新興が資金獲得
ハーバード大を中退した20代コンビによるAIチップ新興Etched.aiが、シードラウンドで536万米ドルを獲得した。同社のLLMアクセラレーターは、NVIDIAのH100 PCIeと比較し、1ドル当たり140倍のスループットを達成できるという。
「世界トップレベルの日本語性能」、NECの独自LLM
NECが、軽量でありながら「世界トップレベルの日本語性能」（同社）を有する独自LLM（大規模言語モデル）を開発した。同社は2023年7月から法人向けの生成AIサービスを順次提供し、3年で売上高500億円を目指すという。
大規模言語モデルの未来は「オープンソース化」にある？
大規模言語モデル／生成AI（人工知能技術）への関心が急速に高まる一方、それらの技術のコントロールが、一部の企業にあることを懸念する声も少なくない。業界の専門家たちは、「AIの民主化」に関する問題解決の糸口は、大規模言語モデルのオープンソース化にあると語る。
時価総額1兆ドル超え、生成AIブームに乗るNVIDIA
生成AIの世界的ブームの波に乗り、NVIDIAの時価総額は1兆ドルを突破した。同社CEO、Jensen Huang氏は2023年5月、「COMPUTEX TAIPEI 2023」の基調講演で登壇し、生成AIの持つ可能性や、その基盤として必要となる最新製品について語った。