メディア

大規模言語モデルの未来は「オープンソース化」にある？：「AIの民主化」問題の解決策にも（1/2 ページ）

大規模言語モデル／生成AI（人工知能技術）への関心が急速に高まる一方、それらの技術のコントロールが、一部の企業にあることを懸念する声も少なくない。業界の専門家たちは、「AIの民主化」に関する問題解決の糸口は、大規模言語モデルのオープンソース化にあると語る。

» 2023年05月09日 13時30分公開

[Sally Ward-Foxton，EE Times]

　かつてIntelでチーフアーキテクトとエグゼクティブバイスプレジデントを務めた経歴を持つRaja Koduri氏は、さらに多くの「ChatGPT」を生み出すとみられる大規模言語モデル（LLM：Large Language Model）のトレーニングに必要な法外なコストについて懸念しているが、それも無理のないことだろう。

Raja Koduri氏出所：Tenstorrent

　同氏は米国EE Timesの取材に応じ、「私が非常に懸念しているのは、生成AI（人工知能）のコントロールが、モデルの大規模なトレーニングや展開を実行できるだけの資金的余裕を持った、ごく一部の人々の手中にあるという点だ。私はこれまで、コンピュータの民主化を大いに支持してきた。エクサスケールのコンピュータは、全ての人々とそのデバイスからアクセス可能でなければならない」と述べている。

　Wiredのレポートによると、OpenAIのCEO（最高経営責任者）であるSam Altman氏は、「ChatGPTのベースとなっているモデルの次世代バージョンである『GPT-4』のトレーニングに、1億米ドル超のコストを要した」と述べているという。

　このため、パラメータ数が数千億規模の最先端モデルの場合、ゼロからトレーニングを行うために必要なリソースを持っているのは、選ばれし民間企業のみに限られる。ここで重要なリスクとなるのが、GPTのような強力なLLMが、こうした企業の商業目的に合った方向にしか発展しなくなるという点だ。

　Koduri氏は、「私が新設した生成AIソフトウェア企業は、Tenstorrent（Koduri氏が役員に就任）やその他のRISC-Vエコシステムとの協業により、こうした問題に対応していく考えだ」と述べている。

続々登場するオープンソースのモデル

　AIアルゴリズムには、他の種類のソフトウェアと同様に、専用のものとオープンソースの両方がある。しかし、業界では最近、技術のさらなる民主化を進めるべく、学習済みのモデルがオープンソース化される傾向にある。そこにはGPTやBloomなどの取り組みも含まれる。

　中でもHuggingFaceの「HuggingChat」は、パラメータ数が300億と最大規模だ。ChatGPTの競合として開発されたが、ライセンスでは商用利用が認められていない。

　Stability AIは、自由に商用利用可能なオープンソースのLLM「StableML」をリリースした。現在は、パラメータ数が30億と70億のバージョンを提供しており、150億～650億のバージョンも間もなく実現するという。同社は、「当社のモデルをオープンソース化することによって透明性を高め、信頼性を育んでいきたい。研究者たちはこのモデルを利用して、潜在的なリスクを特定し、予防措置の開発に役立てることができる」と述べている。

　Graphcoreは、Eleutherの「Pythia」をベースとしで「Dolly 2.0」を開発、同社のIPU（Intelligence Processing Unit）ハードウェア上で動作させている。Dolly 2.0は、パラメータ数が120億と大規模で、その開発企業であるDatabricksが、このタスク専用に収集したデータを使って学習させたという。命令に対するトレーニングと微調整を行い、商用利用を許可するライセンスでモデルやウェイト、データセットがオープンソース化されている。

　StableLMとDolly 2.0のパラメータ数は、ChatGPTの1750億と比べるとまだ1～2桁も小さい。

　企業が、微調整と使用を許可するライセンスに基づき、学習済みモデルをオープンソース化することは、多くの企業や研究者たちに技術へのアクセスを解放していく上で大きな役割を果たす。微調整とは、既に学習済みのモデルをさらに学習させることで、特定タスクに特化させるというプロセスである。ゼロから再学習するよりも、リソース量がはるかに少なくて済む。

　SambaNovaのプロダクト部門担当シニアディレクターを務めるAnton McGonnell氏は、EE Timesのインタビューの中で、「今後はオープンソースモデルが標準になり、世界中の最高クラスのモデルは全てオープンソース化されるだろう。最先端モデルは現在、大きく変化しようとしていることから、われわれとしては、『勝利を獲得するプラットフォームとは、複雑性に対応して、実際にこれらのモデルを大規模かつ効率的に実行し、迅速に対応することが可能なプラットフォームだ』と考えている」と述べる。

　SambaNovaは、GPUやBloomをはじめとする一連のオープンソースLLMのコレクションを、さまざまな領域特化型のデータセットで学習させ、顧客独自の特定タスクのデータで微調整できるようにしている。

Cerebras CEOのAndrew Feldman氏出所：

　Cerebrasは、パラメータ数が1億1100万～30億の一連のGPTモデルを、Apache 2.0ライセンスで利用を許可し、オープンソース化している。「Cerebras-GPT」モデルのダウンロード数は20万を超える。

　CerebrasのCEOであるAndrew Feldman氏は、EE Timesの取材に応じ、「注意しなければ、ほんの一握りの企業だけがLLMの鍵を握ることになってしまう。OpenAIのGPT-4はブラックボックスのような状態であり、Metaの学習済みオープンソースモデル『Llama』は商用利用することができない」と指摘する。

　トレーニングに必要なリソースだけでなく、膨大な必要データへのアクセスも参入障壁となっている。

　ChatGPTは、約3000億語（570Gバイトのデータ）でトレーニングされている。CerebrasのオープンソースLLMは、Eleutherのオープンソースデータセット「The Pile」でトレーニングを行っている（StableLMは、The Pileをベースとした試験的なデータセットでトレーニングを実行していて、その詳細については後日発表する予定だという）

　データセットをオープンソース化すると、参入障壁を取り除けるだけでなく、データセットにバイアスなどの特徴がないかを詳細に調査することができる。

高い実装コストも課題に

　　　　　　 1|2 次のページへ