製造業をはじめ、さまざまな業界でAI導入が本格的に始まった。それに伴い、大規模言語モデル(LLM)に取り込むデータの更新と増大に、いかに対応するかが課題として見え始めている。これを解決し、AIの社会実装を現実的な形で進めるためには、どのようなアプローチがあるのか。Preferred Networksの共同創業者で代表取締役社長を務める岡野原大輔氏と、キオクシア SSD事業部 参事の荒川雅之氏が対談した。
生成AIの普及は、「ChatGPT」が注目された2023年を境に一気に進んだ。それに伴い、大規模言語モデル(LLM)はパラメータ数を増やし、推論能力を高め、驚くほどの性能向上を遂げている。ビジネスの現場では、LLMにあらゆるデータを読み込ませ、生産性の向上や付加価値の創出につなげる取り組みが加速し始めた。だが、実用化が進むほど、別の課題が表面化し始めている。それが、LLMが扱うデータ量の限界だ。
社内文書や契約書、法律、規制、市場データなど、多くの企業がLLMに「学習させたい」知識や情報は、膨大な量になるだけでなく、更新され続ける類のものだ。AIの社会実装を進めるには、アップデートが必要なデータの増大にどう対応していくかが鍵になる。
この“データの壁”を乗り越えるには、どのようなアプローチが有効なのか。日本語に強みを持つ国産LLMやAI用半導体の開発を手掛けるPreferred Networks 共同創業者 代表取締役社長の岡野原大輔氏と、キオクシア SSD事業部 フラッシュストレージ事業戦略部 参事の荒川雅之氏が対談した。
荒川氏は「ここ数年、ハイパースケーラー同士の開発競争が激化していますが、驚くほどLLMが賢くなっています」と、進化の速さに舌を巻く。一方で、LLMをめぐる競争軸は、“賢さ”の追求から、“実用性”の追求に移りつつあると指摘する。
岡野原氏も「これまでは『人間が答えられないような質問に答えられるかどうか』という“賢さ”でLLMの性能向上が進められていました。ただ、特にビジネスの現場で導入が進んでくると、実際の仕事に関わるデータをどれだけ取り込めるか、あるいはどれだけ厳密に指示に従ってくれるかなど、より実用的な側面がLLMに求められるようになっています」と語る。
ここで課題となるのが、実用性を追求するほど、LLMが扱うデータ量は増大していくことだ。企業が読み込ませたいデータは、社内文書やマニュアル、調査結果、業界の慣習、法律や規定、市場動向、国際情勢など多岐にわたる。しかもこれらは常に更新される情報だ。
右肩上がりで増加し、かつ常にアップデートが必要な「社会知識(データ)」を全てLLMに内包させることは、コストやモデルの更新頻度などから考えても非現実的だ。さらに、AIによって最も価値を引き出せるであろうデータには機密事項が含まれていることも多い。荒川氏は「これからは『知識(データ)』と『知能(LLMの処理)』を分離し、LLMには“考える能力”に集中させることが必要になっていくのではないでしょうか」と語る。
有力なアプローチの一つが、生成AIの回答精度を高める技術であるRAG(検索拡張生成)において、業界データ、企業データなどの外部の固有情報を格納するベクターデータベースをより積極的に活用することだ。
岡野原氏は、LLMが知能を発揮するために、LLMがあらゆる情報を記憶する必要はないと指摘する。「LLMでは、情報を記憶する部分と処理する部分が混在しているのが現状です。ですが、LLMが情報を処理する、つまり知能を実現するためには、LLMが大部分の情報を記憶している必要はありません。ほとんどの情報を外部記憶として保存し、LLMがそれを参照しながら高度な処理を行うことも十分に可能なのです」
岡野原氏は、RAGのベクターデータベースのような外部記憶を活用する利点は多いと続ける。その一つが、LLMが参照する情報をユーザーが完全にコントロールできることだ。
「例えば、ある会社の戦略が変わるといった情勢の変化をLLMに入れ込むのは本当に大変です。ですが、そうした変化している情報を人間がコントロールできないのは、AIを実用化する上でとても困りますよね。人間が管理できる形で外部情報を扱うという考え方は理想論としてあり、RAGはそれを達成する良いステップではないでしょうか」
荒川氏は付け加える。「LLMで価値ある推論を導き出すには、確実な情報の参照が必要ですが、現状はまだそこまでたどり着いていません。権威性が高い情報や知識を求めているのに、一般の方が書かれた書評などを基に推論してしまうこともありました。RAGにおいて、LLMがどこを参照するかをユーザー側が十分にコントロールする必要があります。そのためには、固有のベクターデータベースを持つことが有効だと考えています。LLMの進化と、RAGおよびベクターデータベースの進化が、しっかりと結び付いていくのが理想形だと思います」(荒川氏)
一方で、ベクターデータベースは、基本的にGPUやホストのDRAMを使うことを前提に構築されている。ここに、AIの社会実装をさらに進める上でのボトルネックがある。DRAMはフラッシュメモリやそれにより実現されるSSDと比べ非常に高価で、大容量化にも限界があるからだ。増え続けるデータを保存する用途には、そもそもあまり適していない。
「今はまだRAGは普及段階なので、一般的にはDRAM制約は切実な問題となっていません」(荒川氏)。例えば、大手企業の部署単位で使われるベクターデータベースは約1億ベクター規模で、容量にすると約450〜500GB(ギガバイト)程度で済む。ハイエンドサーバのDRAMに収まる容量なので、実証実験レベルではそこまで危機を感じていないのではないかと荒川氏は指摘する。
だが、社会実装となると状況は一変する。社会実装とはマネタイズを意味するからだ。実用的な価値を引き出すために、扱うデータ量は飛躍的に増え、企業全体では10億ベクター規模、容量にして4.4〜4.5TB(テラバイト)に達する。DRAMでは容量、コスト、供給のいずれの面でも限界が見え始めている。
さらに荒川氏は「最先端のサービスプロバイダーは、100億や1000億、そして近い将来、1兆ベクター規模を目指すとされています」と付け加える。「1兆ベクター規模へ増加する要因は大きく2つあり、1つが急速な普及が予測されているエージェントAIです。もう1つがVideo RAGなどのマルチモーダルです。現在、Web会議はビジネスでも一般的に使われていますが、Web会議で蓄積した映像や音声、字幕などをRAGに活用するVideo RAGという技術も登場しています」。エージェントAIとVideo RAG。これら2つによって、ベクターデータベースは1兆ベクター規模という、途方もないサイズに増大する可能性がある。
DRAMの課題を解消し、膨大なベクターデータを蓄積する、いわば“知識の器”としての役目を果たすのがSSDだと荒川氏は語る。このSSD利活用を促進するために、キオクシアは、ソフトウェア「KIOXIA AiSAQ(キオクシア アイザック)※」を開発した。大規模ベクターデータベースをSSDに格納し、必要なデータを直接SSDから検索するためのANNS(Approximate Nearest Neighbor Search:近似最近傍探索)アルゴリズムである。DRAMに依存することなく、SSD上の大規模なベクターデータベースから必要なデータを高速に検索できるようにする。
KIOXIA AiSAQはオープンソースとして公開され、2025年12月にはオープンソースのベクターデータベースMilvus(バージョン2.6.4以降)への正式採用も発表された。「KIOXIA AiSAQはいわば自動車のエンジンのようなものです。大容量のエンジンですが、それを搭載する自動車がなければRAGというドライブはできません。その自動車に相当するのがベクターデータベースアプリです。オープン化することにより、さまざまなベンダーのベクターデータベースにKIOXIA AiSAQというエンジンを搭載し、RAGでのSSDの利活用を高めていきたいと考えています」(荒川氏)
岡野原氏は、KIOXIA AiSAQのような仕組みがあれば、LLMを試すまでのハードルは圧倒的に低くなるのではないかと話す。
「LLMの開発も、新しいアイデアを使って試行錯誤していく必要があります。新しいモデルが毎日のように登場し、1〜2週間のペースで新モデルを試作するくらいのスピードが求められる中、SSD用に最適化されたRAGの基盤がある程度整っていれば、LLMの設計者にとっては開発がやりやすい状態になるのではないでしょうか」
岡野原氏は「AIを社会実装するには、コストと電力の問題がついて回ります。これを解消しようとする際に、ようやく、DRAMだけでなくフラッシュメモリ/SSDも含めた最適なストレージ構成を選べるようになったと感じます」と続ける。
「これまでは、LLMが本当に使い物になるかどうかを判断するために、コストや電力を度外視して開発が進みました。ですが、何億人、何十億人という単位でユーザーが増え、産業領域でもAI導入が本格化するとなると、フラッシュメモリの活用も不可欠になっていくと思います。さらに、フラッシュメモリはあくまでハードウェアですから、AIのシステムとしてつなぐためのソフトウェアも試行錯誤していく必要があります。そこにイノベーションの種が存在し、新たな技術や工夫が生まれてくると期待されます」
岡野原氏は、かつて検索エンジンの開発において、DRAM中心の設計からフラッシュメモリへと移行した経験があると振り返る。その際も、フラッシュメモリを活用できるようになると、1〜2年でDRAMからフラッシュメモリへの移行が起きたという。「AIシステムの世界でも、DRAMを前提にしているシステムにフラッシュメモリも適用できるとなれば、パラダイムシフトが起きる可能性はあります」
キオクシアは生成AI向けに、大容量のエンタープライズSSD「KIOXIA LC9シリーズ」を開発中だ。最も容量の大きなモデルは1台で245.76TBを実現しており、200億ベクター規模のベクターデータベースでも保存できる容量だ。電力消費なども含めれば、大幅にTCO(Total Cost of Ownership)を削減できるとキオクシアは見込む。
荒川氏はこう結ぶ。「生成AIの社会実装において情報が真の価値を生み出し社会貢献するには、知能のLLMと知識のRAGが“バディ”のように手と手を取り合っていかねばなりません。これには“知識の器”としての大規模なベクターデータベースが必要です。それを実現できるのがSSDであり、われわれキオクシアだと確信しています」
※「KIOXIA AiSAQ」はキオクシア株式会社の登録商標です。
Copyright © ITmedia, Inc. All Rights Reserved.
提供:キオクシア株式会社
アイティメディア営業企画/制作:EE Times Japan 編集部/掲載内容有効期限:2026年5月1日