NXPは、Kinaraの買収に加えて、LLMと生成AIをエッジで実行するための新しいツールフローについても発表している。「GenAI Flow」は音声認識や音声合成(text-to-speech)モデルを含む機能的なライブラリを備える。Ors氏は「組み込み機器はシステムにキーボードやディスプレイを備えていない場合があるので、音声UIに関連するモデルは非常に重要だ」と指摘する。こうしたモデルは、i.MX95の場合はアプリケーションプロセッサのNPUで、より旧型の場合はCPUでなど、ホスト上でも実行可能だという。
Ors氏は「GenAI Flowはワークロードの一部をコア間で分割できるが、個々のモデルを複数のコアに分割するのは非常に困難だ」と述べる。
また同氏は「モデルは動的なもので、そのバランスのとり方に注意する必要がある。グラフを分割し始めると必ず、それまでは存在していなかったボトルネックが発生する。何度もあちこちデータを受け渡していると、計算よりも受け渡しに多くの時間を費やすようになる可能性がある。このため、何か利用できるものを探してそのコアにデータを送信するよりも、動作は遅くても全てを1カ所で実行する方が良いかもしれない」と述べる。
GenAI Flowには、RAG(Retrieval-Augmented Generation:検索拡張生成)向けのツールもある。RAG技術は、事実に基づいていることが重要視される自動車や産業、ヘルスケアなどのエッジユースケースにおいて、LLMにコンテキストを与える。
「畳み込みニューラルネットワーク(CNN)の場合、多くの製品化がカスタムモデルで行われる。LLMではカスタムモデルのコストがかなり大きく、より多くのデータや計算、特殊な専門知識が必要とされ、それを確保することは非常に難しい。専門知識や計算のコストも高く、特にデータ収集のコストは非常に高い」(Ors氏)
こうした理由から、ほとんどのエッジ顧客がLlamaのようなオープンソースLLMをRAGなどの技術と組み合わせて利用する方を好む。RAGによって、LLMは事実に基づいたコンテンツのデータベースにアクセスできる。エッジアプリケーションの場合、RAGデータベースのサイズは数百キロバイトで、アプリケーションプロセッサ上で動作する。GenAI Flowは、NXPハードウェア向けにあらかじめ最適化されたオープンソースモデルのライブラリを備えている。
Ors氏は「これらのモデルは現在もありとあらゆるトレーニングの最中だが、RAGはそのトレーニングにコンテキストを提供できる」と述べる。
「LLMが医療機器上で実行されている場合は、その機器の使用方法に関する全てのマニュアルを組み込める。そうすればLLMに質問したときに、インターネットで見た心電図の画像を参考にするのではなく、その医療機器が実際にやろうとしていることに基づいた応答を得られる。RAGは、事実に基づいて応答することが非常に重要な用途において、オープンソースLLMにコンテキストを与える」(Ors氏)
重要なのは、RAGはモデルを修正しないということだ。Ors氏によれば、今後のAI規制を懸念する顧客の多くがそれを望んでいるという。認証されたモデルにRAGを介してコンテキストを与える際に、追加の認証を受ける手間を省略できる可能性があるからだ。
全体としてGen AIは、LLMをエッジに導入して顧客の摩擦を取り除くことを目的にしている。エッジにおける完全なエージェントAIの実現はまだ先のことだが、Ors氏によるとこの技術はエッジユースケースにおいて大きな可能性を秘めているという。
「生産現場で防犯カメラが事故を捉えたとき、エージェントAIが現場の状況を読み解き、管理者や救急隊を呼び、報告書の作成を開始し、関連する機械を停止させる。これらは全て実現可能なことだ」(Ors氏)
【翻訳:田中留美、編集:EE Times Japan】
Copyright © ITmedia, Inc. All Rights Reserved.