メディア

自動運転やロボティクスにマルチモーダルLLM適用を目指す米Ambarella(1/3 ページ)

イメージプロセッサを手掛ける米Ambarellaによれば、マルチモーダル基盤モデルは、より“人間に近いAI”を実現し、より高度な自動運転や、ロボットの自動化の加速に貢献するという。

» 2024年10月10日 15時30分 公開
[Sally Ward-FoxtonEE Times]

自動運転への適用が期待されるマルチモーダル基盤モデル

 イメージプロセッサを手掛ける米AmbarellaでCTO(最高技術責任者)を務めるLes Kohn氏は、「(自動運転レベルの)L3以上の自律性を実現したり、L3をより堅ろうにしたりするためには、複雑なシナリオを理解した上で何をすべきか予測できる、一般的な知識を備えた“人間らしい何か”を搭載する必要がある」と述べる。「Transformerベースの生成AIモデルを含むLLM(大規模言語モデル)は、複雑な現実世界のシナリオを処理できるため、その要件に適合する」

Ambarella CTOのLes Kohn氏 Ambarella CTOのLes Kohn氏 出所:Ambarella

 同氏は、「LLaVAのような今日のモデルは、主にテキストでトレーニングされ、最終段階で視覚的な入力データが追加される。このようなモデルは、テキストトレーニングの概念を現実世界で見たシーンに関連付けることができる」と述べている。

 「こうしたマルチモーダルモデルは、物事がどう機能するのかについて高いレベルの理解力を持たない純粋なコンピュータビジョンモデルよりも、あるシーンについてはるかに多くのことを理解できる。LLaVAは他のトレーニングに基づいて物事を推論し、一般化できるため、エッジケースに対処する能力がはるかに優れている」(Kohn氏)

 Kohn氏によると、最近の研究では、マルチモーダルモデルは独立して開発され、異なるデータでトレーニングされているにもかかわらず、使用する表現が収束しつつあることが分かっているという。「これらのモデルは、人間が世界を理解するのと同じように、初歩的な物理学や物体の動きに関する知識を持っている」

 Kohn氏によると、複数のモダリティから学習することは人間の学習方法に近いため、より高度なAIの実現が可能になるという。

 「クルマの外観を知っているからといって、さまざまなシナリオでクルマがどのように動作するかを知っていることにはならない。特に、複雑なシナリオで運転するには、何をすべきかを知るために、人間と同じレベルで物事を理解する必要がある」と同氏は言う。

 行く手を阻む車があった場合、その車を迂回するか待つかを決める必要がある。より高度なモデルは、一時的に道路の反対側を走行する必要がある場合でも、それが安全かどうかを判断できる。「このモデルは、シーン内にあるものを組み合わせて、何が起こっているのか、どのオブジェクトが重要で、それが運転に影響を与えるのかを理解する。その上で、空間をどのようにナビゲートするかを決定できる」とKohn氏は続ける。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.