Metaは、2025年6月に開催された欧州のイベントで、予測ビデオモデル「V-JEPA」を核とするロードマップを発表した。Metaは併せて、V-JEPAで目指す世界を語った。
2025年6月11〜14日にフランスのパリで開催された欧州最大級のテクノロジーイベント「VivaTech 2025」で、MetaのチーフAIサイエンティストを務めるYann Le Cun氏は、高度な機械知能(AMI)の実現に向けた、予測ビデオモデル「V-JEPA(Joint Embedding Predictive Architecture)」を中核とする野心的なロードマップの概要を発表した。V-JEPA 2は、AIの3つの主要な課題(物理世界の理解、推論、計画)を克服するために設計されている。
Le Cun氏によると、V-JEPAは、物理世界の振る舞いを真に学習できる初のシステムの1つだという。ビデオフレームをピクセルレベルで予測しようとしてきた従来のアプローチとは異なり、V-JEPAはビデオコンテンツの抽象的な表現を予測することで学習する。これは自己教師学習の一種で、Le Cun氏は進歩に不可欠だと言う。
大規模言語モデル(LLM)とは異なり、ビデオ予測は決定論的な予測に苦戦してきた。「最近までは、少し失敗とも言える出来だった」と同氏は述べている。
V-JEPA 2は、ビデオの欠落部分を表現レベルで予測するようにトレーニングされると、第2フェーズである世界モデルに移行する。このモデルは、想像上の行動に応じて状態がどのように変化するかを予測する。つまり、システムが結果を予測し、それに応じて計画を立てられる。Le Cun氏は「システムは、一連の行動の結果を想像することができる」と述べている。Metaは、このモデルを使用して、明示的なタスクトレーニングなしで、物体をつかんだりドアを開けたりするといったロボットアームの動きをプランニングした。
Le Cun氏は「V-JEPAと生成AIは異なる」と述べ、次のように説明している。「V-JEPAのアーキテクチャは生成アーキテクチャではない。トレーニングを受けた世界を再構築したり予測したりしようとしないからだ。抽象的な表現を学習し、その抽象的な表現空間の中で予測を行う」
「LLMにはそのような内部世界モデルがない。LLMは一般的に、トレーニングを受けたことや生成する内容に基づいて、何も考えずに計画を立てる」とLe Cun氏は述べている。
それでもなお、同氏はコード生成などの分野におけるLLMの有用性を認めている。「LLMは有用だ。当社もLLMを開発しているが、あくまでも短期的な取り組みであり、MetaのFAIR(Fundamental Artificial Intelligence Research)チームは常に、現在のAIのトレンドより3年、5年、あるいは10年先を進んできた」(Le Cun氏)
汎用人工知能(AGI)は、人間に匹敵する能力を持つAIを表す理論的概念で、この概念は数十年前からあるが、近年新たな注目を集めている。
Le Cun氏は人間の知能は汎用的ではなく特化型であると主張し、「AGI」という用語を否定している。「残念ながら、人間の知能は全く汎用的ではない。私たちはほとんどの動物より多少は汎用的だが、一部の動物は特定の分野で私たちより賢く、コンピュータは特定のタスクを私たちより間違いなくうまくこなせる。つまり、ある意味で私たちは特化型であると言える」(Le Cun氏)
Copyright © ITmedia, Inc. All Rights Reserved.