動画学習で物理予測するV-JEPA 2モデル

1

V-JEPA 2は100万時間のYouTube動画を使って、ロボットに物理世界の次の瞬間を予測させる世界モデルを学習した。

2

ピクセルではなく潜在表現空間で予測することで、効率的に物体の動きを把握できる。

3

動画の一部をランダムにマスクし、欠損部分を予測するマスキング手法を採用している。

4

2200万本の動画と100万枚の画像を用い、モデル規模を3億から10億パラメータに拡大して学習した。

5

V-JEPA 2-ACとして行動を予測する300Mパラメータのトランスフォーマーを追加し、62時間のロボット動画でファインチューニングした。

6

ゼロショットで到達動作100％、把持動作65％、ピック＆プレース65〜80％の成功率を達成した。

7

1アクションあたり16秒での計画が可能となり、従来の拡散モデル（4分/アクション）より大幅に高速化した。