V-JEPA 2 : La Robotique Apprise par Vidéo

1

Les modèles de langage massifs ne suffisent pas pour la robotique car ils ignorent la physique du mouvement en 3D.

2

V-JEPA 2 apprend à prédire les futures images dans un espace latent plutôt qu’au pixel près pour saisir l’essence des interactions physiques.

3

Le modèle a été pré-entraîné sur 22 millions de vidéos et 1 million d’images avec un encodeur ViT-g à 1 milliard de paramètres et une stratégie de masquage de tubelets.

4

L’extension V-JEPA 2-AC ajoute un transformeur de 300 M paramètres pour apprendre la dynamique d’action avec seulement 62 heures de vidéos robotiques.

5

Le contrôle des robots s’effectue par planification prédictive (MPC) minimisant l’énergie, avec 16 secondes par action contre 4 minutes pour les modèles de diffusion.

6

Le modèle zero-shot sur bras Franka atteint 100 % en reaching, 65 % pour saisir une tasse et 65–80 % pour le pick and place.

7

Les principales limitations sont la sensibilité à la pose de la caméra, la dérive en longue planification et l’incapacité à gérer des objectifs formulés uniquement en langage.

8

V-JEPA 2 aligné à un LLM de 8 milliards de paramètres obtient 84,0 % au PerceptionTest et 76,9 % au TempCompass sans supervision linguistique.

V-JEPA 2 : La Robotique Apprise par Vidéo

Subscribe to Similar Stories

V-JEPA 2 : La Robotique Apprise par Vidéo

Subscribe to Similar Stories