Les modèles de langage massifs ne suffisent pas pour la robotique car ils ignorent la physique du mouvement en 3D.
V-JEPA 2 apprend à prédire les futures images dans un espace latent plutôt qu’au pixel près pour saisir l’essence des interactions physiques.
Le modèle a été pré-entraîné sur 22 millions de vidéos et 1 million d’images avec un encodeur ViT-g à 1 milliard de paramètres et une stratégie de masquage de tubelets.
L’extension V-JEPA 2-AC ajoute un transformeur de 300 M paramètres pour apprendre la dynamique d’action avec seulement 62 heures de vidéos robotiques.
Le contrôle des robots s’effectue par planification prédictive (MPC) minimisant l’énergie, avec 16 secondes par action contre 4 minutes pour les modèles de diffusion.
Le modèle zero-shot sur bras Franka atteint 100 % en reaching, 65 % pour saisir une tasse et 65–80 % pour le pick and place.
Les principales limitations sont la sensibilité à la pose de la caméra, la dérive en longue planification et l’incapacité à gérer des objectifs formulés uniquement en langage.
V-JEPA 2 aligné à un LLM de 8 milliards de paramètres obtient 84,0 % au PerceptionTest et 76,9 % au TempCompass sans supervision linguistique.
Get notified when new stories are published for "🇫🇷 Hacker News Français"