V-JEPA 2 leert wereldmodellen door één miljoen uur YouTube-video’s te voorspellen in latente ruimte.
Het systeem gebruikt een ViT-g encoder, maskering van videobestanden en 3D-RoPE om fysica te begrijpen.
Met progressive resolution training en opschaling naar 22 miljoen video’s behaalde V-JEPA 2 robuuste fysische voorspellingen.
V-JEPA 2-AC combineert het voorgetrainde wereldmodel met een transformer om acties te simuleren en bestuurt robots via model predictive control.
Zero-shot generalisatie op Franka-robotarmen: 100% bereik, 65% grip en 65–80% pak- en plaats-succes.
Plannen met V-JEPA 2-AC is veel sneller (16 seconden per actie) dan diffusie-gebaseerde methoden (4 minuten).
Integratie met een 8B-taalmodel levert SOTA-resultaten in video-vraagantwoord (84% PerceptionTest, 76,9% TempCompass).
Beperkingen omvatten gevoeligheid voor camerahoek, drift bij lange horizon en afhankelijkheid van beeldinput voor doelen.
Get notified when new stories are published for "🇳🇱 Hacker News Dutch"