Robots Leren Van 1 Miljoen Uur YouTube

1

V-JEPA 2 leert wereldmodellen door één miljoen uur YouTube-video’s te voorspellen in latente ruimte.

2

Het systeem gebruikt een ViT-g encoder, maskering van videobestanden en 3D-RoPE om fysica te begrijpen.

3

Met progressive resolution training en opschaling naar 22 miljoen video’s behaalde V-JEPA 2 robuuste fysische voorspellingen.

4

V-JEPA 2-AC combineert het voorgetrainde wereldmodel met een transformer om acties te simuleren en bestuurt robots via model predictive control.

5

Zero-shot generalisatie op Franka-robotarmen: 100% bereik, 65% grip en 65–80% pak- en plaats-succes.

6

Plannen met V-JEPA 2-AC is veel sneller (16 seconden per actie) dan diffusie-gebaseerde methoden (4 minuten).

7

Integratie met een 8B-taalmodel levert SOTA-resultaten in video-vraagantwoord (84% PerceptionTest, 76,9% TempCompass).

8

Beperkingen omvatten gevoeligheid voor camerahoek, drift bij lange horizon en afhankelijkheid van beeldinput voor doelen.