Modele oparte na transformatorach wideo uczą się fizyki z YouTube.
V-JEPA 2 przewiduje kolejne momenty w przestrzeni latentnej zamiast pikseli.
Model został wytrenowany na ponad milionie godzin materiałów wideo.
Wersja 2-AC umożliwia robotom planowanie ruchów przy użyciu zaledwie 62 godzin nagrań.
Osiągnięto zero-shot generalizację z wysokimi wskaźnikami sukcesu w zadaniach chwytania i przenoszenia.
Planowanie akcji trwa około 16 sekund zamiast kilku minut.
Model uzyskuje 84% na PerceptionTest i 76,9% na TempCompass bez nadzoru językowego.
Ograniczenia obejmują wrażliwość na ustawienie kamery i dryf przy długich planach.
Get notified when new stories are published for "🇵🇱 Hacker News Polski"