Robotyka Odkryta dzięki Analizie YouTube

Modele oparte na transformatorach wideo uczą się fizyki z YouTube.

V-JEPA 2 przewiduje kolejne momenty w przestrzeni latentnej zamiast pikseli.

Model został wytrenowany na ponad milionie godzin materiałów wideo.

Wersja 2-AC umożliwia robotom planowanie ruchów przy użyciu zaledwie 62 godzin nagrań.

Osiągnięto zero-shot generalizację z wysokimi wskaźnikami sukcesu w zadaniach chwytania i przenoszenia.

Planowanie akcji trwa około 16 sekund zamiast kilku minut.

Model uzyskuje 84% na PerceptionTest i 76,9% na TempCompass bez nadzoru językowego.

Ograniczenia obejmują wrażliwość na ustawienie kamery i dryf przy długich planach.

Get notified when new stories are published for "🇵🇱 Hacker News Polski"

No Sign-In needed. One-Click Subscribe.

•

🇵🇱 Hacker News Polski•June 30, 2025 at 04:41 AM