Τα ρομπότ χρειάζονται κατανόηση των φυσικών νόμων και όχι μόνο γλωσσικά πρότυπα.
Το V-JEPA 2 εκπαιδεύτηκε με 1 εκατομμύριο ώρες βίντεο YouTube για πρόβλεψη της επόμενης στιγμής στην πραγματικότητα.
Η πρόβλεψη πραγματοποιείται σε έμμεσο χώρο αναπαράστασης αντί για pixel για καλύτερη κατανόηση φυσικής.
Η αρχιτεκτονική περιλαμβάνει κωδικοποιητή ViT-g, προβλέπτη νευρωνικό δίκτυο και 3D-RoPE για χωρικές προβλέψεις.
Η στρατηγική μάσκας tubelets αποκρύπτει τμήματα βίντεο που πρέπει να προβλεφθούν από το μοντέλο.
Η κλιμάκωση δεδομένων έφτασε τα 22 εκατομμύρια βίντεο και 1 εκατομμύριο εικόνες με έως 1 δισεκατομμύριο παραμέτρους.
Με το V-JEPA 2-AC προστέθηκε μετασχηματιστής 300Μ παραμέτρων εκπαιδευμένος σε 62 ώρες ρομποτικών βίντεο για δράσεις.
Ο έλεγχος περιλαμβάνει ελαχιστοποίηση ενέργειας για σχεδιασμό πολλαπλών σεναρίων δράσεων και εκτέλεση της βέλτιστης.
Το μοντέλο επιτυγχάνει μηδενική-λήψη γενίκευσης με ποσοστά επιτυχίας: reaching 100%, grasp cup 65%, pick & place 65–80%.
Ο προγραμματισμός δράσεων απαιτεί 16 δευτερόλεπτα ανά κίνηση, πολύ ταχύτερα από τα diffusion models.
Get notified when new stories are published for "🇬🇷 Hacker News Ελληνικά"