Βίντεο-Βασισμένο Μοντέλο Κόσμου για Ρομπότ

Τα ρομπότ χρειάζονται κατανόηση των φυσικών νόμων και όχι μόνο γλωσσικά πρότυπα.

Το V-JEPA 2 εκπαιδεύτηκε με 1 εκατομμύριο ώρες βίντεο YouTube για πρόβλεψη της επόμενης στιγμής στην πραγματικότητα.

Η πρόβλεψη πραγματοποιείται σε έμμεσο χώρο αναπαράστασης αντί για pixel για καλύτερη κατανόηση φυσικής.

Η αρχιτεκτονική περιλαμβάνει κωδικοποιητή ViT-g, προβλέπτη νευρωνικό δίκτυο και 3D-RoPE για χωρικές προβλέψεις.

Η στρατηγική μάσκας tubelets αποκρύπτει τμήματα βίντεο που πρέπει να προβλεφθούν από το μοντέλο.

Η κλιμάκωση δεδομένων έφτασε τα 22 εκατομμύρια βίντεο και 1 εκατομμύριο εικόνες με έως 1 δισεκατομμύριο παραμέτρους.

Με το V-JEPA 2-AC προστέθηκε μετασχηματιστής 300Μ παραμέτρων εκπαιδευμένος σε 62 ώρες ρομποτικών βίντεο για δράσεις.

Ο έλεγχος περιλαμβάνει ελαχιστοποίηση ενέργειας για σχεδιασμό πολλαπλών σεναρίων δράσεων και εκτέλεση της βέλτιστης.

Το μοντέλο επιτυγχάνει μηδενική-λήψη γενίκευσης με ποσοστά επιτυχίας: reaching 100%, grasp cup 65%, pick & place 65–80%.

Ο προγραμματισμός δράσεων απαιτεί 16 δευτερόλεπτα ανά κίνηση, πολύ ταχύτερα από τα diffusion models.

Get notified when new stories are published for "🇬🇷 Hacker News Ελληνικά"

•