Meta présente V-JEPA 2, un modèle de classe mondiale pour la compréhension et la prédiction visuelle, qui peut également être utilisé pour la planification robotique sans apprentissage préalable.
V-JEPA 2 met en œuvre une architecture prédictive de l'empaquetage des vidéos pour améliorer la modélisation du monde et la prédiction des actions, permettant aux robots d'interagir avec des objets et des environnements inconnus.
Meta lance trois nouveaux benchmarks pour évaluer la capacité des modèles existants à raisonner sur le monde physique à partir de vidéos.
Le modèle utilise un apprentissage auto-supervisé sur des vidéos, permettant une formation sans annotation humaine supplémentaire, et émet des prédictions basées sur des actions spécifiques pris par des agents.
Get notified when new stories are published for "🇫🇷 Hacker News Français"