V-JEPA 2 是一种最新的视觉理解和预测模型,能够在新环境中通过零样本规划实现机器人交互。
该模型采用了自主学习的方法,利用视频而非人类注释进行训练。
研究人员引入了三个新基准来评估模型的视频物理推理能力。
即使在未见过的环境中,V-JEPA 2 也能实现较高的物体拾取和放置成功率。
V-JEPA 2使用了1.2亿参数的架构,增强了动作预测和世界建模能力。
Get notified when new stories are published for "🇨🇳 Hacker News 简体中文"