语言模型缺乏三维物理感知,无法解决机器人移动和抓取任务.
V-JEPA 2通过观看并预测视频中下一时刻潜在表示来学习物理动态.
核心架构包括ViT-g编码器、视频填充预测器和3D-RoPE位置编码.
采用随机屏蔽“tubelets”策略,模型须预测缺失视频内容.
数据规模从200万视频扩展到2200万视频和100万图像.
通过逐步提高视频分辨率进行训练,降低初期算力需求.
V-JEPA 2-AC在62小时原始机器人视频上微调,实现动作条件预测.
零样本测试中,臂动到位成功率100%,抓杯和取放成功率65%-80%.
动作规划速度提升至每步约16秒,远快于扩散模型4分钟.
无语言监督预训练的世界模型在视频问答任务上超越图像-文本模型.
模型对相机位姿敏感且长时规划存在漂移,需要未来改进.
Get notified when new stories are published for "🇨🇳 Hacker News 简体中文"