观看百万小时视频解机器人难题

1

语言模型缺乏三维物理感知，无法解决机器人移动和抓取任务.

2

V-JEPA 2通过观看并预测视频中下一时刻潜在表示来学习物理动态.

3

核心架构包括ViT-g编码器、视频填充预测器和3D-RoPE位置编码.

4

采用随机屏蔽“tubelets”策略，模型须预测缺失视频内容.

5

数据规模从200万视频扩展到2200万视频和100万图像.

6

通过逐步提高视频分辨率进行训练，降低初期算力需求.

7

V-JEPA 2-AC在62小时原始机器人视频上微调，实现动作条件预测.

8

零样本测试中，臂动到位成功率100%，抓杯和取放成功率65%-80%.

9

动作规划速度提升至每步约16秒，远快于扩散模型4分钟.

10

无语言监督预训练的世界模型在视频问答任务上超越图像-文本模型.

11

模型对相机位姿敏感且长时规划存在漂移，需要未来改进.