MetaのV-JEPA 2は、物理世界の視覚理解と予測において最先端の性能を達成する世界モデルであり、ゼロショットロボットプランニングや新環境でのロボット制御に使用できる。
V-JEPA 2は総パラメータ1.2億で、過去に発表されたJEPAの原理を基にして構築された。
このモデルはビデオからの自己教師付き学習を使用し、行動なしの事前訓練と行動条件付き訓練の2段階で訓練される。
新しいベンチマークとして、IntPhys 2、Minimal Video Pairs (MVPBench)、CausalVQAが公開されており、これらは物理世界の理解を評価するためのものである。
Get notified when new stories are published for "🇯🇵 Hacker News 日本語"