인터넷 규모 언어 모델만으로는 로봇이 물리 환경에서 물체를 다루는 법을 배우지 못한다.
V-JEPA 2는 100만 시간의 유튜브 영상을 학습해 다음 순간의 현실을 예측하도록 세계 모델을 구축했다.
픽셀 대신 잠재 표현 공간(latent space)에서 미래 영상을 예측해 효율성과 정확도를 높인다.
ViT-g 인코더(10억 파라미터), 예측기, 3D-RoPE 위치 임베딩을 핵심 구조로 사용한다.
비디오를 무작위로 마스킹된 ‘튜브릿(tubelet)’ 단위로 나누고 빈 부분을 예측하는 학습 전략을 채택한다.
데이터는 2백만 동영상에서 2천2백만 동영상·백만 이미지로 확장했고, 모델 파라미터는 3억에서 10억으로 성장시켰다.
해상도를 점진적으로 높이는 커리큘럼 학습으로 초기 저해상도부터 고해상도까지 안정적 학습을 달성한다.
V-JEPA 2-AC는 사전 학습된 세계 모델에 3억 파라미터 트랜스포머를 붙여 실제 로봇 행동을 예측하도록 학습시킨다.
모델 예측 제어(MPC) 방식으로 다양한 시퀀스 중 최소 에너지를 선택해 로봇 동작을 계획한다.
제로샷 일반화 실험에서 도달 100%, 컵 잡기 65%, 픽 앤 플레이스 65~80% 성공률을 기록했다.
기존 확산 모델 대비 동작 계획 속도가 분당 4분에서 16초로 대폭 단축됐다.
비언어 감독만으로도 영상 질문답변에서 PerceptionTest 84.0%, TempCompass 76.9% 성과를 달성했다.
제약으로는 카메라 포즈 민감성, 장기 계획 시 드리프트, 언어 목표 지정 문제 등이 있다.
Get notified when new stories are published for "🇰🇷 Hacker News 한국어"