백만 시간 영상 학습으로 푼 로보틱스

1

인터넷 규모 언어 모델만으로는 로봇이 물리 환경에서 물체를 다루는 법을 배우지 못한다.

2

V-JEPA 2는 100만 시간의 유튜브 영상을 학습해 다음 순간의 현실을 예측하도록 세계 모델을 구축했다.

3

픽셀 대신 잠재 표현 공간(latent space)에서 미래 영상을 예측해 효율성과 정확도를 높인다.

4

ViT-g 인코더(10억 파라미터), 예측기, 3D-RoPE 위치 임베딩을 핵심 구조로 사용한다.

5

비디오를 무작위로 마스킹된 ‘튜브릿(tubelet)’ 단위로 나누고 빈 부분을 예측하는 학습 전략을 채택한다.

6

데이터는 2백만 동영상에서 2천2백만 동영상·백만 이미지로 확장했고, 모델 파라미터는 3억에서 10억으로 성장시켰다.

7

해상도를 점진적으로 높이는 커리큘럼 학습으로 초기 저해상도부터 고해상도까지 안정적 학습을 달성한다.

8

V-JEPA 2-AC는 사전 학습된 세계 모델에 3억 파라미터 트랜스포머를 붙여 실제 로봇 행동을 예측하도록 학습시킨다.

9

모델 예측 제어(MPC) 방식으로 다양한 시퀀스 중 최소 에너지를 선택해 로봇 동작을 계획한다.

10

제로샷 일반화 실험에서 도달 100%, 컵 잡기 65%, 픽 앤 플레이스 65~80% 성공률을 기록했다.

11

기존 확산 모델 대비 동작 계획 속도가 분당 4분에서 16초로 대폭 단축됐다.

12

비언어 감독만으로도 영상 질문답변에서 PerceptionTest 84.0%, TempCompass 76.9% 성과를 달성했다.

13

제약으로는 카메라 포즈 민감성, 장기 계획 시 드리프트, 언어 목표 지정 문제 등이 있다.