SW/인공지능

VIP 프레임워크로 제로샷 로봇 제어 완전 정복: Universal Visual Reward가 답이다

얇은생각 2025. 7. 15. 19:30
반응형

VIP로 여는 제로샷 로봇 제어의 세계: Universal Visual Reward & Representation

영상만으로 새로운 상황을 이해하고 제어까지 해내는 VIP 프레임워크를 파헤칩니다. Universal Visual Reward와 implicit planning으로 제로샷 로봇을 구현하는 방법을 확인하세요!

 


 

꿈: 사람처럼 배우는 로봇

 

1. 꿈: 사람처럼 배우는 로봇

"한 장의 목표 사진을 보여주면 로봇이 척척 움직인다."—누구나 한 번쯤 그려본 장면이죠. **VIP(Universal Visual Reward and Representation via Implicit Planning)**는 바로 그 꿈을 실현하기 위해 탄생했습니다. Ego4D 비디오 수천 시간을 쏟아붓고도 추가 레이블은 0개, 시나리오별 데모도 없이, 로봇이 제로샷으로 행동하도록 만드는 것이 VIP의 핵심 미션입니다.

 

2. 기존 Vision‑Robot 파이프라인의 한계

대부분의 manipulation 모델은 실험실 같은 제한된 환경, 고정된 배경, 단일 조명 아래에서만 훈련됩니다. 그러다 보니 낯선 물체나 예기치 못한 카메라 각도만 만나도 얼어붙죠.

 

왜 문제가 될까?

  • Data bias: 좁은 데이터 풀은 특정 특징만 학습하게 만듭니다.
  • Fixed reward: 손으로 짠 리워드는 탐색 폭을 좁히고 일반화를 방해합니다.
  • Imitation 의존: 데모 수집과 정제에 드는 비용이 엄청납니다.
  • Representation‑Control 분리: encoder와 policy가 따로 놀아 행동과 시각 정보가 제대로 얼라인되지 않습니다.

 

3. R3M에서 VIP로: 스케일과 일반화의 갈증

R3M은 Ego4D 특징과 imitation learning을 결합해 괜찮은 성적을 냅니다. 하지만 downstream RL 단계에서는 여전히 수작업 reward에 의존하죠. VIP는 더 과감한 질문을 던집니다. representation과 reward를 하나의 universal 모듈로 통합, 완전히 오프라인으로 학습해도 제로샷 제어가 가능할까?

 

Universal Visual Reward Function

 

4. 핵심 개념: Universal Visual Reward Function

VIP는 초기‑목표 이미지 쌍을 숨은 계획으로 간주합니다. 두 이미지가 embedding 공간에서 가까울수록 높은 reward를 주는 식이죠. 센서 추가도, 라벨 추가도 필요 없습니다. value network 자체가 reward 함수가 됩니다.

 

무엇이 새로울까?

  • 인간 비디오를 “전문가 trajectory”처럼 활용하되 action label은 쓰지 않습니다.
  • 두 프레임 사이에 dummy action을 삽입해 KL divergence 항을 채웁니다.
  • 기대 보상과 분포 간 거리(즉 KL)를 동시에 최적화하여 정책이 영상 분포에서 벗어나지 않도록 합니다.

 

5. 수학적 토대: Fenchel Duality & KL‑Regularised RL

제한 조건이 달린 RL 문제를 Fenchel duality로 변환하면 value function 최적화 형태로 바뀝니다:

 

KL 항이 낯설지 않나요? policy가 데이터 분포에서 과하게 벗어나는 걸 막아주는 안전벨트 역할을 합니다.

 

6. InfoNCE 재해석: 시간 감응 거리 기반 리워드

VIP loss는 distance‑aware InfoNCE처럼 동작합니다.

  • Anchor: 시점 t까지 누적된 embedding 합.
  • Positive: 멀리 떨어진 goal frame.
  • Negatives: 중간 프레임 전부.

반전 포인트? 전통적인 contrastive loss처럼 부정 사례를 밀어내는 추가 term이 없습니다. Temporal‑Difference error 한 방이면 충분하거든요. 그 결과, embedding 공간에서 유클리드 거리 ≈ 시간상 거리가 됩니다.

 

7. Ego4D로 VIP 학습하기: 구현 노트

  • Dataset: Ego4D 3,670시간—요리, 제작, 이동 등 일상 모든 상황.
  • Encoder: ResNet‑50 (batch‑norm frozen, R3M과 동일 파라미터).
  • Optimizer: AdamW, trajectory batch 64, learning rate 1e‑4, discount 0.99.
  • 산출물: 학습 완료 후 visual encoder ϕ만 추출—가볍지만 강력합니다.

 

8. 실험: 시뮬레이션 & 실제 주방

VIP는 두 가지 제어 헤드로 테스트했습니다.

  1. MPPI: 샘플링 기반 optimal controller.
  2. NPG: on‑policy RL.

 

환경

  • Franka‑Kitchen‑Sim: open‑door, slide‑cabinet, rotate‑burner.
  • Real Franka: 실제 조명과 노이즈가 가득한 동일 작업.

 

결과 (Top‑1 Success, ↑ 높을수록 좋음)

Encoder  MPPI  NPG
ResNet 22% 11%
R3M 44% 36%
VIP 63% 57%

32개 trajectory에서 128개로 늘려도 VIP의 우세는 꺾이지 않았습니다.

 

9. Few‑Shot Reinforcement: Reward vs. Cloning

**Reward‑Weighted Regression(RWR)**에 VIP reward를 꽂아 넣자 샘플 수요가 절반 이하로 줄었습니다. Behavior Cloning(BC)이나 ResNet, R3M 기반 RWR보다 월등했죠. 특히 실제 로봇에서는 안전 체크 때문에 BC가 아예 멈추는 사례가 다수였지만 VIP‑RWR은 유연하게 통과했습니다.

 

10. Embedding이 말해주는 것

reward 곡선을 살펴보면 VIP는 양의 reward가 좁고 음의 reward는 부드럽게 분포합니다. 반면 R3M은 reward collapse 현상으로 요동을 쳐 RL 에이전트를 혼란스럽게 만듭니다. Embedding 시각화 결과, goal에 가까운 프레임이 자연스레 클러스터를 이뤘고 우회 경로는 멀어졌습니다—discounted‑distance 가설 검증 완료!

 

11. 결론 & 앞으로의 길

  • Universal reward 달성: perception과 shaping 신호를 하나의 encoder가 제공합니다.
  • 데모 없이도 작동: VIP는 unlabeled human video만으로 학습합니다.
  • Smooth temporal geometry 덕에 robust planner와 sample‑efficient RL이 구현됩니다.
  • 확장성: ViT‑G 같은 대형 backbone과 더 방대한 데이터가 결합되면 제로샷 범위가 더욱 넓어질 전망입니다.

 

다음 단계는?

VIP를 language‑conditioned diffusion policy와 연결해 보세요. 또는 proprioceptive stream까지 결합해 torque‑level 제어를 시도해도 좋습니다. 병원, 농장, 심해—어디든 plug‑and‑play 로봇 시대가 눈앞입니다. Universal Visual Reward가 그 지도를 그리고 있죠.

반응형