
R3M, 바빠도 이해되는 한판 정리: 로봇 조작을 위한 Universal Visual Representation 가이드 (2025)펀더멘탈 팀 스터디에서 임정환 발표(준비: 정영성)를 바탕으로 재구성했습니다. 로봇이 아직도 수건 하나 제대로 못 접는 이유—딱 그 지점부터 풀어봅니다.한 줄 요약: R3M은 거친 1인칭 인간 영상에서 로봇이 실제로 신경 써야 할 것들만 압축해 뽑아내고, 그 embedding을 imitation learning에 꽂아 데이터가 적어도 성능을 끌어올린다.너무 어렵게 가지 않을게요. 왜 이런 게 필요했는지부터 무엇을 어떻게 했는지, 실험에서 뭐가 진짜 먹혔는지, 어디까지가 한계인지까지—현장감 있게, 대화하듯 정리합니다. 2025년 관점에서 여전히 유효한 포인트들도 곁들였어요. ..