GR00T: NVIDIA가 던진 조금은 낯설고, 꽤 인간적인 휴머노이드 로봇의 승부수 (2025)
로봇 팔이 컵을 집기 직전에 아주 잠깐 멈칫하던 장면을 처음 봤을 때가 아직도 기억납니다. 완벽하지도 않았고, 미리 짜인 동작처럼 보이지도 않았어요. 그런데 묘하게… 생각하는 것처럼 느껴졌죠. NVIDIA가 GTC 2025에서 GR00T를 공개했을 때, 그때의 감각이 다시 떠올랐습니다. 아, 뭔가 달라졌구나 하고요.
GR00T는 단순히 또 하나의 로봇 모델이 아닙니다. 이건 NVIDIA가 꽤 오랫동안 묵혀왔을 질문에 대한 본격적인 답변에 가깝습니다.
“로봇이 세상을 이해하고, 그 안에서 행동하려면 대체 무엇이 필요할까?”
조금 숨을 고르고, 차근차근 풀어보죠. GR00T가 정확히 무엇인지, 왜 중요한지, 그리고 2025년 이후 로보틱스의 방향을 어떻게 바꿀 수 있는지까지요.

한 줄 요약 (사람 말로)
딱 하나만 기억한다면 이 문장입니다.
GR00T는 ‘세상을 이해하는 일’과 ‘몸을 움직이는 일’을 분리하고, 엄청나게 다양한 데이터로 둘을 동시에 학습시킨다.
이 구조 덕분에 범용성, few-shot learning, 그리고 로봇 간 전이 학습이 이전과는 전혀 다른 수준으로 올라갑니다.
자, 이제 깊이 들어가 봅시다.
지금까지 로봇이 안고 있던 근본적인 문제
요즘 로봇, 솔직히 꽤 잘합니다. 아주 잘하는 경우도 많죠. 그런데 이상할 정도로 약한 순간들이 있습니다.
조명이 바뀌면?
→ 흔들립니다.
물체 모양이 조금 달라지면?
→ 실패합니다.
로봇 몸체가 바뀌면?
→ 다시 처음부터.
이미 다들 알고 있는 문제들이죠.
- Task-Specific Limitations: 특정 task에는 강하지만 범용성은 부족
- Environment Constraints: 학습 환경을 벗어나면 성능 급락
- Data Scarcity: 로봇 데이터는 비싸고, 적고, 흩어져 있음
- Embodiment Gap: 로봇마다 몸이 달라 지식 이전이 어려움
Language에는 GPT가 있었고, Vision에는 diffusion model이 있었습니다. 그런데 로보틱스는 여전히 조각난 섬처럼 흩어져 있었죠.
GR00T는 이 상태를 끝내기 위해 등장했습니다.
GR00T를 아주 쉽게 설명해보면 (ELI5)
아이에게 테이블을 치우라고 가르친다고 생각해 보세요.
아무도 이렇게 말하지 않죠.
“팔꿈치를 3.2도만큼 움직여.”
대신 이렇게 말합니다.
“컵 들어서 옮기고, 흘린 거 닦아.”
우리도 먼저 상황을 이해한 다음, 그에 맞춰 몸이 빠르게 반응합니다.
GR00T도 똑같습니다.
로봇의 ‘뇌’를 두 개의 시스템으로 나눕니다.
듀얼 시스템 아키텍처: GR00T의 핵심
🧠 System 2 — Environment Interpretation (느리지만 깊게)
- 약 10Hz로 동작
- Vision-Language Model (VLM) 기반
- 장면, 지시, 맥락을 이해
- 질문은 하나: 지금 무슨 상황이지? 뭘 해야 하지?
이 부분은 NVIDIA Vision Eagle 2를 기반으로 합니다.
흥미로운 설정이 하나 있는데요.
- text tokenizer는 frozen
- image tokenizer는 unfrozen
언어는 이미 충분히 일반화돼 있지만, 로봇의 시각은 그렇지 않다는 판단 때문입니다.
더 흥미로운 건, 최종 레이어가 아니라 hidden layer embedding을 사용할 때 오히려 추론 속도도 빨라지고 성공률도 올라갔다는 점입니다. 이런 결과는 연구자도, 보는 사람도 고개를 갸웃하게 만들죠. 하지만 효과는 분명했습니다.
⚡ System 1 — Action Generation (빠르고 즉각적으로)
- 약 120Hz로 동작
- Diffusion Transformer (DiT) 사용
- 실시간 motor action 생성
- 질문은 단순합니다: 지금 당장 어떻게 움직일까?
이 시스템은 말로 생각하지 않습니다. 흐름에 가깝죠.
Flow Matching Objective를 사용해 noisy action에서 시작해 4 step diffusion으로 정제하고, 한 번에 16 action step을 예측합니다 (action chunking).
계획이라기보다는 반사 신경에 가깝습니다.
왜 ‘생각’과 ‘행동’을 나누는 게 중요한가
여기서 진짜 포인트가 나옵니다.
System 2가 만들어내는 표현은 unified representation입니다. 그래서 System 1은 로봇의 형태가 달라도 크게 신경 쓰지 않습니다.
관절 수가 달라도,
몸 구조가 달라도,
동역학이 달라도요.
GR00T는 Embodiment-Specific Encoder를 통해 각 로봇의 상태를 Unified Action Space로 매핑합니다.
이 덕분에 notorious한 Embodiment Gap을 정면으로 넘습니다.
그리고 이 구조가 바로, 10% 수준의 데이터만으로도 뛰어난 few-shot learning이 가능한 이유입니다.
데이터 문제, 그리고 Data Pyramid
로봇 데이터는 현실적으로 너무 비쌉니다. 수집도 어렵고, 형태도 제각각이죠.
GR00T는 이 문제를 회피하지 않습니다. 오히려 정면으로 받아들입니다.
Data Pyramid 전략
데이터를 층위로 나눕니다.
- Web Data & Human Video — 방대하지만 action label 없음
- Synthetic Data — 통제 가능, 확장성 높음
- Real Robot Data — 정확하지만 희귀
전부 씁니다. 다만, 그냥 쓰진 않습니다.
Action이 없는 데이터에서 Action을 만드는 법
사람이 요리하는 영상엔 당연히 로봇 joint 정보가 없습니다.
GR00T는 이를 Latent Action Learning으로 해결합니다.
Latent Action Labeling (LaRA)
- VQ-VAE 기반
- discrete latent action codebook 학습
- posterior collapse 문제 회피
- human video와 web video에 의미 있는 action token 부여
결과적으로, 유튜브 영상 하나도 로봇 학습에 쓸 수 있게 됩니다.
이쯤 되면 좀 놀라워요.
Synthetic Data를 진짜처럼 쓰는 방법
단순 simulation은 한계가 분명합니다. sim-to-real gap은 여전히 크죠.
GR00T는 Neural Trajectory Generation을 도입합니다.
- prompt 기반 video 생성
- 14B i2v model 사용
- 다양한 camera view와 manipulation scenario 생성
이건 시뮬레이션이라기보다, 로봇에게 ‘경험’을 심어주는 느낌에 가깝습니다.
Action Diffusion Transformer 내부를 살짝 보면
중요한 디테일 몇 가지만 짚어보죠.
- State Encoding: joint state → MLP → unified embedding
- Action Encoding: embodiment별 action → MLP
- Time Embedding: sinusoidal
- Noise Sampling: beta distribution
- Attention: self-attention과 cross-attention을 교차 적용
이 구조 덕분에 action이 훨씬 부드럽고 안정적으로 나옵니다.
로봇이 덜 ‘로봇처럼’ 움직이게 되는 이유죠.
Pixel Shuffle: 작지만 강력한 아이디어
고해상도 이미지는 VLM의 병목이 됩니다.
GR00T는 Pixel Shuffle로 이를 해결합니다.
- channel 정보를 spatial 정보로 재배치
- SigLIP 기준 token 수 256 → 64
- channel 수는 4배 증가
- scaling factor는 0.5
결과는 간단합니다.
더 빠른 추론, 더 나은 시각 이해.
말 그대로 ‘어마어마한’ 학습 규모
GR00T는 소규모 실험이 아닙니다.
- 105K L40 GPU
- 827시간 분량 데이터
사용된 데이터셋도 압도적입니다.
- NVIDIA GR00T Humanoid Dataset
- AGI Bot Alpha-Razki
- OpenX Embodiment Dataset
- Ego4D, EgoExo, EPIC Kitchens, Assembly101
이건 명백히 foundation model의 스케일입니다.
성능은 어땠을까?
Simulation (RoboKaiz Protocol)
- Behavior Transformer + Diffusion Policy 대비 우수
- zero-shot generalization 확인
Real Robot 평가
- unseen object에서 73.3% 성공률
- few-shot learning에서 기존 diffusion policy 압도
- 다양한 embodiment에서 안정적 동작
재미있는 결과도 하나 있었죠.
데모 데이터가 너무 많아지면 오히려 성능이 떨어진다.
GR00T는 적은 데이터로도 빠르게 학습합니다. 대신, 과하면 과적응합니다. 영리하지만 까다로운 학생 같아요.
한계도 분명합니다
- 주로 tabletop task 중심
- 긴 task horizon에는 아직 약함
- locomotion 미포함
- synthetic data 다양성은 여전히 도전 과제
저자들도 이를 숨기지 않습니다. 오히려 다음 연구 방향으로 명확히 제시합니다.
그래서, GR00T가 왜 중요한가
이건 단순한 모델이 아닙니다.
하나의 선언에 가깝습니다.
로봇에게 필요한 건 더 많은 규칙이 아니라, 더 나은 표현이다.
추론과 행동을 분리하고, 이질적인 데이터를 포용하며, embodiment 차이를 구조적으로 해결한 GR00T는 로보틱스를 foundation model의 영역으로 한 단계 끌어올립니다.
개인적으로 말하자면—2025년 로보틱스에서 가장 중요한 연구 중 하나라고 생각합니다.
한 문장으로 남기면
GR00T는 로봇에게 ‘이해한 다음 움직여라’라고 가르친다. 그 순서가 모든 걸 바꾼다.
FAQ — 사람들이 진짜로 묻는 질문들 (2025)
Q1. GR00T는 한마디로 뭐예요?
환경을 이해하고 action을 end-to-end로 생성하는 로봇 foundation model입니다.
Q2. 오픈소스인가요?
연구용 foundation model로 공개됐으며 범위는 계속 확장 중입니다.
Q3. 기존 robot policy랑 뭐가 달라요?
Reasoning(System 2)과 Action(System 1)을 분리했습니다.
Q4. 로봇 몸이 달라도 쓸 수 있나요?
Unified Action Space 덕분에 가능합니다.
Q5. 어떤 데이터로 학습했나요?
Real robot, synthetic, web, human video까지 모두 사용합니다.
Q6. 영상엔 action이 없잖아요?
Latent Action Learning으로 action token을 생성합니다.
Q7. zero-shot 성능은요?
Unseen object에서 73.3% 성공률을 보였습니다.
Q8. 왜 diffusion을 쓰나요?
Action trajectory가 훨씬 부드럽고 강건해집니다.
Q9. 한계는 뭐예요?
긴 작업과 locomotion은 아직 부족합니다.
Q10. GR00T가 휴머노이드 로봇의 미래인가요?
최종 답은 아니겠지만, 확실한 이정표인 건 맞습니다.
로보틱스의 ‘GPT moment’를 기다리고 있었다면,
GR00T는 최소한 그 시작을 알리는 신호음처럼 느껴집니다.
'SW > 인공지능' 카테고리의 다른 글
| LAPA란 무엇인가? 액션 라벨 없이 로봇을 학습하는 새로운 VLA 프리트레이닝 방법 (0) | 2026.02.04 |
|---|---|
| Cursor 2.0 완벽 가이드: AI agent 기반 code editor를 처음 쓰는 개발자를 위한 설명 (0) | 2026.01.30 |
| parallel scaling이란? LLM 성능을 키우는 새로운 방법을 쉽게 설명 (0) | 2026.01.29 |
| 2026년 기준 LLM 로컬 실행 방법 정리: Ollama와 Docker Model Runner 비교 (0) | 2026.01.28 |
| 2025년 AI website builder로 웹 개발 에이전시 시작하는 방법 (white label 모델 정리) (0) | 2026.01.25 |