LTX-2 (Light Two): 2025년, 오픈소스 영상 생성 AI의 흐름을 바꾼 조용한 분기점
예전에 로컬 PC에서 AI 영상 생성을 처음 돌려봤을 때가 아직도 생생하다. 팬은 미친 듯이 돌고, 진행 바는 좀처럼 움직이지 않았고, GPU는 마치 “이건 내 일이 아닌데?”라고 항의하는 것 같았다. 그래서 LTX-2가 등장했을 때—오디오와 비디오를 동시에 생성하고, 12GB VRAM의 개인용 GPU에서도 돌아가며, 심지어 native 4K까지 지원한다는 이야기를 들었을 때—솔직히 반신반의했다. 잠깐 멈췄고, 다시 봤고, 그리고 생각했다. 아, 이건 결이 다르구나.
이 글은 원본 스크립트에 담긴 모든 정보, 수치, 기술적 맥락을 하나도 빠뜨리지 않고, 한국어 독자에게 자연스럽게 읽히도록 풀어낸 장문의 정리다. 인사말도, 좋아요 유도도 없다. 대신 맥락, 흐름, 그리고 왜 이 모델이 중요한지에 대한 이야기만 남겼다.
요즘 여기저기서 같은 말이 들린다. “이건 좀 다르다.” 그 이유를 차근차근 짚어보자.

LTX-2는 정확히 무엇인가
LTX-2(Light Two)는 2025년에 공개된 차세대 오픈소스 AI 오디오·비디오 생성 모델이다. 가장 직관적인 특징은 이것이다.
고해상도 영상과 오디오를 동시에, 로컬 환경에서 생성할 수 있다.
그것도 서버급 GPU가 아니라 12GB VRAM 수준의 개인용 RTX GPU에서 말이다.
LTX-2가 제공하는 핵심 기능을 정리하면 다음과 같다.
- 오디오와 비디오를 동시에 생성하는 native 멀티모달 구조
- 음성과 입 모양, 효과음과 장면 전환의 자연스러운 sync
- 최대 32초 길이의 영상 생성
- 기존 대형 모델 대비 최대 18배 높은 효율성
- 클라우드 API 없이 로컬 실행 가능
이 조합만으로도 충분히 인상적이지만, 진짜 포인트는 따로 있다.
한 줄 요약: LTX-2는 툴이 아니라, 직접 운영 가능한 영상 AI 인프라에 가깝다.
왜 LTX-2가 등장했는가: 폐쇄형 Video AI에 대한 반작용
지금까지의 Video AI 생태계는 대부분 비슷한 구조였다.
- 폐쇄형 모델
- Web UI 혹은 유료 API로만 접근 가능
- Prompt 입력 외에는 거의 제어 불가
- 내부 구조는 완전한 블랙박스
- 로컬 실행, 파인튜닝, 파이프라인 통합은 사실상 불가능
간단한 데모나 테스트에는 충분했다. 하지만 실제 제작 환경에서는 늘 한계에 부딪혔다.
- 기존 제작 파이프라인에 통합하고 싶을 때
- Camera movement나 motion 구조를 세밀하게 조정하고 싶을 때
- IP나 민감한 데이터를 외부 서버로 보내기 싫을 때
- 사용량 제한이나 비용 구조에 묶이기 싫을 때
LTX-2는 바로 이 지점에서 출발한다. 이 모델은 숨기지 않는다.
공개된 것들은 다음과 같다.
- 전체 model weights
- training code 및 학습 레시피
- 공식 benchmark와 평가 지표
- 멀티모달 파이프라인
- ComfyUI workflow
- 로컬 fine-tuning 및 확장 구조
연구자에게는 투명성을, 스튜디오에는 통제권을, 개인 크리에이터에게는 선택지를 제공한다.
모델 내부 구조: 어떻게 이런 일이 가능한가
Diffusion + Transformer Hybrid
LTX-2는 Diffusion Transformer Hybrid architecture를 기반으로 설계되었다. 이름은 복잡해 보이지만, 목적은 단순하다.
- 프레임 하나하나의 디테일은 선명하게
- 시간 흐름에 따른 motion은 일관되게
이 구조 덕분에 LTX-2는 다음을 동시에 달성한다.
- native 4K 출력
- 긴 구간에서도 무너지지 않는 temporal consistency
- 오디오와 비디오를 분리하지 않는 동시 생성
많은 Video AI가 오디오를 “나중에 붙이는 요소”로 취급하는 반면, LTX-2는 처음부터 audio와 video를 함께 생성한다. 그래서 결과물이 어색하지 않다.
지원하는 generation 방식도 다양하다.
- Text → Video
- Image → Video
- Video → Video
- Audio-conditioned generation
특히 마지막 항목이 인상적이다. 음성이 facial motion을 만들고, 소리가 장면 타이밍에 영향을 준다. 영상이 소리를 ‘따라간다’는 느낌이 든다.
Prompt를 넘어서, ‘연출’의 영역으로
LTX-2는 단순히 결과를 뽑아주는 모델이 아니다. 제어가 가능하다.
기본적으로 다음을 지원한다.
- LoRA
- Control Adapter
이를 통해 사용자는
- Camera angle과 이동 방식
- Motion 구조
- 장면 전개 흐름
- 피사체의 행동 패턴
을 세밀하게 조정할 수 있다.
ComfyUI 기반의 node workflow에서는 text, image, audio, control signal을 연결해 하나의 시스템처럼 운용한다. 즉, 매번 새로 뽑는 게 아니라 ‘설계된 생성’을 할 수 있다.
공식 데모 기준 성능도 상당하다.
- 약 50 SPF
- native 4K
- 높은 lip-sync 정확도
이 정도면 실험용을 넘어 실제 제작을 상정한 설계라고 봐도 무방하다.
로컬 실행 현실 체크: 정말 개인 PC에서 되나?
의심이 가장 많이 나오는 지점이다. 결론부터 말하면 된다.
LTX-2는 NVIDIA RTX GPU에 최적화되어 있고, RTX 3060급 GPU에서도 실행 가능하다. 최소 요구 VRAM은 12GB.
실제 체감 성능은 다음과 같다.
- 10초 분량 영상 생성에 약 15~20초
- 로컬 환경과 API 환경 모두에서 유사한 속도
- 고사양 GPU에서는 거의 실시간에 가까운 생성
물론 H100 같은 데이터센터 GPU에서는 더 빠르다. 하지만 중요한 건, 그게 필수가 아니라는 점이다.
무엇이 공개되었나
LTX-2의 공개 범위는 꽤 과감하다.
- 전체 모델 가중치
- 학습 및 fine-tuning 코드
- 공식 benchmark
- ComfyUI workflow
- 파이프라인 통합 도구
중요한 부분이 빠져 있지 않다. 이 점이 LTX-2를 ‘신뢰 가능한 오픈소스’로 만든다.
성능 벤치마크: 숫자가 말해주는 것
공식 논문과 benchmark에 따르면,
- 약 14B 파라미터 규모의 기존 대형 모델은 H100 기준 분당 약 2.69 step
- LTX-2는 동일 환경에서 약 49 step
단순 계산으로도 약 18배 차이다.
이건 단순한 속도 문제가 아니다. 반복 실험과 개선이 가능해진다는 의미다.
커뮤니티 사례: Reddit에서 증명된 현실성
이론은 금방 현실로 넘어갔다.
로컬 실행 사례
Reddit 커뮤니티에서는 다음과 같은 환경에서의 실행 사례가 공유되었다.
- 16GB VRAM GPU
- 64GB 시스템 메모리
- API 없이 완전 로컬 생성
영상도, 오디오도 모두 개인 PC에서 생성되었다.
결과물 특징
공유된 영상들은
- 15초 이상의 HD 영상
- 자연스러운 facial motion과 lip-sync
- 클로즈업, 와이드 샷, 거울 셀카 등 다양한 구도
- 손이나 소형 오브젝트에서의 일부 오류
를 보였다. 그럼에도 ‘로컬 생성’이라는 전제를 감안하면 기술적 완성도는 매우 높다.
장시간 영상
27초, 53초 길이의 영상 사례도 등장했다. 여러 clip을 이어 붙였지만, ComfyUI workflow 덕분에 캐릭터와 스타일의 일관성은 유지되었다.
GitHub, 다운로드, 그리고 현실적인 이야기
LTX-2는 GitHub와 Hugging Face를 통해 배포된다. 단, 한 가지 각오는 필요하다.
- 전체 용량 약 300GB
설치에는 시간과 저장 공간이 필요하다. 또한 ComfyUI에 대한 기본 이해도 요구된다.
흥미로운 점은 팀 내부에서 Premiere Pro plugin 형태의 도구가 언급된다는 것이다. 아직 공개되지는 않았지만, 오픈소스라는 특성상 누구나 구현 가능하다는 메시지를 던진다.
LTX Studio: 진입 장벽을 낮추는 웹 인터페이스
로컬 실행이 부담스러운 사용자를 위해 LTX Studio도 제공된다.
- 웹 기반 인터페이스
- 일부 무료 크레딧 제공
- 이후 유료 사용
데모 예시는 다음과 같다.
- 해변 사진 → 영상 + 환경음 생성
- 캐릭터 이미지 기반 대사 생성
- 제품 이미지(시계 등)를 회전 영상으로 변환
- 1440p 해상도의 10초 영상
로컬 파이프라인만큼의 자유도는 아니지만, 모델의 기본 성능을 체감하기엔 충분하다.
그래서, 왜 중요한가
기존 Video AI의 구조적 한계
폐쇄형 API는 ‘사용’만 가능하게 했다. ‘제작 도구’로 쓰기에는 늘 부족했다.
오픈소스가 바꾼 것
LTX-2는 다르다.
- 완전한 통제
- 로컬 실행
- IP 보호
- 사용량 제한 없음
- 내부 구조 투명
Video AI를 ‘인프라’로 바라보는 시점
LTX-2는 Blender, Premiere Pro, DaVinci Resolve, ComfyUI 같은 기존 툴들과 나란히 놓일 수 있다. 단순한 기능이 아니라, 제작 파이프라인의 일부로 들어올 수 있는 구조다.
한계와 주의점
- 매우 큰 모델 용량
- ComfyUI 학습 필요
- 손, 소품 등 일부 디테일 오류
완벽하진 않다. 하지만 방향은 분명하다.
마무리
LTX-2는 오픈소스 Video AI의 기준선을 한 단계 끌어올린 사례다.
- 로컬 실행 가능성
- native 오디오·비디오 sync
- 압도적인 효율성
무엇보다 중요한 건, 이 기술이 더 이상 누군가의 서버 안에만 있지 않다는 점이다.
“이건 단순한 Video AI가 아니다. 채택하고, 확장하고, 배포할 수 있는 Video AI 인프라다.”
이 문장은 오래 남을 것 같다.
FAQ (2025)
Q. 개인용 GPU에서도 정말 돌아가나요?
A. 최소 12GB VRAM이면 가능하다.
Q. 오디오와 비디오는 동시에 생성되나요?
A. 그렇다. native 멀티모달 구조다.
Q. 완전한 오픈소스인가요?
A. weights, code, benchmark 모두 공개됐다.
Q. 영상 길이는 어느 정도까지 가능한가요?
A. 단일 clip 기준 최대 32초다.
Q. ComfyUI는 필수인가요?
A. 로컬 워크플로우에서는 필수다.
Q. 모델 용량은 어느 정도인가요?
A. 약 300GB 수준이다.
Q. 스튜디오 환경에서도 쓸 수 있나요?
A. 오히려 그런 환경에 더 잘 맞는다.
Q. 기존 상용 Video AI를 대체하나요?
A. 당장은 아니지만, 기준을 바꾼 건 분명하다.
Q. 품질 이슈는 없나요?
A. 손이나 소형 오브젝트에서 일부 오류가 있다.
Q. 이게 Video AI의 미래일까요?
A. 최소한, 매우 설득력 있는 미래 중 하나다.
'SW > 인공지능' 카테고리의 다른 글
| 메타가 인수한 Manus AI란? 자율 AI 에이전트가 무엇인지 한 번에 정리 (0) | 2026.02.26 |
|---|---|
| AI 시대에 엔지니어가 대체되지 않으려면 무엇을 해야 할까? Kubernetes에서 배운 교훈 (0) | 2026.02.22 |
| AI로 작성한 코드, 정말 안전할까? AI 생성 코드의 문제점과 실무 대응 전략 (0) | 2026.02.13 |
| MeDo vs Lovable 비교 후기: AI App Builder로 실제 서비스까지 만들어본 솔직한 결과 (0) | 2026.02.10 |
| ChatGPT 헬스 사용해도 될까? 기능, 정확도, 개인정보 이슈 총정리 (0) | 2026.02.09 |