SW/인공지능

GPT처럼 이미지를 생성한다고? BAR 모델로 본 최신 AI 이미지 생성 기술

얇은생각 2025. 6. 12. 07:30
반응형

비주얼 오토리그레시브 모델링: 이미지 생성의 새로운 진화

최근 인공지능은 두 가지 분야에서 눈부신 발전을 이뤄냈습니다. 하나는 언어 이해, 다른 하나는 이미지 생성입니다. 언어 분야에서는 ChatGPT 같은 도구들이 비약적인 진보를 보였고, 이미지 쪽은 GAN 모델에서 Stable Diffusion, Midjourney 같은 새로운 방식으로 급격한 변화를 맞이했죠. 그런데 이런 질문이 떠오릅니다. 언어 모델, 특히 GPT 방식처럼 효과적인 구조가 이미지 생성에도 적용될 수 있을까요?

그 해답이 될 수 있는 새로운 접근법이 바로 '비주얼 오토리그레시브 모델링(VAR)'입니다. 북경대학교와 바이트댄스가 공동 연구한 이 방법은 대규모 언어 모델에서 영감을 받아 이미지를 생성하는 참신한 방식으로 주목받고 있습니다. 이 글에서는 VAR이 어떻게 작동하는지, 무엇이 기존과 다른지, 왜 중요한지를 차근히 알아보겠습니다.

 

언어와 이미지, 그 연결 고리

 

언어와 이미지, 그 연결 고리

언어 AI에서는 대표적인 두 모델이 있습니다. BERT는 문장 중간의 단어를 예측하며 문맥을 이해하고, GPT는 앞의 단어들을 기반으로 다음 단어를 예측해 문장을 차곡차곡 만들어갑니다. 특히 GPT 방식은 자연스럽고 흐름이 좋은 텍스트를 생성하는 데 탁월하죠.

VAR은 이 GPT 스타일을 이미지 생성에 그대로 적용해보려는 시도입니다. 과거엔 GAN이 이미지 생성의 주류였지만, 이후 Stable Diffusion 같은 확산 기반 모델이 등장하면서 판도가 바뀌었습니다. 이제는 문장을 짓듯 이미지를 단계적으로 구성하는 새로운 접근, 바로 VAR이 떠오르고 있는 겁니다.

 

오토리그레시브 모델링(AR)이란?

AR 모델은 앞서 생성된 정보를 바탕으로 다음 요소를 하나씩 예측하는 구조입니다. 예컨대 언어에서는 앞의 단어들을 보고 다음 단어를 예측하죠. 이 모델들은 규모가 커질수록 성능이 개선되는 확장성과, 새로운 문제에 대한 적응력도 높다는 일반화 특성이 강점입니다.

하지만 이미지라는 데이터는 단순한 텍스트와는 달라, 너비와 높이라는 2차원 공간 구조를 갖고 있어 또 다른 복잡성이 존재합니다.

 

이미지에서 AR 방식이 어려운 이유

 

이미지에서 AR 방식이 어려운 이유

이전의 AR 기반 모델들은 이미지를 잘게 나누고 순차적으로 생성했지만, 다음과 같은 문제가 있었습니다:

  1. 공간 정보의 손실: 이미지 속 픽셀은 주변과의 관계가 중요합니다. 기존 AR 방식은 이 연결을 무시하게 되죠.
  2. 단방향 예측 한계: 이전 정보만 보고 예측하다 보니, 중간이나 앞부분의 정보를 유추하는 데는 한계가 있습니다.
  3. 연산량 과다: 해상도가 높아질수록 토큰 수가 폭증하고, 연산 복잡도는 기하급수적으로 증가합니다.

 

BAR: 더 똑똑한 이미지 생성 방식

BAR 모델은 이런 문제들을 영리하게 해결합니다. 이미지를 한 줄씩 생성하는 방식 대신, 큰 그림부터 시작해 점차 세부를 채워가는 단계적 생성 방식을 도입했죠. 마치 우리가 사물을 볼 때 먼저 윤곽을 파악하고, 점차 세세한 부분을 확인하는 것처럼요.

이처럼 스케일을 점진적으로 키워가며 이미지를 만들면 픽셀 간 공간 관계가 무너지지 않고, 순서 강제에서 오는 단점도 피할 수 있습니다.

 

이미지를 토큰으로 바꾸는 법

AR 모델을 이미지에 적용하려면 먼저 이미지를 '토큰'이라는 이산값으로 바꿔야 합니다. 이를 위해 벡터 양자화(VQ)라는 방식을 씁니다. 이미지에서 특징을 뽑은 뒤, 이 특징들을 사전에 정의된 코드북에 있는 가장 가까운 항목에 매핑하죠.

BAR에서는 4096개의 벡터가 담긴 하나의 코드북을 모든 스케일에 공통으로 사용합니다. 구조는 단순하지만 정보 표현에는 충분한 성능을 발휘합니다. 또 토큰화 덕분에 계산량이 줄어드는 이점도 있습니다.

 

단계별로 배우는 이미지 생성

 

단계별로 배우는 이미지 생성

BAR의 학습 과정은 크게 두 단계로 나뉩니다:

  1. 토큰 맵 생성: 이미지를 여러 단계로 나눠 세부 표현을 만들어냅니다. 각 단계는 R1부터 RK까지 이어지는 토큰 맵을 생성합니다.
  2. 트랜스포머 학습: GPT와 유사한 구조의 트랜스포머가 앞 단계의 토큰 맵을 보고 다음 단계를 예측하며 학습됩니다.

 

이 때 이미지의 카테고리를 조건으로 넣어 생성 방향을 유도할 수 있습니다. 예를 들어 '강아지'라는 조건을 주면 강아지 이미지를 생성하는 식이죠.

 

BAR의 성능은 어떨까?

BAR은 ImageNet 데이터셋(256x256, 512x512 해상도 기준)에서 테스트됐고, 결과는 매우 인상적이었습니다:

  • Stable Diffusion을 포함한 기존 모델들보다 높은 점수를 기록했고,
  • 이전 AR 모델들보다 월등히 빠르게 이미지를 생성했으며,
  • 모델의 깊이를 늘릴수록 성능이 꾸준히 향상되는 확장성도 확인됐습니다.

 

새로운 상황에도 잘 대응할까?

BAR은 인페인팅(부분 복원), 아웃페인팅(외곽 확장), 조건 기반 편집 등 다양한 상황에서도 뛰어난 성능을 보였습니다. 아주 적은 정보만으로도 이미지의 빈 곳을 채우거나 변형하는 데 탁월한 결과를 냈죠.

이런 점은 데이터가 부족한 상황에서도 유용하게 활용될 수 있음을 의미합니다.

 

설계 포인트와 앞으로의 방향

실험 결과 BAR의 높은 성능은 어댑티브 레이어 정규화, 토큰 가이던스, 멀티스케일 방식 같은 설계 요소 덕분임이 드러났습니다.

 

연구진은 앞으로:

  • 더 정교한 토큰화 방법 도입,
  • 초고해상도 이미지 생성 실험,
  • 영상 생성 분야로의 확장,
  • 언어 모델과의 결합을 통한 멀티모달 활용 을 계획 중입니다.

 

마무리 생각

BAR은 이미지 생성 방식에 대한 새로운 길을 제시합니다. 언어 모델의 강점을 흡수하고, 이미지에 맞는 방식으로 이를 재해석했기 때문이죠. PyTorch로 오픈소스 제공되고 있어 직접 실험해보기도 어렵지 않습니다.

물론 지금은 중간 해상도 이미지에서 뛰어난 성능을 보여주지만, 초고해상도에서의 결과나 세밀한 질감 표현 등은 앞으로 더 확인해봐야 할 부분입니다.

그럼에도 BAR은 빠르고, 확장 가능하며, 매우 강력한 모델입니다. 나아가 텍스트, 이미지, 영상이 통합된 창의적 AI 시스템의 기반이 될 가능성도 엿보입니다.

AI에 관심 있는 누구에게나, VAR과 BAR은 반드시 주목해야 할 기술이라 할 수 있습니다.

반응형