SW/인공지능

사람처럼 말하고 표정 짓는 AI? DI-MOD로 본 차세대 대화 아바타 기술

얇은생각 2025. 5. 10. 07:30
반응형

요즘 AI가 진짜 장난 아니에요. 그냥 말만 알아듣고 대답하는 걸 넘어서, 이젠 표정도 짓고, 말할 때 입모양까지 따라 하는 수준이에요. 제가 최근에 본 논문 중에 진짜 흥미로웠던 게 있었는데, 제목이 **"Let's Go Realistic: DI-MOD for Face-to-Face Spoken Dialogue Systems"**예요. 너무 길죠? 쉽게 말하면, 이건 ‘사람처럼 말하고 반응하는 아바타’를 만드는 방법에 대한 이야기예요.

솔직히 처음엔, “또 하나의 기술 얘기겠지” 싶었는데, 읽다 보니까 이건 그냥 기술이 아니라, ‘사람 같은 AI’를 향한 꽤 감성적인 여정이더라고요. 데이터셋부터 모델 구조, 실험 방법까지 꽤 디테일하게 다뤄져 있는데, 저는 그냥 이걸 보고 “아, 이제는 AI랑 눈 마주치면서 얘기하는 시대가 오겠구나” 싶었어요.

 

사람처럼 말하고 표정 짓는 AI? DI-MOD로 본 차세대 대화 아바타 기술

 


 

스포큰 다이얼로그 시스템? 그게 뭐야?

음... 어렵게 들릴 수 있지만, 우리가 Siri나 Alexa한테 “오늘 날씨 어때?” 하고 물어보는 거 있죠? 그게 바로 스포큰 다이얼로그 시스템, 줄여서 SDS예요. 말하면 알아듣고, 대답해주는 AI죠. 근데 여기엔 한계가 있어요. 예를 들어, 우리가 친구랑 얘기할 때는 말만 듣는 게 아니라, 표정, 제스처, 말투까지 다 느끼잖아요? 지금까지의 AI는 그걸 못 해요.

그래서 DI-MOD 팀은 “그럼 왜 AI도 얼굴 보고 말 못해?” 하는 질문에서 출발했대요. 그렇게 해서 비언어적인 정보—표정, 눈빛, 입모양 같은 것들까지 AI가 이해하고 표현할 수 있게 만들자는 프로젝트가 시작된 거죠.

 


 

얼굴 보고 말하는 AI가 왜 필요하냐고?

한 번 이런 상황 상상해보세요. 고객센터에 전화를 했는데, AI 상담사가 나와요. 말은 정중한데 너무 기계 같아서, 내가 말하는 걸 진짜 이해하고 있는 건지 헷갈릴 때 있지 않나요?

이런 걸 바꾸고 싶었던 거예요. 눈 마주치고, 표정 보이고, 감정이 전달되는 그런 대화. 사람끼리 대화할 때처럼요. 그래서 이 연구의 목적도, “AI가 우리랑 눈 맞추고, 공감하면서 말하자!”라는 거예요. 전 이거 듣고 괜히 뭉클했어요.

 


 

Multi-DialoCorp: 새로운 대화 영상 데이터셋이 등장!

이 프로젝트에서 특히 흥미로웠던 부분 중 하나는, 기존에 없던 AV(오디오+비주얼) 데이터셋을 직접 만들었다는 점이에요. 이름은 Multi-DialoCorp. 뭔가 어려운 이름인데, 사실 내용을 보면 재밌어요.

실제 영어 배우 12명을 고용해서, 정해진 스크립트를 감정을 담아 연기하게 했대요. 그 장면들을 녹화해서 340개의 상황을 만들었고, 여기에는 ‘기쁨’, ‘슬픔’, ‘놀람’ 같은 감정들이 다 녹아 있어요. 그냥 대화가 아니라 표정과 목소리로 진짜 감정을 표현한 대화인 거죠.

이게 진짜 중요한 이유는, AI한테 “이런 감정일 땐 이렇게 말해”라고 가르치기 위해선, 그런 예시가 필요하거든요. 그런 데이터가 없어서 다들 고생했는데, 이제 드디어 제대로 된 거 하나 생긴 거죠.

 


 

DI-MOD 시스템이 어떻게 작동하냐고? 간단히 말하면 이래요

DI-MOD는 세 단계로 나뉘어요. 근데 너무 기술적으로 설명하면 지루하잖아요. 제가 이해한 방식대로 쉽게 풀어볼게요:

  1. 먼저, 듣고 본 걸 숫자로 바꿔요. (AV-HuBERT라는 모델이 음성과 얼굴 움직임을 분석해서 토큰이라는 데이터로 바꿔줍니다)
  2. 그 숫자를 가지고 AI가 대화를 배워요. (OPT라는 기존 언어모델을 이용해서, “이 상황에서는 이런 반응을 해야 해”라고 훈련합니다)
  3. 그리고 다시, 그 숫자를 말과 얼굴 영상으로 바꿔줘요. (HiFi-GAN으로 목소리를 만들고, 입모양은 CNN 모델로 생성해요)

 

결과적으로 AI가 말을 할 때, 입이 정확히 그 말에 맞춰 움직이고, 목소리도 어색하지 않게 들리는 거예요. 물론 아직 눈빛까지는 못 하지만, 첫걸음치고는 꽤 감동적이에요.

 


 

실제로 얼마나 잘 될까? 평가 결과는요...

연구팀은 두 가지 기준으로 성능을 확인했어요:

  1. AI가 얼마나 자연스럽게 대화하는지 (언어 모델들끼리 자주 쓰는 Perplexity나 BLEU 점수 같은 걸로 측정)
  2. 말과 영상이 얼마나 자연스럽게 어울리는지 (입모양이 말과 맞는지, 목소리가 일관성 있는지 등)

 

결론만 말하자면, 기존의 SpeechGPT나 DGSM보다 DI-MOD가 전반적으로 더 자연스럽고, 진짜 사람처럼 반응하는 느낌을 잘 살렸어요.

 


 

시끄러운 카페에서도 작동할까? 해봤대요!

저는 이 부분이 제일 신기했는데요. 연구팀이 일부러 잡음 있는 환경을 만들어서 실험했대요. 예를 들어 SNR 수치를 낮춰서 마치 시끄러운 카페처럼 만든 거죠. 그랬더니 DI-MOD는 여전히 꽤 잘 작동했다고 해요.

왜냐면, 음성이 잘 안 들려도 입모양을 보고 파악할 수 있으니까요. 마치 우리가 소음 속에서도 상대 입모양 보고 뭐라고 하는지 알아채는 것처럼요. 이거 진짜 인간 같지 않나요?

 


 

아직 부족한 점도 있어요

물론 완벽하진 않아요. 예를 들어:

  • 입 주변만 영상으로 보여줘서 눈이나 표정 전체는 표현이 어려워요.
  • 녹화 당시의 감정 정보는 많았는데, 실제 모델 훈련에는 다 반영되지 않았다는 아쉬움도 있고요.

 

그래도 연구팀은 앞으로 이걸 더 보완해서, 진짜로 감정을 이해하고, 공감하는 AI로 발전시킬 계획이라고 하네요. 저는 기대돼요.

 


 

끝으로, 이 논문이 왜 특별한지

이건 단순한 기술이 아니라, 사람과 진짜 대화하는 AI를 향한 시작이라고 생각해요.

교실에서 아이와 눈 맞추는 가상 선생님, 힘든 날 말없이 함께 있어주는 아바타 친구... DI-MOD는 그런 미래를 조금 더 가까이 끌어온 셈이죠.

그리고요, 이거 보면서 “언젠가 나도 저런 AI랑 이야기하면서 웃고 울게 될 날이 오겠지” 싶었어요. 생각만 해도 따뜻하지 않나요?

반응형