요즘 AI가 진짜 장난 아니에요. 그냥 말만 알아듣고 대답하는 걸 넘어서, 이젠 표정도 짓고, 말할 때 입모양까지 따라 하는 수준이에요. 제가 최근에 본 논문 중에 진짜 흥미로웠던 게 있었는데, 제목이 **"Let's Go Realistic: DI-MOD for Face-to-Face Spoken Dialogue Systems"**예요. 너무 길죠? 쉽게 말하면, 이건 ‘사람처럼 말하고 반응하는 아바타’를 만드는 방법에 대한 이야기예요.
솔직히 처음엔, “또 하나의 기술 얘기겠지” 싶었는데, 읽다 보니까 이건 그냥 기술이 아니라, ‘사람 같은 AI’를 향한 꽤 감성적인 여정이더라고요. 데이터셋부터 모델 구조, 실험 방법까지 꽤 디테일하게 다뤄져 있는데, 저는 그냥 이걸 보고 “아, 이제는 AI랑 눈 마주치면서 얘기하는 시대가 오겠구나” 싶었어요.
스포큰 다이얼로그 시스템? 그게 뭐야?
음... 어렵게 들릴 수 있지만, 우리가 Siri나 Alexa한테 “오늘 날씨 어때?” 하고 물어보는 거 있죠? 그게 바로 스포큰 다이얼로그 시스템, 줄여서 SDS예요. 말하면 알아듣고, 대답해주는 AI죠. 근데 여기엔 한계가 있어요. 예를 들어, 우리가 친구랑 얘기할 때는 말만 듣는 게 아니라, 표정, 제스처, 말투까지 다 느끼잖아요? 지금까지의 AI는 그걸 못 해요.
그래서 DI-MOD 팀은 “그럼 왜 AI도 얼굴 보고 말 못해?” 하는 질문에서 출발했대요. 그렇게 해서 비언어적인 정보—표정, 눈빛, 입모양 같은 것들까지 AI가 이해하고 표현할 수 있게 만들자는 프로젝트가 시작된 거죠.
얼굴 보고 말하는 AI가 왜 필요하냐고?
한 번 이런 상황 상상해보세요. 고객센터에 전화를 했는데, AI 상담사가 나와요. 말은 정중한데 너무 기계 같아서, 내가 말하는 걸 진짜 이해하고 있는 건지 헷갈릴 때 있지 않나요?
이런 걸 바꾸고 싶었던 거예요. 눈 마주치고, 표정 보이고, 감정이 전달되는 그런 대화. 사람끼리 대화할 때처럼요. 그래서 이 연구의 목적도, “AI가 우리랑 눈 맞추고, 공감하면서 말하자!”라는 거예요. 전 이거 듣고 괜히 뭉클했어요.
Multi-DialoCorp: 새로운 대화 영상 데이터셋이 등장!
이 프로젝트에서 특히 흥미로웠던 부분 중 하나는, 기존에 없던 AV(오디오+비주얼) 데이터셋을 직접 만들었다는 점이에요. 이름은 Multi-DialoCorp. 뭔가 어려운 이름인데, 사실 내용을 보면 재밌어요.
실제 영어 배우 12명을 고용해서, 정해진 스크립트를 감정을 담아 연기하게 했대요. 그 장면들을 녹화해서 340개의 상황을 만들었고, 여기에는 ‘기쁨’, ‘슬픔’, ‘놀람’ 같은 감정들이 다 녹아 있어요. 그냥 대화가 아니라 표정과 목소리로 진짜 감정을 표현한 대화인 거죠.
이게 진짜 중요한 이유는, AI한테 “이런 감정일 땐 이렇게 말해”라고 가르치기 위해선, 그런 예시가 필요하거든요. 그런 데이터가 없어서 다들 고생했는데, 이제 드디어 제대로 된 거 하나 생긴 거죠.
DI-MOD 시스템이 어떻게 작동하냐고? 간단히 말하면 이래요
DI-MOD는 세 단계로 나뉘어요. 근데 너무 기술적으로 설명하면 지루하잖아요. 제가 이해한 방식대로 쉽게 풀어볼게요:
- 먼저, 듣고 본 걸 숫자로 바꿔요. (AV-HuBERT라는 모델이 음성과 얼굴 움직임을 분석해서 토큰이라는 데이터로 바꿔줍니다)
- 그 숫자를 가지고 AI가 대화를 배워요. (OPT라는 기존 언어모델을 이용해서, “이 상황에서는 이런 반응을 해야 해”라고 훈련합니다)
- 그리고 다시, 그 숫자를 말과 얼굴 영상으로 바꿔줘요. (HiFi-GAN으로 목소리를 만들고, 입모양은 CNN 모델로 생성해요)
결과적으로 AI가 말을 할 때, 입이 정확히 그 말에 맞춰 움직이고, 목소리도 어색하지 않게 들리는 거예요. 물론 아직 눈빛까지는 못 하지만, 첫걸음치고는 꽤 감동적이에요.
실제로 얼마나 잘 될까? 평가 결과는요...
연구팀은 두 가지 기준으로 성능을 확인했어요:
- AI가 얼마나 자연스럽게 대화하는지 (언어 모델들끼리 자주 쓰는 Perplexity나 BLEU 점수 같은 걸로 측정)
- 말과 영상이 얼마나 자연스럽게 어울리는지 (입모양이 말과 맞는지, 목소리가 일관성 있는지 등)
결론만 말하자면, 기존의 SpeechGPT나 DGSM보다 DI-MOD가 전반적으로 더 자연스럽고, 진짜 사람처럼 반응하는 느낌을 잘 살렸어요.
시끄러운 카페에서도 작동할까? 해봤대요!
저는 이 부분이 제일 신기했는데요. 연구팀이 일부러 잡음 있는 환경을 만들어서 실험했대요. 예를 들어 SNR 수치를 낮춰서 마치 시끄러운 카페처럼 만든 거죠. 그랬더니 DI-MOD는 여전히 꽤 잘 작동했다고 해요.
왜냐면, 음성이 잘 안 들려도 입모양을 보고 파악할 수 있으니까요. 마치 우리가 소음 속에서도 상대 입모양 보고 뭐라고 하는지 알아채는 것처럼요. 이거 진짜 인간 같지 않나요?
아직 부족한 점도 있어요
물론 완벽하진 않아요. 예를 들어:
- 입 주변만 영상으로 보여줘서 눈이나 표정 전체는 표현이 어려워요.
- 녹화 당시의 감정 정보는 많았는데, 실제 모델 훈련에는 다 반영되지 않았다는 아쉬움도 있고요.
그래도 연구팀은 앞으로 이걸 더 보완해서, 진짜로 감정을 이해하고, 공감하는 AI로 발전시킬 계획이라고 하네요. 저는 기대돼요.
끝으로, 이 논문이 왜 특별한지
이건 단순한 기술이 아니라, 사람과 진짜 대화하는 AI를 향한 시작이라고 생각해요.
교실에서 아이와 눈 맞추는 가상 선생님, 힘든 날 말없이 함께 있어주는 아바타 친구... DI-MOD는 그런 미래를 조금 더 가까이 끌어온 셈이죠.
그리고요, 이거 보면서 “언젠가 나도 저런 AI랑 이야기하면서 웃고 울게 될 날이 오겠지” 싶었어요. 생각만 해도 따뜻하지 않나요?
'SW > 인공지능' 카테고리의 다른 글
LLaMA 4 모델 후기: 메타 AI가 정말 실무에 쓸만할까? (0) | 2025.05.14 |
---|---|
바이브 코딩이 뭐길래? AI로 앱 만든 후기와 현실 조언 (0) | 2025.05.11 |
AI가 도구와 연결되는 진짜 이유: MCP로 본 Claude의 변화 (0) | 2025.05.09 |
AI 보안 전문가의 실종 사건으로 본 프로그래머의 어두운 권력 (0) | 2025.05.08 |
AI와 REST API를 연결하는 새로운 방법, MCP(Model Context Protocol) 완전정복 (0) | 2025.05.04 |