SW/인공지능

Deepgram Saga 리뷰: 실시간 음성 받아쓰기와 AI 음성 에이전트, 뭐가 다른가?

얇은생각 2026. 1. 22. 07:30
반응형

이 AI 음성 워크스페이스, 솔직히 말해서 좀 충격적이다 (Deepgram Saga 리뷰, 2025)

대부분의 AI 음성 도구를 더 이상 믿지 않게 된 순간이 아직도 또렷하다.

늦은 밤이었다. 커피는 이미 식어 있었고, 마이크는 켜져 있었다. 평범한 문장을 하나 말했을 뿐인데, 결과로 나온 텍스트는… 마치 작은 사고를 겪은 것처럼 엉망이었다. 단어는 빠지고, 의미는 틀어지고, 내가 말하려던 의도는 어디론가 사라졌다.

그래서 Tech With Tim의 **“This New AI Voice Workspace Is Insanely Powerful”**라는 영상을 처음 봤을 때도, 솔직히 기대보다는 의심이 앞섰다. 또 하나의 과장된 데모겠지—라는 마음으로 말이다. 그런데 영상을 끝까지 보고, 몇 부분은 다시 돌려보고, 새 문서를 열어 한동안 멍하니 앉아 있었다.

Deepgram Saga는 그냥 ‘또 다른 AI 음성 비서’가 아니었기 때문이다. 이건 마치 누군가가 “사람들이 왜 음성 도구에 실망하는지”를 정확히 이해하고, 그 문제를 조용히, 그러나 단단하게 해결해 놓은 느낌이었다.

왜 이게 중요한지부터 이야기해보자.

 

AI 음성 에이전트의 진짜 문제 (다들 알지만 잘 말 안 하는 부분)

 


AI 음성 에이전트의 진짜 문제 (다들 알지만 잘 말 안 하는 부분)

대부분의 AI 음성 에이전트는 늘 비슷한 지점에서 무너진다.

  • 반응이 느리다. 오디오 전체를 다 처리할 때까지 기다려야 한다
  • 말귀를 잘 못 알아듣는다. 특히 현실적인 문장일수록
  • 그리고 가장 치명적인 문제—내 말을 어떻게 인식했는지 보여주지 않는다

이 마지막이 특히 답답하다.

마치 상대방이 계속 고개를 끄덕이는데, 사실은 세 단어 중 하나씩 계속 오해하고 있는 상황 같다. 문제는, 그걸 너무 늦게 알게 된다는 점이다.

Saga는 이 지점에서 완전히 다른 선택을 한다.

모든 걸 블랙박스처럼 숨기지 않고, 내가 말하는 즉시—정말 거의 동시에—텍스트로 보여준다. 몇 초가 아니라, 밀리초 단위다.

이 차이가 생각보다 크다.

 

 


그래서 Deepgram Saga가 뭐냐고? 아주 쉽게 말하면

상황을 하나 그려보자.

말을 한다.

그러면 화면에 내가 한 말이 거의 바로 뜬다. 깔끔하고, 정확하고, 읽기 좋게. 이상한 지연도 없고, 추측도 없다.

그 다음 Saga는 상황에 따라:

  • 질문에 답을 해주거나 (GPT 계열 backend 사용)
  • 답변을 소리로 읽어주거나
  • Calendar, task, chat tool 같은 것들을 직접 실행한다

이 모든 게 하나의 workspace 안에서 이루어진다.

탭 열 개 필요 없다. 억지로 이어 붙인 integration도 아니다. 한 공간이다.

그리고 중요한 포인트—현재 무료다.

 

 


진짜 핵심은 여기: Deepgram의 Speech Model

Saga가 인상적인 이유는 LLM을 잘 썼기 때문만은 아니다.

Deepgram의 본질적인 강점은 speech다. Speech-to-Text, Text-to-Speech 모델 자체가 다르다. 빠르고, 정확하고, 무엇보다 ‘사람이 실제로 쓰는 언어’를 잘 처리한다.

예를 들면:

  • 기술적인 용어
  • 의료 분야 전문 용어
  • 길고 복잡한 실제 대화 문장

영상에서 Tim이 보여주듯, Saga는 이런 문장에서도 거의 흐트러지지 않는다. 다른 도구들이 멈칫하거나 단순화해버리는 구간에서도, 그냥 계속 따라온다.

체감으로 말하면—무전기랑 유선 전화의 차이 정도랄까.

 

 


‘진짜’ 실시간 받아쓰기라는 느낌

Saga의 가장 강력한 기능 중 하나는 live dictation이다.

‘거의 실시간’이 아니다.

‘말 다 끝나면 처리’도 아니다.

수백 밀리초 단위의 반응이다.

말하면 → 바로 보인다.

이건 다음 같은 상황에서 특히 유용하다.

  • 긴 프롬프트를 말로 던질 때
  • 생각나는 대로 말하며 정리할 때
  • 회의 기록
  • 말하면서 사고하는 사람들 (나 포함)

내가 말한 게 그대로 보이기 때문에, 틀리면 바로 고칠 수 있다. 이상하게도 이게 꽤 마음을 편하게 해준다. 자막이 항상 정확히 따라오는 느낌이랄까.

 

 


Saga vs ChatGPT Voice Mode, 솔직 비교

공정하게 말하자.

ChatGPT Voice Mode도 충분히 인상적이다. 음성은 자연스럽고, 미래적인 느낌도 있다.

다만 한계도 분명하다.

  • 내가 말한 내용이 실시간으로 보이지 않는다
  • 긴 입력에서는 속도가 답답해질 수 있다
  • 짧게 답한다더니 은근히 길어지는 경우가 많다

Saga는 방향이 다르다.

더 직접적이고, 더 시각적이고, 더 실무적이다.

대화가 어디로 가고 있는지 항상 보인다. 되돌아가 확인할 필요가 없다.

비유하자면, ChatGPT Voice가 라디오 DJ라면, Saga는 말을 들으면서 동시에 정확하게 기록해주는 비서에 가깝다.

 

 


Integration, 귀찮음이 없다

이 부분은 꽤 놀라웠다.

Saga는 Compose.io를 통해 수백 개의 tool과 연결된다.

  • Google Calendar
  • Slack
  • Discord
  • Asana 등

중요한 건 방식이다.

설정 화면을 헤매지 않는다.

그냥 말하면 된다.

“내 캘린더 확인해줘”
“Asana task 요약해줘”

그러면 Saga가 필요한 연결 링크를 바로 던져준다.

복잡한 설정 없이, 바로 사용.

시간을 존중받는 느낌이 든다.

 

 


Desktop App = 음성을 OS 레벨로

Saga는 browser에만 머물지 않는다.

Desktop app이 있고, 여기서 할 수 있는 것들이 꽤 깊다.

  • Cursor 제어
  • 노트 작성
  • Slack interaction
  • task 관리

이쯤 되면 도구라기보다는 layer에 가깝다.

말로 조작하는 operating layer.

과장이 아니라, 방향성이 그렇다.

 

 


이 모든 게 무료라는 사실

잠깐 멈춰서 정리해보자.

  • 실시간 transcription
  • 높은 정확도의 speech model
  • 강력한 integration
  • Desktop-level control

그리고 무료.

이 한 가지만으로도 Saga는 써볼 이유가 충분하다. 단순한 호기심이라도 말이다.

이런 종류의 도구는 보통 오래 무료로 남아 있지 않는다. 그래서 더더욱, 지금 익숙해질 가치가 있다.

 

 


개인적인 한 순간

데모를 보다가—Saga가 막힘없이 받아쓰고, tool들이 자연스럽게 연결되는 걸 보다가—묘한 감정이 들었다.

안도감.

‘아, 이게 원래 음성 도구가 지향해야 할 모습이구나.’

화려할 필요도 없고, 마술 같을 필요도 없다.

그냥 믿고 쓸 수 있으면 된다.

 

 


결론: Deepgram Saga는 누구에게 맞을까

Saga는 이런 사람들에게 잘 맞는다.

  • 말로 생각하는 사람
  • 전문 용어를 자주 쓰는 실무자
  • “거의 되는데 항상 아쉬운” 음성 도구에 지친 사람

장난감은 아니다.

트릭도 아니다.

2025년을 향해 가는 지금, 가장 완성도 높은 AI voice workspace 중 하나다.

음성이 workflow에서 중요하다면, Saga는 충분히 주목할 가치가 있다.

 

 


자주 나오는 질문 (현실적인 기준)

Q: 2025년에도 무료인가요?
현재 기준으로는 그렇다.

Q: ChatGPT를 대체하나요?
아니다. Saga는 voice와 action에 특화된 보완재에 가깝다.

Q: 받아쓰기 정확도는 어떤가요?
특히 기술·전문 용어에서 매우 높다.

Q: 말하는 걸 바로 볼 수 있나요?
가능하다. Saga의 가장 큰 장점 중 하나다.

Q: 실시간 음성 대화가 되나요?
된다. STT와 TTS 모두 실시간이다.

Q: 어떤 tool과 연결되나요?
Calendar, task manager, chat app 등 수백 개.

Q: Desktop app이 꼭 필요한가요?
필수는 아니지만, 있으면 활용 폭이 크게 넓어진다.

Q: 어떤 사람이 먼저 써보면 좋을까요?
Creator, developer, manager, 그리고 voice-first 사용자.

 

 


마지막으로 한 문장만 남기자면:

Deepgram Saga는 감탄을 강요하지 않는다. 그냥 잘 작동한다. 그래서 더 인상적이다.

반응형