
2026년에 LLM을 로컬에서 돌린다는 것: Ollama와 Docker Model Runner 이야기
처음으로 내 노트북에서 LLM을 직접 실행했을 때를 아직도 기억한다.
키보드를 치자마자 팬이 윙— 하고 돌기 시작했고, 화면이 잠깐 멈췄다가… 답변이 튀어나왔다. 클라우드도 아니고, 서버도 아니고, 결제 알림도 없는 상태에서 말이다.
그 순간 묘하게 전율이 왔다. “아, 이게 바로 내가 컨트롤하고 있다는 느낌이구나.”
만약 당신이 이런 질문을 해본 적 있다면, 이 글은 딱 맞다.
- 왜 요즘 개발자들이 LLM을 로컬에서 돌리는 데 집착할까?
- ChatGPT 같은 hosted solution이 있는데 굳이 왜?
- 그리고… 막상 하려면 뭘 써야 하지?
2025년 기준으로, 로컬 LLM 실행 방법은 사실상 두 갈래로 정리된다.
- Ollama
- Docker Model Runner
목표는 같다. 철학이 다를 뿐.
한 줄 요약하면 이렇다: 로컬 LLM은 클라우드를 부정하는 게 아니라, 주도권을 되찾는 선택이다.
굳이 LLM을 로컬에서 돌려야 할까?
잠깐만 멀리서 보자.
ChatGPT 같은 서비스는 솔직히 훌륭하다. 빠르고, 안정적이고, UX도 좋다. 하지만 개발자 입장에서는 항상 몇 가지가 마음에 걸린다.
- 응답이 살짝만 늦어도 흐름이 끊긴다
- 프롬프트와 데이터가 결국 남의 서버로 간다
- token 비용은 생각보다 빠르게 쌓인다
- 모델 선택과 동작 방식에 대한 결정권이 없다
로컬에서 LLM을 돌리면 이 구도가 완전히 뒤집힌다.
비유하자면, 배달 대신 집에서 요리하는 느낌이다. 준비는 좀 번거롭지만, 비용도 줄고, 입맛대로 조절할 수 있고, 무엇보다 내가 뭘 넣었는지 다 안다.
특히 개발자라면 더 체감이 크다.
오프라인 앱, 내부 전용 툴, 실험적인 기능들. 클라우드였다면 망설였을 것들이 로컬에서는 훨씬 자유롭다.
이제 본론으로 들어가 보자.
방법 1: Ollama — 가장 부드러운 입문
Ollama는 로컬 LLM 붐을 만든 주인공이라고 해도 과장이 아니다.
무료, 오픈소스, 그리고 놀라울 정도로 단순하다. 설치하고, model 하나 받고, 바로 chat.
Docker 설정도 없고, 복잡한 config도 없다. 그냥 된다.
Ollama 시작하기
- ollama.com에서 Mac / Windows / Linux용 설치 파일 다운로드
- 설치 후 실행
- 터미널에서 아래 명령어 입력
ollama
뭔가 응답이 나오면 정상이다.
모델 다운로드
Ollama에서는 먼저 model을 받아야 한다.
ollama pull llama3
공식 사이트에서 다양한 model을 검색할 수 있고, 각각 용량이 표시된다. 이게 꽤 중요하다.
처음이라면 무조건 작은 model부터 추천한다. 팬 소음과 정신 건강을 위해서.
현재 로컬에 있는 model 확인:
ollama ls
대화형으로 실행하기
ollama run llama3
이제 바로 chat이 시작된다.
인터넷 연결도 없고, 외부 API 호출도 없다. 응답 속도는 꽤 빠르다.
물론 작은 model은 가끔 헛소리를 한다. 그게 또 묘한 매력이다.
종료는:
/bye
장점과 현실적인 한계
- 속도 빠름
- 설정 거의 없음
- 로컬 실험에 최적
하지만:
- model 크기에 따라 정확도 차이 큼
- browsing 같은 기능은 기본 제공 안 됨
- 하드웨어 성능을 그대로 탄다
그래도 “로컬 LLM이 이런 거구나”를 느끼기엔 Ollama만 한 게 없다.
Ollama를 코드에서 쓰는 방법
Ollama는 단순한 chat 툴이 아니다. 로컬 inference server다.
방법 1: REST API
Ollama가 실행되면 자동으로 HTTP 서버가 열린다.
- 포트: 11434
- 엔드포인트: /api/chat
POST http://localhost:11434/api/chat
model 이름과 message를 보내면 response가 돌아온다.
언어 가리지 않는다. Python, JavaScript, Go, 뭐든 가능하다.
방법 2: Python module
Python이라면 더 간단하다.
pip install ollama
이후에는 module에서 제공하는 함수로 바로 호출하면 된다.
REST를 직접 치는 것과 결과는 같다. 다만 코드가 훨씬 깔끔해진다.
여기까지 오면, 생각보다 많은 OpenAI API 케이스를 로컬로 대체할 수 있다는 걸 깨닫게 된다.
그리고 이쯤에서 이런 생각이 든다.
“조금 더 강한 건 없을까?”
방법 2: Docker Model Runner — 한 단계 위
Docker Model Runner는 느낌이 다르다.
Ollama가 ‘편안함’이라면, 이쪽은 ‘제대로 된 엔진’이다.
핵심 포인트는 이렇다.
- 더 나은 GPU acceleration
- container 기반 구조
- 배포 친화적
로컬 실험용을 넘어, 실제 서비스 구조까지 염두에 둔 설계다.
준비물
Docker Desktop이 필요하다.
설치 후:
- Docker Desktop 실행
- Settings → AI
- Docker Model Runner 활성화
- Host TCP support 활성화
- CPU core는 All로 설정
저장하고 잠깐 숨 고르기.
UI에서 모델 관리
Docker Desktop 안에서:
- Models 탭 이동
- Docker Hub 선택
- model 검색 후 pull
다운로드가 끝나면 바로 UI에서 chat 가능하다.
요청 로그나 사용량도 같이 볼 수 있어서 꽤 직관적이다.
CLI로 쓰기
터미널에서도 동일하게 가능하다.
docker model
docker model pull ai/llama3
docker model list
docker model run ai/llama3
Ollama 써봤다면 금방 익숙해진다.
Docker Model Runner를 코드에 붙이기
여기도 REST API가 있다.
차이점은 포트다.
- Ollama: 11434
- Docker Model Runner: 12434
즉, base URL만 바꾸면 된다.
http://localhost:12434
진짜 강력한 포인트
OpenAI-compatible SDK를 그대로 쓸 수 있다.
base URL만 로컬로 바꾸고,
model 이름을 ai/llama3 같은 형식으로 지정하면 끝.
LangChain, OpenAI client, 기존 코드… 거의 그대로다.
비용? 없음.
토큰 제한? 없음.
네트워크? 필요 없음.
이 지점에서 체감이 확 온다.
“아, 이건 장난이 아니구나.”
Ollama vs Docker Model Runner 정리
| 항목 | OllamaDocker | Model Runner |
| 초기 설정 | 매우 쉬움 | 보통 |
| GPU 활용 | 준수 | 매우 우수 |
| 성능 | 빠름 | 더 빠름 |
| Container | X | O |
| 배포 적합성 | 낮음 | 높음 |
| 학습 곡선 | 완만 | 다소 있음 |
취미나 실험, 개인 프로젝트라면 Ollama.
서비스, 배포, 팀 단위라면 Docker Model Runner.
솔직히 말하면, 상황 따라 둘 다 쓰게 된다.
현실적인 한마디
로컬 LLM은 만능이 아니다.
- hallucination은 여전하고
- 최신 정보엔 약하고
- 성능은 하드웨어에 정직하다
그럼에도 불구하고 사람들이 로컬로 돌아오는 이유는 단순하다.
통제권 때문이다.
데이터, model, 실행 환경—all yours.
한 번이라도 그 느낌을 경험하면, 이전으로 돌아가기 쉽지 않다.
자주 나오는 질문들
1. 2026년에도 로컬 LLM은 무료인가요?
소프트웨어는 무료, 비용은 하드웨어입니다.
2. 완전 오프라인으로 되나요?
model 다운로드 후에는 가능.
3. Ollama로 실제 서비스도 가능한가요?
내부 툴이나 소규모 서비스라면 충분히.
4. Docker Model Runner는 GPU 필수인가요?
필수는 아니지만 있으면 체감이 큽니다.
5. 성능 차이는 많이 나나요?
GPU 기준으로는 Docker 쪽이 확실히 낫습니다.
6. OpenAI API 완전 대체 가능한가요?
기능은 가능, 품질은 model에 따라 다릅니다.
7. 데이터는 정말 안 나가나요?
네. 전부 로컬입니다.
8. 최소 사양은 어느 정도?
RAM 16GB 이상 권장.
9. LangChain 연동 되나요?
네, 특히 Docker Model Runner와 궁합이 좋습니다.
10. 실서비스에 써도 될까요?
Docker Model Runner 기준으로는 충분히 고려할 만합니다.
마무리
로컬 LLM은 유행이 아니다.
방향 전환이다.
내가 이해하고, 내가 관리하고, 내가 책임지는 쪽으로의 이동.
팬이 돌고, CPU가 달아오르고, 화면에 답변이 뜨는 그 순간.
아마 당신도 느끼게 될 것이다.
“아, 이게 진짜구나.”
'SW > 인공지능' 카테고리의 다른 글
| Cursor 2.0 완벽 가이드: AI agent 기반 code editor를 처음 쓰는 개발자를 위한 설명 (0) | 2026.01.30 |
|---|---|
| parallel scaling이란? LLM 성능을 키우는 새로운 방법을 쉽게 설명 (0) | 2026.01.29 |
| 2025년 AI website builder로 웹 개발 에이전시 시작하는 방법 (white label 모델 정리) (0) | 2026.01.25 |
| Genspark란 무엇인가? ChatGPT와 뭐가 다른지 기능부터 실제 활용까지 정리 (0) | 2026.01.24 |
| Deepgram Saga 리뷰: 실시간 음성 받아쓰기와 AI 음성 에이전트, 뭐가 다른가? (0) | 2026.01.22 |