SW/인공지능

2026년 기준 LLM 로컬 실행 방법 정리: Ollama와 Docker Model Runner 비교

얇은생각 2026. 1. 28. 07:30

2026년에 LLM을 로컬에서 돌린다는 것: Ollama와 Docker Model Runner 이야기

처음으로 내 노트북에서 LLM을 직접 실행했을 때를 아직도 기억한다.
키보드를 치자마자 팬이 윙— 하고 돌기 시작했고, 화면이 잠깐 멈췄다가… 답변이 튀어나왔다. 클라우드도 아니고, 서버도 아니고, 결제 알림도 없는 상태에서 말이다.

그 순간 묘하게 전율이 왔다. “아, 이게 바로 내가 컨트롤하고 있다는 느낌이구나.”

만약 당신이 이런 질문을 해본 적 있다면, 이 글은 딱 맞다.

왜 요즘 개발자들이 LLM을 로컬에서 돌리는 데 집착할까?
ChatGPT 같은 hosted solution이 있는데 굳이 왜?
그리고… 막상 하려면 뭘 써야 하지?

2025년 기준으로, 로컬 LLM 실행 방법은 사실상 두 갈래로 정리된다.

Ollama
Docker Model Runner

목표는 같다. 철학이 다를 뿐.

한 줄 요약하면 이렇다: 로컬 LLM은 클라우드를 부정하는 게 아니라, 주도권을 되찾는 선택이다.

굳이 LLM을 로컬에서 돌려야 할까?

잠깐만 멀리서 보자.

ChatGPT 같은 서비스는 솔직히 훌륭하다. 빠르고, 안정적이고, UX도 좋다. 하지만 개발자 입장에서는 항상 몇 가지가 마음에 걸린다.

응답이 살짝만 늦어도 흐름이 끊긴다
프롬프트와 데이터가 결국 남의 서버로 간다
token 비용은 생각보다 빠르게 쌓인다
모델 선택과 동작 방식에 대한 결정권이 없다

로컬에서 LLM을 돌리면 이 구도가 완전히 뒤집힌다.

비유하자면, 배달 대신 집에서 요리하는 느낌이다. 준비는 좀 번거롭지만, 비용도 줄고, 입맛대로 조절할 수 있고, 무엇보다 내가 뭘 넣었는지 다 안다.

특히 개발자라면 더 체감이 크다.
오프라인 앱, 내부 전용 툴, 실험적인 기능들. 클라우드였다면 망설였을 것들이 로컬에서는 훨씬 자유롭다.

이제 본론으로 들어가 보자.

방법 1: Ollama — 가장 부드러운 입문

Ollama는 로컬 LLM 붐을 만든 주인공이라고 해도 과장이 아니다.

무료, 오픈소스, 그리고 놀라울 정도로 단순하다. 설치하고, model 하나 받고, 바로 chat.
Docker 설정도 없고, 복잡한 config도 없다. 그냥 된다.

Ollama 시작하기

ollama.com에서 Mac / Windows / Linux용 설치 파일 다운로드
설치 후 실행
터미널에서 아래 명령어 입력

ollama

뭔가 응답이 나오면 정상이다.

모델 다운로드

Ollama에서는 먼저 model을 받아야 한다.

ollama pull llama3

공식 사이트에서 다양한 model을 검색할 수 있고, 각각 용량이 표시된다. 이게 꽤 중요하다.

처음이라면 무조건 작은 model부터 추천한다. 팬 소음과 정신 건강을 위해서.

현재 로컬에 있는 model 확인:

ollama ls

대화형으로 실행하기

ollama run llama3

이제 바로 chat이 시작된다.

인터넷 연결도 없고, 외부 API 호출도 없다. 응답 속도는 꽤 빠르다.
물론 작은 model은 가끔 헛소리를 한다. 그게 또 묘한 매력이다.

종료는:

/bye

장점과 현실적인 한계

속도 빠름
설정 거의 없음
로컬 실험에 최적

하지만:

model 크기에 따라 정확도 차이 큼
browsing 같은 기능은 기본 제공 안 됨
하드웨어 성능을 그대로 탄다

그래도 “로컬 LLM이 이런 거구나”를 느끼기엔 Ollama만 한 게 없다.

Ollama를 코드에서 쓰는 방법

Ollama는 단순한 chat 툴이 아니다. 로컬 inference server다.

방법 1: REST API

Ollama가 실행되면 자동으로 HTTP 서버가 열린다.

포트: 11434
엔드포인트: /api/chat

POST http://localhost:11434/api/chat

model 이름과 message를 보내면 response가 돌아온다.
언어 가리지 않는다. Python, JavaScript, Go, 뭐든 가능하다.

방법 2: Python module

Python이라면 더 간단하다.

pip install ollama

이후에는 module에서 제공하는 함수로 바로 호출하면 된다.
REST를 직접 치는 것과 결과는 같다. 다만 코드가 훨씬 깔끔해진다.

여기까지 오면, 생각보다 많은 OpenAI API 케이스를 로컬로 대체할 수 있다는 걸 깨닫게 된다.

그리고 이쯤에서 이런 생각이 든다.

“조금 더 강한 건 없을까?”

방법 2: Docker Model Runner — 한 단계 위

Docker Model Runner는 느낌이 다르다.

Ollama가 ‘편안함’이라면, 이쪽은 ‘제대로 된 엔진’이다.

핵심 포인트는 이렇다.

더 나은 GPU acceleration
container 기반 구조
배포 친화적

로컬 실험용을 넘어, 실제 서비스 구조까지 염두에 둔 설계다.

준비물

Docker Desktop이 필요하다.

설치 후:

Docker Desktop 실행
Settings → AI
Docker Model Runner 활성화
Host TCP support 활성화
CPU core는 All로 설정

저장하고 잠깐 숨 고르기.

UI에서 모델 관리

Docker Desktop 안에서:

Models 탭 이동
Docker Hub 선택
model 검색 후 pull

다운로드가 끝나면 바로 UI에서 chat 가능하다.
요청 로그나 사용량도 같이 볼 수 있어서 꽤 직관적이다.

CLI로 쓰기

터미널에서도 동일하게 가능하다.

docker model

docker model pull ai/llama3

docker model list

docker model run ai/llama3

Ollama 써봤다면 금방 익숙해진다.

Docker Model Runner를 코드에 붙이기

여기도 REST API가 있다.

차이점은 포트다.

Ollama: 11434
Docker Model Runner: 12434

즉, base URL만 바꾸면 된다.

http://localhost:12434

진짜 강력한 포인트

OpenAI-compatible SDK를 그대로 쓸 수 있다.

base URL만 로컬로 바꾸고,
model 이름을 ai/llama3 같은 형식으로 지정하면 끝.

LangChain, OpenAI client, 기존 코드… 거의 그대로다.

비용? 없음.
토큰 제한? 없음.
네트워크? 필요 없음.

이 지점에서 체감이 확 온다.
“아, 이건 장난이 아니구나.”

Ollama vs Docker Model Runner 정리

항목	OllamaDocker	Model Runner
초기 설정	매우 쉬움	보통
GPU 활용	준수	매우 우수
성능	빠름	더 빠름
Container	X	O
배포 적합성	낮음	높음
학습 곡선	완만	다소 있음

취미나 실험, 개인 프로젝트라면 Ollama.

서비스, 배포, 팀 단위라면 Docker Model Runner.

솔직히 말하면, 상황 따라 둘 다 쓰게 된다.

현실적인 한마디

로컬 LLM은 만능이 아니다.

hallucination은 여전하고
최신 정보엔 약하고
성능은 하드웨어에 정직하다

그럼에도 불구하고 사람들이 로컬로 돌아오는 이유는 단순하다.

통제권 때문이다.

데이터, model, 실행 환경—all yours.

한 번이라도 그 느낌을 경험하면, 이전으로 돌아가기 쉽지 않다.

자주 나오는 질문들

1. 2026년에도 로컬 LLM은 무료인가요?
소프트웨어는 무료, 비용은 하드웨어입니다.

2. 완전 오프라인으로 되나요?
model 다운로드 후에는 가능.

3. Ollama로 실제 서비스도 가능한가요?
내부 툴이나 소규모 서비스라면 충분히.

4. Docker Model Runner는 GPU 필수인가요?
필수는 아니지만 있으면 체감이 큽니다.

5. 성능 차이는 많이 나나요?
GPU 기준으로는 Docker 쪽이 확실히 낫습니다.

6. OpenAI API 완전 대체 가능한가요?
기능은 가능, 품질은 model에 따라 다릅니다.

7. 데이터는 정말 안 나가나요?
네. 전부 로컬입니다.

8. 최소 사양은 어느 정도?
RAM 16GB 이상 권장.

9. LangChain 연동 되나요?
네, 특히 Docker Model Runner와 궁합이 좋습니다.

10. 실서비스에 써도 될까요?
Docker Model Runner 기준으로는 충분히 고려할 만합니다.

마무리

로컬 LLM은 유행이 아니다.

방향 전환이다.

내가 이해하고, 내가 관리하고, 내가 책임지는 쪽으로의 이동.

팬이 돌고, CPU가 달아오르고, 화면에 답변이 뜨는 그 순간.

아마 당신도 느끼게 될 것이다.

“아, 이게 진짜구나.”

저작자표시 (새창열림)

'SW > 인공지능' 카테고리의 다른 글

Cursor 2.0 완벽 가이드: AI agent 기반 code editor를 처음 쓰는 개발자를 위한 설명 (0)	2026.01.30
parallel scaling이란? LLM 성능을 키우는 새로운 방법을 쉽게 설명 (0)	2026.01.29
2025년 AI website builder로 웹 개발 에이전시 시작하는 방법 (white label 모델 정리) (0)	2026.01.25
Genspark란 무엇인가? ChatGPT와 뭐가 다른지 기능부터 실제 활용까지 정리 (0)	2026.01.24
Deepgram Saga 리뷰: 실시간 음성 받아쓰기와 AI 음성 에이전트, 뭐가 다른가? (0)	2026.01.22

현재글2026년 기준 LLM 로컬 실행 방법 정리: Ollama와 Docker Model Runner 비교

쵸코쿠키의 연습장

2026년 기준 LLM 로컬 실행 방법 정리: Ollama와 Docker Model Runner 비교

2026년에 LLM을 로컬에서 돌린다는 것: Ollama와 Docker Model Runner 이야기

굳이 LLM을 로컬에서 돌려야 할까?

방법 1: Ollama — 가장 부드러운 입문

Ollama 시작하기

모델 다운로드

대화형으로 실행하기

장점과 현실적인 한계

Ollama를 코드에서 쓰는 방법

방법 1: REST API

방법 2: Python module

방법 2: Docker Model Runner — 한 단계 위

준비물

UI에서 모델 관리

CLI로 쓰기

Docker Model Runner를 코드에 붙이기

진짜 강력한 포인트

Ollama vs Docker Model Runner 정리

현실적인 한마디

자주 나오는 질문들

마무리

'SW > 인공지능' 카테고리의 다른 글

'SW/인공지능'의 다른글

티스토리툴바

2026년 기준 LLM 로컬 실행 방법 정리: Ollama와 Docker Model Runner 비교

2026년에 LLM을 로컬에서 돌린다는 것: Ollama와 Docker Model Runner 이야기

굳이 LLM을 로컬에서 돌려야 할까?

방법 1: Ollama — 가장 부드러운 입문

Ollama 시작하기

모델 다운로드

대화형으로 실행하기

장점과 현실적인 한계

Ollama를 코드에서 쓰는 방법

방법 1: REST API

방법 2: Python module

방법 2: Docker Model Runner — 한 단계 위

준비물

UI에서 모델 관리

CLI로 쓰기

Docker Model Runner를 코드에 붙이기

진짜 강력한 포인트

Ollama vs Docker Model Runner 정리

현실적인 한마디

자주 나오는 질문들

마무리

'SW > 인공지능' 카테고리의 다른 글

'SW/인공지능'의 다른글

관련글

티스토리툴바