처음에 잘못된 질문부터 하게 됩니다
Mac에서 로컬 LLM을 시작하면 가장 먼저 듣는 질문은 이겁니다.
「Ollama랑 MLX 중 뭐가 더 좋아?」
M4 Mac Mini면 뭐가 더 빠르지? MLX로 바로 갈까? — 합리적으로 들리지만, 16GB / 24GB / 32GB M4 Mac Mini에서 실제로 돌려 본 뒤 보이는 패턴은 달랐습니다.
질문 자체가 레이어를 잘못 짚는 경우가 많습니다.
현실: 대부분은 고를 필요가 없습니다
기본은 Ollama. MLX가 왜 필요한지 스스로 설명할 수 있을 때만 예외.
벤치에서 Ollama가 항상 1등이라서가 아닙니다. 막히는 지점은 프레임워크가 아니라 통합 메모리, 모델 크기, IDE·브라우저 부하인 경우가 훨씬 많습니다.
30초 결론
- 👉 기본: Ollama
- 👉 예외: MLX / llama.cpp
약 80%는 예외 구간에 들어가지 않습니다.
| 상황 | 기본 선택 | 실제 걱정 |
|---|---|---|
| Claude Code / Cursor 로컬 모델 | Ollama | MLX가 더 빠를까? |
| 처음 LLM 실행 | Ollama | 하위 스택을 공부해야 할까? |
| 팀 공유 추론 | Ollama | 더 복잡한 스택이 필요할까? |
| 일상 채팅 | Ollama / LM Studio | 어느 쪽이 더 프로 같을까? |
| 벤치마크 | MLX | 개발에도 쓸 수 있을까? |
| LoRA 미세조정 | MLX | Ollama로 학습 가능? |
결국 Ollama로 돌아오는 이유
① 먼저 돌아가게 해 줌
brew install ollama
ollama run qwen2.5:7b
5분 안에 모델이 뜨는지가 첫 관문입니다. 이론적 peak tok/s가 아닙니다.
② Agent 시대에 맞음
Claude Code, Cursor 등은 안정적인 HTTP API가 필요합니다. Ollama는 127.0.0.1:11434와 OpenAI 호환 API를 기본 제공. Claude Code + Ollama 연결.
③ 병목은 프레임워크가 아님
16GB + 14B + IDE + 브라우저 → swap, Agent 타임아웃. MLX로 바꿔도 거의 같습니다. M4 Mac Mini 모델 가이드, 7B vs 14B.
MLX가 중요해지는 경우
MLX는 「더 나은 Ollama」가 아니라 좁은 용도의 하위 도구입니다.
벤치마크 / CI / LoRA / 자체 추론 스택 / 논문급 실험
일상 Agent 연결만 목적이면 MLX로 갈아탈 이유가 없습니다. MLX vs llama.cpp, Ollama vs MLX.
클린 8B 4-bit 벤치에서 차이는 대략 3%–12%.
오해 바로잡기
MLX의 이점은 「측정 계층」에 있고 「사용 계층」에는 잘 안 드러납니다.
자주 보는 조합
- M4 Mac Mini 16GB
- Ollama + 14B
- Chrome 탭 다수
- VS Code + Claude Code
swap 8GB+, 느린 응답 → Ollama 탓이 아니라 리소스 한계. M4 Mac Mini 메모리·모델 가이드 참고.
3계층으로 이해하기
- 앱 계층: Claude Code / Cursor
- 런타임 계층: Ollama (HTTP)
- 연산 계층: MLX / llama.cpp
대부분의 시간은 런타임 계층에서 보냅니다.
결론
- 기본 Ollama = 약 80%의 종착점
- 예외 MLX = 연구·벤치·하위 제어
한 줄 요약
Mac 로컬 LLM은 기본 Ollama, MLX는 하위 제어가 필요한 소수 상황용. 진짜 병목은 메모리와 모델 크기입니다.
판단 기준
명확한 이유 없으면 Ollama.
FAQ
Ollama vs MLX?
기본 Ollama. MLX는 오프라인 벤치, CI, LoRA, 자체 추론, 극한 파라미터 실험용.
MLX가 더 빠른데 바꿔야 하나?
벤치에서 3%–12% 차이는 있을 수 있지만 Agent에서는 메모리·안정성이 먼저.
느려서 MLX로 갈아타야 하나?
swap, 모델 크기부터 확인. 16GB에서 14B는 프레임워크 교체로 해결되기 어렵습니다.
둘 다 설치 가능?
네. 낮엔 Ollama, 밤엔 MLX 벤치로 공존 가능.