你一開始很可能問錯問題
剛在 Mac 上跑本機大模型,最常看到的問題是:
「Ollama 和 MLX 哪個比較好?」
或更具體:M4 Mac Mini 哪個比較快?要不要直接上 MLX?
聽起來很合理。我們在 M4 Mac Mini(16GB / 24GB / 32GB)上跑了一陣子後,慢慢發現:
這個問題本身,常常問錯層級。
真實情況:多數人根本不需要選
在 Mac 本機 LLM 這件事上,更接近現實的結論是:
預設用 Ollama,除非你清楚知道自己為什麼需要 MLX。
不是因為 Ollama 在 benchmark 永遠最快,也不是 MLX 不夠好。多數卡關點根本不在框架——而在記憶體夠不夠、模型是否過大、前景 App 是否已吃滿統一記憶體。
換句話說:框架選型往往是「記憶體與模型理順之後」才值得討論的第二層問題。
30 秒結論
在 Mac 上跑本機大模型:
- 👉 預設:Ollama
- 👉 例外:MLX / llama.cpp
但大約 80% 的人永遠不會進入「例外區」。
快速對照
| 場景 | 預設選擇 | 大家真正擔心的 |
|---|---|---|
| Claude Code / Cursor 接本機模型 | Ollama | MLX 會不會更快 |
| 第一次跑通 LLM | Ollama | 要不要研究底層 |
| 團隊共享推理 | Ollama | 要不要上更複雜方案 |
| 日常聊天 | Ollama / LM Studio | 哪個比較專業 |
| 壓測 / benchmark | MLX | 能不能用於開發 |
| 微調 / LoRA | MLX | Ollama 能不能做 |
為什麼最後多數人會回到 Ollama
不是因為它「最強」,而是它剛好解決最現實的問題。
① 讓你先跑起來
在 Mac 上跑模型,第一關其實不是效能,而是:能不能 5 分鐘內跑通。
brew install ollama
ollama run qwen2.5:7b
不用折騰 Python 虛擬環境、不用手動編譯 Metal backend、不用先搞懂 llama.cpp 參數。這降低的是「失敗率」,不是「理論效能」。
② 剛好適配 Agent 時代
現在很多本機模型不是拿來聊天,而是給 Claude Code、Cursor、Continue、Open WebUI 用。這些工具真正需要的是穩定的 HTTP 介面,不是多 5% 的 tok/s。
Ollama 預設提供 127.0.0.1:11434 與 OpenAI 相容 API,本質上是 Mac 本機 LLM 的「USB 介面」。接入步驟見 Claude Code + Ollama 實測。
③ 真正卡住你的不是框架
我們在 M4 Mac Mini 上最常見:16GB 記憶體、跑 14B 模型、同時開 IDE + 瀏覽器。結果是 swap 上升、tok/s 下降、Agent 變慢。
這時候換 MLX——基本不會改變結果。 瓶頸在記憶體 + 模型大小 + 系統負載。記憶體檔位見 M4 Mac Mini 能跑哪些模型;7B / 14B 取捨見 實測差距。
那 MLX 到底什麼時候才重要?
這裡是關鍵分界線。MLX 不是「更好的 Ollama」,而是少數情況才需要的底層工具。
只有在這些場景才需要 MLX
1. benchmark / 效能測試
你只關心真實 tok/s,不要 runtime 干擾。👉 MLX / llama.cpp CLI
2. CI / 研究復現
需要固定 prompt、batch、量化參數。👉 MLX 更可控
3. LoRA 微調 / 訓練
Ollama 不屬於這個領域——它是推理執行環境,不是訓練框架。
4. 自研推理系統
多模型路由、API 閘道、SLA 控制。👉 MLX + 自建服務 才合理。個人開發者接 Claude Code,不要為此換棧。
5. 論文級實驗
新量化方法、speculative decoding、kernel tuning。👉 直接 llama.cpp。架構差異見 MLX vs llama.cpp 深析。
壓測時 MLX 快多少?Llama-3.1-8B 4-bit、乾淨環境:16GB 上 Ollama 約 27–31 tok/s,MLX 約 28–32 tok/s——差距約 3%–12%,只存在於測量層。執行環境對比見 Ollama vs MLX。
一個關鍵認知糾正
很多人直覺:MLX 更快 → 應該用 MLX。
但現實是:
MLX 的優勢主要在「測量層」,不是「使用層」。
它更像實驗儀器,而不是日常工具。Agent 全鏈路裡,框架級 tok/s 差異往往只占總延遲很小一部分。
一個非常真實的場景
- M4 Mac Mini(16GB)
- Ollama + 14B 模型
- Chrome 十幾個分頁
- VS Code + Claude Code
然後:swap 8GB+、回應變慢、Agent timeout。
第一反應:「是不是 Ollama 不行?」
- ❌ 不是 Ollama 的問題
- ✔ 系統資源已到極限
換 MLX?結果基本一樣。 原理見 統一記憶體與 LLM 推理。
Mac 本機 LLM 的真實結構
- 應用層:Claude Code / Cursor / Chat UI
- 執行環境層:Ollama(HTTP)
- 計算層:MLX / llama.cpp
你大多數時間在「執行環境層」,不是「計算層」。
終極結論
- 預設路徑 Ollama = 80% 使用者的終點
- 例外路徑 MLX = 少數工程 / 研究 / 壓測場景
關鍵變數是記憶體與模型大小,不是框架。
一句話總結
Mac 本機大模型預設使用 Ollama,MLX 僅用於需要底層控制的少數場景;真正瓶頸通常是記憶體與模型大小,而不是推理框架。
如果你只想記一個判斷標準
沒有明確理由,就用 Ollama。
FAQ
Mac 本機大模型用 Ollama 還是 MLX?
預設 Ollama。MLX 用於離線壓測、CI 復現、LoRA 微調、自研推理系統或極限參數實驗。日常 Claude Code、Cursor 應走 Ollama :11434。
MLX 更快,是不是應該用 MLX?
benchmark 中可能快約 3%–12%,但 Agent 場景瓶頸在記憶體與穩定性,不在 tok/s。
本機大模型慢,該換 MLX 嗎?
先查 Activity Monitor 有沒有 swap、模型是否過大。16GB 跑 14B 加 IDE 和瀏覽器,換框架通常解決不了。
一台 Mac 能同時裝 Ollama 和 MLX 嗎?
可以。白天 Ollama 接 Agent,夜間 MLX 做壓測,兩者服務不同層,不衝突。