Mac 本機大模型選 Ollama 還是 MLX

你一開始很可能問錯問題

剛在 Mac 上跑本機大模型,最常看到的問題是:

「Ollama 和 MLX 哪個比較好?」

或更具體:M4 Mac Mini 哪個比較快?要不要直接上 MLX?

聽起來很合理。我們在 M4 Mac Mini(16GB / 24GB / 32GB)上跑了一陣子後,慢慢發現:

這個問題本身,常常問錯層級。

真實情況:多數人根本不需要選

在 Mac 本機 LLM 這件事上,更接近現實的結論是:

預設用 Ollama,除非你清楚知道自己為什麼需要 MLX。

不是因為 Ollama 在 benchmark 永遠最快,也不是 MLX 不夠好。多數卡關點根本不在框架——而在記憶體夠不夠、模型是否過大、前景 App 是否已吃滿統一記憶體。

換句話說:框架選型往往是「記憶體與模型理順之後」才值得討論的第二層問題。

30 秒結論

在 Mac 上跑本機大模型:

  • 👉 預設:Ollama
  • 👉 例外:MLX / llama.cpp

但大約 80% 的人永遠不會進入「例外區」。

快速對照

場景預設選擇大家真正擔心的
Claude Code / Cursor 接本機模型OllamaMLX 會不會更快
第一次跑通 LLMOllama要不要研究底層
團隊共享推理Ollama要不要上更複雜方案
日常聊天Ollama / LM Studio哪個比較專業
壓測 / benchmarkMLX能不能用於開發
微調 / LoRAMLXOllama 能不能做

為什麼最後多數人會回到 Ollama

不是因為它「最強」,而是它剛好解決最現實的問題。

① 讓你先跑起來

在 Mac 上跑模型,第一關其實不是效能,而是:能不能 5 分鐘內跑通。

brew install ollama
ollama run qwen2.5:7b

不用折騰 Python 虛擬環境、不用手動編譯 Metal backend、不用先搞懂 llama.cpp 參數。這降低的是「失敗率」,不是「理論效能」。

② 剛好適配 Agent 時代

現在很多本機模型不是拿來聊天,而是給 Claude Code、Cursor、Continue、Open WebUI 用。這些工具真正需要的是穩定的 HTTP 介面,不是多 5% 的 tok/s。

Ollama 預設提供 127.0.0.1:11434 與 OpenAI 相容 API,本質上是 Mac 本機 LLM 的「USB 介面」。接入步驟見 Claude Code + Ollama 實測

③ 真正卡住你的不是框架

我們在 M4 Mac Mini 上最常見:16GB 記憶體、跑 14B 模型、同時開 IDE + 瀏覽器。結果是 swap 上升、tok/s 下降、Agent 變慢。

這時候換 MLX——基本不會改變結果。 瓶頸在記憶體 + 模型大小 + 系統負載。記憶體檔位見 M4 Mac Mini 能跑哪些模型;7B / 14B 取捨見 實測差距

那 MLX 到底什麼時候才重要?

這裡是關鍵分界線。MLX 不是「更好的 Ollama」,而是少數情況才需要的底層工具

只有在這些場景才需要 MLX

1. benchmark / 效能測試

你只關心真實 tok/s,不要 runtime 干擾。👉 MLX / llama.cpp CLI

2. CI / 研究復現

需要固定 prompt、batch、量化參數。👉 MLX 更可控

3. LoRA 微調 / 訓練

Ollama 不屬於這個領域——它是推理執行環境,不是訓練框架。

4. 自研推理系統

多模型路由、API 閘道、SLA 控制。👉 MLX + 自建服務 才合理。個人開發者接 Claude Code,不要為此換棧。

5. 論文級實驗

新量化方法、speculative decoding、kernel tuning。👉 直接 llama.cpp。架構差異見 MLX vs llama.cpp 深析

壓測時 MLX 快多少?Llama-3.1-8B 4-bit、乾淨環境:16GB 上 Ollama 約 27–31 tok/s,MLX 約 28–32 tok/s——差距約 3%–12%,只存在於測量層。執行環境對比見 Ollama vs MLX

一個關鍵認知糾正

很多人直覺:MLX 更快 → 應該用 MLX。

但現實是:

MLX 的優勢主要在「測量層」,不是「使用層」。

它更像實驗儀器,而不是日常工具。Agent 全鏈路裡,框架級 tok/s 差異往往只占總延遲很小一部分。

一個非常真實的場景

  • M4 Mac Mini(16GB)
  • Ollama + 14B 模型
  • Chrome 十幾個分頁
  • VS Code + Claude Code

然後:swap 8GB+、回應變慢、Agent timeout。

第一反應:「是不是 Ollama 不行?」

  • ❌ 不是 Ollama 的問題
  • ✔ 系統資源已到極限

換 MLX?結果基本一樣。 原理見 統一記憶體與 LLM 推理

Mac 本機 LLM 的真實結構

  • 應用層:Claude Code / Cursor / Chat UI
  • 執行環境層:Ollama(HTTP)
  • 計算層:MLX / llama.cpp

你大多數時間在「執行環境層」,不是「計算層」。

更現實的規則

先用 Ollama,只有當你明確知道不夠時,再切 MLX。

同一台 Mac 可同時裝兩者。團隊共享推理節點見 私有 AI 伺服器 Mac Mini 叢集

終極結論

  • 預設路徑 Ollama = 80% 使用者的終點
  • 例外路徑 MLX = 少數工程 / 研究 / 壓測場景

關鍵變數是記憶體與模型大小,不是框架。

一句話總結

Mac 本機大模型預設使用 Ollama,MLX 僅用於需要底層控制的少數場景;真正瓶頸通常是記憶體與模型大小,而不是推理框架。

如果你只想記一個判斷標準

沒有明確理由,就用 Ollama。

FAQ

Mac 本機大模型用 Ollama 還是 MLX?

預設 Ollama。MLX 用於離線壓測、CI 復現、LoRA 微調、自研推理系統或極限參數實驗。日常 Claude Code、Cursor 應走 Ollama :11434

MLX 更快,是不是應該用 MLX?

benchmark 中可能快約 3%–12%,但 Agent 場景瓶頸在記憶體與穩定性,不在 tok/s。

本機大模型慢,該換 MLX 嗎?

先查 Activity Monitor 有沒有 swap、模型是否過大。16GB 跑 14B 加 IDE 和瀏覽器,換框架通常解決不了。

一台 Mac 能同時裝 Ollama 和 MLX 嗎?

可以。白天 Ollama 接 Agent,夜間 MLX 做壓測,兩者服務不同層,不衝突。