Mac 本機大模型預設選什麼？

預設 Ollama。一條指令可跑模型，內建 HTTP 服務與 OpenAI 相容 API，可直接接 Claude Code、Cursor、Continue。

什麼時候才需要用 MLX？

需要精確 benchmark、CI 復現、訓練微調、自研推理系統，或控制量化與 decoding 時使用 MLX。

Mac 本機大模型用 Ollama 還是 MLX？預設規則其實很簡單

Q: MLX 更快，是不是應該用 MLX？

benchmark 中可能快約 3%–12%，但 Agent 場景瓶頸在記憶體與穩定性，不在 tok/s。預設仍是 Ollama。

Q: 本機大模型慢，該換 MLX 嗎？

先檢查 swap、模型是否過大。16GB 跑 14B 加 IDE 和瀏覽器，換框架通常解決不了。

你一開始很可能問錯問題

剛在 Mac 上跑本機大模型，最常看到的問題是：

「Ollama 和 MLX 哪個比較好？」

或更具體：M4 Mac Mini 哪個比較快？要不要直接上 MLX？

聽起來很合理。我們在 M4 Mac Mini（16GB / 24GB / 32GB）上跑了一陣子後，慢慢發現：

這個問題本身，常常問錯層級。

真實情況：多數人根本不需要選

在 Mac 本機 LLM 這件事上，更接近現實的結論是：

預設用 Ollama，除非你清楚知道自己為什麼需要 MLX。

不是因為 Ollama 在 benchmark 永遠最快，也不是 MLX 不夠好。多數卡關點根本不在框架——而在記憶體夠不夠、模型是否過大、前景 App 是否已吃滿統一記憶體。

換句話說：框架選型往往是「記憶體與模型理順之後」才值得討論的第二層問題。

30 秒結論

在 Mac 上跑本機大模型：

👉 預設：Ollama
👉 例外：MLX / llama.cpp

但大約 80% 的人永遠不會進入「例外區」。

快速對照

場景	預設選擇	大家真正擔心的
Claude Code / Cursor 接本機模型	Ollama	MLX 會不會更快
第一次跑通 LLM	Ollama	要不要研究底層
團隊共享推理	Ollama	要不要上更複雜方案
日常聊天	Ollama / LM Studio	哪個比較專業
壓測 / benchmark	MLX	能不能用於開發
微調 / LoRA	MLX	Ollama 能不能做

為什麼最後多數人會回到 Ollama

不是因為它「最強」，而是它剛好解決最現實的問題。

① 讓你先跑起來

在 Mac 上跑模型，第一關其實不是效能，而是：能不能 5 分鐘內跑通。

brew install ollama
ollama run qwen2.5:7b

不用折騰 Python 虛擬環境、不用手動編譯 Metal backend、不用先搞懂 llama.cpp 參數。這降低的是「失敗率」，不是「理論效能」。

② 剛好適配 Agent 時代

現在很多本機模型不是拿來聊天，而是給 Claude Code、Cursor、Continue、Open WebUI 用。這些工具真正需要的是穩定的 HTTP 介面，不是多 5% 的 tok/s。

Ollama 預設提供 127.0.0.1:11434 與 OpenAI 相容 API，本質上是 Mac 本機 LLM 的「USB 介面」。接入步驟見 Claude Code + Ollama 實測。

③ 真正卡住你的不是框架

我們在 M4 Mac Mini 上最常見：16GB 記憶體、跑 14B 模型、同時開 IDE + 瀏覽器。結果是 swap 上升、tok/s 下降、Agent 變慢。

這時候換 MLX——基本不會改變結果。 瓶頸在記憶體 + 模型大小 + 系統負載。記憶體檔位見 M4 Mac Mini 能跑哪些模型；7B / 14B 取捨見實測差距。

那 MLX 到底什麼時候才重要？

這裡是關鍵分界線。MLX 不是「更好的 Ollama」，而是少數情況才需要的底層工具。

只有在這些場景才需要 MLX

1. benchmark / 效能測試

你只關心真實 tok/s，不要 runtime 干擾。👉 MLX / llama.cpp CLI

2. CI / 研究復現

需要固定 prompt、batch、量化參數。👉 MLX 更可控

3. LoRA 微調 / 訓練

Ollama 不屬於這個領域——它是推理執行環境，不是訓練框架。

4. 自研推理系統

多模型路由、API 閘道、SLA 控制。👉 MLX + 自建服務 才合理。個人開發者接 Claude Code，不要為此換棧。

5. 論文級實驗

新量化方法、speculative decoding、kernel tuning。👉 直接 llama.cpp。架構差異見 MLX vs llama.cpp 深析。

壓測時 MLX 快多少？Llama-3.1-8B 4-bit、乾淨環境：16GB 上 Ollama 約 27–31 tok/s，MLX 約 28–32 tok/s——差距約 3%–12%，只存在於測量層。執行環境對比見 Ollama vs MLX。

一個關鍵認知糾正

很多人直覺：MLX 更快 → 應該用 MLX。

但現實是：

MLX 的優勢主要在「測量層」，不是「使用層」。

它更像實驗儀器，而不是日常工具。Agent 全鏈路裡，框架級 tok/s 差異往往只占總延遲很小一部分。

一個非常真實的場景

M4 Mac Mini（16GB）
Ollama + 14B 模型
Chrome 十幾個分頁
VS Code + Claude Code

然後：swap 8GB+、回應變慢、Agent timeout。

第一反應：「是不是 Ollama 不行？」

❌ 不是 Ollama 的問題
✔ 系統資源已到極限

換 MLX？結果基本一樣。 原理見統一記憶體與 LLM 推理。

Mac 本機 LLM 的真實結構

應用層：Claude Code / Cursor / Chat UI
執行環境層：Ollama（HTTP）
計算層：MLX / llama.cpp

你大多數時間在「執行環境層」，不是「計算層」。

更現實的規則

先用 Ollama，只有當你明確知道不夠時，再切 MLX。

同一台 Mac 可同時裝兩者。團隊共享推理節點見私有 AI 伺服器 Mac Mini 叢集。

終極結論

預設路徑 Ollama = 80% 使用者的終點
例外路徑 MLX = 少數工程 / 研究 / 壓測場景

關鍵變數是記憶體與模型大小，不是框架。

一句話總結

Mac 本機大模型預設使用 Ollama，MLX 僅用於需要底層控制的少數場景；真正瓶頸通常是記憶體與模型大小，而不是推理框架。

如果你只想記一個判斷標準

沒有明確理由，就用 Ollama。

FAQ