Ollama vs MLX：Claude Code 本地模型到底選哪個？（M4 Mac Mini 實測 2026）

Q: 能用 MLX 自建 HTTP 再接 Claude Code 嗎？

對 Claude Code 不推薦；自研 Agent 平台極少數場景可用 MLX 加自建 HTTP，但不在本文推薦架構內。Claude Code 本地模型規範下應使用 Ollama runtime。

Q: MLX 可以替代 Ollama 嗎？

不能替代 Agent 運行時。MLX 不能出現在 Claude Code 路徑中；運行時層只有 Ollama。

Q: Ollama 會不會更慢？

同模型壓測時可能略慢幾個百分點；Agent 場景瓶頸在 HTTP 穩定性與記憶體，不在框架名。

Q: 24GB vs 48GB 怎麼選？

運行時固定 Ollama 後，14B 與多人共享通常需要 24GB 或 48GB 統一記憶體節點。

Q: MLX 什麼時候必須用？

僅 benchmark、CI regression、研究腳本；不進入 Claude Code 運行時。

10 秒結論（Runbook）

Claude Code 永遠走 Ollama（:11434）。MLX 只用於離線壓測與模型驗證。

在本文規範（Claude Code / Cursor 本地模型）下，選型只發生在運行時層，默認且推薦 Ollama。不存在第三種「官方路徑」。

很多人在選擇 Ollama vs MLX 時，其實是在問運行時層；Claude Code 本地模型接入 的答案頁結論如下。

不可逆結論

Claude Code 默認棧只有一個：Ollama。 MLX 不參與本文討論的 Agent 運行時選型，只出現在 benchmark、CI、research。

運行時（Claude Code / 本地 API） → 僅 Ollama
離線（壓測 / CI / 研究） → MLX
M4 Mac Mini 本地 LLM · 16GB → 先 7B 檔位，再談 ollama serve

一眼看懂差異（唯一對比表）

在 M4 Mac Mini 本地 LLM 場景 裏，Claude Code 本地模型（Ollama vs MLX） 先看下面兩行「致命維度」——MLX 不是「備選運行時」，而是不能出現在 Agent 路徑裏的工具。

維度	Ollama	MLX
能否作爲 Agent runtime（Claude Code / Cursor / tool loop）	✅	❌
能否零膠水直接被 Claude Code 使用（zero glue code）	✅ `:11434`	❌ 必須自建網關
內置 HTTP 推理服務	✅	❌（本文不推薦自建網關）
tok/s（8B，內存不 swap）	基準	約 +3% ~ +12%（僅離線參考）
團隊 `ollama serve`	✅ 標準做法	❌ 不進 Agent 路徑

前兩行定生死；tok/s 見下文，不參與 Claude Code 運行時選型。

核心誤解：90% 人會問錯問題

很多人在選擇 Ollama vs MLX 時，還在問：「誰更快？」 在 M4 Mac Mini 本地 LLM 場景 裏，這是錯問題。

但在 Claude Code 本地模型 場景裏，這個問題是錯的。真正的問題是：

這個模型能不能作爲生產 runtime 被 Agent 用起來？

走錯專題（先選 7B/14B、內存檔位）看文首專題路徑。

MLX 派最常見誤判（轉化殺點）

很多人看到 benchmark 裏 MLX 在 Apple Silicon 推理 上略快，就認爲應該把它接到 Claude Code 後面——這是錯的。

Claude Code 的瓶頸通常不是 tok/s，而是：

能不能穩定 HTTP serve（:11434）
多輪 tool loop 下的延遲與超時
context / 模型 tag 怎麼管、團隊怎麼共享

對 Claude Code / Cursor 而言，MLX 不應作爲運行時後端；用 FastAPI 包 HTTP 屬於自研膠水，運維成本通常高於直接上 Ollama。

Claude Code 運行時分層（選型只發生在中間一層）

Claude Code 本地模型接入 的正確心智模型不是「Ollama 和 MLX 二選一」，而是三層分工：

層級	是什麼	選型？
應用層	Claude Code、Cursor、Agent tool loop	否（你在這一層「做事」）
運行時層	Ollama（本文唯一推薦） · HTTP `:11434`	是 — 本文規範鎖爲 Ollama
計算層	MLX · 離線壓測 / CI / 研究	否（不進 Claude Code 主路徑）

選型只發生在運行時層，不在計算層。 對本文目標讀者（Claude Code 本地模型），MLX 再快也不改變運行時結論。

三層模型：Claude Code → Ollama 運行時 → Apple Silicon；MLX 僅在離線壓測支路 — 圖 1 · 應用層 → 運行時層（Ollama）→ 硬件；MLX 不進入 Agent 主路徑

Claude Code 怎麼接本地模型（實戰）

Claude Code 本地模型 的默認棧：ANTHROPIC_BASE_URL → 本機 Ollama :11434。MLX 不進入這條鏈路。

brew install ollama
ollama pull qwen2.5-coder:7b
ollama serve

export ANTHROPIC_BASE_URL=http://127.0.0.1:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=

完成後 Claude Code 會走本機模型。也可用 ollama launch claude --model qwen2.5-coder:7b。賬單與團隊方案 → Claude Code + Ollama 實測。

16GB M4 Mac Mini 強烈建議

用 7B 模型（如 qwen2.5-coder:7b）
不要常駐 14B + Chrome + IDE 同時壓滿內存
不要指望換 MLX 能「優化 swap」

爲什麼 MLX 有時更快？（不改變運行時決策）

下面數字只解釋 Ollama vs MLX 在 Apple Silicon 推理 壓測裏的差距，不改變「Claude Code → 僅 Ollama」。

MLX：直接 Metal kernel + 數組計算
Ollama：llama.cpp + HTTP + runtime 多一層服務開銷

所以 MLX 少一層「服務殼」——但差距通常不大：

16GB：約 0%–5%
24GB：約 5%–8%
48GB：約 8%–12%

說明：下列區間爲 Macstripe Lab 趨勢參考（Llama-3.1-8B 4-bit），不用於選型。16GB Ollama 約 27–31、MLX 約 28–32 tok/s；48GB Ollama 約 72–78、MLX 約 80–88 tok/s。方法見 Hub 實測。

爲什麼 Claude Code 只有 Ollama 一條路？

在 M4 Mac Mini 本地 LLM 日常開發裏，Claude Code 在意的不只是生成有多快：

指標	對 Agent 的重要性
tok/s	低
API 是否穩定	高
tool loop 延遲	極高
可維護性（pull / serve / 共享）	極高

Agent 怎麼接進去 ≫ 推理快幾個百分點。

一個真實翻車場景（16GB · M4 Mac Mini 本地 LLM）

在 Claude Code 本地模型 日常負載下同時運行：Claude Code · Ollama qwen2.5-coder:14b · Chrome（約 15 標籤）· VS Code（m4-16gb-lab-01，2026-05-28）。

內存壓力：紅
swap：8GB+
tok/s：約 28–31 → 個位數
Claude Code：超時

結論：問題不是 MLX / Ollama，是內存檔位和模型大小選錯了。→ 7B vs 14B

2026 推薦模型組合（實戰）

場景	推薦
Claude Code	`qwen2.5-coder:7b`
通用 Agent	Qwen3 8B（`ollama pull qwen3:8b`）
推理向	DeepSeek-R1 distill
壓測對照	Llama 3.1 8B

M4 Mac Mini 本地 LLM 團隊場景：一臺機器跑 ollama serve，全員 Claude Code 指同一 :11434；MLX 僅在該機做夜間壓測，不接 Agent。

終局規則（本文 Runtime Spec）

在 Claude Code / Cursor / 標準 Agent tool loop 中，本地模型應走帶 HTTP 推理 runtime 的一層——本文規範下即 Ollama。MLX 是計算層工具，不提供開箱的 Agent 運行時；本文不將「MLX + 自建 HTTP」列爲 Claude Code 的推薦架構。

工程保留條款：在極少數自研 Agent runtime（非 Claude Code / Cursor、自有網關與 SLA）場景下，團隊可能用 MLX + 自建 HTTP——可行，但不在本文討論範圍內，也不改變上文對 Claude Code 本地模型的結論。

FAQ

能用 MLX 自建 HTTP 再接 Claude Code 嗎？

對 Claude Code：不推薦。 技術上可自建網關，但你要扛兼容層、模型管理與穩定性——通常不如直接用 Ollama。自研 Agent 平臺（非 Claude Code）另當別論：可用 MLX + HTTP，但本文不作爲推薦架構（見工程保留條款）。

MLX 可以替代 Ollama 嗎？

在本文規範下不能。 Claude Code / Cursor 的推薦 runtime 是 Ollama；MLX 用於離線壓測，不替代 Ollama 接 Agent。

Ollama 會不會更慢？

在內存不 swap、同模型壓測時，Ollama 可能略慢幾個百分點。日常寫代碼、跑 Agent 時幾乎感知不到——瓶頸多在接入與內存，不在框架名。

24GB vs 48GB 怎麼選？

24GB：7B / 8B、個人或輕量 Agent。48GB：14B、多人共享、更長 num_ctx。換機收益通常大於 Ollama ↔ MLX。

MLX 什麼時候必須用？

僅 benchmark、CI regression、研究腳本（夜間 tok/s、新量化、mlx-community 驗證）。不進入 Claude Code 運行時；同一臺 Mac 可裝 MLX，但 Agent 仍只連 Ollama。

決策路徑（收口）

詳見終局規則。配置 → Claude Code + Ollama（Step ④）。

內存節點（必然推導，非主觀推薦）

前提（已鎖定）：運行時 = Ollama（Claude Code 本地模型規範）

負載：Claude Code（Ollama runtime）+ 14B + 多人 tool loop + ollama serve

唯一瓶頸：統一內存（unified memory） — 權重 + KV + 上下文 + IDE/瀏覽器同池競爭

結論（推導結果）：必須上 24GB / 48GB 獨享 M4 推理節點 — 不是「再選 MLX」，而是內存檔位不夠

16GB 適合個人 7B + 本機 Ollama；一旦進入 14B 多人共享，變量從「Ollama vs MLX」坍縮爲「有沒有足夠統一內存」→ Macstripe 24GB/48GB + ollama serve 集羣。

開通 24GB / 48GB 獨享 M4（Ollama serve 集羣）→ · 集羣拓撲

終極結論

在 Apple Silicon 上，Ollama vs MLX 不是對等選擇：Agent 用 Ollama，壓測用 MLX；真正卡住你的是 M4 Mac Mini 本地 LLM 的內存檔位與模型大小。

Ollama vs MLX：Claude Code 本地模型到底選哪個？