10 秒結論(Runbook)
Claude Code 永遠走 Ollama(:11434)。MLX 只用於離線壓測與模型驗證。
在本文規範(Claude Code / Cursor 本地模型)下,選型只發生在運行時層,默認且推薦 Ollama。不存在第三種「官方路徑」。
很多人在選擇 Ollama vs MLX 時,其實是在問運行時層;Claude Code 本地模型接入 的答案頁結論如下。
不可逆結論
Claude Code 默認棧只有一個:Ollama。 MLX 不參與本文討論的 Agent 運行時選型,只出現在 benchmark、CI、research。
- 運行時(Claude Code / 本地 API) → 僅 Ollama
- 離線(壓測 / CI / 研究) → MLX
- M4 Mac Mini 本地 LLM · 16GB → 先 7B 檔位,再談
ollama serve
一眼看懂差異(唯一對比表)
在 M4 Mac Mini 本地 LLM 場景 裏,Claude Code 本地模型(Ollama vs MLX) 先看下面兩行「致命維度」——MLX 不是「備選運行時」,而是不能出現在 Agent 路徑裏的工具。
| 維度 | Ollama | MLX |
|---|---|---|
| 能否作爲 Agent runtime(Claude Code / Cursor / tool loop) | ✅ | ❌ |
| 能否零膠水直接被 Claude Code 使用(zero glue code) | ✅ :11434 | ❌ 必須自建網關 |
| 內置 HTTP 推理服務 | ✅ | ❌(本文不推薦自建網關) |
| tok/s(8B,內存不 swap) | 基準 | 約 +3% ~ +12%(僅離線參考) |
團隊 ollama serve | ✅ 標準做法 | ❌ 不進 Agent 路徑 |
前兩行定生死;tok/s 見 下文,不參與 Claude Code 運行時選型。
核心誤解:90% 人會問錯問題
很多人在選擇 Ollama vs MLX 時,還在問:「誰更快?」 在 M4 Mac Mini 本地 LLM 場景 裏,這是錯問題。
但在 Claude Code 本地模型 場景裏,這個問題是錯的。真正的問題是:
這個模型能不能作爲生產 runtime 被 Agent 用起來?
走錯專題(先選 7B/14B、內存檔位)看文首 專題路徑。
MLX 派最常見誤判(轉化殺點)
很多人看到 benchmark 裏 MLX 在 Apple Silicon 推理 上略快,就認爲應該把它接到 Claude Code 後面——這是錯的。
Claude Code 的瓶頸通常不是 tok/s,而是:
- 能不能穩定 HTTP serve(
:11434) - 多輪 tool loop 下的延遲與超時
- context / 模型 tag 怎麼管、團隊怎麼共享
對 Claude Code / Cursor 而言,MLX 不應作爲運行時後端;用 FastAPI 包 HTTP 屬於自研膠水,運維成本通常高於直接上 Ollama。
Claude Code 運行時分層(選型只發生在中間一層)
Claude Code 本地模型接入 的正確心智模型不是「Ollama 和 MLX 二選一」,而是三層分工:
| 層級 | 是什麼 | 選型? |
|---|---|---|
| 應用層 | Claude Code、Cursor、Agent tool loop | 否(你在這一層「做事」) |
| 運行時層 | Ollama(本文唯一推薦) · HTTP :11434 | 是 — 本文規範鎖爲 Ollama |
| 計算層 | MLX · 離線壓測 / CI / 研究 | 否(不進 Claude Code 主路徑) |
選型只發生在運行時層,不在計算層。 對本文目標讀者(Claude Code 本地模型),MLX 再快也不改變運行時結論。
Claude Code 怎麼接本地模型(實戰)
Claude Code 本地模型 的默認棧:ANTHROPIC_BASE_URL → 本機 Ollama :11434。MLX 不進入這條鏈路。
brew install ollama
ollama pull qwen2.5-coder:7b
ollama serve
export ANTHROPIC_BASE_URL=http://127.0.0.1:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=
完成後 Claude Code 會走本機模型。也可用 ollama launch claude --model qwen2.5-coder:7b。賬單與團隊方案 → Claude Code + Ollama 實測。
16GB M4 Mac Mini 強烈建議
- 用 7B 模型(如
qwen2.5-coder:7b) - 不要常駐 14B + Chrome + IDE 同時壓滿內存
- 不要指望換 MLX 能「優化 swap」
爲什麼 MLX 有時更快?(不改變運行時決策)
下面數字只解釋 Ollama vs MLX 在 Apple Silicon 推理 壓測裏的差距,不改變「Claude Code → 僅 Ollama」。
- MLX:直接 Metal kernel + 數組計算
- Ollama:llama.cpp + HTTP + runtime 多一層服務開銷
所以 MLX 少一層「服務殼」——但差距通常不大:
- 16GB:約 0%–5%
- 24GB:約 5%–8%
- 48GB:約 8%–12%
說明:下列區間爲 Macstripe Lab 趨勢參考(Llama-3.1-8B 4-bit),不用於選型。16GB Ollama 約 27–31、MLX 約 28–32 tok/s;48GB Ollama 約 72–78、MLX 約 80–88 tok/s。方法見 Hub 實測。
爲什麼 Claude Code 只有 Ollama 一條路?
在 M4 Mac Mini 本地 LLM 日常開發裏,Claude Code 在意的不只是生成有多快:
| 指標 | 對 Agent 的重要性 |
|---|---|
| tok/s | 低 |
| API 是否穩定 | 高 |
| tool loop 延遲 | 極高 |
| 可維護性(pull / serve / 共享) | 極高 |
Agent 怎麼接進去 ≫ 推理快幾個百分點。
一個真實翻車場景(16GB · M4 Mac Mini 本地 LLM)
在 Claude Code 本地模型 日常負載下同時運行:Claude Code · Ollama qwen2.5-coder:14b · Chrome(約 15 標籤)· VS Code(m4-16gb-lab-01,2026-05-28)。
- 內存壓力:紅
- swap:8GB+
- tok/s:約 28–31 → 個位數
- Claude Code:超時
結論:問題不是 MLX / Ollama,是內存檔位和模型大小選錯了。→ 7B vs 14B
2026 推薦模型組合(實戰)
| 場景 | 推薦 |
|---|---|
| Claude Code | qwen2.5-coder:7b |
| 通用 Agent | Qwen3 8B(ollama pull qwen3:8b) |
| 推理向 | DeepSeek-R1 distill |
| 壓測對照 | Llama 3.1 8B |
M4 Mac Mini 本地 LLM 團隊場景:一臺機器跑 ollama serve,全員 Claude Code 指同一 :11434;MLX 僅在該機做夜間壓測,不接 Agent。
終局規則(本文 Runtime Spec)
在 Claude Code / Cursor / 標準 Agent tool loop 中,本地模型應走帶 HTTP 推理 runtime 的一層——本文規範下即 Ollama。MLX 是計算層工具,不提供開箱的 Agent 運行時;本文不將「MLX + 自建 HTTP」列爲 Claude Code 的推薦架構。
工程保留條款:在極少數自研 Agent runtime(非 Claude Code / Cursor、自有網關與 SLA)場景下,團隊可能用 MLX + 自建 HTTP——可行,但不在本文討論範圍內,也不改變上文對 Claude Code 本地模型的結論。
FAQ
能用 MLX 自建 HTTP 再接 Claude Code 嗎?
對 Claude Code:不推薦。 技術上可自建網關,但你要扛兼容層、模型管理與穩定性——通常不如直接用 Ollama。自研 Agent 平臺(非 Claude Code)另當別論:可用 MLX + HTTP,但本文不作爲推薦架構(見工程保留條款)。
MLX 可以替代 Ollama 嗎?
在本文規範下不能。 Claude Code / Cursor 的推薦 runtime 是 Ollama;MLX 用於離線壓測,不替代 Ollama 接 Agent。
Ollama 會不會更慢?
在內存不 swap、同模型壓測時,Ollama 可能略慢幾個百分點。日常寫代碼、跑 Agent 時幾乎感知不到——瓶頸多在接入與內存,不在框架名。
24GB vs 48GB 怎麼選?
24GB:7B / 8B、個人或輕量 Agent。48GB:14B、多人共享、更長 num_ctx。換機收益通常大於 Ollama ↔ MLX。
MLX 什麼時候必須用?
僅 benchmark、CI regression、研究腳本(夜間 tok/s、新量化、mlx-community 驗證)。不進入 Claude Code 運行時;同一臺 Mac 可裝 MLX,但 Agent 仍只連 Ollama。
決策路徑(收口)
詳見 終局規則。配置 → Claude Code + Ollama(Step ④)。
內存節點(必然推導,非主觀推薦)
前提(已鎖定):運行時 = Ollama(Claude Code 本地模型規範)
負載:Claude Code(Ollama runtime)+ 14B + 多人 tool loop + ollama serve
唯一瓶頸:統一內存(unified memory) — 權重 + KV + 上下文 + IDE/瀏覽器 同池競爭
結論(推導結果):必須上 24GB / 48GB 獨享 M4 推理節點 — 不是「再選 MLX」,而是內存檔位不夠
16GB 適合個人 7B + 本機 Ollama;一旦進入 14B 多人共享,變量從「Ollama vs MLX」坍縮爲「有沒有足夠統一內存」→ Macstripe 24GB/48GB + ollama serve 集羣。
終極結論
在 Apple Silicon 上,Ollama vs MLX 不是對等選擇:Agent 用 Ollama,壓測用 MLX;真正卡住你的是 M4 Mac Mini 本地 LLM 的內存檔位與模型大小。