Apple Silicon 上 Ollama 與 MLX 本地大模型推理選型

10 秒結論(Runbook)

Claude Code 永遠走 Ollama(:11434)。MLX 只用於離線壓測與模型驗證。

本文規範(Claude Code / Cursor 本地模型)下,選型只發生在運行時層,默認且推薦 Ollama。不存在第三種「官方路徑」。

很多人在選擇 Ollama vs MLX 時,其實是在問運行時層;Claude Code 本地模型接入 的答案頁結論如下。

不可逆結論

Claude Code 默認棧只有一個:Ollama。 MLX 不參與本文討論的 Agent 運行時選型,只出現在 benchmark、CI、research。

  • 運行時(Claude Code / 本地 API) → 僅 Ollama
  • 離線(壓測 / CI / 研究)MLX
  • M4 Mac Mini 本地 LLM · 16GB → 先 7B 檔位,再談 ollama serve

一眼看懂差異(唯一對比表)

M4 Mac Mini 本地 LLM 場景 裏,Claude Code 本地模型(Ollama vs MLX) 先看下面兩行「致命維度」——MLX 不是「備選運行時」,而是不能出現在 Agent 路徑裏的工具。

維度OllamaMLX
能否作爲 Agent runtime(Claude Code / Cursor / tool loop)
能否零膠水直接被 Claude Code 使用(zero glue code) :11434 必須自建網關
內置 HTTP 推理服務❌(本文不推薦自建網關)
tok/s(8B,內存不 swap)基準約 +3% ~ +12%(僅離線參考)
團隊 ollama serve✅ 標準做法❌ 不進 Agent 路徑

前兩行定生死;tok/s 見 下文不參與 Claude Code 運行時選型

核心誤解:90% 人會問錯問題

很多人在選擇 Ollama vs MLX 時,還在問:「誰更快?」M4 Mac Mini 本地 LLM 場景 裏,這是錯問題。

但在 Claude Code 本地模型 場景裏,這個問題是錯的。真正的問題是:

這個模型能不能作爲生產 runtime 被 Agent 用起來?

走錯專題(先選 7B/14B、內存檔位)看文首 專題路徑

MLX 派最常見誤判(轉化殺點)

很多人看到 benchmark 裏 MLX 在 Apple Silicon 推理 上略快,就認爲應該把它接到 Claude Code 後面——這是錯的

Claude Code 的瓶頸通常不是 tok/s,而是:

  • 能不能穩定 HTTP serve:11434
  • 多輪 tool loop 下的延遲與超時
  • context / 模型 tag 怎麼管、團隊怎麼共享

Claude Code / Cursor 而言,MLX 不應作爲運行時後端;用 FastAPI 包 HTTP 屬於自研膠水,運維成本通常高於直接上 Ollama。

Claude Code 運行時分層(選型只發生在中間一層)

Claude Code 本地模型接入 的正確心智模型不是「Ollama 和 MLX 二選一」,而是三層分工:

層級是什麼選型?
應用層Claude Code、Cursor、Agent tool loop否(你在這一層「做事」)
運行時層Ollama(本文唯一推薦) · HTTP :11434是 — 本文規範鎖爲 Ollama
計算層MLX · 離線壓測 / CI / 研究否(不進 Claude Code 主路徑)

選型只發生在運行時層,不在計算層。 對本文目標讀者(Claude Code 本地模型),MLX 再快也不改變運行時結論。

三層模型:Claude Code → Ollama 運行時 → Apple Silicon;MLX 僅在離線壓測支路
圖 1 · 應用層 → 運行時層(Ollama)→ 硬件;MLX 不進入 Agent 主路徑

Claude Code 怎麼接本地模型(實戰)

Claude Code 本地模型 的默認棧:ANTHROPIC_BASE_URL → 本機 Ollama :11434。MLX 不進入這條鏈路。

brew install ollama
ollama pull qwen2.5-coder:7b
ollama serve
export ANTHROPIC_BASE_URL=http://127.0.0.1:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=

完成後 Claude Code 會走本機模型。也可用 ollama launch claude --model qwen2.5-coder:7b。賬單與團隊方案 → Claude Code + Ollama 實測

16GB M4 Mac Mini 強烈建議

  • 7B 模型(如 qwen2.5-coder:7b
  • 不要常駐 14B + Chrome + IDE 同時壓滿內存
  • 不要指望換 MLX 能「優化 swap」

爲什麼 MLX 有時更快?(不改變運行時決策)

下面數字只解釋 Ollama vs MLXApple Silicon 推理 壓測裏的差距,不改變「Claude Code → 僅 Ollama」。

  • MLX:直接 Metal kernel + 數組計算
  • Ollama:llama.cpp + HTTP + runtime 多一層服務開銷

所以 MLX 少一層「服務殼」——但差距通常不大:

  • 16GB:約 0%–5%
  • 24GB:約 5%–8%
  • 48GB:約 8%–12%

說明:下列區間爲 Macstripe Lab 趨勢參考(Llama-3.1-8B 4-bit),不用於選型。16GB Ollama 約 27–31、MLX 約 28–32 tok/s;48GB Ollama 約 72–78、MLX 約 80–88 tok/s。方法見 Hub 實測

爲什麼 Claude Code 只有 Ollama 一條路?

M4 Mac Mini 本地 LLM 日常開發裏,Claude Code 在意的不只是生成有多快:

指標對 Agent 的重要性
tok/s
API 是否穩定
tool loop 延遲極高
可維護性(pull / serve / 共享)極高

Agent 怎麼接進去 ≫ 推理快幾個百分點。

一個真實翻車場景(16GB · M4 Mac Mini 本地 LLM)

Claude Code 本地模型 日常負載下同時運行:Claude Code · Ollama qwen2.5-coder:14b · Chrome(約 15 標籤)· VS Code(m4-16gb-lab-01,2026-05-28)。

  • 內存壓力:紅
  • swap:8GB+
  • tok/s:約 28–31 → 個位數
  • Claude Code:超時

結論:問題不是 MLX / Ollama,是內存檔位和模型大小選錯了。→ 7B vs 14B

2026 推薦模型組合(實戰)

場景推薦
Claude Codeqwen2.5-coder:7b
通用 AgentQwen3 8B(ollama pull qwen3:8b
推理向DeepSeek-R1 distill
壓測對照Llama 3.1 8B

M4 Mac Mini 本地 LLM 團隊場景:一臺機器跑 ollama serve,全員 Claude Code 指同一 :11434;MLX 僅在該機做夜間壓測,不接 Agent。

終局規則(本文 Runtime Spec)

Claude Code / Cursor / 標準 Agent tool loop 中,本地模型應走帶 HTTP 推理 runtime 的一層——本文規範下即 OllamaMLX 是計算層工具,不提供開箱的 Agent 運行時;本文不將「MLX + 自建 HTTP」列爲 Claude Code 的推薦架構。

工程保留條款:在極少數自研 Agent runtime(非 Claude Code / Cursor、自有網關與 SLA)場景下,團隊可能用 MLX + 自建 HTTP——可行,但不在本文討論範圍內,也不改變上文對 Claude Code 本地模型的結論。

FAQ

能用 MLX 自建 HTTP 再接 Claude Code 嗎?

對 Claude Code:不推薦。 技術上可自建網關,但你要扛兼容層、模型管理與穩定性——通常不如直接用 Ollama。自研 Agent 平臺(非 Claude Code)另當別論:可用 MLX + HTTP,但本文不作爲推薦架構(見工程保留條款)。

MLX 可以替代 Ollama 嗎?

在本文規範下不能。 Claude Code / Cursor 的推薦 runtime 是 Ollama;MLX 用於離線壓測,不替代 Ollama 接 Agent。

Ollama 會不會更慢?

內存不 swap、同模型壓測時,Ollama 可能略慢幾個百分點。日常寫代碼、跑 Agent 時幾乎感知不到——瓶頸多在接入與內存,不在框架名。

24GB vs 48GB 怎麼選?

24GB:7B / 8B、個人或輕量 Agent。48GB:14B、多人共享、更長 num_ctx。換機收益通常大於 Ollama ↔ MLX。

MLX 什麼時候必須用?

benchmark、CI regression、研究腳本(夜間 tok/s、新量化、mlx-community 驗證)。不進入 Claude Code 運行時;同一臺 Mac 可裝 MLX,但 Agent 仍只連 Ollama。

決策路徑(收口)

詳見 終局規則。配置 → Claude Code + OllamaStep ④)。

內存節點(必然推導,非主觀推薦)

前提(已鎖定):運行時 = Ollama(Claude Code 本地模型規範)

負載:Claude Code(Ollama runtime)+ 14B + 多人 tool loop + ollama serve

唯一瓶頸:統一內存(unified memory) — 權重 + KV + 上下文 + IDE/瀏覽器 同池競爭

結論(推導結果):必須上 24GB / 48GB 獨享 M4 推理節點 — 不是「再選 MLX」,而是內存檔位不夠

16GB 適合個人 7B + 本機 Ollama;一旦進入 14B 多人共享,變量從「Ollama vs MLX」坍縮爲「有沒有足夠統一內存」→ Macstripe 24GB/48GB + ollama serve 集羣

開通 24GB / 48GB 獨享 M4(Ollama serve 集羣)→ · 集羣拓撲

終極結論

Apple Silicon 上,Ollama vs MLX 不是對等選擇:Agent 用 Ollama,壓測用 MLX;真正卡住你的是 M4 Mac Mini 本地 LLM內存檔位與模型大小

相關閱讀