10 秒结论(Runbook)
Claude Code 永远走 Ollama(:11434)。MLX 只用于离线压测与模型验证。
在本文规范(Claude Code / Cursor 本地模型)下,选型只发生在运行时层,默认且推荐 Ollama。不存在第三种「官方路径」。
很多人在选择 Ollama vs MLX 时,其实是在问运行时层;Claude Code 本地模型接入 的答案页结论如下。
不可逆结论
Claude Code 默认栈只有一个:Ollama。 MLX 不参与本文讨论的 Agent 运行时选型,只出现在 benchmark、CI、research。
- 运行时(Claude Code / 本地 API) → 仅 Ollama
- 离线(压测 / CI / 研究) → MLX
- M4 Mac Mini 本地 LLM · 16GB → 先 7B 档位,再谈
ollama serve
一眼看懂差异(唯一对比表)
在 M4 Mac Mini 本地 LLM 场景 里,Claude Code 本地模型(Ollama vs MLX) 先看下面两行「致命维度」——MLX 不是「备选运行时」,而是不能出现在 Agent 路径里的工具。
| 维度 | Ollama | MLX |
|---|---|---|
| 能否作为 Agent runtime(Claude Code / Cursor / tool loop) | ✅ | ❌ |
| 能否零胶水直接被 Claude Code 使用(zero glue code) | ✅ :11434 | ❌ 必须自建网关 |
| 内置 HTTP 推理服务 | ✅ | ❌(本文不推荐自建网关) |
| tok/s(8B,内存不 swap) | 基准 | 约 +3% ~ +12%(仅离线参考) |
团队 ollama serve | ✅ 标准做法 | ❌ 不进 Agent 路径 |
前两行定生死;tok/s 见 下文,不参与 Claude Code 运行时选型。
核心误解:90% 人会问错问题
很多人在选择 Ollama vs MLX 时,还在问:「谁更快?」 在 M4 Mac Mini 本地 LLM 场景 里,这是错问题。
但在 Claude Code 本地模型 场景里,这个问题是错的。真正的问题是:
这个模型能不能作为生产 runtime 被 Agent 用起来?
走错专题(先选 7B/14B、内存档位)看文首 专题路径。
MLX 派最常见误判(转化杀点)
很多人看到 benchmark 里 MLX 在 Apple Silicon 推理 上略快,就认为应该把它接到 Claude Code 后面——这是错的。
Claude Code 的瓶颈通常不是 tok/s,而是:
- 能不能稳定 HTTP serve(
:11434) - 多轮 tool loop 下的延迟与超时
- context / 模型 tag 怎么管、团队怎么共享
对 Claude Code / Cursor 而言,MLX 不应作为运行时后端;用 FastAPI 包 HTTP 属于自研胶水,运维成本通常高于直接上 Ollama。
Claude Code 运行时分层(选型只发生在中间一层)
Claude Code 本地模型接入 的正确心智模型不是「Ollama 和 MLX 二选一」,而是三层分工:
| 层级 | 是什么 | 选型? |
|---|---|---|
| 应用层 | Claude Code、Cursor、Agent tool loop | 否(你在这一层「做事」) |
| 运行时层 | Ollama(本文唯一推荐) · HTTP :11434 | 是 — 本文规范锁为 Ollama |
| 计算层 | MLX · 离线压测 / CI / 研究 | 否(不进 Claude Code 主路径) |
选型只发生在运行时层,不在计算层。 对本文目标读者(Claude Code 本地模型),MLX 再快也不改变运行时结论。
Claude Code 怎么接本地模型(实战)
Claude Code 本地模型 的默认栈:ANTHROPIC_BASE_URL → 本机 Ollama :11434。MLX 不进入这条链路。
brew install ollama
ollama pull qwen2.5-coder:7b
ollama serve
export ANTHROPIC_BASE_URL=http://127.0.0.1:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=
完成后 Claude Code 会走本机模型。也可用 ollama launch claude --model qwen2.5-coder:7b。账单与团队方案 → Claude Code + Ollama 实测。
16GB M4 Mac Mini 强烈建议
- 用 7B 模型(如
qwen2.5-coder:7b) - 不要常驻 14B + Chrome + IDE 同时压满内存
- 不要指望换 MLX 能「优化 swap」
为什么 MLX 有时更快?(不改变运行时决策)
下面数字只解释 Ollama vs MLX 在 Apple Silicon 推理 压测里的差距,不改变「Claude Code → 仅 Ollama」。
- MLX:直接 Metal kernel + 数组计算
- Ollama:llama.cpp + HTTP + runtime 多一层服务开销
所以 MLX 少一层「服务壳」——但差距通常不大:
- 16GB:约 0%–5%
- 24GB:约 5%–8%
- 48GB:约 8%–12%
说明:下列区间为 Macstripe Lab 趋势参考(Llama-3.1-8B 4-bit),不用于选型。16GB Ollama 约 27–31、MLX 约 28–32 tok/s;48GB Ollama 约 72–78、MLX 约 80–88 tok/s。方法见 Hub 实测。
为什么 Claude Code 只有 Ollama 一条路?
在 M4 Mac Mini 本地 LLM 日常开发里,Claude Code 在意的不只是生成有多快:
| 指标 | 对 Agent 的重要性 |
|---|---|
| tok/s | 低 |
| API 是否稳定 | 高 |
| tool loop 延迟 | 极高 |
| 可维护性(pull / serve / 共享) | 极高 |
Agent 怎么接进去 ≫ 推理快几个百分点。
一个真实翻车场景(16GB · M4 Mac Mini 本地 LLM)
在 Claude Code 本地模型 日常负载下同时运行:Claude Code · Ollama qwen2.5-coder:14b · Chrome(约 15 标签)· VS Code(m4-16gb-lab-01,2026-05-28)。
- 内存压力:红
- swap:8GB+
- tok/s:约 28–31 → 个位数
- Claude Code:超时
结论:问题不是 MLX / Ollama,是内存档位和模型大小选错了。→ 7B vs 14B
2026 推荐模型组合(实战)
| 场景 | 推荐 |
|---|---|
| Claude Code | qwen2.5-coder:7b |
| 通用 Agent | Qwen3 8B(ollama pull qwen3:8b) |
| 推理向 | DeepSeek-R1 distill |
| 压测对照 | Llama 3.1 8B |
M4 Mac Mini 本地 LLM 团队场景:一台机器跑 ollama serve,全员 Claude Code 指同一 :11434;MLX 仅在该机做夜间压测,不接 Agent。
终局规则(本文 Runtime Spec)
在 Claude Code / Cursor / 标准 Agent tool loop 中,本地模型应走带 HTTP 推理 runtime 的一层——本文规范下即 Ollama。MLX 是计算层工具,不提供开箱的 Agent 运行时;本文不将「MLX + 自建 HTTP」列为 Claude Code 的推荐架构。
工程保留条款:在极少数自研 Agent runtime(非 Claude Code / Cursor、自有网关与 SLA)场景下,团队可能用 MLX + 自建 HTTP——可行,但不在本文讨论范围内,也不改变上文对 Claude Code 本地模型的结论。
FAQ
能用 MLX 自建 HTTP 再接 Claude Code 吗?
对 Claude Code:不推荐。 技术上可自建网关,但你要扛兼容层、模型管理与稳定性——通常不如直接用 Ollama。自研 Agent 平台(非 Claude Code)另当别论:可用 MLX + HTTP,但本文不作为推荐架构(见工程保留条款)。
MLX 可以替代 Ollama 吗?
在本文规范下不能。 Claude Code / Cursor 的推荐 runtime 是 Ollama;MLX 用于离线压测,不替代 Ollama 接 Agent。
Ollama 会不会更慢?
在内存不 swap、同模型压测时,Ollama 可能略慢几个百分点。日常写代码、跑 Agent 时几乎感知不到——瓶颈多在接入与内存,不在框架名。
24GB vs 48GB 怎么选?
24GB:7B / 8B、个人或轻量 Agent。48GB:14B、多人共享、更长 num_ctx。换机收益通常大于 Ollama ↔ MLX。
MLX 什么时候必须用?
仅 benchmark、CI regression、研究脚本(夜间 tok/s、新量化、mlx-community 验证)。不进入 Claude Code 运行时;同一台 Mac 可装 MLX,但 Agent 仍只连 Ollama。
决策路径(收口)
详见 终局规则。配置 → Claude Code + Ollama(Step ④)。
内存节点(必然推导,非主观推荐)
前提(已锁定):运行时 = Ollama(Claude Code 本地模型规范)
负载:Claude Code(Ollama runtime)+ 14B + 多人 tool loop + ollama serve
唯一瓶颈:统一内存(unified memory) — 权重 + KV + 上下文 + IDE/浏览器 同池竞争
结论(推导结果):必须上 24GB / 48GB 独享 M4 推理节点 — 不是「再选 MLX」,而是内存档位不够
16GB 适合个人 7B + 本机 Ollama;一旦进入 14B 多人共享,变量从「Ollama vs MLX」坍缩为「有没有足够统一内存」→ Macstripe 24GB/48GB + ollama serve 集群。
终极结论
在 Apple Silicon 上,Ollama vs MLX 不是对等选择:Agent 用 Ollama,压测用 MLX;真正卡住你的是 M4 Mac Mini 本地 LLM 的内存档位与模型大小。