Ollama vs MLX：Claude Code 本地模型到底选哪个？（M4 Mac Mini 实测 2026）| Macstripe

Q: 能用 MLX 自建 HTTP 再接 Claude Code 吗？

对 Claude Code 不推荐；自研 Agent 平台极少数场景可用 MLX 加自建 HTTP，但不在本文推荐架构内。Claude Code 本地模型规范下应使用 Ollama runtime。

Q: MLX 可以替代 Ollama 吗？

不能替代 Agent 运行时。MLX 不能出现在 Claude Code 路径中；运行时层只有 Ollama。

Q: Ollama 会不会更慢？

同模型压测时可能略慢几个百分点；Agent 场景瓶颈在 HTTP 稳定性与内存，不在框架名。

Q: 24GB vs 48GB 怎么选？

运行时固定 Ollama 后，14B 与多人共享通常需要 24GB 或 48GB 统一内存节点。

Q: MLX 什么时候必须用？

仅 benchmark、CI regression、研究脚本；不进入 Claude Code 运行时。

10 秒结论（Runbook）

Claude Code 永远走 Ollama（:11434）。MLX 只用于离线压测与模型验证。

在本文规范（Claude Code / Cursor 本地模型）下，选型只发生在运行时层，默认且推荐 Ollama。不存在第三种「官方路径」。

很多人在选择 Ollama vs MLX 时，其实是在问运行时层；Claude Code 本地模型接入 的答案页结论如下。

不可逆结论

Claude Code 默认栈只有一个：Ollama。 MLX 不参与本文讨论的 Agent 运行时选型，只出现在 benchmark、CI、research。

运行时（Claude Code / 本地 API） → 仅 Ollama
离线（压测 / CI / 研究） → MLX
M4 Mac Mini 本地 LLM · 16GB → 先 7B 档位，再谈 ollama serve

一眼看懂差异（唯一对比表）

在 M4 Mac Mini 本地 LLM 场景 里，Claude Code 本地模型（Ollama vs MLX） 先看下面两行「致命维度」——MLX 不是「备选运行时」，而是不能出现在 Agent 路径里的工具。

维度	Ollama	MLX
能否作为 Agent runtime（Claude Code / Cursor / tool loop）	✅	❌
能否零胶水直接被 Claude Code 使用（zero glue code）	✅ `:11434`	❌ 必须自建网关
内置 HTTP 推理服务	✅	❌（本文不推荐自建网关）
tok/s（8B，内存不 swap）	基准	约 +3% ~ +12%（仅离线参考）
团队 `ollama serve`	✅ 标准做法	❌ 不进 Agent 路径

前两行定生死；tok/s 见下文，不参与 Claude Code 运行时选型。

核心误解：90% 人会问错问题

很多人在选择 Ollama vs MLX 时，还在问：「谁更快？」 在 M4 Mac Mini 本地 LLM 场景 里，这是错问题。

但在 Claude Code 本地模型 场景里，这个问题是错的。真正的问题是：

这个模型能不能作为生产 runtime 被 Agent 用起来？

走错专题（先选 7B/14B、内存档位）看文首专题路径。

MLX 派最常见误判（转化杀点）

很多人看到 benchmark 里 MLX 在 Apple Silicon 推理 上略快，就认为应该把它接到 Claude Code 后面——这是错的。

Claude Code 的瓶颈通常不是 tok/s，而是：

能不能稳定 HTTP serve（:11434）
多轮 tool loop 下的延迟与超时
context / 模型 tag 怎么管、团队怎么共享

对 Claude Code / Cursor 而言，MLX 不应作为运行时后端；用 FastAPI 包 HTTP 属于自研胶水，运维成本通常高于直接上 Ollama。

Claude Code 运行时分层（选型只发生在中间一层）

Claude Code 本地模型接入 的正确心智模型不是「Ollama 和 MLX 二选一」，而是三层分工：

层级	是什么	选型？
应用层	Claude Code、Cursor、Agent tool loop	否（你在这一层「做事」）
运行时层	Ollama（本文唯一推荐） · HTTP `:11434`	是 — 本文规范锁为 Ollama
计算层	MLX · 离线压测 / CI / 研究	否（不进 Claude Code 主路径）

选型只发生在运行时层，不在计算层。 对本文目标读者（Claude Code 本地模型），MLX 再快也不改变运行时结论。

三层模型：Claude Code → Ollama 运行时 → Apple Silicon；MLX 仅在离线压测支路 — 图 1 · 应用层 → 运行时层（Ollama）→ 硬件；MLX 不进入 Agent 主路径

Claude Code 怎么接本地模型（实战）

Claude Code 本地模型 的默认栈：ANTHROPIC_BASE_URL → 本机 Ollama :11434。MLX 不进入这条链路。

brew install ollama
ollama pull qwen2.5-coder:7b
ollama serve

export ANTHROPIC_BASE_URL=http://127.0.0.1:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=

完成后 Claude Code 会走本机模型。也可用 ollama launch claude --model qwen2.5-coder:7b。账单与团队方案 → Claude Code + Ollama 实测。

16GB M4 Mac Mini 强烈建议

用 7B 模型（如 qwen2.5-coder:7b）
不要常驻 14B + Chrome + IDE 同时压满内存
不要指望换 MLX 能「优化 swap」

为什么 MLX 有时更快？（不改变运行时决策）

下面数字只解释 Ollama vs MLX 在 Apple Silicon 推理 压测里的差距，不改变「Claude Code → 仅 Ollama」。

MLX：直接 Metal kernel + 数组计算
Ollama：llama.cpp + HTTP + runtime 多一层服务开销

所以 MLX 少一层「服务壳」——但差距通常不大：

16GB：约 0%–5%
24GB：约 5%–8%
48GB：约 8%–12%

说明：下列区间为 Macstripe Lab 趋势参考（Llama-3.1-8B 4-bit），不用于选型。16GB Ollama 约 27–31、MLX 约 28–32 tok/s；48GB Ollama 约 72–78、MLX 约 80–88 tok/s。方法见 Hub 实测。

为什么 Claude Code 只有 Ollama 一条路？

在 M4 Mac Mini 本地 LLM 日常开发里，Claude Code 在意的不只是生成有多快：

指标	对 Agent 的重要性
tok/s	低
API 是否稳定	高
tool loop 延迟	极高
可维护性（pull / serve / 共享）	极高

Agent 怎么接进去 ≫ 推理快几个百分点。

一个真实翻车场景（16GB · M4 Mac Mini 本地 LLM）

在 Claude Code 本地模型 日常负载下同时运行：Claude Code · Ollama qwen2.5-coder:14b · Chrome（约 15 标签）· VS Code（m4-16gb-lab-01，2026-05-28）。

内存压力：红
swap：8GB+
tok/s：约 28–31 → 个位数
Claude Code：超时

结论：问题不是 MLX / Ollama，是内存档位和模型大小选错了。→ 7B vs 14B

2026 推荐模型组合（实战）

场景	推荐
Claude Code	`qwen2.5-coder:7b`
通用 Agent	Qwen3 8B（`ollama pull qwen3:8b`）
推理向	DeepSeek-R1 distill
压测对照	Llama 3.1 8B

M4 Mac Mini 本地 LLM 团队场景：一台机器跑 ollama serve，全员 Claude Code 指同一 :11434；MLX 仅在该机做夜间压测，不接 Agent。

终局规则（本文 Runtime Spec）

在 Claude Code / Cursor / 标准 Agent tool loop 中，本地模型应走带 HTTP 推理 runtime 的一层——本文规范下即 Ollama。MLX 是计算层工具，不提供开箱的 Agent 运行时；本文不将「MLX + 自建 HTTP」列为 Claude Code 的推荐架构。

工程保留条款：在极少数自研 Agent runtime（非 Claude Code / Cursor、自有网关与 SLA）场景下，团队可能用 MLX + 自建 HTTP——可行，但不在本文讨论范围内，也不改变上文对 Claude Code 本地模型的结论。

FAQ

能用 MLX 自建 HTTP 再接 Claude Code 吗？

对 Claude Code：不推荐。 技术上可自建网关，但你要扛兼容层、模型管理与稳定性——通常不如直接用 Ollama。自研 Agent 平台（非 Claude Code）另当别论：可用 MLX + HTTP，但本文不作为推荐架构（见工程保留条款）。

MLX 可以替代 Ollama 吗？

在本文规范下不能。 Claude Code / Cursor 的推荐 runtime 是 Ollama；MLX 用于离线压测，不替代 Ollama 接 Agent。

Ollama 会不会更慢？

在内存不 swap、同模型压测时，Ollama 可能略慢几个百分点。日常写代码、跑 Agent 时几乎感知不到——瓶颈多在接入与内存，不在框架名。

24GB vs 48GB 怎么选？

24GB：7B / 8B、个人或轻量 Agent。48GB：14B、多人共享、更长 num_ctx。换机收益通常大于 Ollama ↔ MLX。

MLX 什么时候必须用？

仅 benchmark、CI regression、研究脚本（夜间 tok/s、新量化、mlx-community 验证）。不进入 Claude Code 运行时；同一台 Mac 可装 MLX，但 Agent 仍只连 Ollama。

决策路径（收口）

详见终局规则。配置 → Claude Code + Ollama（Step ④）。

内存节点（必然推导，非主观推荐）

前提（已锁定）：运行时 = Ollama（Claude Code 本地模型规范）

负载：Claude Code（Ollama runtime）+ 14B + 多人 tool loop + ollama serve

唯一瓶颈：统一内存（unified memory） — 权重 + KV + 上下文 + IDE/浏览器同池竞争

结论（推导结果）：必须上 24GB / 48GB 独享 M4 推理节点 — 不是「再选 MLX」，而是内存档位不够

16GB 适合个人 7B + 本机 Ollama；一旦进入 14B 多人共享，变量从「Ollama vs MLX」坍缩为「有没有足够统一内存」→ Macstripe 24GB/48GB + ollama serve 集群。

开通 24GB / 48GB 独享 M4（Ollama serve 集群）→ · 集群拓扑

终极结论

在 Apple Silicon 上，Ollama vs MLX 不是对等选择：Agent 用 Ollama，压测用 MLX；真正卡住你的是 M4 Mac Mini 本地 LLM 的内存档位与模型大小。

Ollama vs MLX：Claude Code 本地模型到底选哪个？

10 秒结论（Runbook）

一眼看懂差异（唯一对比表）

核心误解：90% 人会问错问题

MLX 派最常见误判（转化杀点）

Claude Code 运行时分层（选型只发生在中间一层）

Claude Code 怎么接本地模型（实战）

为什么 MLX 有时更快？（不改变运行时决策）

为什么 Claude Code 只有 Ollama 一条路？

一个真实翻车场景（16GB · M4 Mac Mini 本地 LLM）

2026 推荐模型组合（实战）

终局规则（本文 Runtime Spec）

FAQ

能用 MLX 自建 HTTP 再接 Claude Code 吗？

MLX 可以替代 Ollama 吗？

Ollama 会不会更慢？

24GB vs 48GB 怎么选？

MLX 什么时候必须用？

决策路径（收口）

内存节点（必然推导，非主观推荐）

终极结论

相关阅读

14B + 多人共享？先上 24GB / 48GB 独享 M4

10 秒结论（Runbook）

一眼看懂差异（唯一对比表）

核心误解：90% 人会问错问题

MLX 派最常见误判（转化杀点）

Claude Code 运行时分层（选型只发生在中间一层）

Claude Code 怎么接本地模型（实战）

为什么 MLX 有时更快？（不改变运行时决策）

为什么 Claude Code 只有 Ollama 一条路？

一个真实翻车场景（16GB · M4 Mac Mini 本地 LLM）

2026 推荐模型组合（实战）

终局规则（本文 Runtime Spec）

FAQ

能用 MLX 自建 HTTP 再接 Claude Code 吗？

MLX 可以替代 Ollama 吗？

Ollama 会不会更慢？

24GB vs 48GB 怎么选？

MLX 什么时候必须用？

决策路径（收口）

内存节点（必然推导，非主观推荐）

终极结论

相关阅读

14B + 多人共享？先上 24GB / 48GB 独享 M4

选择语言