Apple Silicon 上 Ollama 与 MLX 本地大模型推理选型

10 秒结论(Runbook)

Claude Code 永远走 Ollama(:11434)。MLX 只用于离线压测与模型验证。

本文规范(Claude Code / Cursor 本地模型)下,选型只发生在运行时层,默认且推荐 Ollama。不存在第三种「官方路径」。

很多人在选择 Ollama vs MLX 时,其实是在问运行时层;Claude Code 本地模型接入 的答案页结论如下。

不可逆结论

Claude Code 默认栈只有一个:Ollama。 MLX 不参与本文讨论的 Agent 运行时选型,只出现在 benchmark、CI、research。

  • 运行时(Claude Code / 本地 API) → 仅 Ollama
  • 离线(压测 / CI / 研究)MLX
  • M4 Mac Mini 本地 LLM · 16GB → 先 7B 档位,再谈 ollama serve

一眼看懂差异(唯一对比表)

M4 Mac Mini 本地 LLM 场景 里,Claude Code 本地模型(Ollama vs MLX) 先看下面两行「致命维度」——MLX 不是「备选运行时」,而是不能出现在 Agent 路径里的工具。

维度OllamaMLX
能否作为 Agent runtime(Claude Code / Cursor / tool loop)
能否零胶水直接被 Claude Code 使用(zero glue code) :11434 必须自建网关
内置 HTTP 推理服务❌(本文不推荐自建网关)
tok/s(8B,内存不 swap)基准约 +3% ~ +12%(仅离线参考)
团队 ollama serve✅ 标准做法❌ 不进 Agent 路径

前两行定生死;tok/s 见 下文不参与 Claude Code 运行时选型

核心误解:90% 人会问错问题

很多人在选择 Ollama vs MLX 时,还在问:「谁更快?」M4 Mac Mini 本地 LLM 场景 里,这是错问题。

但在 Claude Code 本地模型 场景里,这个问题是错的。真正的问题是:

这个模型能不能作为生产 runtime 被 Agent 用起来?

走错专题(先选 7B/14B、内存档位)看文首 专题路径

MLX 派最常见误判(转化杀点)

很多人看到 benchmark 里 MLX 在 Apple Silicon 推理 上略快,就认为应该把它接到 Claude Code 后面——这是错的

Claude Code 的瓶颈通常不是 tok/s,而是:

  • 能不能稳定 HTTP serve:11434
  • 多轮 tool loop 下的延迟与超时
  • context / 模型 tag 怎么管、团队怎么共享

Claude Code / Cursor 而言,MLX 不应作为运行时后端;用 FastAPI 包 HTTP 属于自研胶水,运维成本通常高于直接上 Ollama。

Claude Code 运行时分层(选型只发生在中间一层)

Claude Code 本地模型接入 的正确心智模型不是「Ollama 和 MLX 二选一」,而是三层分工:

层级是什么选型?
应用层Claude Code、Cursor、Agent tool loop否(你在这一层「做事」)
运行时层Ollama(本文唯一推荐) · HTTP :11434是 — 本文规范锁为 Ollama
计算层MLX · 离线压测 / CI / 研究否(不进 Claude Code 主路径)

选型只发生在运行时层,不在计算层。 对本文目标读者(Claude Code 本地模型),MLX 再快也不改变运行时结论。

三层模型:Claude Code → Ollama 运行时 → Apple Silicon;MLX 仅在离线压测支路
图 1 · 应用层 → 运行时层(Ollama)→ 硬件;MLX 不进入 Agent 主路径

Claude Code 怎么接本地模型(实战)

Claude Code 本地模型 的默认栈:ANTHROPIC_BASE_URL → 本机 Ollama :11434。MLX 不进入这条链路。

brew install ollama
ollama pull qwen2.5-coder:7b
ollama serve
export ANTHROPIC_BASE_URL=http://127.0.0.1:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=

完成后 Claude Code 会走本机模型。也可用 ollama launch claude --model qwen2.5-coder:7b。账单与团队方案 → Claude Code + Ollama 实测

16GB M4 Mac Mini 强烈建议

  • 7B 模型(如 qwen2.5-coder:7b
  • 不要常驻 14B + Chrome + IDE 同时压满内存
  • 不要指望换 MLX 能「优化 swap」

为什么 MLX 有时更快?(不改变运行时决策)

下面数字只解释 Ollama vs MLXApple Silicon 推理 压测里的差距,不改变「Claude Code → 仅 Ollama」。

  • MLX:直接 Metal kernel + 数组计算
  • Ollama:llama.cpp + HTTP + runtime 多一层服务开销

所以 MLX 少一层「服务壳」——但差距通常不大:

  • 16GB:约 0%–5%
  • 24GB:约 5%–8%
  • 48GB:约 8%–12%

说明:下列区间为 Macstripe Lab 趋势参考(Llama-3.1-8B 4-bit),不用于选型。16GB Ollama 约 27–31、MLX 约 28–32 tok/s;48GB Ollama 约 72–78、MLX 约 80–88 tok/s。方法见 Hub 实测

为什么 Claude Code 只有 Ollama 一条路?

M4 Mac Mini 本地 LLM 日常开发里,Claude Code 在意的不只是生成有多快:

指标对 Agent 的重要性
tok/s
API 是否稳定
tool loop 延迟极高
可维护性(pull / serve / 共享)极高

Agent 怎么接进去 ≫ 推理快几个百分点。

一个真实翻车场景(16GB · M4 Mac Mini 本地 LLM)

Claude Code 本地模型 日常负载下同时运行:Claude Code · Ollama qwen2.5-coder:14b · Chrome(约 15 标签)· VS Code(m4-16gb-lab-01,2026-05-28)。

  • 内存压力:红
  • swap:8GB+
  • tok/s:约 28–31 → 个位数
  • Claude Code:超时

结论:问题不是 MLX / Ollama,是内存档位和模型大小选错了。→ 7B vs 14B

2026 推荐模型组合(实战)

场景推荐
Claude Codeqwen2.5-coder:7b
通用 AgentQwen3 8B(ollama pull qwen3:8b
推理向DeepSeek-R1 distill
压测对照Llama 3.1 8B

M4 Mac Mini 本地 LLM 团队场景:一台机器跑 ollama serve,全员 Claude Code 指同一 :11434;MLX 仅在该机做夜间压测,不接 Agent。

终局规则(本文 Runtime Spec)

Claude Code / Cursor / 标准 Agent tool loop 中,本地模型应走带 HTTP 推理 runtime 的一层——本文规范下即 OllamaMLX 是计算层工具,不提供开箱的 Agent 运行时;本文不将「MLX + 自建 HTTP」列为 Claude Code 的推荐架构。

工程保留条款:在极少数自研 Agent runtime(非 Claude Code / Cursor、自有网关与 SLA)场景下,团队可能用 MLX + 自建 HTTP——可行,但不在本文讨论范围内,也不改变上文对 Claude Code 本地模型的结论。

FAQ

能用 MLX 自建 HTTP 再接 Claude Code 吗?

对 Claude Code:不推荐。 技术上可自建网关,但你要扛兼容层、模型管理与稳定性——通常不如直接用 Ollama。自研 Agent 平台(非 Claude Code)另当别论:可用 MLX + HTTP,但本文不作为推荐架构(见工程保留条款)。

MLX 可以替代 Ollama 吗?

在本文规范下不能。 Claude Code / Cursor 的推荐 runtime 是 Ollama;MLX 用于离线压测,不替代 Ollama 接 Agent。

Ollama 会不会更慢?

内存不 swap、同模型压测时,Ollama 可能略慢几个百分点。日常写代码、跑 Agent 时几乎感知不到——瓶颈多在接入与内存,不在框架名。

24GB vs 48GB 怎么选?

24GB:7B / 8B、个人或轻量 Agent。48GB:14B、多人共享、更长 num_ctx。换机收益通常大于 Ollama ↔ MLX。

MLX 什么时候必须用?

benchmark、CI regression、研究脚本(夜间 tok/s、新量化、mlx-community 验证)。不进入 Claude Code 运行时;同一台 Mac 可装 MLX,但 Agent 仍只连 Ollama。

决策路径(收口)

详见 终局规则。配置 → Claude Code + OllamaStep ④)。

内存节点(必然推导,非主观推荐)

前提(已锁定):运行时 = Ollama(Claude Code 本地模型规范)

负载:Claude Code(Ollama runtime)+ 14B + 多人 tool loop + ollama serve

唯一瓶颈:统一内存(unified memory) — 权重 + KV + 上下文 + IDE/浏览器 同池竞争

结论(推导结果):必须上 24GB / 48GB 独享 M4 推理节点 — 不是「再选 MLX」,而是内存档位不够

16GB 适合个人 7B + 本机 Ollama;一旦进入 14B 多人共享,变量从「Ollama vs MLX」坍缩为「有没有足够统一内存」→ Macstripe 24GB/48GB + ollama serve 集群

开通 24GB / 48GB 独享 M4(Ollama serve 集群)→ · 集群拓扑

终极结论

Apple Silicon 上,Ollama vs MLX 不是对等选择:Agent 用 Ollama,压测用 MLX;真正卡住你的是 M4 Mac Mini 本地 LLM内存档位与模型大小

相关阅读