很多人单独搜 Claude Code、单独搜 Ollama,但真正能落地、又和 Macstripe 业务相关的问题是:如何在 M4 Mac Mini 上搭建本地 AI Agent? 2026 年常见答案是:Claude Code 做 Agent 编排(读仓库、跑命令、改文件),Ollama 在 Apple Silicon 上跑开源模型(按机器成本计费,而不是按 Token 堆云账单)。
本文先给成本与速度实测(你最关心的「值不值」),再给架构与配置步骤。若你负责团队基建,文末还有云 Mac 推理节点部署要点。
M4 Mac Mini 本地 LLM 决策路线图
本篇是专题 Step 4:前面三篇解决「买什么、选什么模型、选什么框架」——本文解决「真的跑起来并省 API」。若你刚搜到 Claude Code,建议先确认 Ollama vs MLX:Claude Code 本地模型应该选哪个?(M4 Mac Mini 实测)。
| 步骤 | 文章 | 状态 |
|---|---|---|
| Step 1 | Hub · 能跑哪些模型 | 已读可跳过 |
| Step 2 | 7B vs 14B | 选 qwen2.5-coder:7b 或 14b |
| Step 3 | Ollama vs MLX | 确认用 Ollama |
| Step 4 | 本文 | Claude Code + Ollama 配置与成本 |
一、实测结果:账单能省多少、速度够不够
下面数据来自 Macstripe 团队在独享 M4 Mac Mini(24GB 统一内存)上的 Ollama 压测,以及一家8 人后端试点迁移到「Claude Code + 内网 Ollama」后的账单复盘(2026 年 4–5 月,混合方案)。你的用量会不同,但量级可供决策参考。
1.1 试点约一个月后:API 账单变化(示意)
| 项目 | 迁移前(纯云 API) | 迁移后(本地为主) | 变化 |
|---|---|---|---|
| Claude / 同类 API 按量 | 约 $300/月 | 约 $50/月(仅架构评审等) | 约 −83% |
| 推理算力 | 含在 API 内 | 1 台 M4 Mac Mini 云租 + 电费 | 固定成本、可预测 |
| 数据出境 | 默认出网 | 日常 Agent 不出内网 | 合规友好 |
省下的主要是高频、重复性 Agent 调用(改测试、批量重构、文档摘要)。若团队每人每天多轮「全仓架构级」Agent,仍应保留云端强模型预算,否则总耗时可能反升。
1.2 M4 Mac Mini 推理速度(Ollama,4-bit 量化)
| 模型 | 生成速度(约) | 首 Token 延迟 | 日常 Agent 体感 |
|---|---|---|---|
| Qwen2.5-Coder 7B | ~25 token/s | ~200 ms | 改单模块、写测试足够 |
| Qwen2.5-Coder 14B | ~15 token/s | ~280 ms | 质量更好,适合稍复杂任务 |
| glm-4.7-flash(9GB 级) | ~30 token/s | ~170 ms | 偏速度,适合短问答 |
测试条件:M4 Mac Mini 24GB、macOS 15.x、Ollama 0.14+、Prompt 约 2k tokens 续写。16GB 机型跑 14B 易触发 swap,建议团队推理机优先 24GB 起。同硬件下 MLX 通常再快约 10%–15%,见对比文。
1.3 并发与稳定性(团队共享一台推理机)
- 24GB + 7B 模型:2–3 人同时轻度 Agent(只读小目录)可接受;第 4 人起延迟明显上升。
- 24GB + 14B 模型:建议同时仅 1 个重度 Agent,其余排队或降级 7B。
- 一个月观察:试点团队 Agent 成功率(一次通过测试)从约 55% 提到约 68%——主要因为 64K 上下文减少「半截丢文件」重试,而非模型变「更聪明」。
二、为什么越来越多开发者用 Ollama 替代 API
Claude Code 是 Anthropic 的终端 Agent:能在项目目录里搜索、编辑、执行 bash、提交 PR。默认走云端 Claude API,重度 Agent 一周烧掉的额度可能接近一笔订阅费的几倍。把端点改到 Ollama 后,同一套 Agent 能力改由本机或内网模型推理——固定成本(机器 + 电费)替代按 Token 计价。
| 方案 | 典型月成本体感 | 数据是否出网 | 适合场景 |
|---|---|---|---|
| 纯 Claude Code(云) | 订阅 + 超额 API | 是(除非企业私有部署) | 复杂推理、长链路架构 |
| Claude Code + Ollama(本地) | 硬件/云 Mac 租费 | 可完全内网 | 日常改码、批量重构、敏感仓库 |
| 混合:本地为主 + 云兜底 | 低于纯云 Max 档 | 按需 | 多数工程团队推荐 |
三、工作流架构(图示)
claude(Claude Code)与 Agent Skills 可叠加:Skills 规定「先对齐再写码」,Claude Code 负责执行,Ollama 负责「每次调用的模型算力」。
四、在 M4 Mac Mini 上 10 分钟跑通
下列步骤在本机或云 Mac 上的 M4 Mac Mini 相同;以下以 Ollama 官方 Claude Code 集成 为准,Apple Silicon 建议 Homebrew 安装。
4.1 安装 Ollama 并拉模型
brew install ollama
ollama pull qwen2.5-coder:7b
# 或:ollama pull glm-4.7-flash(体积与速度平衡,以 ollama.com 当前库为准)
4.2 扩展上下文到 64K+(强烈建议)
Claude Code 作为 Agent 会反复塞入仓库片段;上下文不足会导致截断、循环重试,反而更慢更费。若模型默认 context 较小,写 Modelfile:
cat > Modelfile <<'EOF'
FROM qwen2.5-coder:7b
PARAMETER num_ctx 65536
EOF
ollama create qwen2.5-coder-agent -f Modelfile
4.3 连接 Claude Code(两种方式)
方式 A(推荐):Ollama 0.14.5+ 一键启动
ollama launch claude --model qwen2.5-coder-agent
方式 B:手动环境变量(适合写入 ~/.zshrc 或项目 .claude/settings.json)
export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
claude --model qwen2.5-coder-agent
项目级仅本仓库走本地时,可在仓库根目录配置 .claude/settings.json 写入上述变量,避免影响其他项目。
4.4 验收清单
ollama ps能看到模型已加载。- Claude Code 能读取
README并给出基于仓库的回答。 - 让它跑
npm test/pytest等,确认 bash 工具链正常。 - 观察内存:16GB Mac 同时开 Xcode + 7B 模型易.swap,建议推理与构建分机。
五、任务分流:什么给本地、什么给云端
| 任务类型 | 建议引擎 | 原因 |
|---|---|---|
| 单文件补全、小范围重构 | Ollama 本地 | 高频、可接受偶发失误 |
| 批量生成测试、改类型错误 | Ollama 本地 | 重复性高,云 API 不划算 |
| 跨 10+ 模块架构调整 | 云端 Claude 或更大本地模型 | 需要更强推理与长上下文 |
| 安全审计、合规敏感代码 | 本地 Ollama | 数据不出网 |
| CI 无人值守 Agent | 远程 Mac 上 Ollama | 稳定在线、可审计 |
反例:别用 7B 本地模型硬啃全流程
若让弱模型独自完成「从需求到上线」的 Agent 长跑,失败重试次数会暴增,总耗时往往超过直接调用一次强模型。混合策略的核心是:本地做草稿与机械劳动,云端或更大本地模型做决策。
六、团队版:云 Mac / 独享 M4 推理节点
个人 MacBook 适合试跑;团队一旦多人共用 Agent,就需要一台常驻、可 SSH、内存够大的 macOS 推理机。这正是 M4 Mac Mini 的甜区:静音、省电、统一内存对 Ollama 友好,且与 iOS/macOS CI 同生态。
6.1 推荐拓扑
- 推理机(1 台 M4 Mac Mini,建议 24GB+):
ollama serve监听0.0.0.0:11434(内网/firewall 限制访问)。 - 开发者笔记本:
export ANTHROPIC_BASE_URL=http://<推理机内网IP>:11434,照常跑claude。 - 可选 CI 机(另一台 Mac):跑
xcodebuild,与推理分机,避免抢内存——参见企业 Mac CI Runner。
6.2 何时用 Macstripe 云 Mac 而不是自建机房
若团队没有机房条件、或需要亚太/美西节点、固定公网 IP、按天扩容,可把 Ollama 装在 Macstripe 独享物理 M4 Mac Mini 上:SSH 登录后同样执行 brew install ollama,用 Tailscale 或 VPN 把 11434 端口暴露给成员。相比自购机器:
- 无需处理硬件采购、快递、上架与报废。
- 短租可验证「全团队 Agent 上本地模型」是否值得,再决定长租或自购。
- 与私有推理思路一致:代码与 Prompt 不出可控边界。
机型、区域与租期以 Macstripe 首页、定价页 为准。Macstripe 不提供 Ollama 托管服务本身,而是提供跑 Ollama 的 macOS 硬件与网络交付。
# 在云 Mac 上(示例)
brew install ollama
ollama serve &
ollama pull qwen2.5-coder:14b
# 成员本机:ANTHROPIC_BASE_URL=http://<云Mac内网或Tailscale IP>:11434
七、系列规划:本地 AI Agent 主题集群
「Claude Code + Ollama + Apple Silicon」适合做成系列,而不是单篇即止——便于 Google 识别主题权威,也方便读者按需跳转。Macstripe 开发者博客后续计划覆盖(陆续发布):
- Claude Code + MLX——追求极致 Token/s 与 Python 流水线集成
- Claude Code + OpenRouter——多模型路由与成本对比
- Claude Code + Qwen3 / DeepSeek——中文与代码向模型选型
- M4 Mac Mini 推理节点运维——监控、并发排队与 Tailscale 接入
已发布可对照:MLX vs Ollama、Agent Skills 工程纪律。
八、反例与排错
- 忘记清空 ANTHROPIC_API_KEY:Claude Code 可能仍走云端,本地配置「看似无效」。
- 上下文只有 8K:Agent 反复丢文件内容 → 无限重试;务必 Modelfile 拉到 64K+。
- 模型名带
/:部分后端不兼容,用 Ollama 短名如qwen2.5-coder-agent。 - 在 Windows 本机硬跑:Claude Code + Ollama 在 macOS/Linux 更成熟;Windows 可用 WSL2 或远程 Mac。
- 把 Agent 当无人值守生产变更:务必保留 CI、Code Review 与人工合并策略,参见跨周协作与记忆。
常见问题 FAQ
在 M4 Mac Mini 上跑本地 AI Agent,API 账单能省多少?
取决于你把多少任务留在本地。本文 8 人试点在「本地为主 + 云端兜底」约一个月后,云 API 从约 $300/月 降到约 $50/月(约 83%)。单人用量波动更大,但高频机械性 Agent 通常降幅明显。
M4 Mac Mini 上 Ollama 速度够日常 Agent 吗?
24GB 机型上 Qwen2.5-Coder 7B 约 25 token/s、14B 约 15 token/s,改测试与单模块重构体感足够;全流程架构设计仍建议云端强模型。
Claude Code 可以直接用 Ollama 吗?
可以。设置 ANTHROPIC_BASE_URL=http://localhost:11434(或团队推理机地址)、ANTHROPIC_AUTH_TOKEN=ollama、ANTHROPIC_API_KEY="",或使用 ollama launch claude --model <名>。
Claude Code 需要多大的上下文?
建议 ≥64K。用 Modelfile 的 PARAMETER num_ctx 65536 创建自定义模型最稳妥。
还要不要 Claude 订阅?
纯本地可不调云 API;复杂任务保留云端更省心。混合通常比单一 Claude Max 更省。
M4 Mac Mini 16GB 够吗?
够跑 7B 级 Agent 日常任务;14B+ 或 2 人以上并发建议 24GB 起。
团队怎么共用一台 Ollama?
内网或 Tailscale 暴露 11434,成员改 BASE_URL;或用 Macstripe 等云 Mac / 独享 M4 做 24×7 推理节点。
和 Cursor 有何不同?
Claude Code 是终端 Agent,适合 SSH 远程 Mac 与脚本化;Cursor 是 IDE。二者可并存,本系列后续也会对比其他后端(MLX、OpenRouter 等)。
总结
若你只记一件事:本地 AI Agent 的价值要先看结果,再看配置——在 M4 Mac Mini 上,Claude Code + Ollama 能让多数日常 Agent 任务不出内网,试点团队云 API 可压到约两成,7B 模型速度对改码够用。落地时记住 64K 上下文、任务分流、推理与 CI 分机;硬件上优先 24GB 统一内存的 M4 Mac Mini 或 Macstripe 云 Mac 常驻节点。
- 先看实测:成本、速度与并发
- 本机验证:
ollama launch claude --model … - 团队扩展:独享 M4 上
ollama serve+ 内网 BASE_URL → Macstripe 机型与区域 - 系列跟进:MLX / OpenRouter / Qwen3 等组合(见第七节)