Claude Code 需要多大的上下文窗口？

建议至少 64K token。通过 Modelfile 设置 PARAMETER num_ctx 65536 后 ollama create 自定义模型。

本地模型够用吗，还要不要 Claude 订阅？

日常 Agent 可由 Ollama 本地承担；复杂架构决策保留云端。混合通常比纯云订阅更省。

M4 Mac Mini 16GB 能跑什么模型？

16GB 适合 7B 级如 qwen2.5-coder:7b；14B 或多人并发建议 24GB 起。

团队如何共用一台 Ollama 服务器？

云 Mac 或机房 Mac 上 ollama serve，成员通过内网或 Tailscale 将 ANTHROPIC_BASE_URL 指向 11434 端口；Macstripe 独享 M4 适合 24×7 推理节点。

如何在 M4 Mac Mini 上搭建本地 AI Agent？一个月节省 80% API 成本实测

Q: 在 M4 Mac Mini 上跑本地 AI Agent，API 账单能省多少？

取决于任务分流。8 人试点在本地为主、云端兜底约一个月后，云 API 从约 300 美元/月降到约 50 美元/月，约降 83%。高频机械性 Agent 通常降幅明显。

Q: Claude Code 可以直接用 Ollama 吗？

可以。将 ANTHROPIC_BASE_URL 指向 Ollama（默认 http://localhost:11434），设置 ANTHROPIC_AUTH_TOKEN=ollama、ANTHROPIC_API_KEY 为空，或用 ollama launch claude --model。

Q: 和 Cursor 本地模型方案有何不同？

Claude Code 是终端 Agent，适合 SSH 远程 Mac 与脚本化；Cursor 是 IDE。二者可并存。

M4 Mac Mini 与终端 IDE，展示本地 AI Agent、Claude Code 与 Ollama 协作开发环境

很多人单独搜 Claude Code、单独搜 Ollama，但真正能落地、又和 Macstripe 业务相关的问题是：如何在 M4 Mac Mini 上搭建本地 AI Agent？ 2026 年常见答案是：Claude Code 做 Agent 编排（读仓库、跑命令、改文件），Ollama 在 Apple Silicon 上跑开源模型（按机器成本计费，而不是按 Token 堆云账单）。

本文先给成本与速度实测（你最关心的「值不值」），再给架构与配置步骤。若你负责团队基建，文末还有云 Mac 推理节点部署要点。

M4 Mac Mini 本地 LLM 决策路线图

本篇是专题 Step 4：前面三篇解决「买什么、选什么模型、选什么框架」——本文解决「真的跑起来并省 API」。若你刚搜到 Claude Code，建议先确认 Ollama vs MLX：Claude Code 本地模型应该选哪个？（M4 Mac Mini 实测）。

步骤	文章	状态
Step 1	Hub · 能跑哪些模型	已读可跳过
Step 2	7B vs 14B	选 `qwen2.5-coder:7b` 或 14b
Step 3	Ollama vs MLX	确认用 Ollama
Step 4	本文	Claude Code + Ollama 配置与成本

团队试点：不想每人笔记本各 ollama pull？用 24GB/48GB 独享 M4 节点跑 ollama serve，全员 Claude Code 指同一推理口（约 5 分钟开通 SSH）。

一、实测结果：账单能省多少、速度够不够

下面数据来自 Macstripe 团队在独享 M4 Mac Mini（24GB 统一内存）上的 Ollama 压测，以及一家8 人后端试点迁移到「Claude Code + 内网 Ollama」后的账单复盘（2026 年 4–5 月，混合方案）。你的用量会不同，但量级可供决策参考。

1.1 试点约一个月后：API 账单变化（示意）

项目	迁移前（纯云 API）	迁移后（本地为主）	变化
Claude / 同类 API 按量	约 $300/月	约 $50/月（仅架构评审等）	约 −83%
推理算力	含在 API 内	1 台 M4 Mac Mini 云租 + 电费	固定成本、可预测
数据出境	默认出网	日常 Agent 不出内网	合规友好

省下的主要是高频、重复性 Agent 调用（改测试、批量重构、文档摘要）。若团队每人每天多轮「全仓架构级」Agent，仍应保留云端强模型预算，否则总耗时可能反升。

1.2 M4 Mac Mini 推理速度（Ollama，4-bit 量化）

模型	生成速度（约）	首 Token 延迟	日常 Agent 体感
Qwen2.5-Coder 7B	~25 token/s	~200 ms	改单模块、写测试足够
Qwen2.5-Coder 14B	~15 token/s	~280 ms	质量更好，适合稍复杂任务
glm-4.7-flash（9GB 级）	~30 token/s	~170 ms	偏速度，适合短问答

测试条件：M4 Mac Mini 24GB、macOS 15.x、Ollama 0.14+、Prompt 约 2k tokens 续写。16GB 机型跑 14B 易触发 swap，建议团队推理机优先 24GB 起。同硬件下 MLX 通常再快约 10%–15%，见对比文。

1.3 并发与稳定性（团队共享一台推理机）

24GB + 7B 模型：2–3 人同时轻度 Agent（只读小目录）可接受；第 4 人起延迟明显上升。
24GB + 14B 模型：建议同时仅 1 个重度 Agent，其余排队或降级 7B。
一个月观察：试点团队 Agent 成功率（一次通过测试）从约 55% 提到约 68%——主要因为 64K 上下文减少「半截丢文件」重试，而非模型变「更聪明」。

结论先行：若你问「本地 AI Agent 值不值」——对每天有大量机械性改码的团队，M4 Mac Mini + Ollama 通常能在一个月内把云 API 账单压到原来的两成左右；速度对日常任务够用，别用 7B 硬扛全流程架构设计。

二、为什么越来越多开发者用 Ollama 替代 API

Claude Code 是 Anthropic 的终端 Agent：能在项目目录里搜索、编辑、执行 bash、提交 PR。默认走云端 Claude API，重度 Agent 一周烧掉的额度可能接近一笔订阅费的几倍。把端点改到 Ollama 后，同一套 Agent 能力改由本机或内网模型推理——固定成本（机器 + 电费）替代按 Token 计价。

方案	典型月成本体感	数据是否出网	适合场景
纯 Claude Code（云）	订阅 + 超额 API	是（除非企业私有部署）	复杂推理、长链路架构
Claude Code + Ollama（本地）	硬件/云 Mac 租费	可完全内网	日常改码、批量重构、敏感仓库
混合：本地为主 + 云兜底	低于纯云 Max 档	按需	多数工程团队推荐

关键认知：省的不是「Claude Code 订阅费」（CLI 本身可能仍需要账号/许可，以 Anthropic 当前政策为准），而是推理 Token 账单。Ollama 侧为零 per-token 云账单。

三、工作流架构（图示）

图 1 Claude Code + Ollama AI Agent 数据流

开发者：终端运行 claude（Claude Code）

HTTP → ANTHROPIC_BASE_URL（默认云端，可改本地）

Ollama @ localhost:11434（或团队 M4 Mac）

开源模型推理（qwen / glm / deepseek 等）

Claude Code 执行工具：读文件 / 跑测试 / git commit

图 2 混合工作流：本地 Agent + 云端「终审」

80% 任务 → Ollama 本地（补全、改测试、文档）

20% 任务 → 切回云端 Claude（架构/安全评审）

切换方式：取消 BASE_URL 或单独开终端会话

与 Agent Skills 可叠加：Skills 规定「先对齐再写码」，Claude Code 负责执行，Ollama 负责「每次调用的模型算力」。

四、在 M4 Mac Mini 上 10 分钟跑通

下列步骤在本机或云 Mac 上的 M4 Mac Mini 相同；以下以 Ollama 官方 Claude Code 集成为准，Apple Silicon 建议 Homebrew 安装。

4.1 安装 Ollama 并拉模型

brew install ollama
ollama pull qwen2.5-coder:7b
# 或：ollama pull glm-4.7-flash（体积与速度平衡，以 ollama.com 当前库为准）

4.2 扩展上下文到 64K+（强烈建议）

Claude Code 作为 Agent 会反复塞入仓库片段；上下文不足会导致截断、循环重试，反而更慢更费。若模型默认 context 较小，写 Modelfile：

cat > Modelfile <<'EOF'
FROM qwen2.5-coder:7b
PARAMETER num_ctx 65536
EOF
ollama create qwen2.5-coder-agent -f Modelfile

4.3 连接 Claude Code（两种方式）

方式 A（推荐）：Ollama 0.14.5+ 一键启动

ollama launch claude --model qwen2.5-coder-agent

方式 B：手动环境变量（适合写入 ~/.zshrc 或项目 .claude/settings.json）

export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
claude --model qwen2.5-coder-agent

项目级仅本仓库走本地时，可在仓库根目录配置 .claude/settings.json 写入上述变量，避免影响其他项目。

4.4 验收清单

ollama ps 能看到模型已加载。
Claude Code 能读取 README 并给出基于仓库的回答。
让它跑 npm test / pytest 等，确认 bash 工具链正常。
观察内存：16GB Mac 同时开 Xcode + 7B 模型易.swap，建议推理与构建分机。

五、任务分流：什么给本地、什么给云端

任务类型	建议引擎	原因
单文件补全、小范围重构	Ollama 本地	高频、可接受偶发失误
批量生成测试、改类型错误	Ollama 本地	重复性高，云 API 不划算
跨 10+ 模块架构调整	云端 Claude 或更大本地模型	需要更强推理与长上下文
安全审计、合规敏感代码	本地 Ollama	数据不出网
CI 无人值守 Agent	远程 Mac 上 Ollama	稳定在线、可审计

反例：别用 7B 本地模型硬啃全流程

若让弱模型独自完成「从需求到上线」的 Agent 长跑，失败重试次数会暴增，总耗时往往超过直接调用一次强模型。混合策略的核心是：本地做草稿与机械劳动，云端或更大本地模型做决策。

六、团队版：云 Mac / 独享 M4 推理节点

个人 MacBook 适合试跑；团队一旦多人共用 Agent，就需要一台常驻、可 SSH、内存够大的 macOS 推理机。这正是 M4 Mac Mini 的甜区：静音、省电、统一内存对 Ollama 友好，且与 iOS/macOS CI 同生态。

6.1 推荐拓扑

推理机（1 台 M4 Mac Mini，建议 24GB+）：ollama serve 监听 0.0.0.0:11434（内网/firewall 限制访问）。
开发者笔记本：export ANTHROPIC_BASE_URL=http://<推理机内网IP>:11434，照常跑 claude。
可选 CI 机（另一台 Mac）：跑 xcodebuild，与推理分机，避免抢内存——参见企业 Mac CI Runner。

6.2 何时用 Macstripe 云 Mac 而不是自建机房

若团队没有机房条件、或需要亚太/美西节点、固定公网 IP、按天扩容，可把 Ollama 装在 Macstripe 独享物理 M4 Mac Mini 上：SSH 登录后同样执行 brew install ollama，用 Tailscale 或 VPN 把 11434 端口暴露给成员。相比自购机器：

无需处理硬件采购、快递、上架与报废。
短租可验证「全团队 Agent 上本地模型」是否值得，再决定长租或自购。
与私有推理思路一致：代码与 Prompt 不出可控边界。

机型、区域与租期以 Macstripe 首页、定价页为准。Macstripe 不提供 Ollama 托管服务本身，而是提供跑 Ollama 的 macOS 硬件与网络交付。

# 在云 Mac 上（示例）
brew install ollama
ollama serve &
ollama pull qwen2.5-coder:14b
# 成员本机：ANTHROPIC_BASE_URL=http://<云Mac内网或Tailscale IP>:11434

内存规划：M4 Mini 16GB 建议只跑 7B 级模型；24GB 可尝试 14B Q4；48GB 更适合多模型或更大上下文。同一台机器勿同时满载 Xcode 集群编译与 32B 推理。

七、系列规划：本地 AI Agent 主题集群

「Claude Code + Ollama + Apple Silicon」适合做成系列，而不是单篇即止——便于 Google 识别主题权威，也方便读者按需跳转。Macstripe 开发者博客后续计划覆盖（陆续发布）：

Claude Code + MLX——追求极致 Token/s 与 Python 流水线集成
Claude Code + OpenRouter——多模型路由与成本对比
Claude Code + Qwen3 / DeepSeek——中文与代码向模型选型
M4 Mac Mini 推理节点运维——监控、并发排队与 Tailscale 接入

已发布可对照：MLX vs Ollama、Agent Skills 工程纪律。

八、反例与排错

忘记清空 ANTHROPIC_API_KEY：Claude Code 可能仍走云端，本地配置「看似无效」。
上下文只有 8K：Agent 反复丢文件内容 → 无限重试；务必 Modelfile 拉到 64K+。
模型名带 /：部分后端不兼容，用 Ollama 短名如 qwen2.5-coder-agent。

在 Windows 本机硬跑：Claude Code + Ollama 在 macOS/Linux 更成熟；Windows 可用 WSL2 或远程 Mac。

把 Agent 当无人值守生产变更：务必保留 CI、Code Review 与人工合并策略，参见跨周协作与记忆。

常见问题 FAQ

在 M4 Mac Mini 上跑本地 AI Agent，API 账单能省多少？

取决于你把多少任务留在本地。本文 8 人试点在「本地为主 + 云端兜底」约一个月后，云 API 从约 $300/月降到约 $50/月（约 83%）。单人用量波动更大，但高频机械性 Agent 通常降幅明显。

M4 Mac Mini 上 Ollama 速度够日常 Agent 吗？

24GB 机型上 Qwen2.5-Coder 7B 约 25 token/s、14B 约 15 token/s，改测试与单模块重构体感足够；全流程架构设计仍建议云端强模型。

Claude Code 可以直接用 Ollama 吗？

可以。设置 ANTHROPIC_BASE_URL=http://localhost:11434（或团队推理机地址）、ANTHROPIC_AUTH_TOKEN=ollama、ANTHROPIC_API_KEY=""，或使用 ollama launch claude --model <名>。

Claude Code 需要多大的上下文？

建议 ≥64K。用 Modelfile 的 PARAMETER num_ctx 65536 创建自定义模型最稳妥。

还要不要 Claude 订阅？

纯本地可不调云 API；复杂任务保留云端更省心。混合通常比单一 Claude Max 更省。

M4 Mac Mini 16GB 够吗？

够跑 7B 级 Agent 日常任务；14B+ 或 2 人以上并发建议 24GB 起。

团队怎么共用一台 Ollama？

内网或 Tailscale 暴露 11434，成员改 BASE_URL；或用 Macstripe 等云 Mac / 独享 M4 做 24×7 推理节点。

和 Cursor 有何不同？

Claude Code 是终端 Agent，适合 SSH 远程 Mac 与脚本化；Cursor 是 IDE。二者可并存，本系列后续也会对比其他后端（MLX、OpenRouter 等）。

总结

若你只记一件事：本地 AI Agent 的价值要先看结果，再看配置——在 M4 Mac Mini 上，Claude Code + Ollama 能让多数日常 Agent 任务不出内网，试点团队云 API 可压到约两成，7B 模型速度对改码够用。落地时记住 64K 上下文、任务分流、推理与 CI 分机；硬件上优先 24GB 统一内存的 M4 Mac Mini 或 Macstripe 云 Mac 常驻节点。

先看实测：成本、速度与并发

本机验证：ollama launch claude --model …

团队扩展：独享 M4 上 ollama serve + 内网 BASE_URL → Macstripe 机型与区域

系列跟进：MLX / OpenRouter / Qwen3 等组合（见第七节）

相关阅读

M4 Mac Mini 跑 7B vs 14B：真实体验差多少？

MLX vs Ollama：Apple Silicon AI 推理对比

mattpocock/skills 与 Claude Code 工程纪律

私有推理与算力主权

AI 编程跨周协作与 AGENTS.md

M4 Mac Mini 本地 LLM 决策路线图

一、实测结果：账单能省多少、速度够不够

1.1 试点约一个月后：API 账单变化（示意）

1.2 M4 Mac Mini 推理速度（Ollama，4-bit 量化）

1.3 并发与稳定性（团队共享一台推理机）

二、为什么越来越多开发者用 Ollama 替代 API

三、工作流架构（图示）

四、在 M4 Mac Mini 上 10 分钟跑通

4.1 安装 Ollama 并拉模型

4.2 扩展上下文到 64K+（强烈建议）

4.3 连接 Claude Code（两种方式）

4.4 验收清单

五、任务分流：什么给本地、什么给云端

反例：别用 7B 本地模型硬啃全流程

六、团队版：云 Mac / 独享 M4 推理节点

6.1 推荐拓扑

6.2 何时用 Macstripe 云 Mac 而不是自建机房

七、系列规划：本地 AI Agent 主题集群

八、反例与排错

常见问题 FAQ

在 M4 Mac Mini 上跑本地 AI Agent，API 账单能省多少？

M4 Mac Mini 上 Ollama 速度够日常 Agent 吗？

Claude Code 可以直接用 Ollama 吗？

Claude Code 需要多大的上下文？

还要不要 Claude 订阅？

M4 Mac Mini 16GB 够吗？

团队怎么共用一台 Ollama？

和 Cursor 有何不同？

总结

相关阅读

给团队的 Claude Code + Ollama 一台常驻推理机

选择语言