很多人單獨搜 Claude Code、單獨搜 Ollama,但真正能落地、又和 Macstripe 業務相關的問題是:如何在 M4 Mac Mini 上搭建本機 AI Agent? 2026 年常見答案是:Claude Code 做 Agent 編排(讀倉庫、跑命令、改檔案),Ollama 在 Apple Silicon 上跑開源模型(按機器成本計費,而不是按 Token 堆雲帳單)。
本文先給成本與速度實測(你最關心的「值不值」),再給架構與配置步驟。若你負責團隊基建,文末還有雲 Mac 推理節點與「Claude Code + Apple Silicon」系列規劃;模型框架對比見MLX vs Ollama。
一、實測結果:帳單能省多少、速度夠不夠
下面資料來自 Macstripe 團隊在獨享 M4 Mac Mini(24GB 統一記憶體)上的 Ollama 壓測,以及一家8 人後端試點遷移到「Claude Code + 內網 Ollama」後的帳單覆盤(2026 年 4–5 月,混合方案)。你的用量會不同,但量級可供決策參考。
1.1 試點約一個月後:API 帳單變化(示意)
| 專案 | 遷移前(純雲 API) | 遷移後(本機為主) | 變化 |
|---|---|---|---|
| Claude / 同類 API 按量 | 約 $300/月 | 約 $50/月(僅架構評審等) | 約 −83% |
| 推理算力 | 含在 API 內 | 1 臺 M4 Mac Mini 雲租 + 電費 | 固定成本、可預測 |
| 資料出境 | 預設出網 | 日常 Agent 不出內網 | 合規友好 |
省下的主要是高頻、重複性 Agent 呼叫(改測試、批次重構、文件摘要)。若團隊每人每天多輪「全倉架構級」Agent,仍應保留雲端強模型預算,否則總耗時可能反升。
1.2 M4 Mac Mini 推理速度(Ollama,4-bit 量化)
| 模型 | 生成速度(約) | 首 Token 延遲 | 日常 Agent 體感 |
|---|---|---|---|
| Qwen2.5-Coder 7B | ~25 token/s | ~200 ms | 改單模組、寫測試足夠 |
| Qwen2.5-Coder 14B | ~15 token/s | ~280 ms | 質量更好,適合稍複雜任務 |
| glm-4.7-flash(9GB 級) | ~30 token/s | ~170 ms | 偏速度,適合短問答 |
測試條件:M4 Mac Mini 24GB、macOS 15.x、Ollama 0.14+、Prompt 約 2k tokens 續寫。16GB 機型跑 14B 易觸發 swap,建議團隊推理機優先 24GB 起。同硬體下 MLX 通常再快約 10%–15%,見對比文。
1.3 併發與穩定性(團隊共享一臺推理機)
- 24GB + 7B 模型:2–3 人同時輕度 Agent(只讀小目錄)可接受;第 4 人起延遲明顯上升。
- 24GB + 14B 模型:建議同時僅 1 個重度 Agent,其餘排隊或降級 7B。
- 一個月觀察:試點團隊 Agent 成功率(一次透過測試)從約 55% 提到約 68%——主要因為 64K 上下文減少「半截丟檔案」重試,而非模型變「更聰明」。
二、為什麼越來越多開發者用 Ollama 替代 API
Claude Code 是 Anthropic 的終端 Agent:能在專案目錄裡搜尋、編輯、執行 bash、提交 PR。預設走雲端 Claude API,重度 Agent 一週燒掉的額度可能接近一筆訂閱費的幾倍。把端點改到 Ollama 後,同一套 Agent 能力改由本機或內網模型推理——固定成本(機器 + 電費)替代按 Token 計價。
| 方案 | 典型月成本體感 | 資料是否出網 | 適合場景 |
|---|---|---|---|
| 純 Claude Code(雲) | 訂閱 + 超額 API | 是(除非企業私有部署) | 複雜推理、長鏈路架構 |
| Claude Code + Ollama(本機) | 硬體/雲 Mac 租費 | 可完全內網 | 日常改碼、批次重構、敏感倉庫 |
| 混合:本機為主 + 雲兜底 | 低於純雲 Max 檔 | 按需 | 多數工程團隊推薦 |
三、工作流架構(圖示)
claude(Claude Code)與 Agent Skills 可疊加:Skills 規定「先對齊再寫碼」,Claude Code 負責執行,Ollama 負責「每次呼叫的模型算力」。
四、在 M4 Mac Mini 上 10 分鐘跑通
下列步驟在本機或雲 Mac 上的 M4 Mac Mini 相同;以下以 Ollama 官方 Claude Code 整合 為準,Apple Silicon 建議 Homebrew 安裝。
4.1 安裝 Ollama 並拉模型
brew install ollama
ollama pull qwen2.5-coder:7b
# 或:ollama pull glm-4.7-flash(體積與速度平衡,以 ollama.com 當前庫為準)
4.2 擴充套件上下文到 64K+(強烈建議)
Claude Code 作為 Agent 會反覆塞入倉庫片段;上下文不足會導致截斷、迴圈重試,反而更慢更費。若模型預設 context 較小,寫 Modelfile:
cat > Modelfile <<'EOF'
FROM qwen2.5-coder:7b
PARAMETER num_ctx 65536
EOF
ollama create qwen2.5-coder-agent -f Modelfile
4.3 連線 Claude Code(兩種方式)
方式 A(推薦):Ollama 0.14.5+ 一鍵啟動
ollama launch claude --model qwen2.5-coder-agent
方式 B:手動環境變數(適合寫入 ~/.zshrc 或專案 .claude/settings.json)
export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
claude --model qwen2.5-coder-agent
專案級僅本倉庫走本機時,可在倉庫根目錄配置 .claude/settings.json 寫入上述變數,避免影響其他專案。
4.4 驗收清單
ollama ps能看到模型已載入。- Claude Code 能讀取
README並給出基於倉庫的回答。 - 讓它跑
npm test/pytest等,確認 bash 工具鏈正常。 - 觀察記憶體:16GB Mac 同時開 Xcode + 7B 模型易.swap,建議推理與構建分機。
五、任務分流:什麼給本機、什麼給雲端
| 任務型別 | 建議引擎 | 原因 |
|---|---|---|
| 單檔案補全、小範圍重構 | Ollama 本機 | 高頻、可接受偶發失誤 |
| 批次生成測試、改型別錯誤 | Ollama 本機 | 重複性高,雲 API 不划算 |
| 跨 10+ 模組架構調整 | 雲端 Claude 或更大本機模型 | 需要更強推理與長上下文 |
| 安全審計、合規敏感程式碼 | 本機 Ollama | 資料不出網 |
| CI 無人值守 Agent | 遠端 Mac 上 Ollama | 穩定線上、可審計 |
反例:別用 7B 本機模型硬啃全流程
若讓弱模型獨自完成「從需求到上線」的 Agent 長跑,失敗重試次數會暴增,總耗時往往超過直接呼叫一次強模型。混合策略的核心是:本機做草稿與機械勞動,雲端或更大本機模型做決策。
六、團隊版:雲 Mac / 獨享 M4 推理節點
個人 MacBook 適合試跑;團隊一旦多人共用 Agent,就需要一臺常駐、可 SSH、記憶體夠大的 macOS 推理機。這正是 M4 Mac Mini 的甜區:靜音、省電、統一記憶體對 Ollama 友好,且與 iOS/macOS CI 同生態。
6.1 推薦拓撲
- 推理機(1 臺 M4 Mac Mini,建議 24GB+):
ollama serve監聽0.0.0.0:11434(內網/firewall 限制訪問)。 - 開發者筆記本:
export ANTHROPIC_BASE_URL=http://<推理機內網IP>:11434,照常跑claude。 - 可選 CI 機(另一臺 Mac):跑
xcodebuild,與推理分機,避免搶記憶體——參見企業 Mac CI Runner。
6.2 何時用 Macstripe 雲 Mac 而不是自建機房
若團隊沒有機房條件、或需要亞太/美西節點、固定公網 IP、按天擴容,可把 Ollama 裝在 Macstripe 獨享物理 M4 Mac Mini 上:SSH 登入後同樣執行 brew install ollama,用 Tailscale 或 VPN 把 11434 埠暴露給成員。相比自購機器:
- 無需處理硬體採購、快遞、上架與報廢。
- 短租可驗證「全團隊 Agent 上本機模型」是否值得,再決定長租或自購。
- 與私有推理思路一致:程式碼與 Prompt 不出可控邊界。
機型、區域與租期以 Macstripe 首頁、定價頁 為準。Macstripe 不提供 Ollama 託管服務本身,而是提供跑 Ollama 的 macOS 硬體與網路交付。
# 在雲 Mac 上(示例)
brew install ollama
ollama serve &
ollama pull qwen2.5-coder:14b
# 成員本機:ANTHROPIC_BASE_URL=http://<雲Mac內網或Tailscale IP>:11434
七、系列規劃:本機 AI Agent 主題叢集
「Claude Code + Ollama + Apple Silicon」適合做成系列,而不是單篇即止——便於 Google 識別主題權威,也方便讀者按需跳轉。Macstripe 開發者部落格後續計劃覆蓋(陸續釋出):
- Claude Code + MLX——追求極致 Token/s 與 Python 流水線整合
- Claude Code + OpenRouter——多模型路由與成本對比
- Claude Code + Qwen3 / DeepSeek——中文與程式碼向模型選型
- M4 Mac Mini 推理節點運維——監控、併發排隊與 Tailscale 接入
已釋出可對照:MLX vs Ollama、Agent Skills 工程紀律。
八、反例與排錯
- 忘記清空 ANTHROPIC_API_KEY:Claude Code 可能仍走雲端,本機配置「看似無效」。
- 上下文只有 8K:Agent 反覆丟檔案內容 → 無限重試;務必 Modelfile 拉到 64K+。
- 模型名帶
/:部分後端不相容,用 Ollama 短名如qwen2.5-coder-agent。 - 在 Windows 本機硬跑:Claude Code + Ollama 在 macOS/Linux 更成熟;Windows 可用 WSL2 或遠端 Mac。
- 把 Agent 當無人值守生產變更:務必保留 CI、Code Review 與人工合併策略,參見跨周協作與記憶。
常見問題 FAQ
在 M4 Mac Mini 上跑本機 AI Agent,API 帳單能省多少?
取決於你把多少任務留在本機。本文 8 人試點在「本機為主 + 雲端兜底」約一個月後,雲 API 從約 $300/月 降到約 $50/月(約 83%)。單人用量波動更大,但高頻機械性 Agent 通常降幅明顯。
M4 Mac Mini 上 Ollama 速度夠日常 Agent 嗎?
24GB 機型上 Qwen2.5-Coder 7B 約 25 token/s、14B 約 15 token/s,改測試與單模組重構體感足夠;全流程架構設計仍建議雲端強模型。
Claude Code 可以直接用 Ollama 嗎?
可以。設定 ANTHROPIC_BASE_URL=http://localhost:11434(或團隊推理機地址)、ANTHROPIC_AUTH_TOKEN=ollama、ANTHROPIC_API_KEY="",或使用 ollama launch claude --model <名>。
Claude Code 需要多大的上下文?
建議 ≥64K。用 Modelfile 的 PARAMETER num_ctx 65536 建立自定義模型最穩妥。
還要不要 Claude 訂閱?
純本機可不調雲 API;複雜任務保留雲端更省心。混合通常比單一 Claude Max 更省。
M4 Mac Mini 16GB 夠嗎?
夠跑 7B 級 Agent 日常任務;14B+ 或 2 人以上併發建議 24GB 起。
團隊怎麼共用一臺 Ollama?
內網或 Tailscale 暴露 11434,成員改 BASE_URL;或用 Macstripe 等雲 Mac / 獨享 M4 做 24×7 推理節點。
和 Cursor 有何不同?
Claude Code 是終端 Agent,適合 SSH 遠端 Mac 與指令碼化;Cursor 是 IDE。二者可並存,本系列後續也會對比其他後端(MLX、OpenRouter 等)。
總結
若你只記一件事:本機 AI Agent 的價值要先看結果,再看配置——在 M4 Mac Mini 上,Claude Code + Ollama 能讓多數日常 Agent 任務不出內網,試點團隊雲 API 可壓到約兩成,7B 模型速度對改碼夠用。落地時記住 64K 上下文、任務分流、推理與 CI 分機;硬體上優先 24GB 統一記憶體的 M4 Mac Mini 或 Macstripe 雲 Mac 常駐節點。
- 先看實測:成本、速度與併發
- 本機驗證:
ollama launch claude --model … - 團隊擴充套件:獨享 M4 上
ollama serve+ 內網 BASE_URL → Macstripe 機型與區域 - 系列跟進:MLX / OpenRouter / Qwen3 等組合(見第七節)