M4 Mac Mini 與終端 IDE,展示本機 AI Agent、Claude Code 與 Ollama 協作開發環境

很多人單獨搜 Claude Code、單獨搜 Ollama,但真正能落地、又和 Macstripe 業務相關的問題是:如何在 M4 Mac Mini 上搭建本機 AI Agent? 2026 年常見答案是:Claude Code 做 Agent 編排(讀倉庫、跑命令、改檔案),Ollama 在 Apple Silicon 上跑開源模型(按機器成本計費,而不是按 Token 堆雲帳單)。

本文先給成本與速度實測(你最關心的「值不值」),再給架構與配置步驟。若你負責團隊基建,文末還有雲 Mac 推理節點與「Claude Code + Apple Silicon」系列規劃;模型框架對比見MLX vs Ollama

一、實測結果:帳單能省多少、速度夠不夠

下面資料來自 Macstripe 團隊在獨享 M4 Mac Mini(24GB 統一記憶體)上的 Ollama 壓測,以及一家8 人後端試點遷移到「Claude Code + 內網 Ollama」後的帳單覆盤(2026 年 4–5 月,混合方案)。你的用量會不同,但量級可供決策參考。

1.1 試點約一個月後:API 帳單變化(示意)

專案遷移前(純雲 API)遷移後(本機為主)變化
Claude / 同類 API 按量約 $300/月約 $50/月(僅架構評審等)約 −83%
推理算力含在 API 內1 臺 M4 Mac Mini 雲租 + 電費固定成本、可預測
資料出境預設出網日常 Agent 不出內網合規友好

省下的主要是高頻、重複性 Agent 呼叫(改測試、批次重構、文件摘要)。若團隊每人每天多輪「全倉架構級」Agent,仍應保留雲端強模型預算,否則總耗時可能反升。

1.2 M4 Mac Mini 推理速度(Ollama,4-bit 量化)

模型生成速度(約)首 Token 延遲日常 Agent 體感
Qwen2.5-Coder 7B~25 token/s~200 ms改單模組、寫測試足夠
Qwen2.5-Coder 14B~15 token/s~280 ms質量更好,適合稍複雜任務
glm-4.7-flash(9GB 級)~30 token/s~170 ms偏速度,適合短問答

測試條件:M4 Mac Mini 24GB、macOS 15.x、Ollama 0.14+、Prompt 約 2k tokens 續寫。16GB 機型跑 14B 易觸發 swap,建議團隊推理機優先 24GB 起。同硬體下 MLX 通常再快約 10%–15%,見對比文

1.3 併發與穩定性(團隊共享一臺推理機)

  • 24GB + 7B 模型:2–3 人同時輕度 Agent(只讀小目錄)可接受;第 4 人起延遲明顯上升。
  • 24GB + 14B 模型:建議同時僅 1 個重度 Agent,其餘排隊或降級 7B。
  • 一個月觀察:試點團隊 Agent 成功率(一次透過測試)從約 55% 提到約 68%——主要因為 64K 上下文減少「半截丟檔案」重試,而非模型變「更聰明」。
結論先行:若你問「本機 AI Agent 值不值」——對每天有大量機械性改碼的團隊,M4 Mac Mini + Ollama 通常能在一個月內把雲 API 帳單壓到原來的兩成左右;速度對日常任務夠用,別用 7B 硬扛全流程架構設計。

二、為什麼越來越多開發者用 Ollama 替代 API

Claude Code 是 Anthropic 的終端 Agent:能在專案目錄裡搜尋、編輯、執行 bash、提交 PR。預設走雲端 Claude API,重度 Agent 一週燒掉的額度可能接近一筆訂閱費的幾倍。把端點改到 Ollama 後,同一套 Agent 能力改由本機或內網模型推理——固定成本(機器 + 電費)替代按 Token 計價

方案典型月成本體感資料是否出網適合場景
純 Claude Code(雲)訂閱 + 超額 API是(除非企業私有部署)複雜推理、長鏈路架構
Claude Code + Ollama(本機)硬體/雲 Mac 租費可完全內網日常改碼、批次重構、敏感倉庫
混合:本機為主 + 雲兜底低於純雲 Max 檔按需多數工程團隊推薦
關鍵認知:省的不是「Claude Code 訂閱費」(CLI 本身可能仍需要賬號/許可,以 Anthropic 當前政策為準),而是推理 Token 帳單。Ollama 側為零 per-token 雲帳單。

三、工作流架構(圖示)

圖 1 Claude Code + Ollama AI Agent 資料流
開發者:終端執行 claude(Claude Code)
HTTP → ANTHROPIC_BASE_URL(預設雲端,可改本機)
Ollama @ localhost:11434(或團隊 M4 Mac)
開源模型推理(qwen / glm / deepseek 等)
Claude Code 執行工具:讀檔案 / 跑測試 / git commit
圖 2 混合工作流:本機 Agent + 雲端「終審」
80% 任務 → Ollama 本機(補全、改測試、文件)
20% 任務 → 切回雲端 Claude(架構/安全評審)
切換方式:取消 BASE_URL 或單獨開終端會話

Agent Skills 可疊加:Skills 規定「先對齊再寫碼」,Claude Code 負責執行,Ollama 負責「每次呼叫的模型算力」。

四、在 M4 Mac Mini 上 10 分鐘跑通

下列步驟在本機或雲 Mac 上的 M4 Mac Mini 相同;以下以 Ollama 官方 Claude Code 整合 為準,Apple Silicon 建議 Homebrew 安裝。

4.1 安裝 Ollama 並拉模型

brew install ollama
ollama pull qwen2.5-coder:7b
# 或:ollama pull glm-4.7-flash(體積與速度平衡,以 ollama.com 當前庫為準)

4.2 擴充套件上下文到 64K+(強烈建議)

Claude Code 作為 Agent 會反覆塞入倉庫片段;上下文不足會導致截斷、迴圈重試,反而更慢更費。若模型預設 context 較小,寫 Modelfile:

cat > Modelfile <<'EOF'
FROM qwen2.5-coder:7b
PARAMETER num_ctx 65536
EOF
ollama create qwen2.5-coder-agent -f Modelfile

4.3 連線 Claude Code(兩種方式)

方式 A(推薦):Ollama 0.14.5+ 一鍵啟動

ollama launch claude --model qwen2.5-coder-agent

方式 B:手動環境變數(適合寫入 ~/.zshrc 或專案 .claude/settings.json

export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
claude --model qwen2.5-coder-agent

專案級僅本倉庫走本機時,可在倉庫根目錄配置 .claude/settings.json 寫入上述變數,避免影響其他專案。

4.4 驗收清單

  • ollama ps 能看到模型已載入。
  • Claude Code 能讀取 README 並給出基於倉庫的回答。
  • 讓它跑 npm test / pytest 等,確認 bash 工具鏈正常。
  • 觀察記憶體:16GB Mac 同時開 Xcode + 7B 模型易.swap,建議推理與構建分機。

五、任務分流:什麼給本機、什麼給雲端

任務型別建議引擎原因
單檔案補全、小範圍重構Ollama 本機高頻、可接受偶發失誤
批次生成測試、改型別錯誤Ollama 本機重複性高,雲 API 不划算
跨 10+ 模組架構調整雲端 Claude 或更大本機模型需要更強推理與長上下文
安全審計、合規敏感程式碼本機 Ollama資料不出網
CI 無人值守 Agent遠端 Mac 上 Ollama穩定線上、可審計

反例:別用 7B 本機模型硬啃全流程

若讓弱模型獨自完成「從需求到上線」的 Agent 長跑,失敗重試次數會暴增,總耗時往往超過直接呼叫一次強模型。混合策略的核心是:本機做草稿與機械勞動,雲端或更大本機模型做決策

六、團隊版:雲 Mac / 獨享 M4 推理節點

個人 MacBook 適合試跑;團隊一旦多人共用 Agent,就需要一臺常駐、可 SSH、記憶體夠大的 macOS 推理機。這正是 M4 Mac Mini 的甜區:靜音、省電、統一記憶體對 Ollama 友好,且與 iOS/macOS CI 同生態。

6.1 推薦拓撲

  • 推理機(1 臺 M4 Mac Mini,建議 24GB+):ollama serve 監聽 0.0.0.0:11434(內網/firewall 限制訪問)。
  • 開發者筆記本:export ANTHROPIC_BASE_URL=http://<推理機內網IP>:11434,照常跑 claude
  • 可選 CI 機(另一臺 Mac):xcodebuild,與推理分機,避免搶記憶體——參見企業 Mac CI Runner

6.2 何時用 Macstripe 雲 Mac 而不是自建機房

若團隊沒有機房條件、或需要亞太/美西節點、固定公網 IP、按天擴容,可把 Ollama 裝在 Macstripe 獨享物理 M4 Mac Mini 上:SSH 登入後同樣執行 brew install ollama,用 Tailscale 或 VPN 把 11434 埠暴露給成員。相比自購機器:

  • 無需處理硬體採購、快遞、上架與報廢。
  • 短租可驗證「全團隊 Agent 上本機模型」是否值得,再決定長租或自購。
  • 私有推理思路一致:程式碼與 Prompt 不出可控邊界。

機型、區域與租期以 Macstripe 首頁定價頁 為準。Macstripe 不提供 Ollama 託管服務本身,而是提供跑 Ollama 的 macOS 硬體與網路交付

# 在雲 Mac 上(示例)
brew install ollama
ollama serve &
ollama pull qwen2.5-coder:14b
# 成員本機:ANTHROPIC_BASE_URL=http://<雲Mac內網或Tailscale IP>:11434
記憶體規劃:M4 Mini 16GB 建議只跑 7B 級模型;24GB 可嘗試 14B Q4;48GB 更適合多模型或更大上下文。同一臺機器勿同時滿載 Xcode 叢集編譯與 32B 推理。

七、系列規劃:本機 AI Agent 主題叢集

「Claude Code + Ollama + Apple Silicon」適合做成系列,而不是單篇即止——便於 Google 識別主題權威,也方便讀者按需跳轉。Macstripe 開發者部落格後續計劃覆蓋(陸續釋出):

  • Claude Code + MLX——追求極致 Token/s 與 Python 流水線整合
  • Claude Code + OpenRouter——多模型路由與成本對比
  • Claude Code + Qwen3 / DeepSeek——中文與程式碼向模型選型
  • M4 Mac Mini 推理節點運維——監控、併發排隊與 Tailscale 接入

已釋出可對照:MLX vs OllamaAgent Skills 工程紀律

八、反例與排錯

  • 忘記清空 ANTHROPIC_API_KEY:Claude Code 可能仍走雲端,本機配置「看似無效」。
  • 上下文只有 8K:Agent 反覆丟檔案內容 → 無限重試;務必 Modelfile 拉到 64K+。
  • 模型名帶 /:部分後端不相容,用 Ollama 短名如 qwen2.5-coder-agent
  • 在 Windows 本機硬跑:Claude Code + Ollama 在 macOS/Linux 更成熟;Windows 可用 WSL2 或遠端 Mac。
  • 把 Agent 當無人值守生產變更:務必保留 CI、Code Review 與人工合併策略,參見跨周協作與記憶

常見問題 FAQ

在 M4 Mac Mini 上跑本機 AI Agent,API 帳單能省多少?

取決於你把多少任務留在本機。本文 8 人試點在「本機為主 + 雲端兜底」約一個月後,雲 API 從約 $300/月 降到約 $50/月(約 83%)。單人用量波動更大,但高頻機械性 Agent 通常降幅明顯。

M4 Mac Mini 上 Ollama 速度夠日常 Agent 嗎?

24GB 機型上 Qwen2.5-Coder 7B 約 25 token/s、14B 約 15 token/s,改測試與單模組重構體感足夠;全流程架構設計仍建議雲端強模型。

Claude Code 可以直接用 Ollama 嗎?

可以。設定 ANTHROPIC_BASE_URL=http://localhost:11434(或團隊推理機地址)、ANTHROPIC_AUTH_TOKEN=ollamaANTHROPIC_API_KEY="",或使用 ollama launch claude --model <名>

Claude Code 需要多大的上下文?

建議 ≥64K。用 Modelfile 的 PARAMETER num_ctx 65536 建立自定義模型最穩妥。

還要不要 Claude 訂閱?

純本機可不調雲 API;複雜任務保留雲端更省心。混合通常比單一 Claude Max 更省。

M4 Mac Mini 16GB 夠嗎?

夠跑 7B 級 Agent 日常任務;14B+ 或 2 人以上併發建議 24GB 起。

團隊怎麼共用一臺 Ollama?

內網或 Tailscale 暴露 11434,成員改 BASE_URL;或用 Macstripe 等雲 Mac / 獨享 M4 做 24×7 推理節點。

和 Cursor 有何不同?

Claude Code 是終端 Agent,適合 SSH 遠端 Mac 與指令碼化;Cursor 是 IDE。二者可並存,本系列後續也會對比其他後端(MLX、OpenRouter 等)。

總結

若你只記一件事:本機 AI Agent 的價值要先看結果,再看配置——在 M4 Mac Mini 上,Claude Code + Ollama 能讓多數日常 Agent 任務不出內網,試點團隊雲 API 可壓到約兩成,7B 模型速度對改碼夠用。落地時記住 64K 上下文任務分流推理與 CI 分機;硬體上優先 24GB 統一記憶體的 M4 Mac Mini 或 Macstripe 雲 Mac 常駐節點。

相關閱讀