Claude Code 需要多大的上下文視窗？

建議至少 64K token。透過 Modelfile 設定 PARAMETER num_ctx 65536 後 ollama create 自定義模型。

本機模型夠用嗎，還要不要 Claude 訂閱？

日常 Agent 可由 Ollama 本機承擔；複雜架構決策保留雲端。混合通常比純雲訂閱更省。

M4 Mac Mini 16GB 能跑什麼模型？

16GB 適合 7B 級如 qwen2.5-coder:7b；14B 或多人併發建議 24GB 起。

團隊如何共用一臺 Ollama 伺服器？

雲 Mac 或機房 Mac 上 ollama serve，成員透過內網或 Tailscale 將 ANTHROPIC_BASE_URL 指向 11434 埠；Macstripe 獨享 M4 適合 24×7 推理節點。

如何在 M4 Mac Mini 上搭建本機 AI Agent？一個月節省 80% API 成本實測

Q: 在 M4 Mac Mini 上跑本機 AI Agent，API 帳單能省多少？

取決於任務分流。8 人試點在本機為主、雲端兜底約一個月後，雲 API 從約 300 美元/月降到約 50 美元/月，約降 83%。高頻機械性 Agent 通常降幅明顯。

Q: Claude Code 可以直接用 Ollama 嗎？

可以。將 ANTHROPIC_BASE_URL 指向 Ollama（預設 http://localhost:11434），設定 ANTHROPIC_AUTH_TOKEN=ollama、ANTHROPIC_API_KEY 為空，或用 ollama launch claude --model。

M4 Mac Mini 與終端 IDE，展示本機 AI Agent、Claude Code 與 Ollama 協作開發環境

很多人單獨搜 Claude Code、單獨搜 Ollama，但真正能落地、又和 Macstripe 業務相關的問題是：如何在 M4 Mac Mini 上搭建本機 AI Agent？ 2026 年常見答案是：Claude Code 做 Agent 編排（讀倉庫、跑命令、改檔案），Ollama 在 Apple Silicon 上跑開源模型（按機器成本計費，而不是按 Token 堆雲帳單）。

本文先給成本與速度實測（你最關心的「值不值」），再給架構與配置步驟。若你負責團隊基建，文末還有雲 Mac 推理節點與「Claude Code + Apple Silicon」系列規劃；模型框架對比見MLX vs Ollama。

一、實測結果：帳單能省多少、速度夠不夠

下面資料來自 Macstripe 團隊在獨享 M4 Mac Mini（24GB 統一記憶體）上的 Ollama 壓測，以及一家8 人後端試點遷移到「Claude Code + 內網 Ollama」後的帳單覆盤（2026 年 4–5 月，混合方案）。你的用量會不同，但量級可供決策參考。

1.1 試點約一個月後：API 帳單變化（示意）

專案	遷移前（純雲 API）	遷移後（本機為主）	變化
Claude / 同類 API 按量	約 $300/月	約 $50/月（僅架構評審等）	約 −83%
推理算力	含在 API 內	1 臺 M4 Mac Mini 雲租 + 電費	固定成本、可預測
資料出境	預設出網	日常 Agent 不出內網	合規友好

省下的主要是高頻、重複性 Agent 呼叫（改測試、批次重構、文件摘要）。若團隊每人每天多輪「全倉架構級」Agent，仍應保留雲端強模型預算，否則總耗時可能反升。

1.2 M4 Mac Mini 推理速度（Ollama，4-bit 量化）

模型	生成速度（約）	首 Token 延遲	日常 Agent 體感
Qwen2.5-Coder 7B	~25 token/s	~200 ms	改單模組、寫測試足夠
Qwen2.5-Coder 14B	~15 token/s	~280 ms	質量更好，適合稍複雜任務
glm-4.7-flash（9GB 級）	~30 token/s	~170 ms	偏速度，適合短問答

測試條件：M4 Mac Mini 24GB、macOS 15.x、Ollama 0.14+、Prompt 約 2k tokens 續寫。16GB 機型跑 14B 易觸發 swap，建議團隊推理機優先 24GB 起。同硬體下 MLX 通常再快約 10%–15%，見對比文。

1.3 併發與穩定性（團隊共享一臺推理機）

24GB + 7B 模型：2–3 人同時輕度 Agent（只讀小目錄）可接受；第 4 人起延遲明顯上升。
24GB + 14B 模型：建議同時僅 1 個重度 Agent，其餘排隊或降級 7B。
一個月觀察：試點團隊 Agent 成功率（一次透過測試）從約 55% 提到約 68%——主要因為 64K 上下文減少「半截丟檔案」重試，而非模型變「更聰明」。

結論先行：若你問「本機 AI Agent 值不值」——對每天有大量機械性改碼的團隊，M4 Mac Mini + Ollama 通常能在一個月內把雲 API 帳單壓到原來的兩成左右；速度對日常任務夠用，別用 7B 硬扛全流程架構設計。

二、為什麼越來越多開發者用 Ollama 替代 API

Claude Code 是 Anthropic 的終端 Agent：能在專案目錄裡搜尋、編輯、執行 bash、提交 PR。預設走雲端 Claude API，重度 Agent 一週燒掉的額度可能接近一筆訂閱費的幾倍。把端點改到 Ollama 後，同一套 Agent 能力改由本機或內網模型推理——固定成本（機器 + 電費）替代按 Token 計價。

方案	典型月成本體感	資料是否出網	適合場景
純 Claude Code（雲）	訂閱 + 超額 API	是（除非企業私有部署）	複雜推理、長鏈路架構
Claude Code + Ollama（本機）	硬體/雲 Mac 租費	可完全內網	日常改碼、批次重構、敏感倉庫
混合：本機為主 + 雲兜底	低於純雲 Max 檔	按需	多數工程團隊推薦

關鍵認知：省的不是「Claude Code 訂閱費」（CLI 本身可能仍需要賬號/許可，以 Anthropic 當前政策為準），而是推理 Token 帳單。Ollama 側為零 per-token 雲帳單。

三、工作流架構（圖示）

圖 1 Claude Code + Ollama AI Agent 資料流

開發者：終端執行 claude（Claude Code）

HTTP → ANTHROPIC_BASE_URL（預設雲端，可改本機）

Ollama @ localhost:11434（或團隊 M4 Mac）

開源模型推理（qwen / glm / deepseek 等）

Claude Code 執行工具：讀檔案 / 跑測試 / git commit

圖 2 混合工作流：本機 Agent + 雲端「終審」

80% 任務 → Ollama 本機（補全、改測試、文件）

20% 任務 → 切回雲端 Claude（架構/安全評審）

切換方式：取消 BASE_URL 或單獨開終端會話

與 Agent Skills 可疊加：Skills 規定「先對齊再寫碼」，Claude Code 負責執行，Ollama 負責「每次呼叫的模型算力」。

四、在 M4 Mac Mini 上 10 分鐘跑通

下列步驟在本機或雲 Mac 上的 M4 Mac Mini 相同；以下以 Ollama 官方 Claude Code 整合為準，Apple Silicon 建議 Homebrew 安裝。

4.1 安裝 Ollama 並拉模型

brew install ollama
ollama pull qwen2.5-coder:7b
# 或：ollama pull glm-4.7-flash（體積與速度平衡，以 ollama.com 當前庫為準）

4.2 擴充套件上下文到 64K+（強烈建議）

Claude Code 作為 Agent 會反覆塞入倉庫片段；上下文不足會導致截斷、迴圈重試，反而更慢更費。若模型預設 context 較小，寫 Modelfile：

cat > Modelfile <<'EOF'
FROM qwen2.5-coder:7b
PARAMETER num_ctx 65536
EOF
ollama create qwen2.5-coder-agent -f Modelfile

4.3 連線 Claude Code（兩種方式）

方式 A（推薦）：Ollama 0.14.5+ 一鍵啟動

ollama launch claude --model qwen2.5-coder-agent

方式 B：手動環境變數（適合寫入 ~/.zshrc 或專案 .claude/settings.json）

export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
claude --model qwen2.5-coder-agent

專案級僅本倉庫走本機時，可在倉庫根目錄配置 .claude/settings.json 寫入上述變數，避免影響其他專案。

4.4 驗收清單

ollama ps 能看到模型已載入。
Claude Code 能讀取 README 並給出基於倉庫的回答。
讓它跑 npm test / pytest 等，確認 bash 工具鏈正常。
觀察記憶體：16GB Mac 同時開 Xcode + 7B 模型易.swap，建議推理與構建分機。

五、任務分流：什麼給本機、什麼給雲端

任務型別	建議引擎	原因
單檔案補全、小範圍重構	Ollama 本機	高頻、可接受偶發失誤
批次生成測試、改型別錯誤	Ollama 本機	重複性高，雲 API 不划算
跨 10+ 模組架構調整	雲端 Claude 或更大本機模型	需要更強推理與長上下文
安全審計、合規敏感程式碼	本機 Ollama	資料不出網
CI 無人值守 Agent	遠端 Mac 上 Ollama	穩定線上、可審計

反例：別用 7B 本機模型硬啃全流程

若讓弱模型獨自完成「從需求到上線」的 Agent 長跑，失敗重試次數會暴增，總耗時往往超過直接呼叫一次強模型。混合策略的核心是：本機做草稿與機械勞動，雲端或更大本機模型做決策。

六、團隊版：雲 Mac / 獨享 M4 推理節點

個人 MacBook 適合試跑；團隊一旦多人共用 Agent，就需要一臺常駐、可 SSH、記憶體夠大的 macOS 推理機。這正是 M4 Mac Mini 的甜區：靜音、省電、統一記憶體對 Ollama 友好，且與 iOS/macOS CI 同生態。

6.1 推薦拓撲

推理機（1 臺 M4 Mac Mini，建議 24GB+）：ollama serve 監聽 0.0.0.0:11434（內網/firewall 限制訪問）。
開發者筆記本：export ANTHROPIC_BASE_URL=http://<推理機內網IP>:11434，照常跑 claude。
可選 CI 機（另一臺 Mac）：跑 xcodebuild，與推理分機，避免搶記憶體——參見企業 Mac CI Runner。

6.2 何時用 Macstripe 雲 Mac 而不是自建機房

若團隊沒有機房條件、或需要亞太/美西節點、固定公網 IP、按天擴容，可把 Ollama 裝在 Macstripe 獨享物理 M4 Mac Mini 上：SSH 登入後同樣執行 brew install ollama，用 Tailscale 或 VPN 把 11434 埠暴露給成員。相比自購機器：

無需處理硬體採購、快遞、上架與報廢。
短租可驗證「全團隊 Agent 上本機模型」是否值得，再決定長租或自購。
與私有推理思路一致：程式碼與 Prompt 不出可控邊界。

機型、區域與租期以 Macstripe 首頁、定價頁為準。Macstripe 不提供 Ollama 託管服務本身，而是提供跑 Ollama 的 macOS 硬體與網路交付。

# 在雲 Mac 上（示例）
brew install ollama
ollama serve &
ollama pull qwen2.5-coder:14b
# 成員本機：ANTHROPIC_BASE_URL=http://<雲Mac內網或Tailscale IP>:11434

記憶體規劃：M4 Mini 16GB 建議只跑 7B 級模型；24GB 可嘗試 14B Q4；48GB 更適合多模型或更大上下文。同一臺機器勿同時滿載 Xcode 叢集編譯與 32B 推理。

七、系列規劃：本機 AI Agent 主題叢集

「Claude Code + Ollama + Apple Silicon」適合做成系列，而不是單篇即止——便於 Google 識別主題權威，也方便讀者按需跳轉。Macstripe 開發者部落格後續計劃覆蓋（陸續釋出）：

Claude Code + MLX——追求極致 Token/s 與 Python 流水線整合
Claude Code + OpenRouter——多模型路由與成本對比
Claude Code + Qwen3 / DeepSeek——中文與程式碼向模型選型
M4 Mac Mini 推理節點運維——監控、併發排隊與 Tailscale 接入

已釋出可對照：MLX vs Ollama、Agent Skills 工程紀律。

八、反例與排錯

忘記清空 ANTHROPIC_API_KEY：Claude Code 可能仍走雲端，本機配置「看似無效」。
上下文只有 8K：Agent 反覆丟檔案內容 → 無限重試；務必 Modelfile 拉到 64K+。
模型名帶 /：部分後端不相容，用 Ollama 短名如 qwen2.5-coder-agent。

在 Windows 本機硬跑：Claude Code + Ollama 在 macOS/Linux 更成熟；Windows 可用 WSL2 或遠端 Mac。

把 Agent 當無人值守生產變更：務必保留 CI、Code Review 與人工合併策略，參見跨周協作與記憶。

常見問題 FAQ

在 M4 Mac Mini 上跑本機 AI Agent，API 帳單能省多少？

取決於你把多少任務留在本機。本文 8 人試點在「本機為主 + 雲端兜底」約一個月後，雲 API 從約 $300/月降到約 $50/月（約 83%）。單人用量波動更大，但高頻機械性 Agent 通常降幅明顯。

M4 Mac Mini 上 Ollama 速度夠日常 Agent 嗎？

24GB 機型上 Qwen2.5-Coder 7B 約 25 token/s、14B 約 15 token/s，改測試與單模組重構體感足夠；全流程架構設計仍建議雲端強模型。

Claude Code 可以直接用 Ollama 嗎？

可以。設定 ANTHROPIC_BASE_URL=http://localhost:11434（或團隊推理機地址）、ANTHROPIC_AUTH_TOKEN=ollama、ANTHROPIC_API_KEY=""，或使用 ollama launch claude --model <名>。

Claude Code 需要多大的上下文？

建議 ≥64K。用 Modelfile 的 PARAMETER num_ctx 65536 建立自定義模型最穩妥。

還要不要 Claude 訂閱？

純本機可不調雲 API；複雜任務保留雲端更省心。混合通常比單一 Claude Max 更省。

M4 Mac Mini 16GB 夠嗎？

夠跑 7B 級 Agent 日常任務；14B+ 或 2 人以上併發建議 24GB 起。

團隊怎麼共用一臺 Ollama？

內網或 Tailscale 暴露 11434，成員改 BASE_URL；或用 Macstripe 等雲 Mac / 獨享 M4 做 24×7 推理節點。

和 Cursor 有何不同？

Claude Code 是終端 Agent，適合 SSH 遠端 Mac 與指令碼化；Cursor 是 IDE。二者可並存，本系列後續也會對比其他後端（MLX、OpenRouter 等）。

總結

若你只記一件事：本機 AI Agent 的價值要先看結果，再看配置——在 M4 Mac Mini 上，Claude Code + Ollama 能讓多數日常 Agent 任務不出內網，試點團隊雲 API 可壓到約兩成，7B 模型速度對改碼夠用。落地時記住 64K 上下文、任務分流、推理與 CI 分機；硬體上優先 24GB 統一記憶體的 M4 Mac Mini 或 Macstripe 雲 Mac 常駐節點。

先看實測：成本、速度與併發

本機驗證：ollama launch claude --model …

團隊擴充套件：獨享 M4 上 ollama serve + 內網 BASE_URL → Macstripe 機型與區域

系列跟進：MLX / OpenRouter / Qwen3 等組合（見第七節）

相關閱讀

M4 Mac Mini 跑 7B vs 14B：真實體驗差多少？

MLX vs Ollama：Apple Silicon AI 推理對比

mattpocock/skills 與 Claude Code 工程紀律

私有推理與算力主權

AI 程式跨週協作與 AGENTS.md

企業 Mac CI 裸機 GitLab/GitHub Runner 資源池 FAQ

一、實測結果：帳單能省多少、速度夠不夠

1.1 試點約一個月後：API 帳單變化（示意）

1.2 M4 Mac Mini 推理速度（Ollama，4-bit 量化）

1.3 併發與穩定性（團隊共享一臺推理機）

二、為什麼越來越多開發者用 Ollama 替代 API

三、工作流架構（圖示）

四、在 M4 Mac Mini 上 10 分鐘跑通

4.1 安裝 Ollama 並拉模型

4.2 擴充套件上下文到 64K+（強烈建議）

4.3 連線 Claude Code（兩種方式）

4.4 驗收清單

五、任務分流：什麼給本機、什麼給雲端

反例：別用 7B 本機模型硬啃全流程

六、團隊版：雲 Mac / 獨享 M4 推理節點

6.1 推薦拓撲

6.2 何時用 Macstripe 雲 Mac 而不是自建機房

七、系列規劃：本機 AI Agent 主題叢集

八、反例與排錯

常見問題 FAQ

在 M4 Mac Mini 上跑本機 AI Agent，API 帳單能省多少？

M4 Mac Mini 上 Ollama 速度夠日常 Agent 嗎？

Claude Code 可以直接用 Ollama 嗎？

Claude Code 需要多大的上下文？

還要不要 Claude 訂閱？

M4 Mac Mini 16GB 夠嗎？

團隊怎麼共用一臺 Ollama？

和 Cursor 有何不同？

總結

相關閱讀

給團隊的 Claude Code + Ollama 一臺常駐推理機

選擇語言