Claude Code と Ollama を別々に検索する開発者は多いものの、本番運用や Macstripe 利用者にとって本質的な問いは次のとおりです:M4 Mac Mini 上でローカル AI エージェントをどう動かすか? 2026 年時点の実用的な答えは、Claude Code でエージェントをオーケストレーション(リポジトリ読取・コマンド実行・ファイル編集)し、Ollama を Apple Silicon 上で稼働させる構成です(トークン従量課金ではなく、ハードウェアと電力コストで済ませる)。
本記事ではまずコストと速度の実測結果(「導入する価値はあるか」という疑問)を示し、続いてアーキテクチャとセットアップ手順を解説します。チームインフラを担当される方には、クラウド Mac 推論ノードと「Claude Code + Apple Silicon」シリーズの予定も触れます。フレームワーク選定についてはApple Silicon における MLX vs Ollamaをご参照ください。
1. 実測結果:API コスト削減量と速度は足りるか
以下の数値は、Macstripe が専用 M4 Mac Mini(24GB ユニファイドメモリ)上で Ollama を実行したベンチマーク、および「Claude Code + オンプレ Ollama」へ移行した8 名規模のバックエンドパイロットの請求レビュー(2026 年 4–5 月、ハイブリッド構成)に基づきます。環境により差はありますが、意思決定に役立つオーダー感としてご参照ください。
1.1 約 1 か月後:API 請求の変化(参考値)
| 項目 | 移行前(クラウド API のみ) | 移行後(ローカル優先) | 変化 |
|---|---|---|---|
| Claude / 同等 API 利用 | 約 $300/月 | 約 $50/月(アーキテクチャレビュー等) | 約 −83% |
| 推論コンピュート | API に含む | M4 Mac Mini クラウドリース 1 台 + 電力 | 固定・予測可能なコスト |
| データ egress | デフォルトで外部送信 | 日常の Agent 作業は LAN 内 | コンプライアンスに有利 |
削減の大半は高頻度・反復的な Agent 呼び出し(テスト修正、一括リファクタ、ドキュメント要約)から生まれます。全員が毎日多ラウンドの「リポジトリ全体アーキテクチャ」Agent を回す場合は、強力なクラウドモデル用の予算を残してください。そうでないと総時間が増えることがあります。
1.2 M4 Mac Mini 上の推論速度(Ollama、4-bit 量子化)
| モデル | 生成速度(目安) | 初回トークンまで | 日常 Agent の体感 |
|---|---|---|---|
| Qwen2.5-Coder 7B | ~25 token/s | ~200 ms | 単一モジュール編集・テストに十分 |
| Qwen2.5-Coder 14B | ~15 token/s | ~280 ms | やや難しいタスクで品質向上 |
| glm-4.7-flash(~9GB 級) | ~30 token/s | ~170 ms | 速度重視。短い Q&A に適する |
テスト条件:M4 Mac Mini 24GB、macOS 15.x、Ollama 0.14+、約 2k トークンのプロンプト継続。16GB 機では 14B で swap が発生しやすいため、チーム推論用マシンは24GB からを推奨します。同一ハードウェアでは MLX が通常 10%–15% 高速です。詳細は比較記事をご覧ください。
1.3 同時実行と安定性(推論マシン 1 台を共有)
- 24GB + 7B モデル:2–3 名の軽量 Agent 作業(小さな読取範囲)は許容範囲。4 人目以降はレイテンシが目に見えて上昇します。
- 24GB + 14B モデル:重量 Agent は同時 1 つに限定し、他はキューまたは 7B へフォールバック。
- 1 か月の観測:パイロットチームの Agent 成功率(初回でテスト通過)は約 55% から約 68% へ。主因はモデルの賢さではなく、64K コンテキストによる「ファイル半分欠落」リトライの減少です。
2. なぜ Ollama 経由の Agent ルーティングが増えているのか
Claude Code は Anthropic のターミナル Agent です。ツリー検索、ファイル編集、bash 実行、PR 作成が可能です。デフォルトではクラウド Claude API に接続し、1 週間の重度 Agent 利用でサブスクリプションの数倍に達することもあります。エンドポイントを Ollama に向けると、同じ Agent 機能をローカルまたは LAN 上のモデルで実行でき、トークン従量課金の代わりに固定コスト(マシン + 電力)で運用できます。
| 方式 | 典型的な月額コスト感 | データはネットワーク外へ? | 最適な用途 |
|---|---|---|---|
| Claude Code(クラウドのみ) | サブスクリプション + API 超過 | はい(エンタープライズ私有展開を除く) | 高度な推論、長いアーキテクチャチェーン |
| Claude Code + Ollama(ローカル) | ハードウェア / クラウド Mac レンタル | LAN 内に完全保持可能 | 日常編集、一括リファクタ、機密リポジトリ |
| ハイブリッド:ローカル優先 + クラウドフォールバック | クラウドのみ Max ティア未満 | 必要に応じて | 多くのエンジニアリングチーム(推奨) |
3. ワークフローアーキテクチャ(図解)
claude を実行(Claude Code)Agent Skills と組み合わせやすい構成です。Skills で「コード前に整合を取る」ルールを強制し、Claude Code が実行、Ollama が「呼び出しごとの推論」を供給します。
4. M4 Mac Mini で約 10 分のセットアップ
以下の手順はローカルまたはクラウド M4 Mac Miniで同一です。Ollama 公式 Claude Code 連携に沿っています。Apple Silicon では Homebrew インストールを推奨します。
4.1 Ollama のインストールとモデル取得
brew install ollama
ollama pull qwen2.5-coder:7b
# or: ollama pull glm-4.7-flash (size/speed tradeoff—check ollama.com for current tags)
4.2 コンテキストを 64K 以上に拡張(強く推奨)
Claude Code は Agent としてリポジトリ断片を繰り返しコンテキストに詰め込みます。ウィンドウが小さいと切り捨てとリトライループが発生し、実際には遅く高コストになります。デフォルトコンテキストが小さい場合は Modelfile を作成してください。
cat > Modelfile <<'EOF'
FROM qwen2.5-coder:7b
PARAMETER num_ctx 65536
EOF
ollama create qwen2.5-coder-agent -f Modelfile
4.3 Claude Code との接続(2 方式)
方式 A(推奨):Ollama 0.14.5+ のワンライナー
ollama launch claude --model qwen2.5-coder-agent
方式 B:環境変数を手動設定(~/.zshrc またはプロジェクト .claude/settings.json に適する)
export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
claude --model qwen2.5-coder-agent
リポジトリ単位でローカルルーティングする場合、プロジェクトルートの .claude/settings.json に上記変数を置き、他プロジェクトはクラウドのままにできます。
4.4 受け入れチェックリスト
ollama psでモデルがロードされていること。- Claude Code が
READMEを読み、リポジトリに基づく回答ができること。 npm test/pytestの実行を依頼し、bash ツールが動作すること。- メモリ監視:16GB Mac で Xcode + 7B を同時実行すると swap しやすい。可能なら推論とビルドを分離してください。
5. タスクルーティング:ローカルとクラウドの使い分け
| タスク種別 | 推奨エンジン | 理由 |
|---|---|---|
| 単一ファイル補完、小規模リファクタ | ローカル Ollama | 高頻度。たまのミスは許容 |
| テスト一括生成、型エラー修正 | ローカル Ollama | 反復的。クラウド API は非効率 |
| 10 モジュール超の横断アーキテクチャ変更 | クラウド Claude または大きなローカルモデル | 強い推論と長コンテキストが必要 |
| セキュリティ監査、コンプライアンス敏感コード | ローカル Ollama | データがネットワーク外に出ない |
| CI 無人 Agent | リモート Mac 上の Ollama | 常時稼働、監査可能 |
アンチパターン:7B ローカルモデルにパイプライン全体を任せない
弱いモデルだけで長い「要件から本番まで」の Agent を回すと、失敗リトライが爆発し、総時間は強力なクラウド 1 回呼び出しを超えることがあります。ハイブリッド戦略:ローカルで下書きと機械作業、クラウドまたは大きなローカルモデルで意思決定。
6. チーム構成:クラウド Mac / 専用 M4 推論ノード
個人 MacBook は実験に適します。複数人で Agent を共有する段階では、常時稼働・SSH 可能・大容量メモリの macOS 推論ホストが必要です。これが M4 Mac Mini の得意領域です。静音・省電力、ユニファイドメモリが Ollama に有利で、iOS/macOS CI と同じエコシステムです。
6.1 推奨トポロジ
- 推論ボックス(M4 Mac Mini 1 台、24GB+ 推奨):
ollama serveを0.0.0.0:11434で(ファイアウォール/VLAN で制限)。 - 開発者ノート PC:
export ANTHROPIC_BASE_URL=http://<推論ホスト-LAN-IP>:11434のうえ通常どおりclaudeを実行。 - 任意の CI Mac(2 台目):
xcodebuildを推論と分離しメモリ競合を回避——エンタープライズ Mac CI ランナーを参照。
6.2 Macstripe クラウド Mac が自前ハードウェアに勝る場合
データセンターがなく、APAC / US-West ノード、安定した公開 IP、日単位のキャパシティが必要な場合、Macstripe の専用物理 M4 Mac Mini上で Ollama を実行できます。SSH 接続後、同じ brew install ollama、Tailscale または VPN で 11434 をチームに公開。自前購入と比較すると:
- 調達・配送・ラック・廃棄が不要。
- 短期リースで「チーム全体をローカルモデルへ」が妥当か検証してから長期購入を判断。
- プライベート推論の考え方と一致:コードとプロンプトを境界内に保持。
機種・リージョン・条件は Macstripe ホームおよび料金ページをご確認ください。Macstripe は Ollama 自体をホストしません。macOS ハードウェアとネットワークを 24/7 稼働用に提供します。
# On a cloud Mac (example)
brew install ollama
ollama serve &
ollama pull qwen2.5-coder:14b
# On member laptops: ANTHROPIC_BASE_URL=http://<cloud Mac LAN or Tailscale IP>:11434
7. シリーズ計画:ローカル AI エージェントのトピック群
「Claude Code + Ollama + Apple Silicon」は単発よりシリーズの方が効果的です。検索でのトピック権威と読者ナビゲーションの両方に有利です。Macstripe 開発者ブログの予定(順次公開):
- Claude Code + MLX — ピーク tok/s と Python パイプライン統合
- Claude Code + OpenRouter — マルチモデルルーティングとコスト比較
- Claude Code + Qwen3 / DeepSeek — 中国語・コード向けモデル選定
- M4 Mac Mini 推論運用 — 監視、キュー、Tailscale アクセス
8. アンチパターンとトラブルシューティング
- ANTHROPIC_API_KEY のクリア忘れ:Claude Code がクラウドへ接続し続け、ローカル設定が「壊れている」ように見える。
- コンテキストが 8K のまま:Agent がファイル断片を落とす → 終わらないリトライ。Modelfile で 64K+ を設定。
- モデル名に
/:一部バックエンドで失敗。qwen2.5-coder-agentなど Ollama 短名を使用。 - Windows ローカルですべて実行:Claude Code + Ollama は macOS/Linux で成熟。Windows は WSL2 またはリモート Mac。
- Agent を無監督の本番変更とみなす:CI、コードレビュー、人間のマージポリシーを維持——週をまたぐ協業とメモリを参照。
FAQ
M4 Mac Mini 上のローカル AI エージェントで API 請求はどれだけ削減できる?
ローカルに残す作業量によります。8 名パイロット(ローカル優先 + クラウドフォールバック)では約 1 か月後、クラウド API 支出が ~$300/月 から ~$50/月(~83%)へ。個人利用は幅が大きいですが、高頻度の機械的 Agent 作業は通常大幅に減ります。
M4 Mac Mini 上の Ollama は日常 Agent に十分速い?
24GB では Qwen2.5-Coder 7B が ~25 token/s、14B が ~15 token/s。テストと単一モジュールリファクタには十分。全リポジトリアーキテクチャは強力なクラウドモデル向き。
Claude Code は Ollama を直接使える?
はい。ANTHROPIC_BASE_URL=http://localhost:11434(またはチーム推論ホスト)、ANTHROPIC_AUTH_TOKEN=ollama、ANTHROPIC_API_KEY="" を設定するか、ollama launch claude --model <name> を使用。
Claude Code に必要なコンテキストウィンドウは?
≥64K 推奨。Modelfile で PARAMETER num_ctx 65536 を指定し ollama create するのが最も安全です。
Claude サブスクリプションはまだ必要?
純ローカルならクラウド API 呼び出し不要。難しいタスク用にクラウドを残す。ハイブリッドは通常 Claude Max 単独より安価です。
M4 Mac Mini の 16GB で足りる?
7B 級の日常 Agent には十分。14B+ または 2 名以上の同時利用 → 24GB から。
チームで 1 つの Ollama を共有するには?
LAN または Tailscale で 11434 を公開し、全員の BASE_URL を向ける。または Macstripe のクラウド Mac / 専用 M4を 24/7 推論ノードに。
Cursor との違いは?
Claude Code はターミナル Agent(SSH リモート Mac、スクリプト化)。Cursor は IDE。併用可能。本シリーズでは MLX、OpenRouter 等も比較予定。
まとめ
覚えておくべきは 1 点:ローカル AI エージェントは設定より成果で判断する。M4 Mac Mini 上の Claude Code + Ollama は日常 Agent 作業の大半を自ネットワーク内に保てます。パイロットではクラウド API をおおむね 5 分の 1 に削減、7B の速度はルーチン編集に十分です。64K コンテキスト、タスクルーティング、推論と CI の分離で本番投入。ハードウェアは M4 Mac Mini 24GB ユニファイドメモリ、または Macstripe の常時稼働クラウドノードを優先してください。
- 数値から:コスト・速度・同時実行
- ローカル検証:
ollama launch claude --model … - チーム拡張:専用 M4 で
ollama serve+ LAN BASE_URL → Macstripe 機種とリージョン - シリーズ追従:MLX / OpenRouter / Qwen3 等(第 7 節)