Beaucoup de développeurs cherchent Claude Code et Ollama séparément. La question qui compte vraiment en production — et pour les clients Macstripe — est la suivante : comment exécuter un agent IA local sur un Mac Mini M4 ? En 2026, une réponse pragmatique consiste à combiner Claude Code pour l'orchestration de l'agent (lire le dépôt, exécuter des commandes, modifier des fichiers) et Ollama sur Apple Silicon (payer le matériel et l'électricité, pas la facturation cloud au token).
Cet article commence par les résultats de coût et de vitesse (la question « est-ce que ça vaut le coup ? »), puis aborde l'architecture et la mise en place. Si vous gérez l'infrastructure d'équipe, nous couvrons aussi un nœud d'inférence Mac cloud et une série prévue « Claude Code + Apple Silicon ». Pour le choix de framework, voir MLX vs Ollama sur Apple Silicon.
1. Résultats concrets : combien vous économisez et si la vitesse suffit
Les chiffres ci-dessous proviennent des benchmarks Macstripe sur un Mac Mini M4 dédié (24 Go de mémoire unifiée) exécutant Ollama, plus une revue de facturation d'un pilote backend à 8 personnes passé à « Claude Code + Ollama sur site » (avril–mai 2026, configuration hybride). Vos résultats varieront, mais l'ordre de grandeur est utile pour décider.
1.1 Après environ un mois : évolution de la facture API (illustratif)
| Poste | Avant (API cloud uniquement) | Après (local d'abord) | Évolution |
|---|---|---|---|
| Usage Claude / API similaire | ~300 $/mois | ~50 $/mois (revue d'architecture, etc.) | ~−83 % |
| Calcul d'inférence | Inclus dans l'API | 1× location cloud Mac Mini M4 + électricité | Coût fixe, prévisible |
| Sortie de données | Hors réseau par défaut | Travail agent quotidien sur le LAN | Compatible conformité |
L'essentiel des économies vient des appels agent à haute fréquence et répétitifs — corrections de tests, refactors par lot, résumés de documentation. Si tout le monde lance quotidiennement des agents « architecture du dépôt entier » sur plusieurs tours, gardez un budget cloud pour des modèles puissants, sinon le temps total peut augmenter.
1.2 Vitesse d'inférence sur Mac Mini M4 (Ollama, quantification 4 bits)
| Modèle | Vitesse de génération (approx.) | Temps jusqu'au premier token | Ressenti agent au quotidien |
|---|---|---|---|
| Qwen2.5-Coder 7B | ~25 token/s | ~200 ms | Correct pour éditions mono-module et tests |
| Qwen2.5-Coder 14B | ~15 token/s | ~280 ms | Meilleure qualité pour tâches un peu plus difficiles |
| glm-4.7-flash (~9 Go) | ~30 token/s | ~170 ms | Optimisé vitesse ; bon pour Q&R courtes |
Conditions de test : Mac Mini M4 24 Go, macOS 15.x, Ollama 0.14+, continuation de prompt ~2k tokens. Sur 16 Go, le 14B déclenche souvent le swap — les boîtes d'inférence d'équipe devraient commencer à 24 Go. Sur le même matériel, MLX est typiquement ~10 %–15 % plus rapide ; voir notre article comparatif.
1.3 Concurrence et stabilité (une machine d'inférence partagée)
- 24 Go + modèle 7B : 2–3 personnes en agent léger (petites portées de lecture) restent acceptables ; la latence grimpe nettement à partir du 4e utilisateur.
- 24 Go + modèle 14B : Préférez un seul agent lourd à la fois ; mettez les autres en file ou basculez sur le 7B.
- Observation sur un mois : le taux de succès agent du pilote (tests OK du premier coup) est passé de ~55 % à ~68 % — surtout grâce au contexte 64K qui réduit les relances « la moitié des fichiers a disparu », pas parce que le modèle s'est amélioré.
2. Pourquoi de plus en plus de développeurs routent leurs agents via Ollama plutôt que via les API
Claude Code est l'agent terminal d'Anthropic : parcourir l'arborescence, éditer des fichiers, exécuter bash, ouvrir des PR. Par défaut il appelle l'API cloud Claude ; un usage agent intensif en une semaine peut consommer plusieurs fois un abonnement. En pointant l'endpoint vers Ollama, les mêmes capacités agent tournent sur un modèle local ou LAN — coût fixe (machine + électricité) au lieu d'une tarification au token.
| Approche | Coût mensuel typique | Les données quittent le réseau ? | Idéal pour |
|---|---|---|---|
| Claude Code (cloud uniquement) | Abonnement + dépassement API | Oui (sauf déploiement privé entreprise) | Raisonnement difficile, longues chaînes d'architecture |
| Claude Code + Ollama (local) | Matériel / location Mac cloud | Peut rester entièrement sur le LAN | Éditions quotidiennes, refactors par lot, dépôts sensibles |
| Hybride : local d'abord + repli cloud | En dessous du tier Max cloud seul | Selon les besoins | La plupart des équipes d'ingénierie (recommandé) |
3. Architecture du flux de travail (schémas)
claude (Claude Code)S'accorde bien avec les Agent Skills : les Skills imposent « aligner avant de coder » ; Claude Code exécute ; Ollama fournit le « calcul par appel ».
4. Mise en route sur un Mac Mini M4 en environ 10 minutes
Ces étapes sont identiques sur un Mac Mini M4 local ou cloud. Nous suivons l'intégration officielle Claude Code d'Ollama ; sur Apple Silicon, l'installation Homebrew est recommandée.
4.1 Installer Ollama et tirer un modèle
brew install ollama
ollama pull qwen2.5-coder:7b
# or: ollama pull glm-4.7-flash (size/speed tradeoff—check ollama.com for current tags)
4.2 Étendre le contexte à 64K+ (fortement recommandé)
Claude Code en tant qu'agent remplit le contexte de fragments de dépôt en boucle. Une fenêtre trop petite provoque troncature et boucles de relance — plus lent et plus coûteux en pratique. Si le contexte par défaut est petit, écrivez un Modelfile :
cat > Modelfile <<'EOF'
FROM qwen2.5-coder:7b
PARAMETER num_ctx 65536
EOF
ollama create qwen2.5-coder-agent -f Modelfile
4.3 Connecter Claude Code (deux méthodes)
Option A (recommandée) : one-liner Ollama 0.14.5+
ollama launch claude --model qwen2.5-coder-agent
Option B : variables d'environnement manuelles (pratique pour ~/.zshrc ou .claude/settings.json du projet)
export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
claude --model qwen2.5-coder-agent
Pour un routage local limité au dépôt, placez ces variables dans .claude/settings.json à la racine du projet afin que les autres projets restent sur le cloud.
4.4 Checklist d'acceptation
ollama psaffiche le modèle chargé.- Claude Code peut lire le
READMEet répondre à partir du dépôt. - Demandez-lui d'exécuter
npm test/pytestet confirmez que les outils bash fonctionnent. - Surveillez la mémoire : sur Mac 16 Go avec Xcode + 7B, le swap est fréquent — séparez l'inférence des builds quand c'est possible.
5. Routage des tâches : ce qui reste local vs ce qui part vers le cloud
| Type de tâche | Moteur suggéré | Pourquoi |
|---|---|---|
| Complétion mono-fichier, petits refactors | Ollama local | Haute fréquence ; erreurs occasionnelles acceptables |
| Génération de tests par lot, corrections d'erreurs de type | Ollama local | Répétitif ; l'API cloud est un mauvais rapport qualité-prix |
| Changements d'architecture sur 10+ modules | Claude cloud ou modèle local plus grand | Nécessite un raisonnement plus fort et un long contexte |
| Audit sécurité, code sensible conformité | Ollama local | Les données ne quittent jamais le réseau |
| Agent CI sans surveillance | Ollama sur Mac distant | Toujours allumé, auditable |
Anti-pattern : ne laissez pas un modèle local 7B piloter tout le pipeline
Si un modèle faible exécute seul un long agent « exigences → production », les relances échouées explosent — le temps total dépasse souvent un seul appel cloud puissant. Stratégie hybride : local pour brouillons et travail mécanique ; cloud ou modèle local plus grand pour les décisions.
6. Configuration d'équipe : Mac cloud / nœud d'inférence M4 dédié
Un MacBook personnel convient pour expérimenter ; dès que plusieurs personnes partagent un agent, il faut un hôte macOS d'inférence toujours allumé, accessible en SSH, à forte mémoire. C'est le créneau idéal du Mac Mini M4 : silencieux, efficace, mémoire unifiée favorable à Ollama, même écosystème que la CI iOS/macOS.
6.1 Topologie recommandée
- Boîte d'inférence (1× Mac Mini M4, 24 Go+ recommandés) :
ollama servesur0.0.0.0:11434(restreindre via pare-feu/VLAN). - Portables développeurs :
export ANTHROPIC_BASE_URL=http://<IP-LAN-hôte-inférence>:11434, puis lancerclaudecomme d'habitude. - Mac CI optionnel (deuxième machine) : exécuter
xcodebuildséparément de l'inférence pour éviter la contention mémoire — voir les runners CI Mac entreprise.
6.2 Quand un Mac cloud Macstripe bat le matériel auto-hébergé
Si vous n'avez pas de datacenter, ou si vous avez besoin de nœuds APAC / US-Ouest, IP publique stable, capacité à la journée, exécutez Ollama sur un Mac Mini M4 physique dédié Macstripe : SSH, même brew install ollama, exposez 11434 à l'équipe via Tailscale ou VPN. Comparé à l'achat de matériel :
- Pas d'achat, livraison, rack ni mise au rebut.
- Locations courtes pour valider « toute l'équipe sur modèles locaux » avant un achat long terme.
- S'aligne sur la logique d'inférence privée : code et prompts restent dans votre périmètre.
Modèles, régions et conditions sur la page d'accueil Macstripe et la page des tarifs. Macstripe n'héberge pas Ollama pour vous — il fournit le matériel macOS et le réseau pour l'exécuter 24h/24.
# On a cloud Mac (example)
brew install ollama
ollama serve &
ollama pull qwen2.5-coder:14b
# On member laptops: ANTHROPIC_BASE_URL=http://<cloud Mac LAN or Tailscale IP>:11434
7. Plan de série : cluster thématique agent IA local
« Claude Code + Ollama + Apple Silicon » fonctionne mieux en série qu'en article isolé — meilleure autorité thématique pour la recherche et navigation plus simple. Couverture prévue du blog développeurs Macstripe (déploiement progressif) :
- Claude Code + MLX — pic tok/s et intégration pipeline Python
- Claude Code + OpenRouter — routage multi-modèles et comparaison de coûts
- Claude Code + Qwen3 / DeepSeek — choix de modèles orientés code et chinois
- Ops inférence Mac Mini M4 — monitoring, file d'attente, accès Tailscale
Déjà en ligne : MLX vs Ollama, discipline d'ingénierie Agent Skills.
8. Anti-patterns et dépannage
- Oublier de vider ANTHROPIC_API_KEY : Claude Code peut encore appeler le cloud ; la config locale semble « cassée ».
- Contexte bloqué à 8K : l'agent perd des morceaux de fichiers → relances sans fin ; utilisez un Modelfile pour atteindre 64K+.
- Noms de modèles avec
/: certains backends bloquent ; utilisez les noms courts Ollama commeqwen2.5-coder-agent. - Tout exécuter localement sur Windows : Claude Code + Ollama est plus mature sur macOS/Linux ; utilisez WSL2 ou un Mac distant sous Windows.
- Traiter l'agent comme changement production sans supervision : gardez CI, revue de code et politique de merge humaine — voir collaboration inter-semaines et mémoire.
FAQ
Combien puis-je économiser sur les factures API avec un agent IA local sur Mac Mini M4 ?
Cela dépend de la part de travail gardée en local. Dans notre pilote à 8 personnes (« local d'abord + repli cloud »), la dépense API cloud est passée de ~300 $/mois à ~50 $/mois (~83 %) après environ un mois. L'usage solo varie davantage, mais le travail agent mécanique à haute fréquence baisse généralement fortement.
Ollama sur Mac Mini M4 est-il assez rapide pour le travail agent quotidien ?
Sur 24 Go, Qwen2.5-Coder 7B est ~25 token/s et 14B ~15 token/s — correct pour tests et refactors mono-module. L'architecture du dépôt entier reste du ressort d'un modèle cloud puissant.
Claude Code peut-il utiliser Ollama directement ?
Oui. Définissez ANTHROPIC_BASE_URL=http://localhost:11434 (ou votre hôte d'inférence d'équipe), ANTHROPIC_AUTH_TOKEN=ollama, ANTHROPIC_API_KEY="", ou utilisez ollama launch claude --model <name>.
Quelle taille de fenêtre de contexte Claude Code nécessite-t-il ?
≥64K recommandé. Chemin le plus sûr : PARAMETER num_ctx 65536 dans un Modelfile, puis ollama create un modèle personnalisé.
Ai-je encore besoin d'un abonnement Claude ?
Le pur local ne nécessite aucun appel API cloud ; gardez le cloud pour les tâches difficiles. L'hybride coûte généralement moins cher que Claude Max seul.
16 Go sur Mac Mini M4 suffisent-ils ?
Suffisant pour agents quotidiens classe 7B ; 14B+ ou 2+ utilisateurs concurrents → commencez à 24 Go.
Comment une équipe partage-t-elle une instance Ollama ?
Exposez 11434 sur le LAN ou Tailscale et pointez le BASE_URL de chacun dessus — ou utilisez un Mac cloud / M4 dédié Macstripe comme nœud d'inférence 24h/24.
En quoi est-ce différent de Cursor ?
Claude Code est un agent terminal (Mac distant SSH, scripting) ; Cursor est un IDE. Les deux peuvent coexister ; cette série comparera aussi MLX, OpenRouter et d'autres backends.
Conclusion
Si vous ne retenez qu'une chose : jugez les agents IA locaux sur les résultats avant la config. Sur Mac Mini M4, Claude Code + Ollama garde la plupart du travail agent quotidien sur votre réseau ; notre pilote a réduit l'API cloud à environ un cinquième, et la vitesse 7B suffit pour les éditions courantes. Livrez avec contexte 64K, routage des tâches et inférence séparée de la CI ; côté matériel, préférez 24 Go de mémoire unifiée sur Mac Mini M4 ou un nœud cloud Macstripe toujours allumé.
- Commencez par les chiffres : coût, vitesse, concurrence
- Validez en local :
ollama launch claude --model … - Scalez l'équipe :
ollama servesur un M4 dédié + BASE_URL LAN → modèles et régions Macstripe - Suivez la série : combos MLX / OpenRouter / Qwen3 (section 7)
Lecture connexe
- Mac Mini M4 : 7B vs 14B
- MLX vs Ollama : Quel est le meilleur pour l'IA Apple Silicon ? Comparaison et Benchmarks
- Phénomène GitHub : mattpocock/skills redéfinit la collaboration IA en ingénierie
- SpaceX, OpenAI et Anthropic dans la course aux GPU — inférence privée et souveraineté du calcul
- Pourquoi Cursor « oublie » sans cesse ? Une fenêtre de contexte XXL ne sauve pas la collaboration sur plusieurs semaines