LLM local sur Mac : Ollama ou MLX

La première question vise souvent le mauvais niveau

En démarrant un LLM local sur Mac, on entend partout :

« Ollama ou MLX — lequel est le meilleur ? »

Après des semaines sur M4 Mac Mini (16 / 24 / 32 Go), le constat était clair :

La question porte souvent sur la mauvaise couche.

La réalité : la plupart n’ont pas à choisir

Par défaut : Ollama — sauf si vous savez précisément pourquoi MLX est nécessaire.

Les blocages viennent surtout de la mémoire unifiée, de la taille du modèle et de la charge système — pas du nom du framework.

Verdict en 30 secondes

  • 👉 Par défaut : Ollama
  • 👉 Exception : MLX / llama.cpp

Environ 80 % des utilisateurs ne passent jamais en zone d’exception.

ScénarioChoix par défautInquiétude réelle
Claude Code / Cursor en localOllamaMLX sera-t-il plus rapide ?
Premier LLM qui tourneOllamaFaut-il maîtriser la couche basse ?
Inférence partagée en équipeOllamaFaut-il une stack plus complexe ?
Chat quotidienOllama / LM StudioLequel paraît plus « pro » ?
BenchmarksMLXUtilisable au quotidien ?
LoRA / fine-tuningMLXOllama peut-il entraîner ?

Pourquoi on finit sur Ollama

① D’abord faire tourner

brew install ollama
ollama run qwen2.5:7b

② Adapté à l’ère des agents

API HTTP stable sur 127.0.0.1:11434. Claude Code + Ollama.

③ Le goulot n’est pas le framework

16 Go + 14B + IDE + navigateur → swap. MLX change peu. modèles sur M4 Mac Mini, 7B vs 14B.

Quand MLX compte vraiment

Benchmarks, CI, LoRA, stack d’inférence maison, expériences de recherche. MLX vs llama.cpp, Ollama vs MLX. Écart typique 3 %–12 % en bench propre.

Idée à corriger

MLX brille à la couche mesure, pas à la couche usage.

Un setup classique

  • M4 Mac Mini 16 Go
  • Ollama + 14B
  • Chrome chargé
  • VS Code + Claude Code

Pas un problème Ollama — limite mémoire. Voir aussi paliers mémoire sur M4 Mac Mini.

Trois couches

  • Application : Claude Code / Cursor
  • Runtime : Ollama (HTTP)
  • Calcul : MLX / llama.cpp

Le quotidien se joue au niveau runtime.

Règle pratique

Commencer par Ollama. Passer à MLX quand vous pouvez nommer ce qui manque.

Nœud d’équipe : serveur IA privé cluster Mac Mini M4.

Conclusion

  • Par défaut Ollama = destination pour ~80 %
  • Exception MLX = ingénierie / recherche / bench

En une phrase

Sur Mac, LLM local par défaut : Ollama ; MLX seulement pour le contrôle bas niveau. Le vrai goulot : mémoire et taille du modèle.

Critère simple

Pas de raison claire ? Ollama.

FAQ

Ollama ou MLX ?

Par défaut Ollama. MLX pour bench offline, CI, LoRA, inférence maison.

MLX plus rapide — changer ?

~3 %–12 % en bench ; en agent, mémoire et stabilité d’abord.

Lent — passer à MLX ?

Vérifier swap et taille du modèle d’abord.

Les deux sur un Mac ?

Oui — Ollama le jour, MLX la nuit.