Die erste Frage trifft oft die falsche Ebene
Wer lokale LLMs auf dem Mac startet, fragt fast immer:
„Ollama oder MLX — was ist besser?“
Nach Wochen mit M4 Mac Mini (16GB / 24GB / 32GB) wurde klar:
Die Frage zielt häufig auf die falsche Schicht.
Die Realität: Die meisten müssen nicht wählen
Standard: Ollama — außer Sie wissen genau, warum Sie MLX brauchen.
Nicht weil Ollama immer gewinnt, sondern weil Engpässe meist Unified Memory, Modellgröße und Systemlast sind — nicht der Framework-Name.
30-Sekunden-Fazit
- 👉 Standard: Ollama
- 👉 Ausnahme: MLX / llama.cpp
Rund 80 % der Nutzer landen nie in der Ausnahmezone.
| Szenario | Standard | Typische Sorge |
|---|---|---|
| Claude Code / Cursor mit lokalem Modell | Ollama | Ist MLX schneller? |
| Erstes LLM zum Laufen bringen | Ollama | Muss ich den Stack verstehen? |
| Team-Inferenz | Ollama | Brauche ich mehr Komplexität? |
| Chat im Alltag | Ollama / LM Studio | Was wirkt professioneller? |
| Benchmarks | MLX | Kann ich das im Dev nutzen? |
| LoRA-Feintuning | MLX | Kann Ollama trainieren? |
Warum die meisten bei Ollama bleiben
① Erst zum Laufen bringen
brew install ollama
ollama run qwen2.5:7b
Kein venv, kein Metal-Build, keine llama.cpp-Flag-Tabelle am ersten Tag.
② Passt zur Agent-Ära
Claude Code, Cursor, Continue brauchen eine stabile HTTP-Schnittstelle. Ollama liefert 127.0.0.1:11434 und OpenAI-kompatible API. Claude Code + Ollama.
③ Der Engpass ist selten das Framework
16GB + 14B + IDE + Browser → Swap, langsame Agents. MLX ändert das kaum. M4 Mac Mini Modell-Matrix, 7B vs 14B.
Wann MLX wirklich zählt
MLX ist kein „besseres Ollama“, sondern ein Low-Level-Werkzeug für enge Use Cases: Benchmarks, CI, LoRA, eigene Inferenz-Stacks, Paper-Experimente. MLX vs llama.cpp, Ollama vs MLX. Sauberer 8B-4bit-Benchmark: Differenz ca. 3%–12%.
Ein Missverständnis
MLX punktet in der Messschicht, nicht im Alltagseinsatz.
Ein Setup, das Sie kennen
- M4 Mac Mini 16GB
- Ollama + 14B
- Chrome mit vielen Tabs
- VS Code + Claude Code
Swap 8GB+, Timeouts — kein Ollama-Problem, sondern Ressourcengrenze. Unified Memory & LLM-Inferenz.
Drei Schichten
- App: Claude Code / Cursor
- Runtime: Ollama (HTTP)
- Compute: MLX / llama.cpp
Im Alltag leben Sie in der Runtime-Schicht.
Praxisregel
Mit Ollama starten. Zu MLX wechseln, wenn Sie benennen können, was fehlt.
Team-Knoten: privater KI-Server Mac Mini M4 Cluster.
Fazit
- Standard Ollama = Endpunkt für ~80 %
- Ausnahme MLX = Engineering / Forschung / Benchmarks
Ein Satz
Lokale LLMs auf dem Mac: Standard Ollama, MLX nur bei Low-Level-Bedarf. Der Engpass ist meist Speicher und Modellgröße — nicht das Framework.
Entscheidung
Kein klarer Grund? Ollama.
FAQ
Ollama oder MLX?
Standard Ollama. MLX für Offline-Benchmarks, CI, LoRA, eigene Inferenz, Extrem-Parameter.
MLX ist schneller — umstellen?
~3%–12% im Benchmark; bei Agents zählen Speicher und Stabilität.
Langsam — MLX?
Zuerst Swap und Modellgröße prüfen. 14B auf 16GB löst ein Framework-Wechsel selten.
Beides installieren?
Ja — tags Ollama, nachts MLX-Benchmarks.