Ollama oder MLX für lokale LLMs auf dem Mac

Die erste Frage trifft oft die falsche Ebene

Wer lokale LLMs auf dem Mac startet, fragt fast immer:

„Ollama oder MLX — was ist besser?“

Nach Wochen mit M4 Mac Mini (16GB / 24GB / 32GB) wurde klar:

Die Frage zielt häufig auf die falsche Schicht.

Die Realität: Die meisten müssen nicht wählen

Standard: Ollama — außer Sie wissen genau, warum Sie MLX brauchen.

Nicht weil Ollama immer gewinnt, sondern weil Engpässe meist Unified Memory, Modellgröße und Systemlast sind — nicht der Framework-Name.

30-Sekunden-Fazit

  • 👉 Standard: Ollama
  • 👉 Ausnahme: MLX / llama.cpp

Rund 80 % der Nutzer landen nie in der Ausnahmezone.

SzenarioStandardTypische Sorge
Claude Code / Cursor mit lokalem ModellOllamaIst MLX schneller?
Erstes LLM zum Laufen bringenOllamaMuss ich den Stack verstehen?
Team-InferenzOllamaBrauche ich mehr Komplexität?
Chat im AlltagOllama / LM StudioWas wirkt professioneller?
BenchmarksMLXKann ich das im Dev nutzen?
LoRA-FeintuningMLXKann Ollama trainieren?

Warum die meisten bei Ollama bleiben

① Erst zum Laufen bringen

brew install ollama
ollama run qwen2.5:7b

Kein venv, kein Metal-Build, keine llama.cpp-Flag-Tabelle am ersten Tag.

② Passt zur Agent-Ära

Claude Code, Cursor, Continue brauchen eine stabile HTTP-Schnittstelle. Ollama liefert 127.0.0.1:11434 und OpenAI-kompatible API. Claude Code + Ollama.

③ Der Engpass ist selten das Framework

16GB + 14B + IDE + Browser → Swap, langsame Agents. MLX ändert das kaum. M4 Mac Mini Modell-Matrix, 7B vs 14B.

Wann MLX wirklich zählt

MLX ist kein „besseres Ollama“, sondern ein Low-Level-Werkzeug für enge Use Cases: Benchmarks, CI, LoRA, eigene Inferenz-Stacks, Paper-Experimente. MLX vs llama.cpp, Ollama vs MLX. Sauberer 8B-4bit-Benchmark: Differenz ca. 3%–12%.

Ein Missverständnis

MLX punktet in der Messschicht, nicht im Alltagseinsatz.

Ein Setup, das Sie kennen

  • M4 Mac Mini 16GB
  • Ollama + 14B
  • Chrome mit vielen Tabs
  • VS Code + Claude Code

Swap 8GB+, Timeouts — kein Ollama-Problem, sondern Ressourcengrenze. Unified Memory & LLM-Inferenz.

Drei Schichten

  • App: Claude Code / Cursor
  • Runtime: Ollama (HTTP)
  • Compute: MLX / llama.cpp

Im Alltag leben Sie in der Runtime-Schicht.

Praxisregel

Mit Ollama starten. Zu MLX wechseln, wenn Sie benennen können, was fehlt.

Team-Knoten: privater KI-Server Mac Mini M4 Cluster.

Fazit

  • Standard Ollama = Endpunkt für ~80 %
  • Ausnahme MLX = Engineering / Forschung / Benchmarks

Ein Satz

Lokale LLMs auf dem Mac: Standard Ollama, MLX nur bei Low-Level-Bedarf. Der Engpass ist meist Speicher und Modellgröße — nicht das Framework.

Entscheidung

Kein klarer Grund? Ollama.

FAQ

Ollama oder MLX?

Standard Ollama. MLX für Offline-Benchmarks, CI, LoRA, eigene Inferenz, Extrem-Parameter.

MLX ist schneller — umstellen?

~3%–12% im Benchmark; bei Agents zählen Speicher und Stabilität.

Langsam — MLX?

Zuerst Swap und Modellgröße prüfen. 14B auf 16GB löst ein Framework-Wechsel selten.

Beides installieren?

Ja — tags Ollama, nachts MLX-Benchmarks.