Was ist der Standard für lokale LLMs auf dem Mac?

Ollama. Ein Befehl startet Modelle, HTTP und OpenAI-kompatible API inklusive.

MLX ist schneller — soll ich wechseln?

Im Benchmark ~3%–12%, bei Agents zählen Speicher und Stabilität. Standard bleibt Ollama.

Wann brauche ich wirklich MLX?

Bei präzisen Benchmarks, CI-Reproduktion, Training/Feintuning, eigener Inferenz oder Kontrolle über Quantisierung und Decoding.

Lokales LLM langsam — zu MLX wechseln?

Zuerst Swap und Modellgröße prüfen. 14B auf 16GB mit IDE und Browser löst ein Framework-Wechsel selten.

Lokale LLMs auf dem Mac: Ollama oder MLX? Die Standardregel ist einfach

Ollama oder MLX für lokale LLMs auf dem Mac

Die erste Frage trifft oft die falsche Ebene

Wer lokale LLMs auf dem Mac startet, fragt fast immer:

„Ollama oder MLX — was ist besser?“

Nach Wochen mit M4 Mac Mini (16GB / 24GB / 32GB) wurde klar:

Die Frage zielt häufig auf die falsche Schicht.

Die Realität: Die meisten müssen nicht wählen

Standard: Ollama — außer Sie wissen genau, warum Sie MLX brauchen.

Nicht weil Ollama immer gewinnt, sondern weil Engpässe meist Unified Memory, Modellgröße und Systemlast sind — nicht der Framework-Name.

30-Sekunden-Fazit

👉 Standard: Ollama
👉 Ausnahme: MLX / llama.cpp

Rund 80 % der Nutzer landen nie in der Ausnahmezone.

Szenario	Standard	Typische Sorge
Claude Code / Cursor mit lokalem Modell	Ollama	Ist MLX schneller?
Erstes LLM zum Laufen bringen	Ollama	Muss ich den Stack verstehen?
Team-Inferenz	Ollama	Brauche ich mehr Komplexität?
Chat im Alltag	Ollama / LM Studio	Was wirkt professioneller?
Benchmarks	MLX	Kann ich das im Dev nutzen?
LoRA-Feintuning	MLX	Kann Ollama trainieren?

Warum die meisten bei Ollama bleiben

① Erst zum Laufen bringen

brew install ollama
ollama run qwen2.5:7b

Kein venv, kein Metal-Build, keine llama.cpp-Flag-Tabelle am ersten Tag.

② Passt zur Agent-Ära

Claude Code, Cursor, Continue brauchen eine stabile HTTP-Schnittstelle. Ollama liefert 127.0.0.1:11434 und OpenAI-kompatible API. Claude Code + Ollama.

③ Der Engpass ist selten das Framework

16GB + 14B + IDE + Browser → Swap, langsame Agents. MLX ändert das kaum. M4 Mac Mini Modell-Matrix, 7B vs 14B.

Wann MLX wirklich zählt

MLX ist kein „besseres Ollama“, sondern ein Low-Level-Werkzeug für enge Use Cases: Benchmarks, CI, LoRA, eigene Inferenz-Stacks, Paper-Experimente. MLX vs llama.cpp, Ollama vs MLX. Sauberer 8B-4bit-Benchmark: Differenz ca. 3%–12%.

Ein Missverständnis

MLX punktet in der Messschicht, nicht im Alltagseinsatz.

Ein Setup, das Sie kennen

M4 Mac Mini 16GB
Ollama + 14B
Chrome mit vielen Tabs
VS Code + Claude Code

Swap 8GB+, Timeouts — kein Ollama-Problem, sondern Ressourcengrenze. Unified Memory & LLM-Inferenz.

Drei Schichten

App: Claude Code / Cursor
Runtime: Ollama (HTTP)
Compute: MLX / llama.cpp

Im Alltag leben Sie in der Runtime-Schicht.

Praxisregel

Mit Ollama starten. Zu MLX wechseln, wenn Sie benennen können, was fehlt.

Team-Knoten: privater KI-Server Mac Mini M4 Cluster.

Fazit

Standard Ollama = Endpunkt für ~80 %
Ausnahme MLX = Engineering / Forschung / Benchmarks

Ein Satz

Lokale LLMs auf dem Mac: Standard Ollama, MLX nur bei Low-Level-Bedarf. Der Engpass ist meist Speicher und Modellgröße — nicht das Framework.

Entscheidung

Kein klarer Grund? Ollama.

FAQ

Ollama oder MLX?

Standard Ollama. MLX für Offline-Benchmarks, CI, LoRA, eigene Inferenz, Extrem-Parameter.

MLX ist schneller — umstellen?

~3%–12% im Benchmark; bei Agents zählen Speicher und Stabilität.

Langsam — MLX?

Zuerst Swap und Modellgröße prüfen. 14B auf 16GB löst ein Framework-Wechsel selten.

Beides installieren?

Ja — tags Ollama, nachts MLX-Benchmarks.