MLX per HTTP für Claude Code?

Für Claude Code nicht empfohlen. Eigene Agent-Plattformen sind ein Sonderfall; Claude Code nutzt Ollama-Runtime.

Nach Ollama-Runtime: 14B und Team-Sharing brauchen meist 24GB oder 48GB.

Nur Benchmarks, CI, Forschung — nicht Claude-Code-Runtime.

Ollama vs MLX: Welcher Stack für Claude Code lokale Modelle? (M4 Mac Mini 2026)

Q: Kann MLX Ollama ersetzen?

In diesem Artikel nein. Claude-Code-Runtime ist Ollama; MLX nur offline.

Q: Ist Ollama langsamer?

Wenige Prozent im Bench ohne Swap; Agent-Engpässe sind HTTP und RAM.

Ollama vs. MLX: lokale LLM-Inferenz auf Apple Silicon

10-Sekunden-Fazit (Runbook)

Claude Code läuft immer über Ollama (:11434). MLX nur für Offline-Benchmarks und Modellvalidierung.

In diesem Leitfaden (Claude Code / Cursor lokales Modell) liegt die Wahl nur in der Runtime-Schicht — Standard und Empfehlung: Ollama. Es gibt keinen dritten „offiziellen“ Pfad.

Viele fragen bei Ollama vs. MLX nach der Runtime-Schicht; für Claude Code lokales Modell lautet die Antwort auf dieser Seite wie folgt.

Unumkehrbares Fazit

Claude Code hat genau einen Default-Stack: Ollama. MLX gehört nicht zur Agent-Runtime-Wahl in diesem Artikel — nur Benchmark, CI und Research.

Runtime (Claude Code / lokale API) → nur Ollama
Offline (Benchmark / CI / Research) → MLX
M4 Mac Mini lokale LLM · 16GB → zuerst 7B-Klasse, dann ollama serve

Unterschiede auf einen Blick (eine Vergleichstabelle)

In M4 Mac Mini lokale LLM-Szenarien gilt bei Claude Code lokales Modell (Ollama vs. MLX): Zuerst die zwei „kritischen“ Zeilen — MLX ist kein Ersatz-Runtime und gehört nicht in den Agent-Pfad.

Dimension	Ollama	MLX
Als Agent-Runtime nutzbar (Claude Code / Cursor / tool loop)	✅	❌
Ohne Kleber direkt von Claude Code nutzbar (zero glue code)	✅ `:11434`	❌ eigenes Gateway nötig
Integrierter HTTP-Inferenzdienst	✅	❌ (kein eigenes Gateway in diesem Leitfaden)
tok/s (8B, kein Swap)	Referenz	ca. +3 % bis +12 % (nur offline)
Team-`ollama serve`	✅ Standard	❌ nicht im Agent-Pfad

Die ersten zwei Zeilen entscheiden; tok/s siehe unten — nicht für die Claude Code Runtime-Wahl.

Kernmissverständnis: 90 % stellen die falsche Frage

Bei Ollama vs. MLX fragen viele: „Wer ist schneller?“ — in M4 Mac Mini lokale LLM-Szenarien ist das die falsche Frage.

Bei Claude Code lokales Modell ebenfalls. Die richtige Frage lautet:

Kann dieses Modell als Produktions-Runtime von einem Agent genutzt werden?

Falsche Reihenfolge (zuerst 7B/14B, RAM-Stufe) → Themenpfad oben.

Typische MLX-Fehleinschätzung (Conversion-Killer)

Wer in Benchmarks sieht, dass MLX bei Apple-Silicon-Inferenz etwas schneller ist und es hinter Claude Code hängen will — liegt falsch.

Bei Claude Code ist der Engpass selten tok/s, sondern:

Stabiler HTTP-Serve (:11434)
Latenz und Timeouts im tool loop
Context / Modell-Tags und Team-Sharing

Für Claude Code / Cursor: MLX nicht als Runtime-Backend; ein FastAPI-HTTP-Gateway ist Eigenbau — der Betrieb kostet meist mehr als direkt Ollama.

Claude Code Runtime-Schichten (Wahl nur in der Mitte)

Claude Code lokales Modell ist kein „Ollama oder MLX“, sondern drei Schichten:

Schicht	Was	Wahl?
App-Schicht	Claude Code, Cursor, Agent tool loop	Nein (hier arbeiten Sie)
Runtime-Schicht	Ollama (einzige Empfehlung) · HTTP `:11434`	Ja — in diesem Leitfaden: Ollama
Compute-Schicht	MLX · Offline-Benchmark / CI / Research	Nein (nicht im Claude-Code-Hauptpfad)

Wahl nur in der Runtime-Schicht, nicht in der Compute-Schicht. Für Claude Code lokales Modell ändert MLX-Tempo die Runtime-Empfehlung nicht.

Drei Schichten: Claude Code → Ollama Runtime → Apple Silicon; MLX nur Offline-Zweig — Abb. 1 · App → Runtime (Ollama) → Hardware; MLX nicht im Agent-Hauptpfad

Claude Code mit lokalem Modell (Praxis)

Claude Code lokales Modell: ANTHROPIC_BASE_URL → Ollama :11434. MLX ist nicht in dieser Kette.

brew install ollama
ollama pull qwen2.5-coder:7b
ollama serve

export ANTHROPIC_BASE_URL=http://127.0.0.1:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=

Danach nutzt Claude Code das lokale Modell. Alternativ: ollama launch claude --model qwen2.5-coder:7b. Kosten und Team → Claude Code + Ollama Praxistest.

16GB M4 Mac Mini: dringend empfohlen

7B-Modell (z. B. qwen2.5-coder:7b)
Nicht dauerhaft 14B + Chrome + IDE den RAM voll belegen
MLX wechseln „optimiert“ keinen Swap

Warum MLX manchmal schneller ist (ändert die Runtime-Entscheidung nicht)

Die folgenden Zahlen erklären nur Ollama vs. MLX in Apple-Silicon-Benchmarks — sie ändern nicht „Claude Code → nur Ollama“.

MLX: direkte Metal-Kernel + Array-Compute
Ollama: llama.cpp + HTTP + Runtime-Overhead

MLX hat weniger „Service-Hülle“ — der Unterschied bleibt meist gering:

16GB: ca. 0 %–5 %
24GB: ca. 5 %–8 %
48GB: ca. 8 %–12 %

Hinweis: Intervalle = Macstripe Lab Trend (Llama-3.1-8B 4-bit, Juni 2026), nicht für die Wahl. 16GB Ollama ca. 27–31, MLX ca. 28–32 tok/s; 48GB Ollama ca. 72–78, MLX ca. 80–88 tok/s. Methode → Hub-Praxistest.

Warum Claude Code nur einen Weg hat: Ollama

Im M4 Mac Mini lokale LLM-Alltag zählt für Claude Code mehr als reine Generationsgeschwindigkeit:

Kennzahl	Wichtigkeit für Agent
tok/s	niedrig
API stabil	hoch
tool-loop-Latenz	sehr hoch
Wartbarkeit (pull / serve / teilen)	sehr hoch

Wie der Agent andockt ≫ ein paar Prozent Inferenz.

Reales Desaster (16GB · M4 Mac Mini lokale LLM)

Unter Claude Code lokales Modell-Last gleichzeitig: Claude Code · Ollama qwen2.5-coder:14b · Chrome (~15 Tabs) · VS Code (m4-16gb-lab-01, 2026-05-28).

Speicherdruck: rot
Swap: 8GB+
tok/s: ca. 28–31 → einstellig
Claude Code: Timeout

Fazit: nicht MLX/Ollama — falsche RAM-Stufe und Modellgröße. → 7B vs 14B

Empfohlene Modell-Kombinationen 2026

Szenario	Empfehlung
Claude Code	`qwen2.5-coder:7b`
Allgemeiner Agent	Qwen3 8B (`ollama pull qwen3:8b`)
Reasoning	DeepSeek-R1 distill
Benchmark-Vergleich	Llama 3.1 8B

M4 Mac Mini lokale LLM im Team: ein Rechner mit ollama serve, alle Claude Code auf dasselbe :11434; MLX nur nachts zum Benchmark, nicht an den Agent.

Endregel (Runtime Spec dieses Artikels)

In Claude Code / Cursor / Standard-Agent-tool-loop soll das lokale Modell eine HTTP-Inferenz-Runtime nutzen — in diesem Leitfaden Ollama. MLX ist ein Compute-Tool, kein Agent-Runtime out of the box; „MLX + eigenes HTTP“ ist für Claude Code nicht empfohlen.

Engineering-Vorbehalt: In seltenen eigenen Agent-Runtimes (nicht Claude Code/Cursor, eigene Gateway-SLA) kann MLX + HTTP funktionieren — außerhalb dieses Artikels, ohne die Claude-Code-Fazits zu ändern.

FAQ

MLX-HTTP selbst bauen und an Claude Code hängen?

Für Claude Code: nicht empfohlen. Technisch möglich, aber Kompatibilität, Modellverwaltung und Stabilität — meist schlechter als Ollama. Eigene Agent-Plattform (nicht Claude Code): MLX+HTTP möglich, hier keine Empfehlung (siehe Vorbehalt).

Kann MLX Ollama ersetzen?

In diesem Leitfaden: nein. Claude Code/Cursor → Ollama; MLX für Offline-Benchmark, ersetzt Ollama nicht am Agent.

Ist Ollama langsamer?

Ohne Swap, gleiches Modell: Ollama kann wenige Prozent langsamer sein. Im Alltag kaum spürbar — Engpass sind Anbindung und RAM, nicht der Framework-Name.

24GB vs. 48GB?

24GB: 7B/8B, solo oder leichter Agent. 48GB: 14B, Team-Sharing, längeres num_ctx. Ein Hardware-Upgrade schlägt oft Ollama↔MLX.

Wann ist MLX Pflicht?

Nur für Benchmark, CI-Regression, Research-Skripte (Nacht-tok/s, neue Quants, mlx-community). Nicht in der Claude Code Runtime; MLX darf installiert sein, der Agent bleibt auf Ollama.

Entscheidungspfad (Abschluss)

Details → Endregel. Setup → Claude Code + Ollama (Schritt ④).

Speicher-Knoten (logische Ableitung, keine Werbung)

Voraussetzung (fest): Runtime = Ollama (Claude Code lokales Modell)

Last: Claude Code (Ollama) + 14B + Team-tool loop + ollama serve

Einziger Engpass: Unified Memory — Gewichte + KV + Kontext + IDE/Browser im selben Pool

Fazit (Ableitung): 24GB / 48GB dedizierter M4 nötig — nicht „noch MLX wählen“, sondern zu wenig RAM

16GB: solo 7B + lokales Ollama; bei 14B im Team kollabiert „Ollama vs. MLX“ zu „genug Unified Memory?“ → Macstripe 24GB/48GB + ollama serve Cluster.

24GB / 48GB dedizierten M4 mieten (Ollama-serve-Cluster) → · Cluster-Topologie

Schlussfolgerung

Auf Apple Silicon sind Ollama vs. MLX keine gleichwertigen Optionen: Agent → Ollama, Benchmark → MLX; der Engpass ist die RAM-Stufe und Modellgröße bei M4 Mac Mini lokale LLM.

Ollama vs MLX: Welcher lokale Modell-Stack für Claude Code?