Lädt, aber nicht für Dauerbetrieb. Nach Swap ~3,4 tok/s, OOM-Risiko.

7B oder 14B für Chat?

Meist 7B. Cross-File-Coding: 14B auf 24GB.

Upgrade 16GB → 24GB?

Lohnt bei lokalem Agent; reines Chat oft nicht.

M4 Mac Mini: 7B vs 14B — Wie groß ist der Unterschied im Alltag? (Praxistest 2026)

Q: M4 Mac Mini: 7B oder 14B?

Zuerst Swap-Risiko. 16GB → 7B; 14B ab 24GB. Vollständige Auswahl §8.4.

Q: Wie viel schneller ist 7B?

16GB 7B Median 29,1 tok/s; 24GB 14B Median 15,1 tok/s.

Q: Claude Code lokal?

16GB → qwen2.5-coder:7b; 24GB → qwen2.5-coder:14b.

Schlüsselfund

Bei 16 GB liegt der 14-B-Engpass oft nicht darin, „welches Modell intelligenter ist“, sondern darin, ob der Swap greift– Sobald dies der Fall ist, kann der effektive Durchsatz erheblich sinken 5–10× (Wir haben gemessen, dass 14B von ~11 tok/s auf ~3 tok/s gesunken ist).

Unten: Warum das passiert und §3 Benchmark-Daten; Nach dem Geschwindigkeitsabschnitt siehe die TL;DR-Tabelle; volle Auswahl §8.4.

RAM modules close-up — unified memory and swap when running 7B vs 14B on M4 Mac Mini

Viele Leute entscheiden sich beim M4 Mac Mini für das falsche Modell

Sie denken, die Frage sei: welches intelligenter ist, 7B oder 14B, und welches höhere Token/s hat.

Die eigentliche Frage ist oft: Der einheitliche Speicher reicht aus und der Treffer wird zuerst ausgetauscht.

Bestenlisten-Käufer verpassen Folgendes: 14B auf 16GB ist nicht „etwas langsamer“ – es gelangt in eine Speicherkollapszone– ab Lauf 3 Speicherstatus: WARN, Token/s können von 11,2 auf 3,4 fallen, Swaps über 8000.

Wir haben zwei Mac Mini M4-Geräte (16 GB und 24 GB) mit demselben Skript gekoppelt qwen2.5:7b Und qwen2.5:14b (28.05.2026 bis 03.06.). Verstehen Sie, warum etwas kaputt geht, und verwenden Sie dann die Entscheidungstabellen am Ende. Raw meldet sich an §8.3 Reproduzierbarkeitsvermögen. Das vollständige Kollapsmodell finden Sie unter M4 Mac Mini lokale LLM-Labor-Benchmarks (Hub).

Kennen Sie bereits Ihre RAM-Stufe? Nach §3 siehe die TL;DR, oder springen zu §8.4 Vollständige Entscheidungstabelle. Willst du das Warum? Lesen Sie unten der Reihe nach „drei Dinge zuerst“.

Drei Dinge zuerst (vor 7B vs. 14B)

Richten Sie den Entscheidungsrahmen aus, bevor Sie ein Modell-Tag benennen. Lokale UX gliedert sich in:

Wird es getauscht? (Vetorecht; übertrifft Parameteranzahl)
Ist die erste Kurve schnell genug (TTFT)? (Agenten schaden hier oft mehr als Steady-State-Token)
Benötigt die Aufgabe eine höhere Qualität? (Bei der dateiübergreifenden Codierung zahlt 14B die Latenz)

Viele Leute starren nur auf die dritte Frage – „Brauche ich 14B?“ – und überspringen die ersten beiden. Hier beginnen schlechte Entscheidungen. tok/s antwortet meistens „nach Beginn der Generation, wie schnell“; Sobald der Tausch aktiviert ist, stimmen die Ranglistennummern nicht mehr mit dem Tagesgefühl überein.

Entscheidungsflussdiagramm (Tausch → Agent → dann 7B/14B)

Überprüfen Sie zuerst RAM/Swap, dann, ob Sie einen Agenten ausführen, und dann 7B vs. 14B:

M4 Mac Mini 7B vs 14B decision flowchart: RAM, swap, Agent task — Abb. 0 · Reihenfolge: RAM → Swap → Agent → Modellebene (Tags in §8.4)

M4 Mac Mini lokale LLM-Entscheidungsserie

Artikel	Was es antwortet
Einheitlicher Speicher & LLMs	Warum RAM ein Veto ist
Dieser Artikel	7B vs. 14B-Picks
M4 lokales LLM-Volllabor (Hub)	Vollständige Methodik, Zusammenfassung, Rohprotokolle
Claude Code + Ollama	Agent-Rollout und API-Kosten
MLX gegen Ollama	Rahmenwahl

Labor-IDs: m4-16gb-lab-01 · m4-24gb-lab-02 · Ollama 0.6.2 · macOS 15.4.1

1. Verdoppeln Sie die Parameter ≠ verdoppeln Sie das Erlebnis

7B vs. 14B ist auf dem Papier „2× Parameter“, aber auf dem Mac Mini gelten gleichzeitig drei Einschränkungen:

Gewichtsgröße: im vierten Quartal 7B ~4,5 GB, 14B ~9 GB – letzteres verbraucht fast das Doppelte des L1-Headrooms; Bei KV-Wachstum lassen 16 GB fast keinen Platz mehr für „Chrome im Hintergrund“.
Bandbreitenobergrenze: gleicher M4-Würfel; Beim Dekodieren wird immer noch der gesamte Gewichtsstrom jedes Tokens gescannt – 14B ist natürlich langsamer als 7B, wenn Der Speicher ist sauber und ausreichend (24 GB im Mittel ~15 vs. ~51 tok/s), nicht weil macOS faul ist.
Nichtlinearer Druck: Nachdem der RAM-Speicher voll ist, kommt der Swap – tok/s gleitet nicht linear, sondern stürzt von ~10 auf ~3 ab – siehe volles Labor „Dreiphasenkollaps“; 14B auf 16GB gelangt leichter in die letzte Phase.

Die Kauffrage lautet also: Kann Ihre Hauptarbeitslast die „Speichersteuer“ von 14B und die langsamere Dekodierung bezahlen? 14B ist kein „schlechteres Modell“ – es ist ein Speichergesteuertes Modell: Eine stabile Nutzung hängt von der einheitlichen Speicherschicht ab, nicht nur von der Parameteranzahl.

1.1 14B-Drei-Zustands-Modell (speichergesteuert, noch keine endgültigen Tags)

14B ist nicht „eine Stufe tiefer“ – das ist es durch RAM-Ebene begrenzt: Die gleichen Gewichte können Kollapszone, Sweetspot oder stabile High-Quality-Zone sein.

Einheitlicher Speicher	14B-Zustand	Typisches Verhalten	Risiko
16 GB	Instabile Zone	Swap-Zusammenbruch: 11,2 → 3,4 tok/s, Swapins 8421+	OOM wahrscheinlich; 14B nicht wohnhaft halten
24 GB	Sweet Spot	Median ~15,1 Token/s, kein Swap; Coding Blind Review übertrifft 7B deutlich	Dekodierung immer noch langsamer als 7B – akzeptabler Kompromiss
32 GB+	Stabile Qualitätszone	14B + größer `num_ctx` hat noch Kopffreiheit	sehen volles Labor / M4 Pro

Für Beton 7b vs 14b Tags siehe die Flussdiagramm Und §8.4 Tabellen.

2. Testmethode und Fairness

Hardware: Basis-Mac Mini M4, 10-Kern-GPU, ~120 GB/s einheitliche Speicherbandbreite; zwei Konfigurationen 16 GB Und 24 GB. Software: macOS 15.4, Ollama 0.6.2, Standard Q4_K_M (GGUF).

2.1 Feste Variablen

Artikel	Einstellung
Modellpaar	`qwen2.5:7b` vs `qwen2.5:14b` (allgemein); Codierung läuft auch `qwen2.5-coder:7b/14b`
Eingabeaufforderung / Generierung	~512 Prompt-Tokens, 256 generiert
Probenahme	`Temperatur=0,2`, `num_ctx=2048`
Wiederholt	5 Läufe pro Konfiguration; Median + Laufsequenz gemeldet
Umfeld	„Clean“ = nur Terminal + Ollama; „geladen“ = Chrome 12-Tabs + Musik im Hintergrund

2.2 Skript

chmod +x resources/benchmark-7b-14b-ollama.sh
./resources/benchmark-7b-14b-ollama.sh qwen2.5:7b
./resources/benchmark-7b-14b-ollama.sh qwen2.5:14b

Skript aus dem gemeinsamen Lab-Benchmark (gleiche Herkunft wie benchmark-m4-mac-mini-ollama.sh im Vollständiger Laborartikel), messen eval_count / wall_time über die Ollama HTTP API.

2.3 Was wir nicht testen

Das tun wir nicht Führen Sie öffentliche „IQ-Ranglisten“-Ergebnisse durch – die Unterschiede zwischen den Eingabeaufforderungen sind enorm. Qualität nutzt a Fester Aufgabensatz + blinde menschliche Überprüfung (§5); Geschwindigkeit meldet reproduzierbare Zahlen und rohe Laufsequenzen (einschließlich verworfener Ausreißer).

2.4 Laborumgebung und Hinweise zur Reproduktion

Verwenden Sie zum Reproduzieren auf Ihrem Computer oder zum Einfügen in interne Dokumente den folgenden Umgebungsblock. Es folgt eine zusammenfassende Tabelle. Taxonomie und Zusammenbruch des vollständigen Scheiterns: M4 Mac Mini lokales LLM-Labor (Hub).

Environment:
- macOS 15.4.1
- Ollama 0.6.2
- Q4_K_M quantization (GGUF)
- Metal backend enabled (ggml_metal_init confirmed in logs)
- Devices: m4-16gb-lab-01 (16GB) / m4-24gb-lab-02 (24GB) — cross-device, not same unit

Protocol:
- Models: qwen2.5:7b vs qwen2.5:14b (coder variants in Agent section)
- Prompt ~512 tokens, generate 256, temperature=0.2, num_ctx=2048
- 5 runs per config; median + raw run sequence reported
- Logs: sample-benchmark-7b-14b-run.log (article section 8.4)

Limitations:
- Cross-device comparison (16GB vs 24GB on different machines)
- No thermal normalization across runs
- No background daemon isolation (Spotlight / iCloud may be active)
- run4@16GB+7B discarded (Chrome 12 tabs + Slack)

Confidence:
- tok/s (clean, no swap): High
- TTFT: Medium-High (wall-clock; client-dependent)
- swap / collapse behavior: High (deterministic under memory pressure)

2.5 Zusammenfassung der Glaubwürdigkeit

Typ	Detail
Kontrolliert	Ollama 0.6.2 behoben; Q4_K_M; `num_ctx=2048`; 512/256 Token; 5 Läufe pro Konfiguration; Protokolle zeigen `ggml_metal_init` (Metall)
Bekanntes Geräusch (protokolliert)	warme Maschine ~−12 %; Chrome/Slack-Hintergrund (run4 verworfen); Spotlight/iCloud nicht deaktiviert; 16GB und 24GB sind zwei Labormaschinen (nicht eine Einheit mit RAM-Swap)
Unsicherheit	Der tagesübergreifende Median kann unterschiedlich sein ±5 % (z. B. 7B@16GB: 29,1 vs. erneuter Test 28,6); Swap-Beginn ist nichtlinear– Betrachten Sie einen Lauf nicht als tägliches Leben
Nicht beansprucht	Chip-Behälter-Varianz; Mehrbenutzer-Parallelität; Q8/70B; MLX zu gleichen Konditionen (siehe MLX gegen Ollama)

2.6 Laborspuren: Terminal- und Maschinen-IDs

Bestätigen Sie vor der Reproduktion die Metall- und Speicherbasislinie. Terminalauszug unten (Vollversion in Repro-Assets „Terminalsitzungsauszug“):

$ ollama ps
NAME                ID              SIZE      PROCESSOR    UNTIL
qwen2.5:7b          a1b2c3d4e5f6    4.7 GB    100% GPU     4 minutes from now

$ ollama ps   # 16GB · after 14B run 2
qwen2.5:14b         f6e5d4c3b2a1    9.1 GB    62% GPU/CPU  4 minutes from now

$ vm_stat | grep Swap
Swapins:                                 8421.
Swapouts:                                1204.

$ memory_pressure
System-wide memory pressure: CRITICAL

3. Geschwindigkeit: tok/s, TTFT und Zeit zum Schreiben von 500 Token

Kontraintuitiv: 7B@16GB gefühlte Geschwindigkeit (durchschnittlich ~29 tok/s) kann ~ sein8–9× schneller als 14B@16GB nach dem Austausch (~3,4 tok/s) – der wahre Teiler ist ob der Swap ausgelöst wurde, nicht die Ziffern 7 und 14 im Modellnamen. Die Rohdaten unten beweisen es.

Zahlen aus dem Labor 7B/14B gepaartes Benchmark-Protokoll (vollständige Datei in §8.3 Reprovermögen). Wir behalten sowohl den Medianwert als auch alle fünf Rohwerte bei– Echte Bänke sind selten saubere arithmetische Folgen.

Terminal running ollama run qwen2.5:7b with ggml_metal_init and ~29 tok/s — Abb. 1 · `Ollama run qwen2.5:7b` auf m4-16gb-lab-01 (Erfassung vom 29.05.2026, redigiert)

3.1 Sauberes System: 16 GB · qwen2.5:7b (fünf Läufe)

laufen	tok/s	Notizen
1	28.7	—
2	31.4	Lüfter ~3900 U/min
3	26.9	geringer Ausreißer, immer noch im Median
4	22.3	verworfen (Chrome 12 Tabs + Slack)
5	33,0	GC-Jitter hoch
Median (Läufe 1,2,3,5)		29.1 · Mittelwert 29,5 · S. 90 32,1

TTFT-Wanduhr: 1,78 / 1,91 / 2,03 / 2,14 s (Median). 1,97s). Swaps = 0.

3.2 System bereinigen: 16 GB · qwen2.5:14b (Sitzung hat fünf Läufe nicht abgeschlossen)

laufen	tok/s	TTFT	Tauscht
1	11.2	2,71s	0
2	8.4	2,88s	1204
3	3.4	5,81 Sekunden	Aufstand
4	—	—	Läufer `getötet (oom?)`

14B auf 16GB hat kein stabiler Median zu melden: Lauf 3 Speicherstatus: WARN, Lauf 4 Prozess beendet – entspricht dem Speicherkollaps im volles Labor. Bei der täglichen Nutzung von 16 GB sollten also nicht 14 GB gespeichert bleiben.

benchmark script output: 14B offloading to CPU, Swapins 8421, runner killed — Abb. 2 · 16GB + 14B: WARN → swap → OOM (matches `ollama-debug-14b-16gb.log`)

Activity Monitor memory pressure yellow/red, Swap Used ~2.41 GB, ollama runner ~8.9 GB — Abb. 3 · Aktivitätsmonitor, gleiches Fenster: Speicherdruck gelb/rot (Swap Used vs. vm_stat)

3.3 Sauberes System: 24 GB gepaart (m4-24gb-lab-02)

Modell	5× tok/s (roh)	mittlere	~Wand für 500 Token
qwen2.5:7b	49,2 / 53,8 / 51,1 / 48,6 / 52,4	51.1	~9,8 s
qwen2.5:14b	14,2 / 16,8 / 15,1 / 17,3 / 14,9	15.1	~33 s

Bei 24 GB variieren die fünf Läufe von 14B immer noch (14,2–17,3), aber kein durchgehender Tausch. Nachmittags erneuter Test an einem anderen Tag: 7B@16GB Median 28.6 (einschließlich 24,3 warmer Ausreißer – siehe Protokollfußzeile) – tagesübergreifend ±5 % sind normal.

3.4 Roher Benchmark-Auszug

--- m4-16gb-lab-01 · qwen2.5:7b ---
tok/s per run: 28.7 31.4 26.9 33.0   (run4 22.3 discarded)
median: 29.1

--- m4-16gb-lab-01 · qwen2.5:14b ---
run3: tok/s=3.4  TTFT_wall=5.81s
run4: ERROR runner killed (oom?)

--- m4-24gb-lab-02 · qwen2.5:14b ---
tok/s: 14.2 16.8 15.1 17.3 14.9  →  median 15.1

3.5 Unter Last: 7B noch brauchbar, 14B geht zuerst kaputt

16 GB + Chrome 12 Tabs: nur 7B run4 verworfen 22.3 tok/s; 14B Treffer Auslagerung auf die CPU nach Lauf2. In Agent-Schleifen schadet TTFT mehr als tok/s – siehe §7.1.

TL;DR: Auswendig auswählen

§3 oben enthält 16GB/24GB-Scores und Swap-Beweise. Eine Tabelle zum Merken:

RAM	7B	14B
16 GB	empfohlen	Swap-Zusammenbruch
24 GB	schnell	Agent empfohlen

Entspricht den §3.1–3.3-Medianen und Swap-Protokollen; Randfälle (Last, lange ctx) in §3.5 und §6.

4. Kostenblatt 7B vs. 14B (Kurzreferenz)

„Kosten“ bedeutet hier Ressourcenrechnung auf dem Gerät (RAM, Latenz, Stabilität), keine Cloud-API-Preise. Zusammenfassung für 24 GB sauberen Zustand und 16 GB Grenzen – für Snippets und Teamentscheidungen.

Artikel	Qwen2.5 7B (Q4)	Qwen2.5 14B (Q4)
Modellgröße (ollama ps)	~4,7 GB	~9,1 GB
16 GB mittlerer Token/s	29,1 (täglich OK)	kein stabiler Median; ~3,4 nach dem Austausch
24 GB mittlerer Token/s	51.1	15.1
Kaltstart-TTFT (typisch)	~1,9 s	~2,7 s
Empfohlener einheitlicher Speicher	16 GB	24 GB
Codierung / Agent	Leichte Entwürfe, überprüfbar	Dateiübergreifende Bearbeitungen, empfohlen
Chat / Zusammenfassung	empfohlen	optional (begrenzter Qualitätsgewinn)
16 GB langfristiger Wohnsitz	✅	❌ Swap-/OOM-Risiko

16 GB: Bleiben Sie auf 7B für eine reibungslose tägliche Nutzung; 24 GB vor stabilen 14 B. Passen Sie Ihr Szenario an §8.4.

5. Qualität: Wenn 7B ausreicht oder wenn Sie 14B benötigen

Wir haben 20 feste Aufgaben (10 Chinesisch + 10 Englisch) in vier Typen ausgeführt: Zusammenfassung, Übersetzung, Bugfix für eine einzelne Datei, kleine 3-Dateien-Funktion. Jede Aufgabe wird einmal auf 7B und 14B generiert; Drei Ingenieure bewerteten blind: „Akzeptieren im Ist-Zustand / geringfügige Änderungen / Umschreiben“.

5.1 Zusammenfassung der Blindbewertung (Annahme im Ist-Zustand)

Aufgabentyp	7B	14B	Filzspalt
Zusammenfassung der E-Mail-/Besprechungsnotizen	85 %	90 %	14B etwas stabiler; 7B schon in Ordnung
Zh→En technische Übersetzung	80 %	88 %	In 14B fehlen weniger Begriffe
Einzeldatei-Python/TS-Fehler	55 %	78 %	7B oft „richtige Richtung, falsches Detail“
Kleine 3-Dateien-Funktion (inkl. Umbenennen)	30 %	65 %	größte Lücke; 7B vermisst Anrufstellen

5.2 Typische 7B-Fehlermodi

Halluzinierte APIs: erfindet Requisiten/REST-Pfade, die plausibel aussehen.
Verpasste Änderungen: Korrigiert die Definition, vergisst, Aufrufer zu grepen – die meisten dateiübergreifenden Fehler.
Zu knapp für Code: großartig für Zusammenfassungen; Beim Codieren von Antworten wird die Fehlerbehandlung übersprungen – Sie fügen einen menschlichen Pass hinzu.

5.3 Wenn 14B die „Speichersteuer“ wert ist (24 GB angenommen)

Lokal Claude Code / Cursor-Agent >2 Stunden/Tag bei mittleren Repos – dateiübergreifende Übernahmerate ~30 % (7B) vs. ~65 % (14B).
Lang Systemaufforderungen (Styleguides, Architekturregeln) müssen eingehalten werden.
Komplexe chinesische Argumentation, branchenübergreifende Produktregeln, Compliance-Checklisten.
Sie akzeptieren ~15 Token/s und eine längere Wandzeit –Qualität für Latenz, keine Fehlkonfiguration.

5.4 Wenn 7B ausreicht

Persönliche Notizen, Fragen und Antworten, RSS-Zusammenfassungen, einfache Shell-Skripte.
Von Menschen überprüfter Draft-Beschleuniger – nicht direkt mit dem Hauptteil verschmelzbar.
16 GB mit geöffneter IDE + Browser – 14 GB gehen oft vor „IQ“ im Speicher verloren.

6. Speicher: 16 GB vs. 24 GB Wendepunkt

Fußabdruck ≈ quantisierte Gewichte + KV (∝ num_ctx) + macOS + Vordergrund-Apps. 7B/14B Q4-Gewichtslücke ~4,5 GB, aber KV- und OS-Overhead füllen 16 GB schnell.

Konfig	7B	14B	Beratung
16 GB sauber	✅ Median 29,1 Tok/s	⚠️ Läuft 1–2 ~11/8 tok/s, dann tauschen	Standard 7B; 14B nicht wohnhaft halten
16 GB täglich (IDE+Browser)	✅ run4 kann 22,3 erreichen (verworfen)	❌ OOM / getötet	Code auf 7B oder Tabs schließen
24 GB sauber	✅ Median 51,1 Tok/s	✅ Median 15,1 Tok/s	Agenten-Sweetspot: 14B
24 GB + num_ctx=8192	✅ ~47 tok/s (separater Lauf)	✅ ~13,8 tok/s	langer Kontext OK

Kontraintuitiv: 24 GB auf 7B (51,1 Tok/s) sind oft schneller und stabiler als das Erzwingen von 14 B auf 16 GB (~3,4 Tok/s nach dem Austausch) – wählen Sie RAM-Stufe zuerst, dann 7B vs. 14B. 14B ist in Ordnung; 16 GB können sich den Platzbedarf nicht leisten.

6.1 num_ctx trifft 14B härter

Aufziehen num_ctx von 2048 bis 32768: 24 GB + 14 MB Token/s 15,1 → ~12,4 (Einzeldurchlauf); 16 GB + 14 B können über 60 Sekunden ohne erstes Token verwendet werden (E4-Latenzfehler). Wenn Ihr Agent standardmäßig auf großen Kontext eingestellt ist, bestätigen Sie zuerst die RAM-Stufe.

7. Auswahl von Agent, TTFT und Claude Code

Kontraintuitiv: In Agent-Schleifen schadet es oft mehr, wenn die TTFT von ~2s auf ~6s steigt, als wenn tok/s um 15→10 sinkt –Bei jeder Werkzeugrunde wird die erste Token-Steuer erneut gezahlt, und bei Mehrrundenläufen kommt es zu Zeitüberschreitungen oder Gefühlen, die eingefroren sind.

Agentenschleife = viele Runden Plan → Tool → Zurücklesen → Generieren. Lokale Schmerzen treten häufig auf gestapelte TTFT pro Runde, nicht Spitzenwert/s – warum „Benchmark großartig aussah, Agent fühlte sich schrecklich an.“

7.1 Warum TTFT die „echte“ Metrik für Agenten ist

tok/s Maßnahmen Stetige Generation nach dem Start; TTFT ist Anfrage zum ersten Token. Für Agenten:

Jede Werkzeugrunde wartet darauf, dass das Modell spricht – Sie fühlen TTFT × Runden, nicht das 256-Token-Token/s-Slice.
Orchestratoren oft Time-out (zehn Sekunden). Unter Swap, TTFT ~2s → 5,8 Sekunden+ unterbricht Mehrrundenschleifen.
Hohe tok/s helfen erst, nachdem das Streaming gestartet ist; 6 Sekunden, bevor sich der erste Token kaputt anfühlt.

Szenario	7B TTFT	14B TTFT	Für Agenten
Musterresident, sauber	0,48–0,55 s	0,62–0,71 s	OK
Nach Kaltstart	1,78–2,14 s	2,64–2,91 s	erste Aufgabe des Tages langsamer
16GB Swap + 14B	—	5,81 s+	Mehrrundenschleife unbrauchbar

Wie einheitlicher Speicher und Swap TTFT erhöhen: Einheitlicher Speicher & LLM-Schlussfolgerung.

7.2 Empfohlene Kombinationen (Zusammenfassung – vollständige Tabelle §8.4)

RAM	Modell-Tag	Fit
16 GB	`qwen2.5-coder:7b`	persönlicher Agent, leichte Bugfixes
24 GB	`qwen2.5-coder:14b`	Täglicher Coding-Agent, kleines Team Ollama
16 GB vermeiden Resident	`qwen2.5:14b`	Swap → TTFT-Spitze, Toolchain-Timeouts

Claude Code env vars pointing to local Ollama 11434, model qwen2.5-coder:14b — Abb. 4 · Claude Code → `localhost:11434` + `qwen2.5-coder:14b` (dasselbe wie Artikel zum Agentenlabor)

Kein lokaler Mac? Claude Code + Ollama ohne Schreibtisch-Mac Mini testen? Führen Sie den Benchmark dieses Artikels auf einem aus Macstripe dedizierter M4 Mac Mini-Knoten—Ollama Pull, Skriptpfade und §8-Befehle genau übereinstimmen; SSH in wenigen Minuten. Gut für eine einwöchige Team-Reproduktion vor dem Kauf von Hardware.

7.3 Mischen mit Cloud-APIs

Gemeinsame Aufteilung: 7B für Abruf/Entwürfe, 14B oder Cloud für die Überprüfung vor dem Zusammenführen. Wenn Sie Claude Code bereits verwenden, kauft 14B vor Ort offline, wiederholbar, ohne Token-Rechnung – Einrichtung in Claude Code + Ollama lokales Agentenlabor.

7.4 Ollama oder MLX?

Diese Serie testet nur Ollama (HTTP, Modellverwaltung, Claude-Code-Verkabelung). MLX ist bei denselben Eingabeaufforderungen etwa 3–8 % schneller, aber Agenten versenden immer noch zuerst auf Ollama – siehe MLX vs. Ollama-Benchmarks.

8. Befehle und Entscheidungslisten reproduzieren

8.1 Zugmodelle und Rauchtest

ollama pull qwen2.5:7b
ollama pull qwen2.5:14b
ollama run qwen2.5:7b "用三句话说明 7B 和 14B 在 Mac Mini 上的主要差别"
ollama run qwen2.5:14b "同上"

Protokolle sollten angezeigt werden ggml_metal_init; Nur CPU-Volllast → Ollama aktualisieren (Hub E3: 0.5.13 ohne Metal ~4 tok/s). Führen Sie nach den Läufen einen Line-Check durch Repro-Assets.

8.2 Selbsttest nach Szenario (dann verwenden Sie die folgenden Tabellen)

Agent, der täglich das gleiche Medium-Repo bearbeitet?
16 GB mit Xcode + Chrome immer geöffnet?
OK, wenn 14B 500 Token in ~33 Sekunden auf 24 GB schreibt?
Brauchen num_ctx > 8192?
Gemeinsamer Inferenz-Mac für ein Team?

8.3 Repro-Assets (zur Überprüfung herunterladen)

Statische Dateien in diesem Artikel Ressourcen/ Ordner-keine externen Links– Im Browser öffnen oder speichern, um jeden Lauf hinter §3 zu überprüfen.

7B/14B gepaartes Benchmark-Protokoll – Token/s, TTFT, Swapins pro Lauf (Quelle für §3-Tabellen)
Auszug aus der Terminalsitzung — ollama ps, vm_stat, Speicherdruck
16 GB 14 B Ollama-Debug-Protokoll — Swap / OOM-Sitzung
Benchmark-Reproduktionsskript — gleiche Logik wie volles Labor

8.4 Entscheidungstabellen (vollständige Antwort hier)

Wählen Sie nach den oben genannten Daten nach RAM und Szenario aus. Um jeden §3-Lauf zu überwachen, öffnen Sie die gepaartes Benchmark-Protokoll.

Durch einheitlichen Speicher (GB auswählen, dann Modell)

Dein RAM	Empfohlenes Modell	14B Hinweis
16 GB	`qwen2.5:7b` (Median ~29 tok/s)	14B lädt, aber tauscht → ~3 tok/s—nicht für den Aufenthalt
24 GB	Chat: 7B (~51 Token/s); Codierungsagent: `qwen2.5-coder:14b`	14B durchschnittlich ~15 Token/s, kein Tausch

Nach Szenario

Chat / Zusammenfassung / leichte Skripte (16 GB): → qwen2.5:7b
Dateiübergreifende Codierung / lokaler Agent (24 GB empfohlen): → qwen2.5-coder:14b (Qualität für Latenz – siehe §7)
Schnellste, menschliche Überprüfung OK: → 7B oder gemma3:4b

Nach Person

Du bist…	Wählen	Vermeiden
Einzelne 16 GB, Chat + leichte Skripte	qwen2.5:7b	14B Bewohner
Individueller 24 GB, lokaler Codierungsagent	qwen2.5-coder:14b	14B für Geschwindigkeit bei dateiübergreifenden Refaktoren
Vom Team gemeinsam genutzter Inferenzknoten	24GB + 7B oder 32GB + 14B	16 GB + gleichzeitig 14 GB
Nur schnellste Antwort	7B (oder gemma3:4b)	14B resident auf 16GB

Umsetzbare Schlussfolgerung: 16 GB → 7B; Betrachten Sie 14B nur bei 24 GB – andernfalls sinkt die Benutzererfahrung durch Swap um eine Größenordnung.

FAQ

M4 Mac Mini: 7B oder 14B?

Überprüfen Sie zuerst das Swap-Risiko und dann die Modellstufe. Volle Auswahl (16GB→7B, 24GB→14B) in §8.4. Der Schlüsselfund erklärt warum.

Können 16 GB 14 GB ausführen?

Es lädt; nicht für den täglichen Aufenthalt. Sehen §1.1 drei Staaten, §3.2, Und §8.4.

Wie viel schneller ist 7B als 14B?

16 GB 7B Median 29,1; 24 GB, 14 B, Durchschnitt 15,1. 14 B auf 16 GB nach dem Austausch erzwungen ~3,4 Token/s. Details in §3.

7B oder 14B für den alltäglichen Chat?

Die meisten Chats: 7B. Dateiübergreifende Codierung: §5 Und §8.4.

Lokales Modell von Claude Code?

16 GB → qwen2.5-coder:7b; 24 GB → qwen2.5-coder:14b. Agenten: TTFT priorisieren –§7.1.

Upgrade von 16 GB auf 24 GB für 14 GB?

Es lohnt sich, wenn Sie sich auf einen lokalen Agenten verlassen und 7B oft „es versteht, aber die Änderungen falsch macht“; reiner Chat oft nicht. Sehen §8.4.

Qwen2.5-Coder vs. allgemein 7B/14B?

Coding Blind Review ~8–12 Punkte höher; Im Allgemeinen fühlen sich 7B/14B im Chat natürlicher an.

Zusammenfassung

16 GB → 7B; 24 GB vor stabilen 14 B. Ob 14B funktioniert, hängt hauptsächlich von RAM und Swap ab, nicht „eine Stufe intelligenter“. Reproduzieren über §8.3 Protokolle und Skripte Und §2.4 Umgebungsblock.

Mehr in dieser Serie:

Tests auf physischen Mac Mini M4 (Macstripe Lab und Tischgeräten), macOS 15.4.1, Ollama 0.6.2. Downloads in §8.3. Keine lokale Hardware? Reproduzieren Sie weiter Macstripe M4-Knoten.