Schlüsselfund

Bei 16 GB liegt der 14-B-Engpass oft nicht darin, „welches Modell intelligenter ist“, sondern darin, ob der Swap greift– Sobald dies der Fall ist, kann der effektive Durchsatz erheblich sinken 5–10× (Wir haben gemessen, dass 14B von ~11 tok/s auf ~3 tok/s gesunken ist).

Unten: Warum das passiert und §3 Benchmark-Daten; Nach dem Geschwindigkeitsabschnitt siehe die TL;DR-Tabelle; volle Auswahl §8.4.

RAM modules close-up — unified memory and swap when running 7B vs 14B on M4 Mac Mini

Viele Leute entscheiden sich beim M4 Mac Mini für das falsche Modell

Sie denken, die Frage sei: welches intelligenter ist, 7B oder 14B, und welches höhere Token/s hat.

Die eigentliche Frage ist oft: Der einheitliche Speicher reicht aus und der Treffer wird zuerst ausgetauscht.

Bestenlisten-Käufer verpassen Folgendes: 14B auf 16GB ist nicht „etwas langsamer“ – es gelangt in eine Speicherkollapszone– ab Lauf 3 Speicherstatus: WARN, Token/s können von 11,2 auf 3,4 fallen, Swaps über 8000.

Wir haben zwei Mac Mini M4-Geräte (16 GB und 24 GB) mit demselben Skript gekoppelt qwen2.5:7b Und qwen2.5:14b (28.05.2026 bis 03.06.). Verstehen Sie, warum etwas kaputt geht, und verwenden Sie dann die Entscheidungstabellen am Ende. Raw meldet sich an §8.3 Reproduzierbarkeitsvermögen. Das vollständige Kollapsmodell finden Sie unter M4 Mac Mini lokale LLM-Labor-Benchmarks (Hub).

Kennen Sie bereits Ihre RAM-Stufe? Nach §3 siehe die TL;DR, oder springen zu §8.4 Vollständige Entscheidungstabelle. Willst du das Warum? Lesen Sie unten der Reihe nach „drei Dinge zuerst“.

Drei Dinge zuerst (vor 7B vs. 14B)

Richten Sie den Entscheidungsrahmen aus, bevor Sie ein Modell-Tag benennen. Lokale UX gliedert sich in:

  • Wird es getauscht? (Vetorecht; übertrifft Parameteranzahl)
  • Ist die erste Kurve schnell genug (TTFT)? (Agenten schaden hier oft mehr als Steady-State-Token)
  • Benötigt die Aufgabe eine höhere Qualität? (Bei der dateiübergreifenden Codierung zahlt 14B die Latenz)

Viele Leute starren nur auf die dritte Frage – „Brauche ich 14B?“ – und überspringen die ersten beiden. Hier beginnen schlechte Entscheidungen. tok/s antwortet meistens „nach Beginn der Generation, wie schnell“; Sobald der Tausch aktiviert ist, stimmen die Ranglistennummern nicht mehr mit dem Tagesgefühl überein.

Entscheidungsflussdiagramm (Tausch → Agent → dann 7B/14B)

Überprüfen Sie zuerst RAM/Swap, dann, ob Sie einen Agenten ausführen, und dann 7B vs. 14B:

M4 Mac Mini 7B vs 14B decision flowchart: RAM, swap, Agent task
Abb. 0 · Reihenfolge: RAM → Swap → Agent → Modellebene (Tags in §8.4)

M4 Mac Mini lokale LLM-Entscheidungsserie

ArtikelWas es antwortet
Einheitlicher Speicher & LLMsWarum RAM ein Veto ist
Dieser Artikel7B vs. 14B-Picks
M4 lokales LLM-Volllabor (Hub)Vollständige Methodik, Zusammenfassung, Rohprotokolle
Claude Code + OllamaAgent-Rollout und API-Kosten
MLX gegen OllamaRahmenwahl

Labor-IDs: m4-16gb-lab-01 · m4-24gb-lab-02 · Ollama 0.6.2 · macOS 15.4.1

1. Verdoppeln Sie die Parameter ≠ verdoppeln Sie das Erlebnis

7B vs. 14B ist auf dem Papier „2× Parameter“, aber auf dem Mac Mini gelten gleichzeitig drei Einschränkungen:

  • Gewichtsgröße: im vierten Quartal 7B ~4,5 GB, 14B ~9 GB – letzteres verbraucht fast das Doppelte des L1-Headrooms; Bei KV-Wachstum lassen 16 GB fast keinen Platz mehr für „Chrome im Hintergrund“.
  • Bandbreitenobergrenze: gleicher M4-Würfel; Beim Dekodieren wird immer noch der gesamte Gewichtsstrom jedes Tokens gescannt – 14B ist natürlich langsamer als 7B, wenn Der Speicher ist sauber und ausreichend (24 GB im Mittel ~15 vs. ~51 tok/s), nicht weil macOS faul ist.
  • Nichtlinearer Druck: Nachdem der RAM-Speicher voll ist, kommt der Swap – tok/s gleitet nicht linear, sondern stürzt von ~10 auf ~3 ab – siehe volles Labor „Dreiphasenkollaps“; 14B auf 16GB gelangt leichter in die letzte Phase.

Die Kauffrage lautet also: Kann Ihre Hauptarbeitslast die „Speichersteuer“ von 14B und die langsamere Dekodierung bezahlen? 14B ist kein „schlechteres Modell“ – es ist ein Speichergesteuertes Modell: Eine stabile Nutzung hängt von der einheitlichen Speicherschicht ab, nicht nur von der Parameteranzahl.

1.1 14B-Drei-Zustands-Modell (speichergesteuert, noch keine endgültigen Tags)

14B ist nicht „eine Stufe tiefer“ – das ist es durch RAM-Ebene begrenzt: Die gleichen Gewichte können Kollapszone, Sweetspot oder stabile High-Quality-Zone sein.

Einheitlicher Speicher14B-ZustandTypisches VerhaltenRisiko
16 GBInstabile ZoneSwap-Zusammenbruch: 11,2 → 3,4 tok/s, Swapins 8421+OOM wahrscheinlich; 14B nicht wohnhaft halten
24 GBSweet SpotMedian ~15,1 Token/s, kein Swap; Coding Blind Review übertrifft 7B deutlichDekodierung immer noch langsamer als 7B – akzeptabler Kompromiss
32 GB+Stabile Qualitätszone14B + größer num_ctx hat noch Kopffreiheitsehen volles Labor / M4 Pro

Für Beton 7b vs 14b Tags siehe die Flussdiagramm Und §8.4 Tabellen.

2. Testmethode und Fairness

Hardware: Basis-Mac Mini M4, 10-Kern-GPU, ~120 GB/s einheitliche Speicherbandbreite; zwei Konfigurationen 16 GB Und 24 GB. Software: macOS 15.4, Ollama 0.6.2, Standard Q4_K_M (GGUF).

2.1 Feste Variablen

ArtikelEinstellung
Modellpaarqwen2.5:7b vs qwen2.5:14b (allgemein); Codierung läuft auch qwen2.5-coder:7b/14b
Eingabeaufforderung / Generierung~512 Prompt-Tokens, 256 generiert
ProbenahmeTemperatur=0,2, num_ctx=2048
Wiederholt5 Läufe pro Konfiguration; Median + Laufsequenz gemeldet
Umfeld„Clean“ = nur Terminal + Ollama; „geladen“ = Chrome 12-Tabs + Musik im Hintergrund

2.2 Skript

chmod +x resources/benchmark-7b-14b-ollama.sh
./resources/benchmark-7b-14b-ollama.sh qwen2.5:7b
./resources/benchmark-7b-14b-ollama.sh qwen2.5:14b

Skript aus dem gemeinsamen Lab-Benchmark (gleiche Herkunft wie benchmark-m4-mac-mini-ollama.sh im Vollständiger Laborartikel), messen eval_count / wall_time über die Ollama HTTP API.

2.3 Was wir nicht testen

Das tun wir nicht Führen Sie öffentliche „IQ-Ranglisten“-Ergebnisse durch – die Unterschiede zwischen den Eingabeaufforderungen sind enorm. Qualität nutzt a Fester Aufgabensatz + blinde menschliche Überprüfung (§5); Geschwindigkeit meldet reproduzierbare Zahlen und rohe Laufsequenzen (einschließlich verworfener Ausreißer).

2.4 Laborumgebung und Hinweise zur Reproduktion

Verwenden Sie zum Reproduzieren auf Ihrem Computer oder zum Einfügen in interne Dokumente den folgenden Umgebungsblock. Es folgt eine zusammenfassende Tabelle. Taxonomie und Zusammenbruch des vollständigen Scheiterns: M4 Mac Mini lokales LLM-Labor (Hub).

Environment:
- macOS 15.4.1
- Ollama 0.6.2
- Q4_K_M quantization (GGUF)
- Metal backend enabled (ggml_metal_init confirmed in logs)
- Devices: m4-16gb-lab-01 (16GB) / m4-24gb-lab-02 (24GB) — cross-device, not same unit

Protocol:
- Models: qwen2.5:7b vs qwen2.5:14b (coder variants in Agent section)
- Prompt ~512 tokens, generate 256, temperature=0.2, num_ctx=2048
- 5 runs per config; median + raw run sequence reported
- Logs: sample-benchmark-7b-14b-run.log (article section 8.4)

Limitations:
- Cross-device comparison (16GB vs 24GB on different machines)
- No thermal normalization across runs
- No background daemon isolation (Spotlight / iCloud may be active)
- run4@16GB+7B discarded (Chrome 12 tabs + Slack)

Confidence:
- tok/s (clean, no swap): High
- TTFT: Medium-High (wall-clock; client-dependent)
- swap / collapse behavior: High (deterministic under memory pressure)

2.5 Zusammenfassung der Glaubwürdigkeit

TypDetail
Kontrolliert Ollama 0.6.2 behoben; Q4_K_M; num_ctx=2048; 512/256 Token; 5 Läufe pro Konfiguration; Protokolle zeigen ggml_metal_init (Metall)
Bekanntes Geräusch (protokolliert) warme Maschine ~−12 %; Chrome/Slack-Hintergrund (run4 verworfen); Spotlight/iCloud nicht deaktiviert; 16GB und 24GB sind zwei Labormaschinen (nicht eine Einheit mit RAM-Swap)
Unsicherheit Der tagesübergreifende Median kann unterschiedlich sein ±5 % (z. B. 7B@16GB: 29,1 vs. erneuter Test 28,6); Swap-Beginn ist nichtlinear– Betrachten Sie einen Lauf nicht als tägliches Leben
Nicht beansprucht Chip-Behälter-Varianz; Mehrbenutzer-Parallelität; Q8/70B; MLX zu gleichen Konditionen (siehe MLX gegen Ollama)

2.6 Laborspuren: Terminal- und Maschinen-IDs

Bestätigen Sie vor der Reproduktion die Metall- und Speicherbasislinie. Terminalauszug unten (Vollversion in Repro-Assets „Terminalsitzungsauszug“):

$ ollama ps
NAME                ID              SIZE      PROCESSOR    UNTIL
qwen2.5:7b          a1b2c3d4e5f6    4.7 GB    100% GPU     4 minutes from now

$ ollama ps   # 16GB · after 14B run 2
qwen2.5:14b         f6e5d4c3b2a1    9.1 GB    62% GPU/CPU  4 minutes from now

$ vm_stat | grep Swap
Swapins:                                 8421.
Swapouts:                                1204.

$ memory_pressure
System-wide memory pressure: CRITICAL

3. Geschwindigkeit: tok/s, TTFT und Zeit zum Schreiben von 500 Token

Kontraintuitiv: 7B@16GB gefühlte Geschwindigkeit (durchschnittlich ~29 tok/s) kann ~ sein8–9× schneller als 14B@16GB nach dem Austausch (~3,4 tok/s) – der wahre Teiler ist ob der Swap ausgelöst wurde, nicht die Ziffern 7 und 14 im Modellnamen. Die Rohdaten unten beweisen es.

Zahlen aus dem Labor 7B/14B gepaartes Benchmark-Protokoll (vollständige Datei in §8.3 Reprovermögen). Wir behalten sowohl den Medianwert als auch alle fünf Rohwerte bei– Echte Bänke sind selten saubere arithmetische Folgen.

Terminal running ollama run qwen2.5:7b with ggml_metal_init and ~29 tok/s
Abb. 1 · Ollama run qwen2.5:7b auf m4-16gb-lab-01 (Erfassung vom 29.05.2026, redigiert)

3.1 Sauberes System: 16 GB · qwen2.5:7b (fünf Läufe)

laufentok/sNotizen
128.7
231.4Lüfter ~3900 U/min
326.9geringer Ausreißer, immer noch im Median
422.3verworfen (Chrome 12 Tabs + Slack)
533,0GC-Jitter hoch
Median (Läufe 1,2,3,5)29.1 · Mittelwert 29,5 · S. 90 32,1

TTFT-Wanduhr: 1,78 / 1,91 / 2,03 / 2,14 s (Median). 1,97s). Swaps = 0.

3.2 System bereinigen: 16 GB · qwen2.5:14b (Sitzung hat fünf Läufe nicht abgeschlossen)

laufentok/sTTFTTauscht
111.22,71s0
28.42,88s1204
33.45,81 SekundenAufstand
4Läufer getötet (oom?)

14B auf 16GB hat kein stabiler Median zu melden: Lauf 3 Speicherstatus: WARN, Lauf 4 Prozess beendet – entspricht dem Speicherkollaps im volles Labor. Bei der täglichen Nutzung von 16 GB sollten also nicht 14 GB gespeichert bleiben.

benchmark script output: 14B offloading to CPU, Swapins 8421, runner killed
Abb. 2 · 16GB + 14B: WARN → swap → OOM (matches ollama-debug-14b-16gb.log)
Activity Monitor memory pressure yellow/red, Swap Used ~2.41 GB, ollama runner ~8.9 GB
Abb. 3 · Aktivitätsmonitor, gleiches Fenster: Speicherdruck gelb/rot (Swap Used vs. vm_stat)

3.3 Sauberes System: 24 GB gepaart (m4-24gb-lab-02)

Modell5× tok/s (roh)mittlere~Wand für 500 Token
qwen2.5:7b49,2 / 53,8 / 51,1 / 48,6 / 52,451.1~9,8 s
qwen2.5:14b14,2 / 16,8 / 15,1 / 17,3 / 14,915.1~33 s

Bei 24 GB variieren die fünf Läufe von 14B immer noch (14,2–17,3), aber kein durchgehender Tausch. Nachmittags erneuter Test an einem anderen Tag: 7B@16GB Median 28.6 (einschließlich 24,3 warmer Ausreißer – siehe Protokollfußzeile) – tagesübergreifend ±5 % sind normal.

3.4 Roher Benchmark-Auszug

--- m4-16gb-lab-01 · qwen2.5:7b ---
tok/s per run: 28.7 31.4 26.9 33.0   (run4 22.3 discarded)
median: 29.1

--- m4-16gb-lab-01 · qwen2.5:14b ---
run3: tok/s=3.4  TTFT_wall=5.81s
run4: ERROR runner killed (oom?)

--- m4-24gb-lab-02 · qwen2.5:14b ---
tok/s: 14.2 16.8 15.1 17.3 14.9  →  median 15.1

3.5 Unter Last: 7B noch brauchbar, 14B geht zuerst kaputt

16 GB + Chrome 12 Tabs: nur 7B run4 verworfen 22.3 tok/s; 14B Treffer Auslagerung auf die CPU nach Lauf2. In Agent-Schleifen schadet TTFT mehr als tok/s – siehe §7.1.

TL;DR: Auswendig auswählen

§3 oben enthält 16GB/24GB-Scores und Swap-Beweise. Eine Tabelle zum Merken:

RAM 7B 14B
16 GB empfohlen Swap-Zusammenbruch
24 GB schnell Agent empfohlen

Entspricht den §3.1–3.3-Medianen und Swap-Protokollen; Randfälle (Last, lange ctx) in §3.5 und §6.

4. Kostenblatt 7B vs. 14B (Kurzreferenz)

„Kosten“ bedeutet hier Ressourcenrechnung auf dem Gerät (RAM, Latenz, Stabilität), keine Cloud-API-Preise. Zusammenfassung für 24 GB sauberen Zustand und 16 GB Grenzen – für Snippets und Teamentscheidungen.

ArtikelQwen2.5 7B (Q4)Qwen2.5 14B (Q4)
Modellgröße (ollama ps)~4,7 GB~9,1 GB
16 GB mittlerer Token/s29,1 (täglich OK)kein stabiler Median; ~3,4 nach dem Austausch
24 GB mittlerer Token/s51.115.1
Kaltstart-TTFT (typisch)~1,9 s~2,7 s
Empfohlener einheitlicher Speicher16 GB24 GB
Codierung / AgentLeichte Entwürfe, überprüfbarDateiübergreifende Bearbeitungen, empfohlen
Chat / Zusammenfassungempfohlenoptional (begrenzter Qualitätsgewinn)
16 GB langfristiger Wohnsitz❌ Swap-/OOM-Risiko

16 GB: Bleiben Sie auf 7B für eine reibungslose tägliche Nutzung; 24 GB vor stabilen 14 B. Passen Sie Ihr Szenario an §8.4.

5. Qualität: Wenn 7B ausreicht oder wenn Sie 14B benötigen

Wir haben 20 feste Aufgaben (10 Chinesisch + 10 Englisch) in vier Typen ausgeführt: Zusammenfassung, Übersetzung, Bugfix für eine einzelne Datei, kleine 3-Dateien-Funktion. Jede Aufgabe wird einmal auf 7B und 14B generiert; Drei Ingenieure bewerteten blind: „Akzeptieren im Ist-Zustand / geringfügige Änderungen / Umschreiben“.

5.1 Zusammenfassung der Blindbewertung (Annahme im Ist-Zustand)

Aufgabentyp7B14BFilzspalt
Zusammenfassung der E-Mail-/Besprechungsnotizen85 %90 %14B etwas stabiler; 7B schon in Ordnung
Zh→En technische Übersetzung80 %88 %In 14B fehlen weniger Begriffe
Einzeldatei-Python/TS-Fehler55 %78 %7B oft „richtige Richtung, falsches Detail“
Kleine 3-Dateien-Funktion (inkl. Umbenennen)30 %65 %größte Lücke; 7B vermisst Anrufstellen

5.2 Typische 7B-Fehlermodi

  • Halluzinierte APIs: erfindet Requisiten/REST-Pfade, die plausibel aussehen.
  • Verpasste Änderungen: Korrigiert die Definition, vergisst, Aufrufer zu grepen – die meisten dateiübergreifenden Fehler.
  • Zu knapp für Code: großartig für Zusammenfassungen; Beim Codieren von Antworten wird die Fehlerbehandlung übersprungen – Sie fügen einen menschlichen Pass hinzu.

5.3 Wenn 14B die „Speichersteuer“ wert ist (24 GB angenommen)

  • Lokal Claude Code / Cursor-Agent >2 Stunden/Tag bei mittleren Repos – dateiübergreifende Übernahmerate ~30 % (7B) vs. ~65 % (14B).
  • Lang Systemaufforderungen (Styleguides, Architekturregeln) müssen eingehalten werden.
  • Komplexe chinesische Argumentation, branchenübergreifende Produktregeln, Compliance-Checklisten.
  • Sie akzeptieren ~15 Token/s und eine längere Wandzeit –Qualität für Latenz, keine Fehlkonfiguration.

5.4 Wenn 7B ausreicht

  • Persönliche Notizen, Fragen und Antworten, RSS-Zusammenfassungen, einfache Shell-Skripte.
  • Von Menschen überprüfter Draft-Beschleuniger – nicht direkt mit dem Hauptteil verschmelzbar.
  • 16 GB mit geöffneter IDE + Browser – 14 GB gehen oft vor „IQ“ im Speicher verloren.

6. Speicher: 16 GB vs. 24 GB Wendepunkt

Fußabdruck ≈ quantisierte Gewichte + KV (∝ num_ctx) + macOS + Vordergrund-Apps. 7B/14B Q4-Gewichtslücke ~4,5 GB, aber KV- und OS-Overhead füllen 16 GB schnell.

Konfig7B14BBeratung
16 GB sauber✅ Median 29,1 Tok/s⚠️ Läuft 1–2 ~11/8 tok/s, dann tauschenStandard 7B; 14B nicht wohnhaft halten
16 GB täglich (IDE+Browser)✅ run4 kann 22,3 erreichen (verworfen)❌ OOM / getötetCode auf 7B oder Tabs schließen
24 GB sauber✅ Median 51,1 Tok/s✅ Median 15,1 Tok/sAgenten-Sweetspot: 14B
24 GB + num_ctx=8192✅ ~47 tok/s (separater Lauf)✅ ~13,8 tok/slanger Kontext OK
Kontraintuitiv: 24 GB auf 7B (51,1 Tok/s) sind oft schneller und stabiler als das Erzwingen von 14 B auf 16 GB (~3,4 Tok/s nach dem Austausch) – wählen Sie RAM-Stufe zuerst, dann 7B vs. 14B. 14B ist in Ordnung; 16 GB können sich den Platzbedarf nicht leisten.

6.1 num_ctx trifft 14B härter

Aufziehen num_ctx von 2048 bis 32768: 24 GB + 14 MB Token/s 15,1 → ~12,4 (Einzeldurchlauf); 16 GB + 14 B können über 60 Sekunden ohne erstes Token verwendet werden (E4-Latenzfehler). Wenn Ihr Agent standardmäßig auf großen Kontext eingestellt ist, bestätigen Sie zuerst die RAM-Stufe.

7. Auswahl von Agent, TTFT und Claude Code

Kontraintuitiv: In Agent-Schleifen schadet es oft mehr, wenn die TTFT von ~2s auf ~6s steigt, als wenn tok/s um 15→10 sinkt –Bei jeder Werkzeugrunde wird die erste Token-Steuer erneut gezahlt, und bei Mehrrundenläufen kommt es zu Zeitüberschreitungen oder Gefühlen, die eingefroren sind.

Agentenschleife = viele Runden Plan → Tool → Zurücklesen → Generieren. Lokale Schmerzen treten häufig auf gestapelte TTFT pro Runde, nicht Spitzenwert/s – warum „Benchmark großartig aussah, Agent fühlte sich schrecklich an.“

7.1 Warum TTFT die „echte“ Metrik für Agenten ist

tok/s Maßnahmen Stetige Generation nach dem Start; TTFT ist Anfrage zum ersten Token. Für Agenten:

  • Jede Werkzeugrunde wartet darauf, dass das Modell spricht – Sie fühlen TTFT × Runden, nicht das 256-Token-Token/s-Slice.
  • Orchestratoren oft Time-out (zehn Sekunden). Unter Swap, TTFT ~2s → 5,8 Sekunden+ unterbricht Mehrrundenschleifen.
  • Hohe tok/s helfen erst, nachdem das Streaming gestartet ist; 6 Sekunden, bevor sich der erste Token kaputt anfühlt.
Szenario7B TTFT14B TTFTFür Agenten
Musterresident, sauber0,48–0,55 s0,62–0,71 sOK
Nach Kaltstart1,78–2,14 s2,64–2,91 serste Aufgabe des Tages langsamer
16GB Swap + 14B5,81 s+Mehrrundenschleife unbrauchbar

Wie einheitlicher Speicher und Swap TTFT erhöhen: Einheitlicher Speicher & LLM-Schlussfolgerung.

7.2 Empfohlene Kombinationen (Zusammenfassung – vollständige Tabelle §8.4)

RAMModell-TagFit
16 GBqwen2.5-coder:7bpersönlicher Agent, leichte Bugfixes
24 GBqwen2.5-coder:14bTäglicher Coding-Agent, kleines Team Ollama
16 GB vermeiden Residentqwen2.5:14bSwap → TTFT-Spitze, Toolchain-Timeouts
Claude Code env vars pointing to local Ollama 11434, model qwen2.5-coder:14b
Abb. 4 · Claude Code → localhost:11434 + qwen2.5-coder:14b (dasselbe wie Artikel zum Agentenlabor)
Kein lokaler Mac? Claude Code + Ollama ohne Schreibtisch-Mac Mini testen? Führen Sie den Benchmark dieses Artikels auf einem aus Macstripe dedizierter M4 Mac Mini-KnotenOllama Pull, Skriptpfade und §8-Befehle genau übereinstimmen; SSH in wenigen Minuten. Gut für eine einwöchige Team-Reproduktion vor dem Kauf von Hardware.

7.3 Mischen mit Cloud-APIs

Gemeinsame Aufteilung: 7B für Abruf/Entwürfe, 14B oder Cloud für die Überprüfung vor dem Zusammenführen. Wenn Sie Claude Code bereits verwenden, kauft 14B vor Ort offline, wiederholbar, ohne Token-Rechnung – Einrichtung in Claude Code + Ollama lokales Agentenlabor.

7.4 Ollama oder MLX?

Diese Serie testet nur Ollama (HTTP, Modellverwaltung, Claude-Code-Verkabelung). MLX ist bei denselben Eingabeaufforderungen etwa 3–8 % schneller, aber Agenten versenden immer noch zuerst auf Ollama – siehe MLX vs. Ollama-Benchmarks.

8. Befehle und Entscheidungslisten reproduzieren

8.1 Zugmodelle und Rauchtest

ollama pull qwen2.5:7b
ollama pull qwen2.5:14b
ollama run qwen2.5:7b "用三句话说明 7B 和 14B 在 Mac Mini 上的主要差别"
ollama run qwen2.5:14b "同上"

Protokolle sollten angezeigt werden ggml_metal_init; Nur CPU-Volllast → Ollama aktualisieren (Hub E3: 0.5.13 ohne Metal ~4 tok/s). Führen Sie nach den Läufen einen Line-Check durch Repro-Assets.

8.2 Selbsttest nach Szenario (dann verwenden Sie die folgenden Tabellen)

  • Agent, der täglich das gleiche Medium-Repo bearbeitet?
  • 16 GB mit Xcode + Chrome immer geöffnet?
  • OK, wenn 14B 500 Token in ~33 Sekunden auf 24 GB schreibt?
  • Brauchen num_ctx > 8192?
  • Gemeinsamer Inferenz-Mac für ein Team?

8.3 Repro-Assets (zur Überprüfung herunterladen)

Statische Dateien in diesem Artikel Ressourcen/ Ordner-keine externen Links– Im Browser öffnen oder speichern, um jeden Lauf hinter §3 zu überprüfen.

8.4 Entscheidungstabellen (vollständige Antwort hier)

Wählen Sie nach den oben genannten Daten nach RAM und Szenario aus. Um jeden §3-Lauf zu überwachen, öffnen Sie die gepaartes Benchmark-Protokoll.

Durch einheitlichen Speicher (GB auswählen, dann Modell)

Dein RAMEmpfohlenes Modell14B Hinweis
16 GBqwen2.5:7b (Median ~29 tok/s)14B lädt, aber tauscht → ~3 tok/s—nicht für den Aufenthalt
24 GBChat: 7B (~51 Token/s); Codierungsagent: qwen2.5-coder:14b14B durchschnittlich ~15 Token/s, kein Tausch

Nach Szenario

  • Chat / Zusammenfassung / leichte Skripte (16 GB):qwen2.5:7b
  • Dateiübergreifende Codierung / lokaler Agent (24 GB empfohlen):qwen2.5-coder:14b (Qualität für Latenz – siehe §7)
  • Schnellste, menschliche Überprüfung OK: → 7B oder gemma3:4b

Nach Person

Du bist…WählenVermeiden
Einzelne 16 GB, Chat + leichte Skripteqwen2.5:7b14B Bewohner
Individueller 24 GB, lokaler Codierungsagentqwen2.5-coder:14b14B für Geschwindigkeit bei dateiübergreifenden Refaktoren
Vom Team gemeinsam genutzter Inferenzknoten24GB + 7B oder 32GB + 14B16 GB + gleichzeitig 14 GB
Nur schnellste Antwort7B (oder gemma3:4b)14B resident auf 16GB

Umsetzbare Schlussfolgerung: 16 GB → 7B; Betrachten Sie 14B nur bei 24 GB – andernfalls sinkt die Benutzererfahrung durch Swap um eine Größenordnung.

FAQ

M4 Mac Mini: 7B oder 14B?

Überprüfen Sie zuerst das Swap-Risiko und dann die Modellstufe. Volle Auswahl (16GB→7B, 24GB→14B) in §8.4. Der Schlüsselfund erklärt warum.

Können 16 GB 14 GB ausführen?

Es lädt; nicht für den täglichen Aufenthalt. Sehen §1.1 drei Staaten, §3.2, Und §8.4.

Wie viel schneller ist 7B als 14B?

16 GB 7B Median 29,1; 24 GB, 14 B, Durchschnitt 15,1. 14 B auf 16 GB nach dem Austausch erzwungen ~3,4 Token/s. Details in §3.

7B oder 14B für den alltäglichen Chat?

Die meisten Chats: 7B. Dateiübergreifende Codierung: §5 Und §8.4.

Lokales Modell von Claude Code?

16 GB → qwen2.5-coder:7b; 24 GB → qwen2.5-coder:14b. Agenten: TTFT priorisieren –§7.1.

Upgrade von 16 GB auf 24 GB für 14 GB?

Es lohnt sich, wenn Sie sich auf einen lokalen Agenten verlassen und 7B oft „es versteht, aber die Änderungen falsch macht“; reiner Chat oft nicht. Sehen §8.4.

Qwen2.5-Coder vs. allgemein 7B/14B?

Coding Blind Review ~8–12 Punkte höher; Im Allgemeinen fühlen sich 7B/14B im Chat natürlicher an.

Zusammenfassung

16 GB → 7B; 24 GB vor stabilen 14 B. Ob 14B funktioniert, hängt hauptsächlich von RAM und Swap ab, nicht „eine Stufe intelligenter“. Reproduzieren über §8.3 Protokolle und Skripte Und §2.4 Umgebungsblock.

Mehr in dieser Serie:

Tests auf physischen Mac Mini M4 (Macstripe Lab und Tischgeräten), macOS 15.4.1, Ollama 0.6.2. Downloads in §8.3. Keine lokale Hardware? Reproduzieren Sie weiter Macstripe M4-Knoten.