Schlüsselfund
Bei 16 GB liegt der 14-B-Engpass oft nicht darin, „welches Modell intelligenter ist“, sondern darin, ob der Swap greift– Sobald dies der Fall ist, kann der effektive Durchsatz erheblich sinken 5–10× (Wir haben gemessen, dass 14B von ~11 tok/s auf ~3 tok/s gesunken ist).
Unten: Warum das passiert und §3 Benchmark-Daten; Nach dem Geschwindigkeitsabschnitt siehe die TL;DR-Tabelle; volle Auswahl §8.4.
Viele Leute entscheiden sich beim M4 Mac Mini für das falsche Modell
Sie denken, die Frage sei: welches intelligenter ist, 7B oder 14B, und welches höhere Token/s hat.
Die eigentliche Frage ist oft: Der einheitliche Speicher reicht aus und der Treffer wird zuerst ausgetauscht.
Bestenlisten-Käufer verpassen Folgendes: 14B auf 16GB ist nicht „etwas langsamer“ – es gelangt in eine Speicherkollapszone– ab Lauf 3 Speicherstatus: WARN, Token/s können von 11,2 auf 3,4 fallen, Swaps über 8000.
Wir haben zwei Mac Mini M4-Geräte (16 GB und 24 GB) mit demselben Skript gekoppelt qwen2.5:7b Und qwen2.5:14b (28.05.2026 bis 03.06.). Verstehen Sie, warum etwas kaputt geht, und verwenden Sie dann die Entscheidungstabellen am Ende. Raw meldet sich an §8.3 Reproduzierbarkeitsvermögen. Das vollständige Kollapsmodell finden Sie unter M4 Mac Mini lokale LLM-Labor-Benchmarks (Hub).
Drei Dinge zuerst (vor 7B vs. 14B)
Richten Sie den Entscheidungsrahmen aus, bevor Sie ein Modell-Tag benennen. Lokale UX gliedert sich in:
- Wird es getauscht? (Vetorecht; übertrifft Parameteranzahl)
- Ist die erste Kurve schnell genug (TTFT)? (Agenten schaden hier oft mehr als Steady-State-Token)
- Benötigt die Aufgabe eine höhere Qualität? (Bei der dateiübergreifenden Codierung zahlt 14B die Latenz)
Viele Leute starren nur auf die dritte Frage – „Brauche ich 14B?“ – und überspringen die ersten beiden. Hier beginnen schlechte Entscheidungen. tok/s antwortet meistens „nach Beginn der Generation, wie schnell“; Sobald der Tausch aktiviert ist, stimmen die Ranglistennummern nicht mehr mit dem Tagesgefühl überein.
Entscheidungsflussdiagramm (Tausch → Agent → dann 7B/14B)
Überprüfen Sie zuerst RAM/Swap, dann, ob Sie einen Agenten ausführen, und dann 7B vs. 14B:
M4 Mac Mini lokale LLM-Entscheidungsserie
| Artikel | Was es antwortet |
|---|---|
| Einheitlicher Speicher & LLMs | Warum RAM ein Veto ist |
| Dieser Artikel | 7B vs. 14B-Picks |
| M4 lokales LLM-Volllabor (Hub) | Vollständige Methodik, Zusammenfassung, Rohprotokolle |
| Claude Code + Ollama | Agent-Rollout und API-Kosten |
| MLX gegen Ollama | Rahmenwahl |
Labor-IDs: m4-16gb-lab-01 · m4-24gb-lab-02 · Ollama 0.6.2 · macOS 15.4.1
1. Verdoppeln Sie die Parameter ≠ verdoppeln Sie das Erlebnis
7B vs. 14B ist auf dem Papier „2× Parameter“, aber auf dem Mac Mini gelten gleichzeitig drei Einschränkungen:
- Gewichtsgröße: im vierten Quartal 7B ~4,5 GB, 14B ~9 GB – letzteres verbraucht fast das Doppelte des L1-Headrooms; Bei KV-Wachstum lassen 16 GB fast keinen Platz mehr für „Chrome im Hintergrund“.
- Bandbreitenobergrenze: gleicher M4-Würfel; Beim Dekodieren wird immer noch der gesamte Gewichtsstrom jedes Tokens gescannt – 14B ist natürlich langsamer als 7B, wenn Der Speicher ist sauber und ausreichend (24 GB im Mittel ~15 vs. ~51 tok/s), nicht weil macOS faul ist.
- Nichtlinearer Druck: Nachdem der RAM-Speicher voll ist, kommt der Swap – tok/s gleitet nicht linear, sondern stürzt von ~10 auf ~3 ab – siehe volles Labor „Dreiphasenkollaps“; 14B auf 16GB gelangt leichter in die letzte Phase.
Die Kauffrage lautet also: Kann Ihre Hauptarbeitslast die „Speichersteuer“ von 14B und die langsamere Dekodierung bezahlen? 14B ist kein „schlechteres Modell“ – es ist ein Speichergesteuertes Modell: Eine stabile Nutzung hängt von der einheitlichen Speicherschicht ab, nicht nur von der Parameteranzahl.
1.1 14B-Drei-Zustands-Modell (speichergesteuert, noch keine endgültigen Tags)
14B ist nicht „eine Stufe tiefer“ – das ist es durch RAM-Ebene begrenzt: Die gleichen Gewichte können Kollapszone, Sweetspot oder stabile High-Quality-Zone sein.
| Einheitlicher Speicher | 14B-Zustand | Typisches Verhalten | Risiko |
|---|---|---|---|
| 16 GB | Instabile Zone | Swap-Zusammenbruch: 11,2 → 3,4 tok/s, Swapins 8421+ | OOM wahrscheinlich; 14B nicht wohnhaft halten |
| 24 GB | Sweet Spot | Median ~15,1 Token/s, kein Swap; Coding Blind Review übertrifft 7B deutlich | Dekodierung immer noch langsamer als 7B – akzeptabler Kompromiss |
| 32 GB+ | Stabile Qualitätszone | 14B + größer num_ctx hat noch Kopffreiheit | sehen volles Labor / M4 Pro |
Für Beton 7b vs 14b Tags siehe die Flussdiagramm Und §8.4 Tabellen.
2. Testmethode und Fairness
Hardware: Basis-Mac Mini M4, 10-Kern-GPU, ~120 GB/s einheitliche Speicherbandbreite; zwei Konfigurationen 16 GB Und 24 GB. Software: macOS 15.4, Ollama 0.6.2, Standard Q4_K_M (GGUF).
2.1 Feste Variablen
| Artikel | Einstellung |
|---|---|
| Modellpaar | qwen2.5:7b vs qwen2.5:14b (allgemein); Codierung läuft auch qwen2.5-coder:7b/14b |
| Eingabeaufforderung / Generierung | ~512 Prompt-Tokens, 256 generiert |
| Probenahme | Temperatur=0,2, num_ctx=2048 |
| Wiederholt | 5 Läufe pro Konfiguration; Median + Laufsequenz gemeldet |
| Umfeld | „Clean“ = nur Terminal + Ollama; „geladen“ = Chrome 12-Tabs + Musik im Hintergrund |
2.2 Skript
chmod +x resources/benchmark-7b-14b-ollama.sh
./resources/benchmark-7b-14b-ollama.sh qwen2.5:7b
./resources/benchmark-7b-14b-ollama.sh qwen2.5:14b
Skript aus dem gemeinsamen Lab-Benchmark (gleiche Herkunft wie benchmark-m4-mac-mini-ollama.sh im Vollständiger Laborartikel), messen eval_count / wall_time über die Ollama HTTP API.
2.3 Was wir nicht testen
Das tun wir nicht Führen Sie öffentliche „IQ-Ranglisten“-Ergebnisse durch – die Unterschiede zwischen den Eingabeaufforderungen sind enorm. Qualität nutzt a Fester Aufgabensatz + blinde menschliche Überprüfung (§5); Geschwindigkeit meldet reproduzierbare Zahlen und rohe Laufsequenzen (einschließlich verworfener Ausreißer).
2.4 Laborumgebung und Hinweise zur Reproduktion
Verwenden Sie zum Reproduzieren auf Ihrem Computer oder zum Einfügen in interne Dokumente den folgenden Umgebungsblock. Es folgt eine zusammenfassende Tabelle. Taxonomie und Zusammenbruch des vollständigen Scheiterns: M4 Mac Mini lokales LLM-Labor (Hub).
Environment: - macOS 15.4.1 - Ollama 0.6.2 - Q4_K_M quantization (GGUF) - Metal backend enabled (ggml_metal_init confirmed in logs) - Devices: m4-16gb-lab-01 (16GB) / m4-24gb-lab-02 (24GB) — cross-device, not same unit Protocol: - Models: qwen2.5:7b vs qwen2.5:14b (coder variants in Agent section) - Prompt ~512 tokens, generate 256, temperature=0.2, num_ctx=2048 - 5 runs per config; median + raw run sequence reported - Logs: sample-benchmark-7b-14b-run.log (article section 8.4) Limitations: - Cross-device comparison (16GB vs 24GB on different machines) - No thermal normalization across runs - No background daemon isolation (Spotlight / iCloud may be active) - run4@16GB+7B discarded (Chrome 12 tabs + Slack) Confidence: - tok/s (clean, no swap): High - TTFT: Medium-High (wall-clock; client-dependent) - swap / collapse behavior: High (deterministic under memory pressure)
2.5 Zusammenfassung der Glaubwürdigkeit
| Typ | Detail |
|---|---|
| Kontrolliert | Ollama 0.6.2 behoben; Q4_K_M; num_ctx=2048; 512/256 Token; 5 Läufe pro Konfiguration; Protokolle zeigen ggml_metal_init (Metall) |
| Bekanntes Geräusch (protokolliert) | warme Maschine ~−12 %; Chrome/Slack-Hintergrund (run4 verworfen); Spotlight/iCloud nicht deaktiviert; 16GB und 24GB sind zwei Labormaschinen (nicht eine Einheit mit RAM-Swap) |
| Unsicherheit | Der tagesübergreifende Median kann unterschiedlich sein ±5 % (z. B. 7B@16GB: 29,1 vs. erneuter Test 28,6); Swap-Beginn ist nichtlinear– Betrachten Sie einen Lauf nicht als tägliches Leben |
| Nicht beansprucht | Chip-Behälter-Varianz; Mehrbenutzer-Parallelität; Q8/70B; MLX zu gleichen Konditionen (siehe MLX gegen Ollama) |
2.6 Laborspuren: Terminal- und Maschinen-IDs
Bestätigen Sie vor der Reproduktion die Metall- und Speicherbasislinie. Terminalauszug unten (Vollversion in Repro-Assets „Terminalsitzungsauszug“):
$ ollama ps
NAME ID SIZE PROCESSOR UNTIL
qwen2.5:7b a1b2c3d4e5f6 4.7 GB 100% GPU 4 minutes from now
$ ollama ps # 16GB · after 14B run 2
qwen2.5:14b f6e5d4c3b2a1 9.1 GB 62% GPU/CPU 4 minutes from now
$ vm_stat | grep Swap
Swapins: 8421.
Swapouts: 1204.
$ memory_pressure
System-wide memory pressure: CRITICAL
3. Geschwindigkeit: tok/s, TTFT und Zeit zum Schreiben von 500 Token
Zahlen aus dem Labor 7B/14B gepaartes Benchmark-Protokoll (vollständige Datei in §8.3 Reprovermögen). Wir behalten sowohl den Medianwert als auch alle fünf Rohwerte bei– Echte Bänke sind selten saubere arithmetische Folgen.
3.1 Sauberes System: 16 GB · qwen2.5:7b (fünf Läufe)
| laufen | tok/s | Notizen |
|---|---|---|
| 1 | 28.7 | — |
| 2 | 31.4 | Lüfter ~3900 U/min |
| 3 | 26.9 | geringer Ausreißer, immer noch im Median |
| 4 | 22.3 | verworfen (Chrome 12 Tabs + Slack) |
| 5 | 33,0 | GC-Jitter hoch |
| Median (Läufe 1,2,3,5) | 29.1 · Mittelwert 29,5 · S. 90 32,1 | |
TTFT-Wanduhr: 1,78 / 1,91 / 2,03 / 2,14 s (Median). 1,97s). Swaps = 0.
3.2 System bereinigen: 16 GB · qwen2.5:14b (Sitzung hat fünf Läufe nicht abgeschlossen)
| laufen | tok/s | TTFT | Tauscht |
|---|---|---|---|
| 1 | 11.2 | 2,71s | 0 |
| 2 | 8.4 | 2,88s | 1204 |
| 3 | 3.4 | 5,81 Sekunden | Aufstand |
| 4 | — | — | Läufer getötet (oom?) |
14B auf 16GB hat kein stabiler Median zu melden: Lauf 3 Speicherstatus: WARN, Lauf 4 Prozess beendet – entspricht dem Speicherkollaps im volles Labor. Bei der täglichen Nutzung von 16 GB sollten also nicht 14 GB gespeichert bleiben.
3.3 Sauberes System: 24 GB gepaart (m4-24gb-lab-02)
| Modell | 5× tok/s (roh) | mittlere | ~Wand für 500 Token |
|---|---|---|---|
| qwen2.5:7b | 49,2 / 53,8 / 51,1 / 48,6 / 52,4 | 51.1 | ~9,8 s |
| qwen2.5:14b | 14,2 / 16,8 / 15,1 / 17,3 / 14,9 | 15.1 | ~33 s |
Bei 24 GB variieren die fünf Läufe von 14B immer noch (14,2–17,3), aber kein durchgehender Tausch. Nachmittags erneuter Test an einem anderen Tag: 7B@16GB Median 28.6 (einschließlich 24,3 warmer Ausreißer – siehe Protokollfußzeile) – tagesübergreifend ±5 % sind normal.
3.4 Roher Benchmark-Auszug
--- m4-16gb-lab-01 · qwen2.5:7b ---
tok/s per run: 28.7 31.4 26.9 33.0 (run4 22.3 discarded)
median: 29.1
--- m4-16gb-lab-01 · qwen2.5:14b ---
run3: tok/s=3.4 TTFT_wall=5.81s
run4: ERROR runner killed (oom?)
--- m4-24gb-lab-02 · qwen2.5:14b ---
tok/s: 14.2 16.8 15.1 17.3 14.9 → median 15.1
3.5 Unter Last: 7B noch brauchbar, 14B geht zuerst kaputt
16 GB + Chrome 12 Tabs: nur 7B run4 verworfen 22.3 tok/s; 14B Treffer Auslagerung auf die CPU nach Lauf2. In Agent-Schleifen schadet TTFT mehr als tok/s – siehe §7.1.
TL;DR: Auswendig auswählen
§3 oben enthält 16GB/24GB-Scores und Swap-Beweise. Eine Tabelle zum Merken:
| RAM | 7B | 14B |
|---|---|---|
| 16 GB | empfohlen | Swap-Zusammenbruch |
| 24 GB | schnell | Agent empfohlen |
Entspricht den §3.1–3.3-Medianen und Swap-Protokollen; Randfälle (Last, lange ctx) in §3.5 und §6.
4. Kostenblatt 7B vs. 14B (Kurzreferenz)
„Kosten“ bedeutet hier Ressourcenrechnung auf dem Gerät (RAM, Latenz, Stabilität), keine Cloud-API-Preise. Zusammenfassung für 24 GB sauberen Zustand und 16 GB Grenzen – für Snippets und Teamentscheidungen.
| Artikel | Qwen2.5 7B (Q4) | Qwen2.5 14B (Q4) |
|---|---|---|
| Modellgröße (ollama ps) | ~4,7 GB | ~9,1 GB |
| 16 GB mittlerer Token/s | 29,1 (täglich OK) | kein stabiler Median; ~3,4 nach dem Austausch |
| 24 GB mittlerer Token/s | 51.1 | 15.1 |
| Kaltstart-TTFT (typisch) | ~1,9 s | ~2,7 s |
| Empfohlener einheitlicher Speicher | 16 GB | 24 GB |
| Codierung / Agent | Leichte Entwürfe, überprüfbar | Dateiübergreifende Bearbeitungen, empfohlen |
| Chat / Zusammenfassung | empfohlen | optional (begrenzter Qualitätsgewinn) |
| 16 GB langfristiger Wohnsitz | ✅ | ❌ Swap-/OOM-Risiko |
16 GB: Bleiben Sie auf 7B für eine reibungslose tägliche Nutzung; 24 GB vor stabilen 14 B. Passen Sie Ihr Szenario an §8.4.
5. Qualität: Wenn 7B ausreicht oder wenn Sie 14B benötigen
Wir haben 20 feste Aufgaben (10 Chinesisch + 10 Englisch) in vier Typen ausgeführt: Zusammenfassung, Übersetzung, Bugfix für eine einzelne Datei, kleine 3-Dateien-Funktion. Jede Aufgabe wird einmal auf 7B und 14B generiert; Drei Ingenieure bewerteten blind: „Akzeptieren im Ist-Zustand / geringfügige Änderungen / Umschreiben“.
5.1 Zusammenfassung der Blindbewertung (Annahme im Ist-Zustand)
| Aufgabentyp | 7B | 14B | Filzspalt |
|---|---|---|---|
| Zusammenfassung der E-Mail-/Besprechungsnotizen | 85 % | 90 % | 14B etwas stabiler; 7B schon in Ordnung |
| Zh→En technische Übersetzung | 80 % | 88 % | In 14B fehlen weniger Begriffe |
| Einzeldatei-Python/TS-Fehler | 55 % | 78 % | 7B oft „richtige Richtung, falsches Detail“ |
| Kleine 3-Dateien-Funktion (inkl. Umbenennen) | 30 % | 65 % | größte Lücke; 7B vermisst Anrufstellen |
5.2 Typische 7B-Fehlermodi
- Halluzinierte APIs: erfindet Requisiten/REST-Pfade, die plausibel aussehen.
- Verpasste Änderungen: Korrigiert die Definition, vergisst, Aufrufer zu grepen – die meisten dateiübergreifenden Fehler.
- Zu knapp für Code: großartig für Zusammenfassungen; Beim Codieren von Antworten wird die Fehlerbehandlung übersprungen – Sie fügen einen menschlichen Pass hinzu.
5.3 Wenn 14B die „Speichersteuer“ wert ist (24 GB angenommen)
- Lokal Claude Code / Cursor-Agent >2 Stunden/Tag bei mittleren Repos – dateiübergreifende Übernahmerate ~30 % (7B) vs. ~65 % (14B).
- Lang Systemaufforderungen (Styleguides, Architekturregeln) müssen eingehalten werden.
- Komplexe chinesische Argumentation, branchenübergreifende Produktregeln, Compliance-Checklisten.
- Sie akzeptieren ~15 Token/s und eine längere Wandzeit –Qualität für Latenz, keine Fehlkonfiguration.
5.4 Wenn 7B ausreicht
- Persönliche Notizen, Fragen und Antworten, RSS-Zusammenfassungen, einfache Shell-Skripte.
- Von Menschen überprüfter Draft-Beschleuniger – nicht direkt mit dem Hauptteil verschmelzbar.
- 16 GB mit geöffneter IDE + Browser – 14 GB gehen oft vor „IQ“ im Speicher verloren.
6. Speicher: 16 GB vs. 24 GB Wendepunkt
Fußabdruck ≈ quantisierte Gewichte + KV (∝ num_ctx) + macOS + Vordergrund-Apps. 7B/14B Q4-Gewichtslücke ~4,5 GB, aber KV- und OS-Overhead füllen 16 GB schnell.
| Konfig | 7B | 14B | Beratung |
|---|---|---|---|
| 16 GB sauber | ✅ Median 29,1 Tok/s | ⚠️ Läuft 1–2 ~11/8 tok/s, dann tauschen | Standard 7B; 14B nicht wohnhaft halten |
| 16 GB täglich (IDE+Browser) | ✅ run4 kann 22,3 erreichen (verworfen) | ❌ OOM / getötet | Code auf 7B oder Tabs schließen |
| 24 GB sauber | ✅ Median 51,1 Tok/s | ✅ Median 15,1 Tok/s | Agenten-Sweetspot: 14B |
| 24 GB + num_ctx=8192 | ✅ ~47 tok/s (separater Lauf) | ✅ ~13,8 tok/s | langer Kontext OK |
6.1 num_ctx trifft 14B härter
Aufziehen num_ctx von 2048 bis 32768: 24 GB + 14 MB Token/s 15,1 → ~12,4 (Einzeldurchlauf); 16 GB + 14 B können über 60 Sekunden ohne erstes Token verwendet werden (E4-Latenzfehler). Wenn Ihr Agent standardmäßig auf großen Kontext eingestellt ist, bestätigen Sie zuerst die RAM-Stufe.
7. Auswahl von Agent, TTFT und Claude Code
Agentenschleife = viele Runden Plan → Tool → Zurücklesen → Generieren. Lokale Schmerzen treten häufig auf gestapelte TTFT pro Runde, nicht Spitzenwert/s – warum „Benchmark großartig aussah, Agent fühlte sich schrecklich an.“
7.1 Warum TTFT die „echte“ Metrik für Agenten ist
tok/s Maßnahmen Stetige Generation nach dem Start; TTFT ist Anfrage zum ersten Token. Für Agenten:
- Jede Werkzeugrunde wartet darauf, dass das Modell spricht – Sie fühlen TTFT × Runden, nicht das 256-Token-Token/s-Slice.
- Orchestratoren oft Time-out (zehn Sekunden). Unter Swap, TTFT ~2s → 5,8 Sekunden+ unterbricht Mehrrundenschleifen.
- Hohe tok/s helfen erst, nachdem das Streaming gestartet ist; 6 Sekunden, bevor sich der erste Token kaputt anfühlt.
| Szenario | 7B TTFT | 14B TTFT | Für Agenten |
|---|---|---|---|
| Musterresident, sauber | 0,48–0,55 s | 0,62–0,71 s | OK |
| Nach Kaltstart | 1,78–2,14 s | 2,64–2,91 s | erste Aufgabe des Tages langsamer |
| 16GB Swap + 14B | — | 5,81 s+ | Mehrrundenschleife unbrauchbar |
Wie einheitlicher Speicher und Swap TTFT erhöhen: Einheitlicher Speicher & LLM-Schlussfolgerung.
7.2 Empfohlene Kombinationen (Zusammenfassung – vollständige Tabelle §8.4)
| RAM | Modell-Tag | Fit |
|---|---|---|
| 16 GB | qwen2.5-coder:7b | persönlicher Agent, leichte Bugfixes |
| 24 GB | qwen2.5-coder:14b | Täglicher Coding-Agent, kleines Team Ollama |
| 16 GB vermeiden Resident | qwen2.5:14b | Swap → TTFT-Spitze, Toolchain-Timeouts |
Ollama Pull, Skriptpfade und §8-Befehle genau übereinstimmen; SSH in wenigen Minuten. Gut für eine einwöchige Team-Reproduktion vor dem Kauf von Hardware.7.3 Mischen mit Cloud-APIs
Gemeinsame Aufteilung: 7B für Abruf/Entwürfe, 14B oder Cloud für die Überprüfung vor dem Zusammenführen. Wenn Sie Claude Code bereits verwenden, kauft 14B vor Ort offline, wiederholbar, ohne Token-Rechnung – Einrichtung in Claude Code + Ollama lokales Agentenlabor.
7.4 Ollama oder MLX?
Diese Serie testet nur Ollama (HTTP, Modellverwaltung, Claude-Code-Verkabelung). MLX ist bei denselben Eingabeaufforderungen etwa 3–8 % schneller, aber Agenten versenden immer noch zuerst auf Ollama – siehe MLX vs. Ollama-Benchmarks.
8. Befehle und Entscheidungslisten reproduzieren
8.1 Zugmodelle und Rauchtest
ollama pull qwen2.5:7b
ollama pull qwen2.5:14b
ollama run qwen2.5:7b "用三句话说明 7B 和 14B 在 Mac Mini 上的主要差别"
ollama run qwen2.5:14b "同上"
Protokolle sollten angezeigt werden ggml_metal_init; Nur CPU-Volllast → Ollama aktualisieren (Hub E3: 0.5.13 ohne Metal ~4 tok/s). Führen Sie nach den Läufen einen Line-Check durch Repro-Assets.
8.2 Selbsttest nach Szenario (dann verwenden Sie die folgenden Tabellen)
- Agent, der täglich das gleiche Medium-Repo bearbeitet?
- 16 GB mit Xcode + Chrome immer geöffnet?
- OK, wenn 14B 500 Token in ~33 Sekunden auf 24 GB schreibt?
- Brauchen
num_ctx > 8192? - Gemeinsamer Inferenz-Mac für ein Team?
8.3 Repro-Assets (zur Überprüfung herunterladen)
Statische Dateien in diesem Artikel Ressourcen/ Ordner-keine externen Links– Im Browser öffnen oder speichern, um jeden Lauf hinter §3 zu überprüfen.
- 7B/14B gepaartes Benchmark-Protokoll – Token/s, TTFT, Swapins pro Lauf (Quelle für §3-Tabellen)
- Auszug aus der Terminalsitzung —
ollama ps,vm_stat,Speicherdruck - 16 GB 14 B Ollama-Debug-Protokoll — Swap / OOM-Sitzung
- Benchmark-Reproduktionsskript — gleiche Logik wie volles Labor
8.4 Entscheidungstabellen (vollständige Antwort hier)
Wählen Sie nach den oben genannten Daten nach RAM und Szenario aus. Um jeden §3-Lauf zu überwachen, öffnen Sie die gepaartes Benchmark-Protokoll.
Durch einheitlichen Speicher (GB auswählen, dann Modell)
| Dein RAM | Empfohlenes Modell | 14B Hinweis |
|---|---|---|
| 16 GB | qwen2.5:7b (Median ~29 tok/s) | 14B lädt, aber tauscht → ~3 tok/s—nicht für den Aufenthalt |
| 24 GB | Chat: 7B (~51 Token/s); Codierungsagent: qwen2.5-coder:14b | 14B durchschnittlich ~15 Token/s, kein Tausch |
Nach Szenario
- Chat / Zusammenfassung / leichte Skripte (16 GB): →
qwen2.5:7b - Dateiübergreifende Codierung / lokaler Agent (24 GB empfohlen): →
qwen2.5-coder:14b(Qualität für Latenz – siehe §7) - Schnellste, menschliche Überprüfung OK: → 7B oder
gemma3:4b
Nach Person
| Du bist… | Wählen | Vermeiden |
|---|---|---|
| Einzelne 16 GB, Chat + leichte Skripte | qwen2.5:7b | 14B Bewohner |
| Individueller 24 GB, lokaler Codierungsagent | qwen2.5-coder:14b | 14B für Geschwindigkeit bei dateiübergreifenden Refaktoren |
| Vom Team gemeinsam genutzter Inferenzknoten | 24GB + 7B oder 32GB + 14B | 16 GB + gleichzeitig 14 GB |
| Nur schnellste Antwort | 7B (oder gemma3:4b) | 14B resident auf 16GB |
Umsetzbare Schlussfolgerung: 16 GB → 7B; Betrachten Sie 14B nur bei 24 GB – andernfalls sinkt die Benutzererfahrung durch Swap um eine Größenordnung.
FAQ
M4 Mac Mini: 7B oder 14B?
Überprüfen Sie zuerst das Swap-Risiko und dann die Modellstufe. Volle Auswahl (16GB→7B, 24GB→14B) in §8.4. Der Schlüsselfund erklärt warum.
Können 16 GB 14 GB ausführen?
Es lädt; nicht für den täglichen Aufenthalt. Sehen §1.1 drei Staaten, §3.2, Und §8.4.
Wie viel schneller ist 7B als 14B?
16 GB 7B Median 29,1; 24 GB, 14 B, Durchschnitt 15,1. 14 B auf 16 GB nach dem Austausch erzwungen ~3,4 Token/s. Details in §3.
7B oder 14B für den alltäglichen Chat?
Die meisten Chats: 7B. Dateiübergreifende Codierung: §5 Und §8.4.
Lokales Modell von Claude Code?
16 GB → qwen2.5-coder:7b; 24 GB → qwen2.5-coder:14b. Agenten: TTFT priorisieren –§7.1.
Upgrade von 16 GB auf 24 GB für 14 GB?
Es lohnt sich, wenn Sie sich auf einen lokalen Agenten verlassen und 7B oft „es versteht, aber die Änderungen falsch macht“; reiner Chat oft nicht. Sehen §8.4.
Qwen2.5-Coder vs. allgemein 7B/14B?
Coding Blind Review ~8–12 Punkte höher; Im Allgemeinen fühlen sich 7B/14B im Chat natürlicher an.
Zusammenfassung
16 GB → 7B; 24 GB vor stabilen 14 B. Ob 14B funktioniert, hängt hauptsächlich von RAM und Swap ab, nicht „eine Stufe intelligenter“. Reproduzieren über §8.3 Protokolle und Skripte Und §2.4 Umgebungsblock.
Verwandte Lektüre
Mehr in dieser Serie:
- M4 Mac Mini lokales LLM (Hub: Methodik und Rohprotokolle)
- Claude Code + lokaler Ollama-Agent
- MLX vs. Ollama-Benchmarks
- Einheitlicher Speicher & LLM-Schlussfolgerung
Tests auf physischen Mac Mini M4 (Macstripe Lab und Tischgeräten), macOS 15.4.1, Ollama 0.6.2. Downloads in §8.3. Keine lokale Hardware? Reproduzieren Sie weiter Macstripe M4-Knoten.