Charge, pas en résident. Après swap ~3,4 tok/s, risque OOM.

7B plus rapide que 14B ?

7B@16Go médiane 29,1 ; 14B@24Go médiane 15,1 tok/s.

7B ou 14B pour le chat ?

Souvent 7B. Code multi-fichiers : 14B sur 24Go.

Modèle local Claude Code ?

16Go → qwen2.5-coder:7b ; 24Go → qwen2.5-coder:14b.

Passer de 16 à 24Go ?

Utile si Agent local fréquent ; chat seul souvent non.

Mac Mini M4 : 7B vs 14B — quel écart au quotidien ? (labo 2026)

Q: Mac Mini M4 : 7B ou 14B ?

Vérifier le swap d'abord. 16Go → 7B ; 14B à 24Go. Choix complets §8.4.

Constatation clé

Sur 16 Go, le goulot d'étranglement du 14B n'est souvent pas « quel modèle est le plus intelligent » mais si le swap entre en jeu-une fois que c'est le cas, le débit effectif peut chuter grossièrement 5 à 10 × (nous avons mesuré 14B passant de ~11 tok/s à ~3 tok/s).

Ci-dessous : pourquoi cela se produit et données de référence §3 ; après la section vitesse, voir le Tableau TL;DR; choix complets dans §8.4.

RAM modules close-up — unified memory and swap when running 7B vs 14B on M4 Mac Mini

Beaucoup de gens choisissent le mauvais modèle sur M4 Mac Mini

Ils pensent que la question est : qui est le plus intelligent, 7B ou 14B, et qui a un tok/s plus élevé.

La vraie question est souvent : La mémoire unifiée est suffisante et l'échange sera le premier.

Les acheteurs du classement manquent ceci : 14 Go sur 16 Go n’est pas « un peu plus lent » : il entre dans une zone d’effondrement de la mémoire-à partir de l'exécution 3 état de la mémoire : WARN, les tok/s peuvent tomber de 11,2 à 3,4, les swaps au-delà de 8 000.

Nous avons associé deux unités Mac Mini M4 (16 Go et 24 Go) avec le même script sur qwen2.5:7b et qwen2.5:14b (2026-05-28 au 06-03). Comprenez pourquoi les choses se cassent, puis utilisez les tables de décision à la fin ; journaux bruts §8.3 atouts de reproductibilité. Pour le modèle d'effondrement complet, voir Benchmarks du laboratoire LLM local M4 Mac Mini (Hub).

Vous connaissez déjà votre niveau de RAM ? Après §3 voir le TL;DR, ou passez à §8.4 table de décision complète. Vous voulez le pourquoi ? Lisez « trois choses d’abord » ci-dessous dans l’ordre.

Trois choses d'abord (avant 7B vs 14B)

Avant de nommer une balise de modèle, alignez le cadre de décision. L’UX Local se décompose en :

Est-ce que ça va échanger (pouvoir de veto ; nombre de paramètres de battement)
Le premier virage est-il assez rapide (TTFT) (Les agents font souvent plus de mal ici que les tok/s en régime permanent)
La tâche nécessite-t-elle une qualité supérieure (le codage inter-fichiers est l'endroit où 14B paie la latence)

Beaucoup de gens ne regardent que le troisième – « ai-je besoin de 14B ? » – et sautent les deux premiers. C’est là que commencent les mauvais choix. tok/s répond principalement « après le début de la génération, à quelle vitesse » ; une fois l'échange activé, les numéros du classement ne correspondent plus à la sensation quotidienne.

Organigramme de décision (échange → Agent → puis 7B/14B)

Vérifiez d'abord la RAM/le swap, puis si vous exécutez un agent, puis 7B vs 14B :

M4 Mac Mini 7B vs 14B decision flowchart: RAM, swap, Agent task — Fig. 0 · Ordre : RAM → swap → Agent → niveau de modèle (balises dans §8.4)

Série de décisions LLM locales M4 Mac Mini

Article	Ce à quoi il répond
Mémoire et amp; LLM	Pourquoi la RAM est un veto
Cet article	Choix 7B contre 14B
Laboratoire complet M4 local LLM (Hub)	Méthodologie complète, réduction, logs bruts
Claude Code + Ollama	Déploiement de l'agent et coût de l'API
MLX contre Ollama	Choix du cadre

ID de laboratoire : m4-16gb-lab-01 · m4-24gb-lab-02 · Ollama 0.6.2 · macOS 15.4.1

1. Doublez les paramètres ≠ doublez l'expérience

7B vs 14B équivaut à « 2 × paramètres » sur le papier, mais sur Mac Mini, trois contraintes s'appliquent à la fois :

Taille du poids : au quatrième trimestre, 7B ~ 4,5 Go, 14B ~ 9 Go – ce dernier consomme près de deux fois la marge L1 ; avec la croissance du KV, 16 Go ne laissent presque aucune place à « Chrome en arrière-plan ».
Plafond de bande passante : même matrice M4 ; le décodage analyse toujours le flux de poids complet de chaque jeton : 14B est naturellement plus lent que 7B lorsque la mémoire est propre et suffisante (médiane de 24 Go ~ 15 contre ~ 51 tok/s), pas parce que macOS est paresseux.
Pression non linéaire : une fois la RAM maximale, les hits d'échange - tok/s ne glisse pas de manière linéaire mais passe de ~ 10 à ~ 3 - voir laboratoire complet « effondrement en trois phases » ; 14B sur 16Go entre plus facilement dans la dernière phase.

La question d’achat devient donc : Votre charge de travail principale peut-elle payer la « taxe mémoire » de 14B et un décodage plus lent ? Le 14B n’est pas un « pire modèle » – c’est un modèle à mémoire: une utilisation stable dépend du niveau de mémoire unifiée, et non du seul nombre de paramètres.

1.1 Modèle à trois états 14B (mémoire fermée, pas encore de balises finales)

14B n’est pas « un cran en dessous » – c’est fermé par niveau de RAM: les mêmes poids peuvent être une zone d'effondrement, un point idéal ou une zone stable de haute qualité.

Mémoire unifiée	État 14B	Comportement typique	Risque
16 GB	Zone instable	effondrement du swap : 11,2 → 3,4 tok/s, Swapins 8421+	MOO probable ; ne gardez pas 14B résident
24 Go	Endroit idéal	médiane ~15,1 tok/s, pas d'échange ; le codage de l'examen à l'aveugle dépasse clairement 7B	décoder encore plus lentement que 7B – compromis acceptable
32 Go+	Zone de qualité stable	14B + plus grand `num_ctx` il y a encore de la marge	voir laboratoire complet / M4 Pro

Pour le béton 7b contre 14b les balises voir le organigramme et Tableaux §8.4.

2. Méthode de test et équité

Matériel : Mac Mini M4 de base, GPU 10 cœurs, bande passante mémoire unifiée d'environ 120 Go/s ; deux configurations 16 GB et 24 Go. Logiciel : macOS 15.4, Ollama 0.6.2, Q4_K_M (GGUF) par défaut.

2.1 Variables fixes

Article	Paramètre
Paire de modèles	`qwen2.5:7b` contre `qwen2.5:14b` (général); le codage s'exécute également `Codeur qwen2.5 : 7b/14b`
Invite/génération	~ 512 jetons d'invite, 256 générés
Échantillonnage	`température=0,2`, `num_ctx=2048`
Répétitions	5 exécutions par configuration ; médiane + séquence d'exécution rapportée
Environnement	« Propre » = Terminal + Ollama uniquement ; "chargé" = Chrome 12 onglets + Musique en arrière-plan

2.2 Scénario

chmod +x resources/benchmark-7b-14b-ollama.sh
./resources/benchmark-7b-14b-ollama.sh qwen2.5:7b
./resources/benchmark-7b-14b-ollama.sh qwen2.5:14b

Script du benchmark Lab partagé (même lignée que benchmark-m4-mac-mini-ollama.sh dans le article complet du laboratoire), mesurant eval_count / wall_time via l'API HTTP Ollama.

2.3 Ce que nous ne testons pas

Nous faisons pas exécutez les scores publics du « Classement IQ » : la variance entre les invites est énorme. La qualité utilise un ensemble de tâches fixes + examen humain aveugle (§5) ; rapports de vitesse, nombres reproductibles et séquences d'exécution brutes (y compris les valeurs aberrantes rejetées).

2.4 Environnement du laboratoire et notes de reproduction

Pour reproduire sur votre machine ou coller dans des documents internes, utilisez le bloc d'environnement ci-dessous ; un tableau récapitulatif suit. Taxonomie des échecs complets et effondrement : Laboratoire LLM local M4 Mac Mini (Hub).

Environment:
- macOS 15.4.1
- Ollama 0.6.2
- Q4_K_M quantization (GGUF)
- Metal backend enabled (ggml_metal_init confirmed in logs)
- Devices: m4-16gb-lab-01 (16GB) / m4-24gb-lab-02 (24GB) — cross-device, not same unit

Protocol:
- Models: qwen2.5:7b vs qwen2.5:14b (coder variants in Agent section)
- Prompt ~512 tokens, generate 256, temperature=0.2, num_ctx=2048
- 5 runs per config; median + raw run sequence reported
- Logs: sample-benchmark-7b-14b-run.log (article section 8.4)

Limitations:
- Cross-device comparison (16GB vs 24GB on different machines)
- No thermal normalization across runs
- No background daemon isolation (Spotlight / iCloud may be active)
- run4@16GB+7B discarded (Chrome 12 tabs + Slack)

Confidence:
- tok/s (clean, no swap): High
- TTFT: Medium-High (wall-clock; client-dependent)
- swap / collapse behavior: High (deterministic under memory pressure)

2.5 Résumé de la crédibilité

Taper	Détail
Contrôlé	Ollama 0.6.2 fixé; Q4_K_M ; `num_ctx=2048`; 512/256 jetons ; 5 exécutions par configuration ; les journaux affichent `ggml_metal_init` (Métal)
Bruit connu (enregistré)	machine chaude ~−12 % ; Arrière-plan Chrome/Slack (run4 supprimé) ; Spotlight/iCloud non désactivé ; 16 Go et 24 Go sont deux Machines de laboratoire (pas une unité avec échange de RAM)
Incertitude	la médiane d'une journée à l'autre peut différer ±5% (par exemple 7B à 16 Go : 29,1 contre un nouveau test 28,6 ); le début du swap est non linéaire- ne considérez pas une course comme une vie quotidienne
Non réclamé	variance du bac à copeaux ; concurrence multi-utilisateurs ; Q8/70B ; MLX dans les mêmes conditions (voir MLX contre Ollama)

2.6 Traces de laboratoire : identifiants de terminal et de machine

Avant de reproduire, confirmez la ligne de base du métal et de la mémoire. Extrait du terminal ci-dessous (version complète en ressources de reproduction « extrait de session terminal » :

$ ollama ps
NAME                ID              SIZE      PROCESSOR    UNTIL
qwen2.5:7b          a1b2c3d4e5f6    4.7 GB    100% GPU     4 minutes from now

$ ollama ps   # 16GB · after 14B run 2
qwen2.5:14b         f6e5d4c3b2a1    9.1 GB    62% GPU/CPU  4 minutes from now

$ vm_stat | grep Swap
Swapins:                                 8421.
Swapouts:                                1204.

$ memory_pressure
System-wide memory pressure: CRITICAL

3. Vitesse : tok/s, TTFT et temps pour écrire 500 tokens

Contre-intuitif : La vitesse ressentie de 7B à 16 Go (médiane ~ 29 tok/s) peut être ~8–9× plus rapide que 14 Go à 16 Go après échange (~ 3,4 tok/s) : le véritable diviseur est si le swap a été déclenché, pas les chiffres 7 et 14 dans le nom du modèle. Les analyses brutes ci-dessous le prouvent.

Chiffres du laboratoire Journal de référence apparié 7B/14B (dossier complet en §8.3 ressources de reproduction). Nous conservons la médiane et les cinq séries brutes-les vrais bancs sont rarement des progressions arithmétiques soignées.

Terminal running ollama run qwen2.5:7b with ggml_metal_init and ~29 tok/s — Figure 1 · `ollama exécute qwen2.5:7b` sur m4-16gb-lab-01 (capture du 29/05/2026, expurgé)

3.1 Système propre : 16 Go · qwen2.5:7b (cinq exécutions)

courir	jeton/s	remarques
1	28,7	—
2	31.4	ventilateur ~ 3900 tr/min
3	26,9	faible valeur aberrante, toujours dans la médiane
4	22.3	écarté (Onglets Chrome 12 + Slack)
5	33,0	Gigue du GC élevée
médiane (courses 1,2,3,5)		29.1 · moyenne 29,5 · p90 32,1

Horloge murale TTFT : 1,78 / 1,91 / 2,03 / 2,14 s (médiane 1,97 s). Échanges = 0.

3.2 Système propre : 16 Go · qwen2.5:14b (la session n'a pas terminé cinq exécutions)

courir	jeton/s	TFT	Échanges
1	11.2	2,71 s	0
2	8.4	2,88s	1204
3	3.4	5,81 s	soulèvement
4	—	—	coureur `tué (oom?)`

14B sur 16GB a pas de médiane stable à signaler: exécution 3 état de la mémoire : WARN, exécutez 4 processus tués – correspond à l'effondrement de la mémoire dans le laboratoire complet. Ainsi, une utilisation quotidienne de 16 Go ne devrait pas garder 14 B de résident.

benchmark script output: 14B offloading to CPU, Swapins 8421, runner killed — Fig. 2 · 16 Go + 14 Go : WARN → swap → MOO (correspond à `ollama-debug-14b-16gb.log`)

Activity Monitor memory pressure yellow/red, Swap Used ~2.41 GB, ollama runner ~8.9 GB — Fig. 3 · Même fenêtre du moniteur d'activité : Pression de la mémoire jaune/rouge (Swap utilisé vs vm_stat)

3.3 Système propre : 24 Go couplés (m4-24gb-lab-02)

modèle	5× tok/s (brut)	médian	~ mur pour 500 jetons
qwen2.5:7b	49,2 / 53,8 / 51,1 / 48,6 / 52,4	51.1	~9,8 s
qwen2.5:14b	14,2 / 16,8 / 15,1 / 17,3 / 14,9	15.1	~33 s

Sur 24 Go, les cinq exécutions du 14B varient toujours (14,2-17,3) mais pas d'échange partout. Retest l'après-midi un autre jour : 7 B à 16 Go médiane 28,6 (inclut une valeur aberrante chaude de 24,3 – voir le pied de page du journal) – ± 5 % sur une journée croisée est normal.

3.4 Extrait brut de référence

--- m4-16gb-lab-01 · qwen2.5:7b ---
tok/s per run: 28.7 31.4 26.9 33.0   (run4 22.3 discarded)
median: 29.1

--- m4-16gb-lab-01 · qwen2.5:14b ---
run3: tok/s=3.4  TTFT_wall=5.81s
run4: ERROR runner killed (oom?)

--- m4-24gb-lab-02 · qwen2.5:14b ---
tok/s: 14.2 16.8 15.1 17.3 14.9  →  median 15.1

3.5 Sous charge : 7B toujours utilisable, 14B casse en premier

16 Go + onglets Chrome 12 : 7B run4 supprimés uniquement 22.3 jeton/s ; 14B clics déchargement sur le processeur après l'exécution2. Dans les boucles d'agent, TTFT fait plus mal que tok/s—voir §7.1.

TL;DR : sélection par mémoire

Le §3 ci-dessus contient des scores de 16 Go/24 Go et des preuves d'échange. Un tableau à retenir :

BÉLIER	7B	14B
16 GB	recommandé	effondrement du swap
24 Go	rapide	Agent recommandé

Correspond aux médianes des §3.1 à 3.3 et aux journaux d'échange ; cas extrêmes (charge, ctx long) aux §3.5 et §6.

4. Feuille de coûts 7B vs 14B (référence rapide)

« Coût » signifie ici facture de ressources sur l'appareil (RAM, latence, stabilité), pas de tarification de l'API cloud. Résumé pour un état propre de 24 Go et des limites de 16 Go : pour les extraits de code et les décisions d'équipe.

Article	Qwen2.5 7B (Q4)	Qwen2.5 14B (Q4)
Taille du modèle (ollama ps)	~4,7 Go	~9,1 Go
16 Go de tok/s médian	29.1 (quotidiennement OK)	pas de médiane stable ; ~ 3,4 après échange
Tok/s médian de 24 Go	51.1	15.1
TTFT de démarrage à froid (typique)	~1,9 s	~2,7 s
Mémoire unifiée recommandée	16 GB	24 Go
Codage / Agent	brouillons légers, révisables	modifications inter-fichiers, recommandées
Chat / résumé	recommandé	en option (gain de qualité limité)
Résident de longue durée de 16 Go	✅	❌ risque swap / MOO

16 Go : restez sur 7B pour une utilisation quotidienne fluide ; 24 Go avant 14B stable. Faites correspondre votre scénario dans §8.4.

5. Qualité : quand 7B suffisent ou quand vous avez besoin de 14B

Nous avons exécuté 20 tâches corrigées (10 chinois + 10 anglais) réparties en quatre types : résumé, traduction, correction de bugs sur un seul fichier, petite fonctionnalité à 3 fichiers. Chaque tâche est générée une fois sur 7B et 14B ; trois ingénieurs ont évalué à l’aveugle « adopter tel quel / modifications mineures / réécriture ».

5.1 Résumé de l'examen en aveugle (taux d'adoption tel quel)

Type de tâche	7B	14B	Espace ressenti
Résumé des e-mails/notes de réunion	85%	90%	14B légèrement plus stable ; 7B déjà bien
Zh→En traduction technique	80%	88%	14B manque moins de termes
Bogue Python/TS sur fichier unique	55%	78%	7B souvent « bonne direction, mauvais détail »
Petite fonctionnalité à 3 fichiers (y compris renommer)	30%	65%	écart le plus important ; 7B manque des sites d'appel

5.2 Modes de défaillance typiques du 7B

API hallucinées : invente des accessoires / chemins REST qui semblent plausibles.
Modifications manquées : corrige la définition, oublie de grep les appelants – la plupart des échecs entre fichiers.
Trop concis pour le code : excellent pour les résumés ; le codage des réponses ignore la gestion des erreurs : vous ajoutez un laissez-passer humain.

5.3 Quand 14B vaut la « taxe mémoire » (24 Go supposés)

Locale Claude Code / Agent Curseur > 2 h/jour sur les dépôts moyens : taux d'adoption multi-fichiers ~ 30 % (7B) contre ~ 65 % (14B).
Long invites du système (guides de style, règles d'architecture) doivent rester respectés.
Raisonnement chinois complexe, règles produits multi-branches, listes de contrôle de conformité.
Vous acceptez ~15 tok/s et un temps de mur plus long—qualité pour la latence, pas une mauvaise configuration.

5.4 Quand 7B suffit

Notes personnelles, questions et réponses, résumés RSS, scripts shell simples.
Accélérateur de projet examiné par des humains : ne fusionne pas directement avec le projet principal.
16 Go avec IDE + navigateur ouvert : 14 Go meurent souvent en mémoire avant « IQ ».

6. Mémoire : bassin versant de 16 Go contre 24 Go

Empreinte ≈ poids quantifiés + KV (∝ num_ctx) + macOS + applications de premier plan. Écart de poids 7B/14B Q4 ~ 4,5 Go, mais les frais généraux KV et OS remplissent rapidement 16 Go.

Configuration	7B	14B	Conseil
16 Go propres	✅ médiane 29,1 tok/s	⚠️ exécute 1 à 2 ~ 11/8 tok/s, puis échange	par défaut 7B ; ne gardez pas 14B résident
16 Go par jour (IDE+navigateur)	✅ run4 peut atteindre 22,3 (rejeté)	❌ MOO / tué	coder sur 7B ou fermer les onglets
24 Go propres	✅ médiane 51,1 tok/s	✅ médiane 15,1 tok/s	Point idéal de l'agent : 14B
24 Go + num_ctx=8192	✅ ~47 tok/s (exécution séparée)	✅ ~13,8 jetons/s	contexte long OK

Contre-intuitif : 24 Go sur 7 Go (51,1 tok/s) est souvent plus rapide et plus stable que de forcer 14 Go sur 16 Go (~ 3,4 tok/s après échange) – choisissez Niveau de RAM d'abord, puis 7B contre 14B. 14B c'est bien ; 16 Go ne peuvent pas se permettre son empreinte.

6.1 num_ctx frappe 14B plus fort

Élevage num_ctx de 2048 à 32768 : 24 Go + 14 B tok/s 15,1 → ~12,4 (exécution unique) ; 16 Go + 14 Go peuvent rester pendant plus de 60 s sans premier jeton (échec de latence E4). Si votre agent utilise par défaut un contexte étendu, confirmez d'abord le niveau de RAM.

7. Choix d'agent, TTFT et Claude Code

Contre-intuitif : dans les boucles d'agent, TTFT passant de ~2s à ~6s fait souvent plus mal que tok/s tombant de 15→10—chaque tour d'outil paie à nouveau la taxe du premier jeton, et les courses à plusieurs tours expirent ou semblent gelées.

Boucle d'agent = plusieurs tours de plan → outil → relecture → générer. La douleur locale est souvent TTFT empilé par tour, pas les pics de tok/s : pourquoi « le benchmark avait l'air superbe, l'agent se sentait horrible ».

7.1 Pourquoi TTFT est la « vraie » métrique pour les agents

mesures tok/s génération régulière après le démarrage; TTFT est demande au premier jeton. Pour les mandataires :

Chaque tour d'outil attend que le modèle parle : vous avez l'impression TTFT × tours, pas la tranche de 256 jetons.
Les orchestrateurs souvent temps mort (dizaines de secondes). Sous swap, TTFT ~2s → 5,8 s+ casse les boucles à plusieurs tours.
Des tok/s élevés n’aident qu’après le démarrage du streaming ; 6 secondes avant que le premier jeton ne semble cassé.

Scénario	7B TTFT	14B TFT	Pour les mandataires
Résident modèle, propre	0,48 à 0,55 s	0,62 à 0,71 s	D'ACCORD
Après démarrage à froid	1,78 à 2,14 s	2,64 à 2,91 s	première tâche de la journée plus lente
Échange de 16 Go + 14 Go	—	5,81 s+	boucle multi-tours inutilisable

Comment la mémoire unifiée et le swap gonflent le TTFT : Mémoire et amp; Inférence LLM.

7.2 Combos recommandés (résumé – tableau complet §8.4)

BÉLIER	Balise de modèle	Ajuster
16 GB	`codeur qwen2.5 : 7b`	Agent personnel, corrections de bugs légers
24 Go	`codeur qwen2.5 : 14b`	Agent de codage quotidien, petite équipe Ollama
16 Go à éviter en tant que résident	`qwen2.5:14b`	échange → pic TTFT, délais d'attente de la chaîne d'outils

Claude Code env vars pointing to local Ollama 11434, model qwen2.5-coder:14b — Figure 4 · Code Claude → `hôte local : 11434` + `codeur qwen2.5 : 14b` (identique à Article du laboratoire d'agents)

Pas de Mac local ? Évaluer Claude Code + Ollama sans bureau Mac Mini ? Exécutez le benchmark de cet article sur un Nœud Mac Mini M4 dédié Macstripe—ollama tire, chemins de script et commandes §8 correspondre exactement; SSH en quelques minutes. Idéal pour une repro d'équipe d'une semaine avant d'acheter du matériel.

7.3 Mixage avec les API cloud

Division commune : 7B pour la récupération/les brouillons, 14B ou cloud pour la révision avant la fusion. Si vous utilisez déjà Claude Code, le 14B local achète hors ligne, reproductible, sans facture symbolique - configuré dans Claude Code + Laboratoire d'agents locaux Ollama.

7.4 Ollama ou MLX ?

Cette série teste Ollama uniquement (HTTP, gestion des modèles, câblage Claude Code). MLX est environ 3 à 8 % plus rapide sur les mêmes invites, mais les agents sont toujours expédiés en premier sur Ollama – voir Benchmarks MLX et Ollama.

8. Reproduire des commandes et des listes de décisions

8.1 Modèles à tirer et test de fumée

ollama pull qwen2.5:7b
ollama pull qwen2.5:14b
ollama run qwen2.5:7b "用三句话说明 7B 和 14B 在 Mac Mini 上的主要差别"
ollama run qwen2.5:14b "同上"

Les journaux devraient afficher ggml_metal_init; Chargement complet du processeur uniquement → mise à niveau d'Ollama (Hub E3 : 0.5.13 sans Metal ~4 tok/s). Après les courses, vérifiez la ligne ressources de reproduction.

8.2 Autocontrôle par scénario (utiliser ensuite les tableaux ci-dessous)

Agent éditant quotidiennement le même dépôt de support ?
16 Go avec Xcode + Chrome toujours ouvert ?
OK avec 14B écrivant 500 jetons en ~ 33 secondes sur 24 Go ?
Besoin num_ctx > 8192?
Inférence partagée Mac pour une équipe ?

8.3 Repro des actifs (télécharger pour vérifier)

Fichiers statiques dans cet article ressources/ dossier-pas de liens externes—ouvrez ou enregistrez dans le navigateur pour vérifier chaque exécution derrière le §3.

Journal de référence apparié 7B/14B — tok/s, TTFT, Swapins par run (source pour les tableaux §3)
Extrait de session terminale — ollama ps, vm_stat, mémoire_pression
Journal de débogage Ollama 16 Go 14 Go - session d'échange / MOO
Script de reproduction de référence — même logique que laboratoire complet

8.4 Tableaux de décision (réponse complète ici)

Après les données ci-dessus, choisissez par RAM et scénario. Pour auditer chaque exécution §3, ouvrez le journal de référence apparié.

Par mémoire unifiée (choisissez Go, puis modèle)

Votre RAM	Modèle recommandé	Remarque 14B
16 GB	`qwen2.5:7b` (médiane ~29 tok/s)	14B se charge mais échange → ~3 tok/s—pas pour la résidence
24 Go	chat : 7B (~51 tok/s) ; Agent de codage : `codeur qwen2.5 : 14b`	Médiane 14B ~ 15 tok/s, pas d'échange

Par scénario

Chat / résumé / scripts légers (16 Go) : → qwen2.5:7b
Codage inter-fichiers / Agent local (24 Go recommandés) : → codeur qwen2.5 : 14b (qualité pour la latence—voir §7)
Examen humain le plus rapide OK : → 7B ou Gemma3:4b

Par personnage

Tu es…	Prendre	Éviter
Individuel 16 Go, chat + scripts lumineux	qwen2.5:7b	Résident 14B
Individuel 24 Go, agent de codage local	codeur qwen2.5 : 14b	14B pour la vitesse sur les refactors inter-fichiers
Nœud d'inférence partagé par l'équipe	24 Go + 7 Go ou 32 Go + 14 Go	16 Go + 14 Go simultanés
Réponse la plus rapide uniquement	7B (ou gemma3:4b)	14 B de résident sur 16 Go

Conclusion exploitable : 16 Go → 7 Go ; considérez 14B uniquement à 24 Go, sinon le swap réduit l'UX d'un ordre de grandeur.

FAQ

Mac Mini M4 : 7B ou 14B ?

Vérifiez d'abord le risque de swap, puis le niveau de modèle. Sélections complètes (16 Go → 7 Go, 24 Go → 14 Go) dans §8.4. Le constatation clé explique pourquoi.

16 Go peuvent-ils exécuter 14 Go ?

Il charge ; pas pour la résidence quotidienne. Voir §1.1 trois états, §3.2, et §8.4.

Dans quelle mesure le 7B est-il plus rapide que le 14B ?

16 Go 7B médiane 29,1 ; 24 Go 14B médiane 15,1. Forcé 14 Go sur 16 Go après échange ~ 3,4 tok/s. Détails dans §3.

7B ou 14B pour discuter au quotidien ?

La plupart des discussions : 7B. Codage inter-fichiers : §5 et §8.4.

Claude Code modèle local ?

16 Go → codeur qwen2.5 : 7b; 24 Go → codeur qwen2.5 : 14b. Agents : priorisez TTFT—§7.1.

Mettre à niveau 16 Go → 24 Go pour 14 Go ?

Cela vaut la peine si vous comptez sur un agent local et que 7B « comprend souvent mais modifie mal » ; le chat pur n'est souvent pas le cas. Voir §8.4.

Qwen2.5-Coder vs général 7B/14B ?

Examen aveugle du codage ~ 8 à 12 points plus élevé ; en général, les 7B/14B semblent plus naturels dans le chat.

Résumé

16 Go → 7 Go ; 24 Go avant 14B stable. La question de savoir si 14B fonctionne est principalement liée à la RAM et au swap, et non à « un niveau plus intelligent ». Reproduire via §8.3 journaux et scripts et §2.4 bloc environnement.

Plus dans cette série :

Tests sur Mac Mini M4 physique (Macstripe Lab et unités de bureau), macOS 15.4.1, Ollama 0.6.2. Téléchargements dans §8.3. Pas de matériel local ? Reproduire sur Nœuds Macstripe M4.