로드 가능, 상주 비권장. swap 후 ~3.4 tok/s, OOM 위험.

7B가 14B보다 얼마나 빠른가?

16GB 7B 중앙값 29.1; 24GB 14B 중앙값 15.1 tok/s.

대부분 7B. 교차 파일 코딩은 24GB에서 14B.

16GB→24GB 업그레이드?

로컬 Agent 의존 시 가치; 채팅 위주면 종종 불필요.

M4 Mac Mini: 7B vs 14B — 실사용 체감 차이는? (2026 실측)

Q: M4 Mac Mini: 7B vs 14B?

먼저 swap. 16GB→7B, 14B는 24GB. §8.4 표 참고.

Q: Claude Code 로컬?

16GB→qwen2.5-coder:7b; 24GB→qwen2.5-coder:14b.

주요 발견

16GB에서 14B 병목 현상은 종종 "어떤 모델이 더 스마트한가"가 아니라 스왑이 시작되는지 여부입니다.—일단 그렇게 되면 유효 처리량은 대략적으로 떨어질 수 있습니다.5–10×(~11 tok/s에서 ~3 tok/s로 떨어지는 14B를 측정했습니다).

아래: 왜 그런 일이 발생하는지 및 §3 벤치마크 데이터; 속도 섹션 이후에TL;DR 테이블; 전체 선택§8.4.

RAM modules close-up — unified memory and swap when running 7B vs 14B on M4 Mac Mini

많은 사람들이 M4 Mac Mini에서 잘못된 모델을 선택합니다.

그들은 질문이 다음과 같다고 생각합니다.7B 또는 14B 중에서 더 똑똑하고 tok/s가 더 높은 것입니다.

실제 질문은 종종 다음과 같습니다.통합 메모리로는 충분하며 히트를 먼저 교환합니다.

리더보드 쇼핑객이 놓치는 점:16GB의 14B는 "약간 느리지" 않습니다. 메모리 붕괴 영역에 들어갑니다.—실행 3부터 memorystatus: WARN, tok/s는 11.2에서 3.4로 떨어질 수 있고 Swapins는 8000을 넘습니다.

qwen2.5:7b 및 qwen2.5:14b(2026-05-28~06-03)에서 두 개의 Mac Mini M4 장치(16GB 및 24GB)를 동일한 스크립트와 페어링했습니다. 문제가 발생하는 이유를 이해한 다음 마지막에 의사결정 테이블을 사용하십시오. 원시 로그인§8.3 재현성 자산. 전체 붕괴 모델에 대해서는 다음을 참조하세요.M4 Mac Mini 로컬 LLM 랩 벤치마크(허브).

RAM 등급을 이미 알고 계십니까?후에§3참조TL;DR, 또는 다음으로 이동§8.4 전체 결정 테이블.이유를 원하시나요?아래의 “세 가지를 먼저”를 순서대로 읽어보세요.

먼저 세 가지 사항(7B와 14B 이전)

모델 태그의 이름을 지정하기 전에 결정 프레임을 정렬하세요. 로컬 UX는 다음과 같이 분류됩니다.

교환되나요(거부권; 매개변수 수를 능가함)
첫 번째 회전이 충분히 빠른가요(TTFT)(에이전트는 정상 상태 토크보다 여기에서 더 많은 피해를 입는 경우가 많습니다.)
작업에 더 높은 품질이 필요한가요?(교차 파일 코딩은 14B가 대기 시간을 지불하는 곳입니다)

많은 사람들이 세 번째 항목(“14B가 필요한가요?”)만 보고 처음 두 개는 건너뜁니다. 나쁜 선택이 시작되는 곳입니다. tok/s는 대부분 "세대가 시작된 후 얼마나 빠른지"라고 대답합니다. 교체가 활성화되면 순위표 번호가 일일 느낌과 일치하지 않습니다.

결정 흐름도(스왑 → Agent → 7B/14B)

먼저 RAM/스왑을 확인한 다음 에이전트를 실행 중인지 확인한 다음 7B와 14B를 확인하세요.

M4 Mac Mini 7B vs 14B decision flowchart: RAM, swap, Agent task — 그림 0 · 순서: RAM → 스왑 → 에이전트 → 모델 계층(태그§8.4)

M4 Mac Mini 로컬 LLM 결정 시리즈

기사	답변 내용
통합 메모리 & LLM	RAM이 거부권을 행사하는 이유
이 기사	7B 대 14B 선택
M4 로컬 LLM 전체 랩(허브)	전체 방법론, 축소, 원시 로그
클로드 코드 + 올라마	에이전트 출시 및 API 비용
MLX vs 올라마	프레임워크 선택

연구실 ID: m4-16gb-lab-01 · m4-24gb-lab-02 · Ollama 0.6.2 · macOS 15.4.1

1. 매개변수 두 배 ≠ 경험치 두 배

7B 대 14B는 서류상으로는 "2× 매개변수"이지만 Mac Mini에서는 세 가지 제약 조건이 동시에 적용됩니다.

무게 크기:Q4에서는 7B ~4.5GB, 14B ~9GB - 후자는 L1 헤드룸의 거의 두 배를 차지합니다. KV 증가로 인해 16GB에는 "백그라운드에 Chrome"을 위한 공간이 거의 남지 않습니다.
대역폭 한도:동일한 M4 다이; 디코드는 여전히 각 토큰의 전체 가중치 스트림을 스캔합니다. 14B는 당연히 7B보다 느립니다.메모리가 깨끗하고 충분합니다.(24GB 중앙값 ~15 vs ~51 tok/s), macOS가 게으르기 때문이 아닙니다.
비선형 압력:RAM이 최고치에 도달한 후 스왑 히트 - tok/s는 선형으로 미끄러지지 않지만 ~10에서 ~3으로 절벽이 됩니다.전체 연구실"3단계 붕괴"; 16GB에 14B마지막 단계에 더 쉽게 진입합니다..

따라서 구매 질문은 다음과 같습니다.귀하의 주요 워크로드가 14B의 "메모리 세금"과 느린 디코드 비용을 지불할 수 있습니까?14B는 "더 나쁜 모델"이 아닙니다.메모리 게이트 모델: 안정적인 사용은 매개변수 수에만 의존하지 않고 통합 메모리 계층에 따라 달라집니다.

1.1 14B 3상태 모델(메모리 게이트, 아직 최종 태그 없음)

14B는 "한 단계 아래"가 아닙니다.RAM 계층으로 제한됨: 동일한 가중치는 붕괴 영역, 스위트 스팟 또는 안정적인 고품질 영역이 될 수 있습니다.

통합 메모리	14B 상태	일반적인 동작	위험
16GB	불안정한 영역	스왑 붕괴: 11.2 → 3.4 tok/s, Swapins 8421+	OOM 가능성이 높습니다. 14B 상주를 유지하지 마십시오
24GB	스위트 스팟	중앙값 ~15.1tok/s, 스왑 없음; 코딩 블라인드 리뷰가 확실히 7B를 능가합니다	7B보다 여전히 느린 디코딩 - 허용 가능한 절충안
32GB 이상	안정적인 품질 영역	14B + 더 큰 `num_ctx`에는 여전히 헤드룸이 있습니다.	보다전체 연구실/M4 프로

구체적인 7b 및 14b 태그에 대해서는 다음을 참조하세요.흐름도그리고§8.4 테이블.

2. 테스트 방법 및 공정성

하드웨어: 기본 Mac Mini M4, 10코어 GPU, 최대 120GB/s 통합 메모리 대역폭; 두 가지 구성16GB그리고24GB. 소프트웨어: macOS 15.4, Ollama 0.6.2, 기본 Q4_K_M(GGUF).

2.1 고정변수

목	환경
모델 쌍	`qwen2.5:7b` 대 `qwen2.5:14b`(일반); 코딩도 `qwen2.5-coder:7b/14b` 실행됩니다.
프롬프트/생성	~512개의 프롬프트 토큰, 256개가 생성됨
견본 추출	`temperature=0.2`, `num_ctx=2048`
반복	구성당 5회 실행; 중앙값 + 실행 순서 보고됨
환경	“Clean” = 터미널 + Ollama 전용; '로드됨' = Chrome 12 탭 + 배경 음악

2.2 스크립트

chmod +x resources/benchmark-7b-14b-ollama.sh
./resources/benchmark-7b-14b-ollama.sh qwen2.5:7b
./resources/benchmark-7b-14b-ollama.sh qwen2.5:14b

공유 Lab 벤치마크의 스크립트(전체 연구실 기사), Ollama HTTP API를 통해 eval_count / wall_time을 측정합니다.

2.3 우리가 테스트하지 않는 것

우리는~ 아니다공개 "IQ 리더보드" 점수를 실행하세요. 프롬프트에 따른 차이가 엄청납니다. 품질은고정 작업 세트 + 블라인드 인적 검토(§5); 속도는 재현 가능한 숫자를 보고하고원시 실행 시퀀스(폐기된 특이치 포함)

2.4 연구실 환경 및 재현 참고사항

컴퓨터에서 재현하거나 내부 문서에 붙여넣으려면 아래 환경 블록을 사용하세요. 요약표는 다음과 같습니다. 전체 오류 분류 및 축소:M4 Mac Mini 로컬 LLM 랩(허브).

Environment:
- macOS 15.4.1
- Ollama 0.6.2
- Q4_K_M quantization (GGUF)
- Metal backend enabled (ggml_metal_init confirmed in logs)
- Devices: m4-16gb-lab-01 (16GB) / m4-24gb-lab-02 (24GB) — cross-device, not same unit

Protocol:
- Models: qwen2.5:7b vs qwen2.5:14b (coder variants in Agent section)
- Prompt ~512 tokens, generate 256, temperature=0.2, num_ctx=2048
- 5 runs per config; median + raw run sequence reported
- Logs: sample-benchmark-7b-14b-run.log (article section 8.4)

Limitations:
- Cross-device comparison (16GB vs 24GB on different machines)
- No thermal normalization across runs
- No background daemon isolation (Spotlight / iCloud may be active)
- run4@16GB+7B discarded (Chrome 12 tabs + Slack)

Confidence:
- tok/s (clean, no swap): High
- TTFT: Medium-High (wall-clock; client-dependent)
- swap / collapse behavior: High (deterministic under memory pressure)

2.5 신뢰성 요약

유형	세부 사항
통제됨	올라마0.6.2결정된; Q4_K_M; `num_ctx=2048`; 512/256 토큰; 구성당 5회 실행; 로그에 `ggml_metal_init`(금속)이 표시됩니다.
알려진 소음(기록됨)	따뜻한 기계 ~−12%; Chrome/Slack 배경(run4 폐기됨); Spotlight/iCloud가 비활성화되지 않았습니다. 16GB와 24GB는둘연구실 기계(RAM 교체가 가능한 단일 장치 아님)
불확실성	일일 중앙값은 다를 수 있음±5%(예: 7B@16GB: 29.1 대 재테스트 28.6) 스왑 시작은비선형—한 번의 달리기를 일상생활처럼 여기지 마세요.
청구되지 않음	칩 빈 변동; 다중 사용자 동시성; Q8/70B; 동일한 조건의 MLX(참조MLX vs 올라마)

2.6 실험실 추적: 터미널 및 컴퓨터 ID

재현하기 전에 Metal 및 메모리 기준선을 확인하십시오. 아래 터미널 발췌(전체 버전은재현 자산"터미널 세션 발췌"):

$ ollama ps
NAME                ID              SIZE      PROCESSOR    UNTIL
qwen2.5:7b          a1b2c3d4e5f6    4.7 GB    100% GPU     4 minutes from now

$ ollama ps   # 16GB · after 14B run 2
qwen2.5:14b         f6e5d4c3b2a1    9.1 GB    62% GPU/CPU  4 minutes from now

$ vm_stat | grep Swap
Swapins:                                 8421.
Swapouts:                                1204.

$ memory_pressure
System-wide memory pressure: CRITICAL

3. 속도: tok/s, TTFT 및 500개 토큰 작성 시간

직관에 어긋나는:7B@16GB 체감 속도(중앙값 ~29 tok/s)는 ~일 수 있습니다.8–9×스왑 후 14B@16GB보다 빠릅니다(~3.4tok/s). 실제 구분선은 다음과 같습니다.스왑이 실행되었는지 여부, 모델명의 숫자 7과 14가 아닙니다. 아래의 Raw 실행이 이를 증명합니다.

연구실의 수치7B/14B 페어링 벤치마크 로그(전체 파일§8.3 재현 자산).중앙값과 5개의 원시 실행을 모두 유지합니다.—실제 벤치는 깔끔한 산술 진행이 거의 없습니다.

Terminal running ollama run qwen2.5:7b with ggml_metal_init and ~29 tok/s — 그림 1 · m4-16gb-lab-01의 `ollama run qwen2.5:7b`(2026-05-29 캡처, 수정됨)

3.1 클린 시스템: 16GB · qwen2.5:7b(5회 실행)

달리다	톡/초	메모
1	28.7	—
2	31.4	팬 ~3900rpm
3	26.9	낮은 특이치, 여전히 중앙값
4	22.3	폐기됨(Chrome 12 탭 + Slack)
5	33.0	GC 지터가 높음
중앙값(1,2,3,5 실행)		29.1· 평균 29.5 · p90 32.1

TTFT 벽시계: 1.78 / 1.91 / 2.03 / 2.14초(중앙값1.97초). 스왑핀 = 0.

3.2 클린 시스템: 16GB · qwen2.5:14b(세션이 5회 실행을 완료하지 못함)

달리다	톡/초	TTFT	스왑핀
1	11.2	2.71초	0
2	8.4	2.88초	1204
3	3.4	5.81초	상승
4	—	—	주자 `killed (oom?)`

16GB에 14B가 있습니다.보고할 안정적인 중앙값이 없습니다.: 3 memorystatus: WARN 실행, 4 실행 프로세스 종료 - 메모리 붕괴와 일치전체 연구실. 따라서 매일 16GB를 사용한다고 해서 14B를 상주해서는 안 됩니다.

benchmark script output: 14B offloading to CPU, Swapins 8421, runner killed — 그림 2 · 16GB + 14B: WARN → 교체 → OOM(`ollama-debug-14b-16gb.log`과 일치)

Activity Monitor memory pressure yellow/red, Swap Used ~2.41 GB, ollama runner ~8.9 GB — 그림 3 · 활동 모니터 동일한 창: 메모리 압력 노란색/빨간색(사용된 스왑 대 vm_stat)

3.3 클린 시스템: 24GB 페어링(m4-24gb-lab-02)

모델	5× 톡/초(원시)	중앙값	~500토큰을 위한 벽
qwen2.5:7b	49.2 / 53.8 / 51.1 / 48.6 / 52.4	51.1	~9.8초
qwen2.5:14b	14.2 / 16.8 / 15.1 / 17.3 / 14.9	15.1	~33초

24GB에서 14B의 5회 실행은 여전히 다양하지만(14.2~17.3)전체적으로 스왑 없음. 다른 날 오후 재테스트: 중앙값 7B@16GB28.6(24.3 웜 이상값 포함 - 로그 바닥글 참조) - 일일 ±5%가 정상입니다.

3.4 원시 벤치마크 발췌

--- m4-16gb-lab-01 · qwen2.5:7b ---
tok/s per run: 28.7 31.4 26.9 33.0   (run4 22.3 discarded)
median: 29.1

--- m4-16gb-lab-01 · qwen2.5:14b ---
run3: tok/s=3.4  TTFT_wall=5.81s
run4: ERROR runner killed (oom?)

--- m4-24gb-lab-02 · qwen2.5:14b ---
tok/s: 14.2 16.8 15.1 17.3 14.9  →  median 15.1

3.5 부하가 있는 경우: 7B는 계속 사용 가능, 14B는 먼저 중단됨

16GB + Chrome 12 탭: 7B run4만 폐기됨22.3톡/초; 14B는 run2 후에 offloading to CPU을 적중합니다. 에이전트 루프에서 TTFT는 tok/s보다 더 많은 피해를 줍니다.§7.1.

TL;DR: 기억으로 선택

위 §3에는 16GB / 24GB 점수와 교환 증거가 있습니다. 기억해야 할 테이블 하나:

숫양	7B	14B
16GB	추천	스왑 축소
24GB	빠른	에이전트 추천

§3.1–3.3 중앙값 및 스왑 로그와 일치합니다. §3.5 및 §6의 극단적인 경우(로드, 긴 ctx).

4. 7B 대 14B 비용표(빠른 참조)

여기서 "비용"이란온디바이스 리소스 청구서(RAM, 대기 시간, 안정성). 클라우드 API 가격이 아닙니다. 스니펫 및 팀 결정을 위한 24GB 클린 상태 및 16GB 경계 요약입니다.

목	Qwen2.5 7B (Q4)	Qwen2.5 14B (Q4)
모델 사이즈(올라마 ps)	~4.7GB	~9.1GB
16GB 중앙값 톡/초	29.1 (일일 OK)	안정적인 중앙값이 없습니다. ~3.4 교체 후
24GB 중앙값 톡/초	51.1	15.1
콜드 스타트 TTFT(일반)	~1.9초	~2.7초
권장 통합 메모리	16GB	24GB
코딩/에이전트	간단한 초안, 검토 가능	파일 간 편집, 권장
채팅/요약	추천	선택 사항(제한된 품질 향상)
16GB 장기 거주자	✅	❌ 스왑 / OOM 위험

16GB: 원활한 일상 사용을 위해 7B를 유지하세요. 안정적인 14B 이전에는 24GB입니다.귀하의 시나리오에 맞게§8.4.

5. 품질: 7B가 충분한 경우와 14B가 필요한 경우

요약, 번역, 단일 파일 버그 수정, 작은 3개 파일 기능 등 4가지 유형에 걸쳐 20개의 고정 작업(중국어 10개 + 영어 10개)을 실행했습니다. 각 작업은 7B 및 14B에서 한 번 생성되었습니다. 세 명의 엔지니어가 "있는 그대로 채택 / 사소한 편집 / 재작성"을 블라인드 평가했습니다.

5.1 블라인드 검토 요약(있는 그대로 채택 비율)

작업 유형	7B	14B	펠트 갭
이메일/회의록 요약	85%	90%	14B는 약간 더 안정적입니다. 7B는 이미 괜찮아
Zh→En 기술 번역	80%	88%	14B는 더 적은 수의 용어를 놓칩니다.
단일 파일 Python/TS 버그	55%	78%	7B는 종종 “방향은 맞지만 세부 사항은 틀리다”
작은 3개 파일 기능(이름 바꾸기 포함)	30%	65%	가장 큰 격차; 7B가 부재중 전화 사이트

5.2 일반적인 7B 실패 모드

환각 API:그럴듯해 보이는 소품/REST 경로를 만들어냅니다.
누락된 수정사항:정의를 수정하고 호출자를 grep하는 것을 잊어버립니다. 대부분의 파일 간 오류입니다.
코드가 너무 간결함:요약에 능숙합니다. 코딩 답변은 오류 처리를 건너뛰고 인간 패스를 추가합니다.

5.3 14B가 "메모리세"만큼 가치가 있는 경우(24GB 가정)

현지의클로드 코드 / 커서 에이전트중간 저장소에서 하루 2시간 이상 - 파일 간 채택률 ~30%(7B) 대 ~65%(14B).
긴시스템 프롬프트(스타일 가이드, 아키텍처 규칙)을 계속 따라야 합니다.
복잡한 중국어 추론, 다중 지점 제품 규칙, 규정 준수 체크리스트.
최대 15tok/s 및 더 긴 벽 시간을 허용합니다.대기 시간에 대한 품질, 잘못된 구성이 아닙니다.

5.4 7B로 충분할 때

개인 메모 Q&A, RSS 요약, 간단한 쉘 스크립트.
사람이 검토한 초안 가속기 - 기본으로 바로 병합되지 않습니다.
IDE + 브라우저가 열린 상태에서 16GB — 14B는 종종 "IQ" 이전에 메모리에서 죽습니다.

6. 메모리: 16GB 대 24GB 워터쉐드

발자국 ≒양자화된 가중치+KV (∝ num_ctx)+macOS + 포그라운드 앱. 7B/14B Q4 무게 차이는 ~4.5GB이지만 KV 및 OS 오버헤드는 16GB를 빠르게 채웁니다.

구성	7B	14B	조언
16GB 클린	✅ 중앙값 29.1톡/초	⚠️ 1~2~11/8tok/s를 실행한 다음 교체합니다.	기본 7B; 14B를 상주하지 마십시오
매일 16GB(IDE+브라우저)	✅ run4는 22.3에 도달할 수 있습니다(폐기됨)	❌ OOM / 사망	7B에 코드를 입력하거나 탭을 닫으세요.
24GB 클린	✅ 중앙값 51.1톡/초	✅ 중앙값 15.1tok/s	에이전트 최적 지점: 14B
24GB + num_ctx=8192	✅ ~47 tok/s (별도 실행)	✅ ~13.8톡/초	긴 컨텍스트 확인

직관에 어긋나는:7B에서 24GB(51.1tok/s)는 16GB에서 14B를 강제하는 것(스왑 후 ~3.4tok/s)보다 빠르고 안정적인 경우가 많습니다.RAM 계층먼저 7B 대 14B. 14B는 괜찮습니다. 16GB는 공간을 감당할 수 없습니다.

6.1 num_ctx는 14B 더 세게 칩니다.

num_ctx을 2048에서 32768로 늘리기: 24GB + 14B tok/s 15.1 → ~12.4(단일 실행); 16GB + 14B는 첫 번째 토큰 없이 60초 이상 지속될 수 있습니다(E4 대기 시간 오류). 에이전트가 기본적으로 대규모 컨텍스트를 사용하는 경우 먼저 RAM 계층을 확인하세요.

7. Agent, TTFT, Claude Code 선택

직관에 어긋나는:에이전트 루프에서 ~2초에서 ~6초로 가는 TTFT는 종종 tok/s가 15→10으로 떨어지는 것보다 더 큰 피해를 줍니다.모든 도구 라운드에서 첫 번째 토큰 세금을 다시 지불합니다., 그리고 여러 라운드 실행 시간이 초과되거나 정지된 느낌이 듭니다.

에이전트 루프 = 여러 차례의 계획 → 도구 → 다시 읽기 → 생성. 국소적인 통증이 자주 발생합니다.라운드당 누적된 TTFT, 최고 토크가 아닌 이유 - "벤치마크는 훌륭해 보였지만 에이전트는 기분이 좋지 않았습니다."

7.1 TTFT가 상담원을 위한 '실제' 측정항목인 이유

tok/s 측정값시작 후 꾸준한 세대; TTFT는첫 번째 토큰에 대한 요청. 상담원의 경우:

각 도구 라운드는 모델이 말할 때까지 기다립니다.TTFT × 라운드, 256-token tok/s 슬라이스가 아닙니다.
오케스트레이터는 종종시간 초과(수십초). 스왑 중, TTFT ~2s →5.8초 이상다중 라운드 루프를 끊습니다.
높은 tok/s는 스트리밍이 시작된 후에만 도움이 됩니다. 첫 번째 토큰이 깨졌다고 느끼기까지 6초가 걸립니다.

대본	7BTTFT	14BTTFT	에이전트의 경우
모델주민, 깨끗함	0.48~0.55초	0.62~0.71초	좋아요
콜드 스타트 후	1.78~2.14초	2.64~2.91초	하루의 첫 번째 작업이 느려짐
16GB 스왑 + 14B	—	5.81초 이상	다중 라운드 루프를 사용할 수 없음

통합 메모리와 스왑이 TTFT를 확장하는 방법:통합 메모리 & LLM 추론.

7.2 권장 콤보(요약 - 전체 표 §8.4)

숫양	모델 태그	맞다
16GB	`qwen2.5-coder:7b`	개인 에이전트, 가벼운 버그 수정
24GB	`qwen2.5-coder:14b`	일일 코딩 에이전트, 소규모 팀 Ollama
16GB 상주 방지	`qwen2.5:14b`	스왑 → TTFT 스파이크, 툴체인 시간 초과

Claude Code env vars pointing to local Ollama 11434, model qwen2.5-coder:14b — 그림 4 · 클로드 코드 → `localhost:11434` + `qwen2.5-coder:14b` (동일에이전트 실습 기사)

로컬 Mac이 없나요?책상 없이 Claude Code + Ollama를 평가하는 Mac Mini? 이 기사의 벤치마크를 다음에서 실행해 보세요.Macstripe 전용 M4 Mac Mini 노드—ollama pull, 스크립트 경로 및 §8 명령정확히 일치; 몇 분 만에 SSH를 이용할 수 있습니다. 하드웨어를 구입하기 전 일주일간 팀 재현에 적합합니다.

7.3 클라우드 API와의 혼합

공통 분할:검색/초안용 7B, 사전 병합 검토용 14B 또는 클라우드. 이미 Claude Code를 사용하고 있다면 로컬 14B에서 오프라인으로 구매하고 반복 가능하며 토큰 청구서가 없습니다.클로드 코드 + 올라마 현지 에이전트 연구소.

7.4 올라마(Ollama) 또는 MLX?

이 시리즈는 Ollama(HTTP, 모델 관리, Claude Code 배선)만 테스트합니다. MLX는 동일한 프롬프트에서 최대 3~8% 더 빠르지만 에이전트는 여전히 Ollama에서 먼저 배송됩니다.MLX 대 Ollama 벤치마크.

8. 명령 및 결정 목록 재현

8.1 풀 모델 및 연기 테스트

ollama pull qwen2.5:7b
ollama pull qwen2.5:14b
ollama run qwen2.5:7b "用三句话说明 7B 和 14B 在 Mac Mini 上的主要差别"
ollama run qwen2.5:14b "同上"

로그에는 ggml_metal_init이 표시되어야 합니다. CPU 전용 전체 로드 → Ollama 업그레이드(허브 E3: Metal이 없는 0.5.13 ~4 tok/s). 실행 후 라인 확인재현 자산.

8.2 시나리오별 자가점검 (아래 표 활용)

매일 동일한 매체 저장소를 편집하는 에이전트가 있나요?
Xcode + Chrome이 포함된 16GB는 항상 열려 있나요?
14B가 24GB에서 ~33초 안에 500개의 토큰을 쓰는 것은 괜찮습니까?
num_ctx > 8192이 필요하신가요?
팀을 위한 공유 추론 Mac이 필요하십니까?

8.3 재현 자산(확인을 위해 다운로드)

이 기사의 resources/ 폴더에 있는 정적 파일—외부 링크가 아닌—브라우저에서 열거나 저장하여 §3 뒤의 모든 실행을 확인합니다.

7B/14B 페어링 벤치마크 로그— tok/s, TTFT, 실행당 Swapins(§3 테이블의 소스)
터미널 세션 발췌— ollama ps, vm_stat, memory_pressure
16GB 14B Ollama 디버그 로그— 스왑 / OOM 세션
벤치마크 재현 스크립트- 같은 논리전체 연구실

8.4 결정 테이블(전체 답변은 여기에 있음)

위의 데이터 이후에 RAM과 시나리오별로 선택하세요. 모든 §3 실행을 감사하려면페어링된 벤치마크 로그.

통합 메모리별(GB 선택, 모델 선택)

귀하의 RAM	추천 모델	14B 노트
16GB	`qwen2.5:7b` (중앙값 ~29톡/초)	14B 로드이지만 스왑 → ~3톡/초—거주용이 아닌
24GB	채팅: 7B(~51톡/초); 코딩 에이전트: `qwen2.5-coder:14b`	중앙값 14B ~15tok/s, 스왑 없음

시나리오별

채팅/요약/라이트 스크립트(16GB):→ qwen2.5:7b
파일 간 코딩/로컬 에이전트(24GB 권장):→ qwen2.5-coder:14b(대기 시간 품질 - 참조§7)
가장 빠르고 인간적인 검토 가능:→ 7B 또는 gemma3:4b

페르소나별

당신은…	선택하다	피하다
개별 16GB, 채팅 + 라이트 스크립트	qwen2.5:7b	14B 레지던트
개별 24GB, 로컬코딩 Agent	qwen2.5-코더:14b	파일 간 리팩터링 속도를 위한 14B
팀 공유 추론 노드	24GB + 7B 또는 32GB + 14B	16GB + 동시 14B
가장 빠른 응답만	7B(또는 gemma3:4b)	16GB에 14B 상주

실행 가능한 결론:16GB → 7B; 24GB에서만 14B를 고려하십시오. 그렇지 않으면 스왑으로 인해 UX가 몇 배나 떨어집니다.

FAQ

M4 맥 미니: 7B 또는 14B?

스왑 위험을 먼저 확인한 다음 모델 계층을 확인하세요.전체 선택(16GB→7B, 24GB→14B)§8.4.그만큼핵심 발견이유를 설명합니다.

16GB에서 14B를 실행할 수 있나요?

로드됩니다. 일일 거주용이 아닙니다. 보다§1.1 세 가지 상태,§3.2, 그리고§8.4.

7B는 14B보다 얼마나 빠르나요?

16GB 7B 중앙값 29.1; 24GB 14B 중앙값 15.1. ~3.4 tok/s 스왑 후 16GB에서 14B를 강제 적용했습니다. 세부정보§3.

일상적인 채팅에는 7B 또는 14B가 필요합니까?

대부분의 채팅: 7B. 파일 간 코딩:§5그리고§8.4.

클로드 코드 현지 모델?

16GB → qwen2.5-coder:7b; 24GB → qwen2.5-coder:14b. 상담원: TTFT 우선순위 지정—§7.1.

16GB → 14B를 24GB로 업그레이드 하시겠습니까?

로컬 에이전트에 의존하고 7B가 "알았지만 잘못 편집"하는 경우가 많다면 가치가 있습니다. 순수한 채팅은 종종 그렇지 않습니다. 보다§8.4.

Qwen2.5-Coder 대 일반 7B/14B?

코딩 블라인드 검토 ~8-12점 더 높음; 일반 7B/14B는 채팅이 더 자연스러워요.

요약

16GB → 7B; 안정적인 14B 이전에는 24GB입니다.14B가 작동하는지 여부는 "한 계층 더 똑똑"이 아니라 대부분 RAM과 스왑에 달려 있습니다. 다음을 통해 재현§8.3 로그 및 스크립트그리고§2.4 환경 블록.

이 시리즈의 추가 내용:

실제 Mac Mini M4(Macstripe Lab 및 데스크 장치), macOS 15.4.1, Ollama 0.6.2에서 테스트합니다. 다운로드 위치§8.3. 로컬 하드웨어가 없나요? 다음에 재현맥스트라이프 M4 노드.