Ollama или MLX для локальных LLM на Mac?

По умолчанию Ollama. MLX для офлайн-бенчей, CI, LoRA, своего inference, экстремальных экспериментов. Claude Code / Cursor → Ollama :11434.

Что выбрать по умолчанию на Mac?

Ollama. Одна команда запускает модель, HTTP и OpenAI-совместимый API из коробки.

Когда действительно нужен MLX?

Точные бенчи, CI, обучение/дообучение, свой inference, контроль квантизации и decoding.

Локальный LLM медленный — менять на MLX?

Сначала swap и размер модели. 14B на 16 ГБ с IDE и браузером редко лечится сменой фреймворка.

Локальные LLM на Mac: Ollama или MLX? Правило по умолчанию простое

Q: MLX быстрее — переходить?

~3%–12% в бенче; в агентах важнее память и стабильность. По умолчанию Ollama.

Первый вопрос часто про не тот уровень

Запуская локальные LLM на Mac, почти все спрашивают:

«Ollama или MLX — что лучше?»

После недель на M4 Mac Mini (16 / 24 / 32 ГБ) стало ясно:

Вопрос часто адресован не тому слою стека.

Реальность: большинству выбирать не нужно

По умолчанию — Ollama, пока вы точно не знаете, зачем нужен MLX.

Узкое место — unified memory, размер модели и нагрузка системы, а не название фреймворка.

Вердикт за 30 секунд

👉 По умолчанию: Ollama
👉 Исключение: MLX / llama.cpp

Около 80 % пользователей не попадают в зону исключений.

Сценарий	По умолчанию	Реальная тревога
Claude Code / Cursor с локальной моделью	Ollama	MLX быстрее?
Первый запуск LLM	Ollama	Нужно ли копать низкий уровень?
Общий инференс в команде	Ollama	Нужен ли сложный стек?
Обычный чат	Ollama / LM Studio	Что выглядит «профессиональнее»?
Бенчмарки	MLX	Можно ли в ежедневной разработке?
LoRA / дообучение	MLX	Может ли Ollama обучать?

Почему остаются на Ollama

① Сначала запустить

brew install ollama
ollama run qwen2.5:7b

② Под эпоху агентов

Стабильный HTTP на 127.0.0.1:11434. Claude Code + Ollama.

③ Узкое место не во фреймворке

16 ГБ + 14B + IDE + браузер → swap. MLX почти не меняет картину. модели на M4 Mac Mini, 7B vs 14B.

Когда MLX действительно важен

Бенчмарки, CI, LoRA, свой inference stack, paper-эксперименты. MLX vs llama.cpp, Ollama vs MLX. Разрыв 3%–12% в чистом бенче.

Заблуждение

Преимущество MLX — в слое измерений, не в ежедневном использовании.

Знакомая конфигурация

M4 Mac Mini 16 ГБ
Ollama + 14B
Много вкладок Chrome
VS Code + Claude Code

Не вина Ollama — лимит ресурсов. unified memory и инференс LLM.

Три слоя

Приложение: Claude Code / Cursor
Runtime: Ollama (HTTP)
Вычисления: MLX / llama.cpp

Большую часть времени вы в runtime-слое.

Практическое правило

Сначала Ollama. К MLX — когда можете назвать, чего не хватает.

Командный узел: частный AI-сервер на кластере Mac Mini M4.

Итог

По умолчанию Ollama = финиш для ~80 %
Исключение MLX = инженерия / исследования / бенчи

Одной фразой

Локальные LLM на Mac: по умолчанию Ollama; MLX — для редких задач с низкоуровневым контролем. Узкое место — память и размер модели.

Критерий

Нет явной причины — Ollama.

FAQ

Ollama или MLX?

По умолчанию Ollama. MLX для офлайн-бенчей, CI, LoRA, своего inference.

MLX быстрее — переходить?

~3%–12% в бенче; в агентах важнее память и стабильность.

Медленно — менять на MLX?

Сначала swap и размер модели. 14B на 16 ГБ редко лечится сменой фреймворка.

Оба на одном Mac?

Да — днём Ollama, ночью MLX-бенчи.