Локальные LLM на Mac: Ollama или MLX

Первый вопрос часто про не тот уровень

Запуская локальные LLM на Mac, почти все спрашивают:

«Ollama или MLX — что лучше?»

После недель на M4 Mac Mini (16 / 24 / 32 ГБ) стало ясно:

Вопрос часто адресован не тому слою стека.

Реальность: большинству выбирать не нужно

По умолчанию — Ollama, пока вы точно не знаете, зачем нужен MLX.

Узкое место — unified memory, размер модели и нагрузка системы, а не название фреймворка.

Вердикт за 30 секунд

  • 👉 По умолчанию: Ollama
  • 👉 Исключение: MLX / llama.cpp

Около 80 % пользователей не попадают в зону исключений.

СценарийПо умолчаниюРеальная тревога
Claude Code / Cursor с локальной модельюOllamaMLX быстрее?
Первый запуск LLMOllamaНужно ли копать низкий уровень?
Общий инференс в командеOllamaНужен ли сложный стек?
Обычный чатOllama / LM StudioЧто выглядит «профессиональнее»?
БенчмаркиMLXМожно ли в ежедневной разработке?
LoRA / дообучениеMLXМожет ли Ollama обучать?

Почему остаются на Ollama

① Сначала запустить

brew install ollama
ollama run qwen2.5:7b

② Под эпоху агентов

Стабильный HTTP на 127.0.0.1:11434. Claude Code + Ollama.

③ Узкое место не во фреймворке

16 ГБ + 14B + IDE + браузер → swap. MLX почти не меняет картину. модели на M4 Mac Mini, 7B vs 14B.

Когда MLX действительно важен

Бенчмарки, CI, LoRA, свой inference stack, paper-эксперименты. MLX vs llama.cpp, Ollama vs MLX. Разрыв 3%–12% в чистом бенче.

Заблуждение

Преимущество MLX — в слое измерений, не в ежедневном использовании.

Знакомая конфигурация

  • M4 Mac Mini 16 ГБ
  • Ollama + 14B
  • Много вкладок Chrome
  • VS Code + Claude Code

Не вина Ollama — лимит ресурсов. unified memory и инференс LLM.

Три слоя

  • Приложение: Claude Code / Cursor
  • Runtime: Ollama (HTTP)
  • Вычисления: MLX / llama.cpp

Большую часть времени вы в runtime-слое.

Практическое правило

Сначала Ollama. К MLX — когда можете назвать, чего не хватает.

Командный узел: частный AI-сервер на кластере Mac Mini M4.

Итог

  • По умолчанию Ollama = финиш для ~80 %
  • Исключение MLX = инженерия / исследования / бенчи

Одной фразой

Локальные LLM на Mac: по умолчанию Ollama; MLX — для редких задач с низкоуровневым контролем. Узкое место — память и размер модели.

Критерий

Нет явной причины — Ollama.

FAQ

Ollama или MLX?

По умолчанию Ollama. MLX для офлайн-бенчей, CI, LoRA, своего inference.

MLX быстрее — переходить?

~3%–12% в бенче; в агентах важнее память и стабильность.

Медленно — менять на MLX?

Сначала swap и размер модели. 14B на 16 ГБ редко лечится сменой фреймворка.

Оба на одном Mac?

Да — днём Ollama, ночью MLX-бенчи.