Первый вопрос часто про не тот уровень
Запуская локальные LLM на Mac, почти все спрашивают:
«Ollama или MLX — что лучше?»
После недель на M4 Mac Mini (16 / 24 / 32 ГБ) стало ясно:
Вопрос часто адресован не тому слою стека.
Реальность: большинству выбирать не нужно
По умолчанию — Ollama, пока вы точно не знаете, зачем нужен MLX.
Узкое место — unified memory, размер модели и нагрузка системы, а не название фреймворка.
Вердикт за 30 секунд
- 👉 По умолчанию: Ollama
- 👉 Исключение: MLX / llama.cpp
Около 80 % пользователей не попадают в зону исключений.
| Сценарий | По умолчанию | Реальная тревога |
|---|---|---|
| Claude Code / Cursor с локальной моделью | Ollama | MLX быстрее? |
| Первый запуск LLM | Ollama | Нужно ли копать низкий уровень? |
| Общий инференс в команде | Ollama | Нужен ли сложный стек? |
| Обычный чат | Ollama / LM Studio | Что выглядит «профессиональнее»? |
| Бенчмарки | MLX | Можно ли в ежедневной разработке? |
| LoRA / дообучение | MLX | Может ли Ollama обучать? |
Почему остаются на Ollama
① Сначала запустить
brew install ollama
ollama run qwen2.5:7b
② Под эпоху агентов
Стабильный HTTP на 127.0.0.1:11434. Claude Code + Ollama.
③ Узкое место не во фреймворке
16 ГБ + 14B + IDE + браузер → swap. MLX почти не меняет картину. модели на M4 Mac Mini, 7B vs 14B.
Когда MLX действительно важен
Бенчмарки, CI, LoRA, свой inference stack, paper-эксперименты. MLX vs llama.cpp, Ollama vs MLX. Разрыв 3%–12% в чистом бенче.
Заблуждение
Преимущество MLX — в слое измерений, не в ежедневном использовании.
Знакомая конфигурация
- M4 Mac Mini 16 ГБ
- Ollama + 14B
- Много вкладок Chrome
- VS Code + Claude Code
Не вина Ollama — лимит ресурсов. unified memory и инференс LLM.
Три слоя
- Приложение: Claude Code / Cursor
- Runtime: Ollama (HTTP)
- Вычисления: MLX / llama.cpp
Большую часть времени вы в runtime-слое.
Практическое правило
Сначала Ollama. К MLX — когда можете назвать, чего не хватает.
Командный узел: частный AI-сервер на кластере Mac Mini M4.
Итог
- По умолчанию Ollama = финиш для ~80 %
- Исключение MLX = инженерия / исследования / бенчи
Одной фразой
Локальные LLM на Mac: по умолчанию Ollama; MLX — для редких задач с низкоуровневым контролем. Узкое место — память и размер модели.
Критерий
Нет явной причины — Ollama.
FAQ
Ollama или MLX?
По умолчанию Ollama. MLX для офлайн-бенчей, CI, LoRA, своего inference.
MLX быстрее — переходить?
~3%–12% в бенче; в агентах важнее память и стабильность.
Медленно — менять на MLX?
Сначала swap и размер модели. 14B на 16 ГБ редко лечится сменой фреймворка.
Оба на одном Mac?
Да — днём Ollama, ночью MLX-бенчи.