Многие разработчики ищут Claude Code и Ollama по отдельности. Для продакшена — и для клиентов Macstripe — важнее другой вопрос: как запустить локального AI-агента на M4 Mac Mini? В 2026 году практичный ответ — Claude Code для оркестрации агента (читать репозиторий, выполнять команды, править файлы) плюс Ollama на Apple Silicon (платите за железо и электричество, а не за облачные токены).
Статья начинается с данных о стоимости и скорости (вопрос «стоит ли оно того?»), затем — архитектура и настройка. Если вы отвечаете за инфраструктуру команды, здесь же — облачный Mac как узел inference и план серии «Claude Code + Apple Silicon». О выборе фреймворка: MLX vs Ollama на Apple Silicon.
1. Реальные результаты: экономия и достаточна ли скорость
Цифры ниже — из бенчмарков Macstripe на выделенном M4 Mac Mini (24 ГБ unified memory) с Ollama, плюс разбор биллинга пилотной backend-команды из 8 человек, перешедшей на «Claude Code + Ollama on-prem» (апрель–май 2026, гибридная схема). Ваши цифры будут другими, но порядок величин полезен для решений.
1.1 Примерно через месяц: изменение счёта за API (иллюстрация)
| Статья | До (только облачный API) | После (local-first) | Изменение |
|---|---|---|---|
| Claude / аналогичный API | ~$300/мес | ~$50/мес (архитектурный review и т. п.) | ~−83 % |
| Compute для inference | Включено в API | 1× аренда M4 Mac Mini в облаке + электричество | Фиксированные, предсказуемые расходы |
| Исходящий трафик данных | По умолчанию — за пределы сети | Ежедневная работа агента остаётся в LAN | Удобно для compliance |
Большая часть экономии — от частых повторяющихся вызовов агента: правки тестов, пакетные рефакторинги, саммари документации. Если все ежедневно гоняют многошаговых агентов «архитектура всего репо», заложите облачный бюджет на сильные модели — иначе общее время может вырасти.
1.2 Скорость inference на M4 Mac Mini (Ollama, 4-битная квантизация)
| Модель | Скорость генерации (прибл.) | Time to first token | Ощущения в ежедневной работе агента |
|---|---|---|---|
| Qwen2.5-Coder 7B | ~25 token/s | ~200 ms | Норм для правок одного модуля и тестов |
| Qwen2.5-Coder 14B | ~15 token/s | ~280 ms | Лучшее качество на чуть более сложных задачах |
| glm-4.7-flash (~9 GB class) | ~30 token/s | ~170 ms | Упор на скорость; хорош для коротких Q&A |
Условия теста: M4 Mac Mini 24 ГБ, macOS 15.x, Ollama 0.14+, продолжение промпта ~2k токенов. На машинах с 16 ГБ 14B часто уходит в swap — для командного inference лучше начинать с 24 ГБ. На том же железе MLX обычно на ~10–15 % быстрее; см. наш сравнительный материал.
1.3 Параллелизм и стабильность (одна общая машина inference)
- 24 ГБ + модель 7B: 2–3 человека с лёгкой работой агента (небольшой scope чтения) — приемлемо; с 4-го пользователя задержка заметно растёт.
- 24 ГБ + модель 14B: лучше только один тяжёлый агент одновременно; остальных — в очередь или fallback на 7B.
- Наблюдение за месяц: доля успешных прогонов агента в пилоте (тесты зелёные с первой попытки) выросла с ~55 % до ~68 % — в основном за счёт контекста 64K и меньше ретраев «половина файлов потерялась», а не потому что модель стала умнее.
2. Почему всё больше команд направляют агентов через Ollama, а не через API
Claude Code — терминальный агент от Anthropic: обход дерева, правка файлов, bash, открытие PR. По умолчанию идёт в облачный Claude API; интенсивное использование агента за неделю может сжечь кратное абонемента. Укажите endpoint на Ollama — те же возможности агента на локальной или LAN-модели: фиксированная стоимость (машина + электричество) вместо оплаты за токены.
| Подход | Типичные месячные расходы | Данные покидают сеть? | Лучше всего для |
|---|---|---|---|
| Claude Code (только облако) | Подписка + перерасход API | Да (без enterprise private deploy) | Сложный reasoning, длинные архитектурные цепочки |
| Claude Code + Ollama (локально) | Железо / аренда облачного Mac | Может оставаться полностью в LAN | Ежедневные правки, пакетные рефакторинги, чувствительные репозитории |
| Гибрид: local-first + облачный fallback | Ниже, чем только облако Max tier | По необходимости | Большинство инженерных команд (рекомендуется) |
3. Архитектура workflow (схемы)
claude (Claude Code)Хорошо сочетается с Agent Skills: Skills задают «сначала согласовать, потом кодить»; Claude Code исполняет; Ollama даёт «compute на каждый вызов».
4. Запуск на M4 Mac Mini примерно за 10 минут
Шаги одинаковы на локальном или облачном M4 Mac Mini. Мы следуем официальной интеграции Ollama с Claude Code; на Apple Silicon рекомендуется установка через Homebrew.
4.1 Установить Ollama и скачать модель
brew install ollama
ollama pull qwen2.5-coder:7b
# or: ollama pull glm-4.7-flash (size/speed tradeoff—check ollama.com for current tags)
4.2 Расширить контекст до 64K+ (настоятельно рекомендуется)
Claude Code как агент многократно запихивает фрагменты репозитория в контекст. Слишком маленькое окно → обрезка и циклы ретраев — на практике медленнее и дороже. Если контекст по умолчанию мал, создайте Modelfile:
cat > Modelfile <<'EOF'
FROM qwen2.5-coder:7b
PARAMETER num_ctx 65536
EOF
ollama create qwen2.5-coder-agent -f Modelfile
4.3 Подключить Claude Code (два способа)
Вариант A (рекомендуется): one-liner Ollama 0.14.5+
ollama launch claude --model qwen2.5-coder-agent
Вариант B: переменные окружения вручную (для ~/.zshrc или проектного .claude/settings.json)
export ANTHROPIC_BASE_URL=http://localhost:11434
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_API_KEY=""
claude --model qwen2.5-coder-agent
Для локальной маршрутизации только в репозитории положите переменные в .claude/settings.json в корне проекта — остальные проекты останутся в облаке.
4.4 Чеклист приёмки
ollama psпоказывает загруженную модель.- Claude Code читает
READMEи отвечает по содержимому репозитория. - Попросите выполнить
npm test/pytestи проверьте bash-инструменты. - Следите за памятью: Mac 16 ГБ с Xcode + 7B часто уходит в swap — по возможности разделяйте inference и сборки.
5. Маршрутизация задач: что остаётся локально, что уходит в облако
| Тип задачи | Рекомендуемый движок | Почему |
|---|---|---|
| Completion одного файла, мелкие рефакторинги | Локальный Ollama | Высокая частота; ошибки простительны |
| Пакетная генерация тестов, исправление type errors | Локальный Ollama | Повторяемость; облачный API — плохое соотношение цены и пользы |
| Архитектурные изменения через 10+ модулей | Облачный Claude или более крупная локальная модель | Нужен более сильный reasoning и длинный контекст |
| Security audit, compliance-чувствительный код | Локальный Ollama | Данные не покидают сеть |
| CI-агент без присмотра | Ollama на удалённом Mac | Always-on, аудируемо |
Антипаттерн: не отдавайте 7B-модели весь pipeline
Если слабая модель одна тянет длинную цепочку агента «от требований до продакшена», неудачные ретраи раздуваются — общее время часто больше одного сильного облачного вызова. Гибридная стратегия: локально — черновики и механическая работа; облако или более крупная локальная модель — решения.
6. Настройка для команды: облачный Mac / выделенный M4-узел inference
Личный MacBook подходит для экспериментов; когда агентом пользуются несколько человек, нужен always-on, SSH-ready, с большим объёмом памяти macOS-хост для inference. Sweet spot — M4 Mac Mini: тихий, эффективный, unified memory удобна для Ollama, тот же экосистема, что и iOS/macOS CI.
6.1 Рекомендуемая топология
- Inference-бокс (1× M4 Mac Mini, рекомендуется 24 ГБ+):
ollama serveна0.0.0.0:11434(ограничить firewall/VLAN). - Ноутбуки разработчиков:
export ANTHROPIC_BASE_URL=http://<inference-host-LAN-IP>:11434, затемclaudeкак обычно. - Опциональный CI Mac (вторая машина): запускать
xcodebuildотдельно от inference, чтобы не конкурировать за память — см. корпоративные Mac CI runner.
6.2 Когда облачный Mac Macstripe выгоднее self-hosted железа
Если нет дата-центра или нужны узлы APAC / US-West, стабильный public IP, аренда на дни, запускайте Ollama на выделенном физическом M4 Mac Mini Macstripe: SSH, тот же brew install ollama, порт 11434 для команды через Tailscale или VPN. По сравнению с покупкой железа:
- Без закупки, доставки, стойки и утилизации.
- Краткая аренда проверяет «вся команда на локальных моделях» до долгой покупки.
- Согласуется с идеей private inference: код и промпты остаются внутри вашего периметра.
Модели, регионы и условия — на главной Macstripe и странице тарифов. Macstripe не хостит Ollama за вас — предоставляет macOS-железо и сеть для работы 24/7.
# On a cloud Mac (example)
brew install ollama
ollama serve &
ollama pull qwen2.5-coder:14b
# On member laptops: ANTHROPIC_BASE_URL=http://<cloud Mac LAN or Tailscale IP>:11434
7. План серии: кластер тем про локальных AI-агентов
«Claude Code + Ollama + Apple Silicon» лучше работает как серия, а не разовая статья — сильнее тематический авторитет для поиска и удобнее навигация. Запланировано в Macstripe Developer Blog (по мере выхода):
- Claude Code + MLX — пик tok/s и интеграция с Python pipeline
- Claude Code + OpenRouter — маршрутизация между моделями и сравнение стоимости
- Claude Code + Qwen3 / DeepSeek — выбор китайских и code-oriented моделей
- Операции inference на M4 Mac Mini — мониторинг, очереди, доступ через Tailscale
Уже опубликовано: MLX vs Ollama, Agent Skills и инженерная дисциплина.
8. Антипаттерны и troubleshooting
- Забыли очистить ANTHROPIC_API_KEY: Claude Code может продолжать ходить в облако; локальная конфигурация выглядит «сломанной».
- Контекст застрял на 8K: агент теряет куски файлов → бесконечные ретраи; используйте Modelfile для 64K+.
- Имена моделей с
/: некоторые backend'ы спотыкаются; используйте короткие имена Ollama вродеqwen2.5-coder-agent. - Всё локально на Windows: Claude Code + Ollama зрелее на macOS/Linux; на Windows — WSL2 или удалённый Mac.
- Агент как неконтролируемое изменение в продакшене: сохраняйте CI, code review и политику merge — см. межнедельную коллаборацию и память.
FAQ
Насколько можно сэкономить на API с локальным AI-агентом на M4 Mac Mini?
Зависит от доли работы, оставляемой локально. В нашем пилоте из 8 человек («local-first + облачный fallback») расходы на облачный API за ~месяц упали с ~$300/мес до ~$50/мес (~83 %). У solo-разработчиков разброс больше, но частая механическая работа агента обычно резко дешевеет.
Достаточно ли быстр Ollama на M4 Mac Mini для ежедневной работы агента?
На 24 ГБ Qwen2.5-Coder 7B — ~25 token/s, 14B — ~15 token/s; хватает для тестов и рефакторинга одного модуля. Архитектура всего репозитория — на сильную облачную модель.
Может ли Claude Code использовать Ollama напрямую?
Да. Задайте ANTHROPIC_BASE_URL=http://localhost:11434 (или хост inference команды), ANTHROPIC_AUTH_TOKEN=ollama, ANTHROPIC_API_KEY="", или используйте ollama launch claude --model <name>.
Какой размер контекстного окна нужен Claude Code?
≥64K рекомендуется. Надёжный путь: PARAMETER num_ctx 65536 в Modelfile, затем ollama create кастомной модели.
Нужна ли подписка Claude?
Чисто локальный режим не требует облачных API-вызовов; облако оставьте для сложных задач. Гибрид обычно дешевле одного Claude Max.
Хватит ли 16 ГБ на M4 Mac Mini?
Для ежедневных агентов класса 7B — да; 14B+ или 2+ одновременных пользователя → планируйте от 24 ГБ.
Как команде делить один экземпляр Ollama?
Откройте 11434 в LAN или Tailscale и направьте BASE_URL всех на него — или используйте облачный Mac / выделенный M4 Macstripe как 24/7-узел inference.
Чем это отличается от Cursor?
Claude Code — терминальный агент (SSH на удалённый Mac, скрипты); Cursor — IDE. Оба могут сосуществовать; в серии также сравним MLX, OpenRouter и другие backend'ы.
Заключение
Если запомнить одно: оценивайте локальных AI-агентов по результатам, а не по конфигурации. На M4 Mac Mini Claude Code + Ollama держит большую часть ежедневной работы агента в вашей сети; наш пилот снизил облачный API примерно до одной пятой, скорости 7B хватает для рутинных правок. Запускайте с контекстом 64K, маршрутизацией задач и разделением inference и CI; по железу — 24 ГБ unified memory на M4 Mac Mini или always-on облачный узел Macstripe.
- Начните с цифр: стоимость, скорость, параллелизм
- Проверьте локально:
ollama launch claude --model … - Масштабируйте команду:
ollama serveна выделенном M4 + LAN BASE_URL → модели и регионы Macstripe - Следите за серией: комбинации MLX / OpenRouter / Qwen3 (раздел 7)
Читайте также
- M4 Mac Mini: 7B vs 14B
- MLX против Ollama: Что лучше для ИИ на Apple Silicon? Сравнение фреймворков и бенчмарки
- Взрыв на GitHub: mattpocock/skills меняет правила ИИ-разработки
- SpaceX, OpenAI и Anthropic скупают GPU — почему ваш ИИ-проект всё ещё ограничен по скорости?
- Почему Cursor постоянно «забывает»? Длинный контекст не спасает работу, растянутую на недели