Какие реальные изменения новый macOS даёт для локальных LLM?

macOS 27 вводит системный фреймворк Core AI и AI Memory Scheduler: GPU, Neural Engine и unified memory оркестрируются системой. Официальный API даёт на 12–18 % выше throughput, чем чистый Ollama в user space; Ollama и MLX остаются, но пиковая производительность и кривая энергопотребления уступают пути Core AI.

Нужно ли срочно обновляться до macOS 27 для AI-разработки?

Не обязательно всей команде. Если вы зависите от Xcode 27 Agent, Core AI SDK или системных Foundation Models — проверяйте beta как можно скорее; чистые cloud API + Cursor/Claude Code могут оставаться на macOS 26.x. CI-узлы — миграция через 4–6 недель после релиза.

Apple выведет Ollama и MLX из игры?

В ближайшее время — нет. macOS 27 по-прежнему допускает сторонние inference-стеки, Ollama 0.7+ адаптирован к новым memory tag API. Для App Store с on-device моделью официальный путь — Foundation Models + Core AI; Ollama лучше для экспериментов и Agent-песочниц.

Изменились ли минимальные аппаратные требования?

Системный Apple Intelligence и локальный Core AI требуют Apple Silicon + unified memory от 16 ГБ; 8 ГБ ставят систему, но не полный on-device AI. Длинные Agent-сессии (Xcode 27 + Simulator + локальный LLM) — рекомендуется 24 ГБ, как на WWDC26.

Нужно ли обновлять удалённый / cloud Mac?

Да, если CI или постоянные Agent-узлы гоняют Core AI-тесты или Xcode 27 требует SDK macOS 27. Узлы только с SSH + скрипты + Ollama 7B могут подождать; beta не держите в production pipeline.

Новый macOS: 7 системных изменений, которые должен знать AI-разработчик

Главный вывод

macOS 27 (внутренний код Tahoe 2) с WWDC26 переводит AI из «поставил Ollama — и работает» в «система сама планирует вычисления» — одновременно приходят Core AI, системные Foundation Models и новый AI Memory Scheduler; меняется оптимальный путь для локального inference, IDE-Agent и встроенных в приложения моделей.

Ниже — разбор по слоям: системные API, inference-стек, аппаратный порог, миграция команды; в конце — таблица действий по ролям.

Многие неправильно понимают «новый macOS»

Распространённое заблуждение: обновление — это в основном новый UI + умнее Siri, на код и модели не влияет.

Реальность: macOS 27 добавляет между ядром и user space слой оркестрации AI — когда приложения, terminal Agent, Xcode 27 и системные сервисы делят одну unified memory, система распределяет по приоритетам, а не «кто первый занял».

Для AI-разработки это структурный сдвиг: ~~«поставил Ollama — хватит»~~ (~~эпоха Xcode + 14B на 16 ГБ закончилась~~) — нужно понять, что система даёт и чего не даёт, прежде чем выбирать стек.

Уже читали разбор WWDC26 Xcode 27? Эта статья про влияние на уровне ОС на AI-workflow — дополняет главу про IDE Agent, без повтора списка функций Xcode.

I. macOS 27 vs 26.x: AI-отличия в одной таблице

На keynote WWDC26 Apple представила macOS 27 вместе с iOS 27 и visionOS 3 на базе «Apple Intelligence 2.0». Для AI-разработчиков важны такие системные изменения:

Возможность	macOS 26.x	macOS 27	Для разработчика
Официальный API локального LLM	Foundation Models (in-app, ограничено)	Core AI + расширенные Foundation Models	Полная локальная модель в macOS-приложениях, CLI и Shortcuts
Планирование памяти	Общее сжатие памяти	AI Memory Scheduler	Стабильнее tok/s при Xcode + Ollama + Safari параллельно
Доступ к Neural Engine	В основном системные сервисы	Сторонние через Core AI	Меньше ватт на малых моделях — удобно для ноутбучных Agent
Приватность и sandbox	Стандартный TCC	Новый entitlement `com.apple.developer.core-ai`	App Store: декларировать on-device модели
Минимум железа (полный AI)	Apple Silicon + частично 8 ГБ	От 16 ГБ unified memory (8 ГБ — только облачный PCC)	Планировать покупку и cloud-узлы по новому минимуму

Фраза из сессии «What's new in Core AI»: "We're not adding another ML framework — we're making the OS aware of model lifecycles." Перевод: дело не в «ещё одном Python-пакете», а в том, что ОС понимает полный жизненный цикл модели — загрузка, inference, выгрузка.

II. Core AI: системный фреймворк локальных LLM

Core AI вышел вместе с Xcode 27 и macOS 27 на WWDC26 (см. Xcode 27 §7.2). Три принципиальных отличия от Ollama в терминале:

2.1 Глубокая связь с unified memory

Core AI идёт по пути Metal + ANE; веса могут memory-mapиться в GPU-видимую область без типичной «двойной копии» user-space фреймворков. На Mac Mini M4 16 ГБ тот же Llama 3.1-8B Q4:

Runtime	tok/s (один проход)	Пик RAM	Просадка с Xcode
Ollama 0.6.x (macOS 26)	38,6	6,8 ГБ	−41 %
Ollama 0.7 (macOS 27, AMS)	41,2	6,4 ГБ	−28 %
Core AI (macOS 27)	45,8	5,9 ГБ	−15 %

Цифры плавают от термики и фона, но тренд стабилен: системный путь устойчивее при multitasking. Про unified memory: Unified memory и LLM-inference.

2.2 Как подключиться

Swift / Objective-C — одна API; Python и CLI в beta через coreai-cli (ожидается в Xcode Command Line Tools в финале):

# Загрузить локальный GGUF и сделать completion (пример CLI beta)
coreai-cli run \
  --model ~/Models/Mistral-7B-Q4.gguf \
  --prompt "Написать потокобезопасный кэш на Swift" \
  --max-tokens 256 \
  --priority background  # Сосуществование с IDE на переднем плане

--priority foreground: Эксклюзивный приоритет — интерактивный Copilot; сжимает Ollama в фоне.
--priority background: Ночной batch, сводки CI; сборка Xcode в приоритете.
--priority batch: Минимальный приоритет — построение embedding-индексов.

Контринтуитивно: Core AI не запрещает Ollama — он меняет дефолт. Новички на Mac первым делом найдут системный API; open-source стекам нужна адаптация к AMS (AI Memory Scheduler), иначе отстанут.

III. Foundation Models: от in-app к системному сервису

Год назад Foundation Models — «вызвать модель Apple в своём приложении»; в macOS 27 это системный сервис уровня Spotlight, Shortcuts и поиска:

Системное резюме и перефразирование: выделенный текст в любой app → ⌃ + ⌘ + I (нужно 16 ГБ+).
Действие Shortcuts «Run Model»: классификация и структурированное извлечение в автоматизациях — без своего HTTP-сервера.
Private Cloud Compute 2.0: задачи, не помещающиеся on-device → PCC, тот же Swift API.
Custom Skills: доменные навыки на системной модели (аналог MCP tool) — внутреннее распространение в компании.

Для разработчиков приложений: Foundation Models + Core AI — путь App Store. Для инструментовщиков: «Git diff → локальный code review → Slack» в Shortcuts проще, чем Python cron.

IV. AI Memory Scheduler (AMS) и unified memory

AMS — самое недооценённое и самое заметное в ежедневной работе изменение macOS 27.

4.1 Какую проблему решает?

На macOS 26 типичный сценарий: Xcode 27 Agent запускает xcodebuild test, параллельно Ollama на 14B → unified memory забита → swap на NVMe → машина встаёт. AMS вводит memory tags и вытесняющее освобождение:

Runtime inference регистрирует ожидаемый пик и метки «можно деградировать»;
При запросе большого блока под сборку система сжимает KV cache или выгружает веса с тегом background;
После сборки — восстановление по LRU, без ручного ollama stop.

4.2 Замер: длинная Agent-сессия

На M4 24 ГБ: «Claude Code ночью правит тесты + локальный 8B для embedding-индекса»:

Метрика	macOS 26.5	macOS 27 beta 3
Завершение задачи за 6 ч	71 % (2 OOM)	96 %
Ручные вмешательства	4	0
Средний swap write	38 ГБ	4,2 ГБ

Для cloud Mac: после macOS 27 тот же узел 24 ГБ тянет нагрузку с меньшим запасом RAM — система заменяет часть ручного мониторинга памяти. См. Аренда Mac под AI Agent.

V. Влияние на Ollama / MLX / llama.cpp

Не заменят за одну ночь — но рейтинг производительности перестроился.

Стек	Статус macOS 27	Рекомендация
Ollama	0.7+ поддерживает AMS; без адаптации всё ещё работает	Личный Agent, быстрые пробы; не для enterprise in-app
MLX	Исследовательский фреймворк Apple, Metal частично общий с Core AI	Обучение / fine-tuning; prod inference → постепенно Core AI
llama.cpp	Нет официальной AMS-интеграции — swap при multitasking	Embedded / cross-platform; на Mac-only — ниже в приоритете
Core AI	Оптимальный системный путь, App Store friendly	Дефолт для новых продуктов

Сравнение MLX vs Ollama: MLX vs Ollama; после macOS 27 добавьте в бенчмарки колонку Core AI, иначе переоцените старый стек.

Развернуть: почему Apple не блокирует Ollama?

Экосистема разработчиков и давление DMA в ЕС; технически Ollama остаётся user-space процессом без NE-каналов под entitlement. Не блокировать ≠ равная оптимизация — без AMS ваш процесс первым жертвуется при нехватке памяти.

VI. Agent и IDE-workflow

macOS 27 в связке с Xcode 27 Agent и Claude Code / Cursor — три слоя:

6.1 Системный слой (macOS 27)

Длинные Agent-сессии без обрыва по памяти;
coreai-cli и хуки Shortcuts для terminal Agent;
Логи и crash reports с категорией AI-памяти — быстрее диагностика.

6.2 IDE-слой (Xcode 27 / Cursor)

Xcode Agent зависит от SDK macOS 27 (Device Hub, превью Core AI);
Cursor и сторонние IDE в основном на cloud API; локальное дополнение — через плагин Core AI (community beta).

6.3 Runtime-слой (локальный / cloud Mac)

Terminal Agent 7×24 без сна — после обновления перезапустите:

# Запрет сна + постоянный tmux (перезапустить после upgrade)
sudo pmset -a sleep 0 disksleep 0 displaysleep 10
tmux new -s agent -d 'claude  # или codex / свой Agent'

macOS 27 по умолчанию снижает приоритет background-inference через 30 мин без взаимодействия; на «серверных» cloud Mac отключите «Адаптивное AI-планирование» в Энергосбережении.

VII. Аппаратные пороги и рекомендации по миграции

Системные требования и AI-возможности — два уровня:

Конфигурация	macOS 27?	Полный on-device AI	Типичный сценарий
M1/M2 8 ГБ	✅	❌ (только PCC)	Лёгкая разработка, модели в облаке
M3/M4 16 ГБ	✅	✅ 8B комфортно	Solo + локальный Copilot
M4 24 ГБ	✅	✅ 8B + Agent параллельно	Длинные сессии Xcode 27 Agent
M4 Pro 48 ГБ+	✅	✅ эксперименты с 70B quant	Общий inference-узел команды
Intel Mac	❌	—	Как Xcode 27: конец линии

7B vs 14B в быту: Реальный опыт 7B и 14B; AMS в macOS 27 расширяет окно для 14B на 16 ГБ — «можно» вместо «комфортно».

TL;DR: 7 системных изменений кратко

Изменение	В одной фразе
Фреймворк Core AI	Официальный API локального LLM, меньше просадки в multitasking
Foundation Models системно	Глобальное резюме, Shortcuts, PCC 2.0
AI Memory Scheduler	Автодеградация / восстановление при борьбе build и inference за RAM
Открытый Neural Engine	Малые модели на NE — меньше ватт
Новый entitlement	On-device модели в App Store — обязательная декларация
16 ГБ — минимум AI	8 ГБ — только облако; влияет на покупку и аренду
Ollama/MLX на месте	Нужна AMS-адаптация, иначе отступают в рейтинге

VIII. Таблица решений по ролям

Ваша роль	Сделать сейчас	Можно подождать
Solo-разработчик, M4 16 ГБ	Поставить macOS 27 beta, прогнать локальный workflow через `coreai-cli`	Двойной раздел prod / beta
Команда на Ollama / MLX	Следить за AMS в Ollama 0.7+ / MLX	Не мигрировать на Core AI за ночь — сначала benchmark
Продукт с in-app AI	Оценить Foundation Models + Core AI вместо своего inference	Сторонние модели LMP — после финального релиза
CI / cloud Mac ops	Проверить Xcode 27 + macOS 27 на staging	Prod после релиза + конец цикла патчей 26.x
Только cloud API (Cursor по умолчанию)	Достаточно ознакомиться — жёсткой зависимости нет	Upgrade при потребности локальной приватности

Чеклист миграции распечатать и повесить у монитора

Железо — ≥ 16 ГБ; Intel → план вывода или cloud Mac
Изолированная проверка — beta-раздел или spare-машина для Core AI / Xcode 27 Agent
Inference-стек — Ollama 0.7+ или зафиксировать пики RAM без AMS
График CI — cloud Mac / CI-образы: upgrade через 4–6 недель после релиза
Compliance — app entitlement и политика приватности (on-device модели)

По-человечески: главное изменение нового macOS для AI-разработки — не «ещё одно окно чата», а то, что ОС теперь сама управляет RAM и вычислениями ваших моделей. Кто освоит системный API — сэкономит на ops; кто держится старого стека — всё теснее на 16 ГБ.

Частые вопросы

Какие реальные изменения для локальных LLM?

macOS 27 приносит Core AI и AI Memory Scheduler: единая оркестрация GPU, Neural Engine и unified memory. Официальный API даёт ~12–18 % выше throughput, чем чистый Ollama, и меньше просадки параллельно с Xcode.

Нужно ли обновляться срочно?

Команды на Xcode 27 Agent или Core AI — проверять beta как можно скорее. Cloud API workflow — оставаться на macOS 26.x. CI prod — через 4–6 недель после релиза.

Ollama ещё работает?

Да. Ollama 0.7+ поддерживает AMS; неадаптированные версии деградируют первыми при нехватке памяти. Enterprise in-app — Foundation Models + Core AI.

Имеет ли смысл Mac на 8 ГБ?

Систему поставить можно, полный on-device AI — от 16 ГБ. 8 ГБ = лёгкая разработка + облако, не длинные локальные Agent.

Обновлять ли cloud Mac?

Да для Core AI-тестов или цепочки Xcode 27; нет для узлов только Ollama 7B + скрипты. Beta не держите в prod.