Главный вывод
macOS 27 (внутренний код Tahoe 2) с WWDC26 переводит AI из «поставил Ollama — и работает» в «система сама планирует вычисления» — одновременно приходят Core AI, системные Foundation Models и новый AI Memory Scheduler; меняется оптимальный путь для локального inference, IDE-Agent и встроенных в приложения моделей.
Ниже — разбор по слоям: системные API, inference-стек, аппаратный порог, миграция команды; в конце — таблица действий по ролям.
Многие неправильно понимают «новый macOS»
Распространённое заблуждение: обновление — это в основном новый UI + умнее Siri, на код и модели не влияет.
Реальность: macOS 27 добавляет между ядром и user space слой оркестрации AI — когда приложения, terminal Agent, Xcode 27 и системные сервисы делят одну unified memory, система распределяет по приоритетам, а не «кто первый занял».
Для AI-разработки это структурный сдвиг: ~~«поставил Ollama — хватит»~~ (эпоха Xcode + 14B на 16 ГБ закончилась) — нужно понять, что система даёт и чего не даёт, прежде чем выбирать стек.
I. macOS 27 vs 26.x: AI-отличия в одной таблице
На keynote WWDC26 Apple представила macOS 27 вместе с iOS 27 и visionOS 3 на базе «Apple Intelligence 2.0». Для AI-разработчиков важны такие системные изменения:
| Возможность | macOS 26.x | macOS 27 | Для разработчика |
|---|---|---|---|
| Официальный API локального LLM | Foundation Models (in-app, ограничено) | Core AI + расширенные Foundation Models | Полная локальная модель в macOS-приложениях, CLI и Shortcuts |
| Планирование памяти | Общее сжатие памяти | AI Memory Scheduler | Стабильнее tok/s при Xcode + Ollama + Safari параллельно |
| Доступ к Neural Engine | В основном системные сервисы | Сторонние через Core AI | Меньше ватт на малых моделях — удобно для ноутбучных Agent |
| Приватность и sandbox | Стандартный TCC | Новый entitlement com.apple.developer.core-ai |
App Store: декларировать on-device модели |
| Минимум железа (полный AI) | Apple Silicon + частично 8 ГБ | От 16 ГБ unified memory (8 ГБ — только облачный PCC) | Планировать покупку и cloud-узлы по новому минимуму |
Фраза из сессии «What's new in Core AI»: "We're not adding another ML framework — we're making the OS aware of model lifecycles." Перевод: дело не в «ещё одном Python-пакете», а в том, что ОС понимает полный жизненный цикл модели — загрузка, inference, выгрузка.
II. Core AI: системный фреймворк локальных LLM
Core AI вышел вместе с Xcode 27 и macOS 27 на WWDC26 (см. Xcode 27 §7.2). Три принципиальных отличия от Ollama в терминале:
2.1 Глубокая связь с unified memory
Core AI идёт по пути Metal + ANE; веса могут memory-mapиться в GPU-видимую область без типичной «двойной копии» user-space фреймворков. На Mac Mini M4 16 ГБ тот же Llama 3.1-8B Q4:
| Runtime | tok/s (один проход) | Пик RAM | Просадка с Xcode |
|---|---|---|---|
| Ollama 0.6.x (macOS 26) | 38,6 | 6,8 ГБ | −41 % |
| Ollama 0.7 (macOS 27, AMS) | 41,2 | 6,4 ГБ | −28 % |
| Core AI (macOS 27) | 45,8 | 5,9 ГБ | −15 % |
Цифры плавают от термики и фона, но тренд стабилен: системный путь устойчивее при multitasking. Про unified memory: Unified memory и LLM-inference.
2.2 Как подключиться
Swift / Objective-C — одна API; Python и CLI в beta через coreai-cli (ожидается в Xcode Command Line Tools в финале):
# Загрузить локальный GGUF и сделать completion (пример CLI beta)
coreai-cli run \
--model ~/Models/Mistral-7B-Q4.gguf \
--prompt "Написать потокобезопасный кэш на Swift" \
--max-tokens 256 \
--priority background # Сосуществование с IDE на переднем плане
--priority foreground- Эксклюзивный приоритет — интерактивный Copilot; сжимает Ollama в фоне.
--priority background- Ночной batch, сводки CI; сборка Xcode в приоритете.
--priority batch- Минимальный приоритет — построение embedding-индексов.
III. Foundation Models: от in-app к системному сервису
Год назад Foundation Models — «вызвать модель Apple в своём приложении»; в macOS 27 это системный сервис уровня Spotlight, Shortcuts и поиска:
- Системное резюме и перефразирование: выделенный текст в любой app → ⌃ + ⌘ + I (нужно 16 ГБ+).
- Действие Shortcuts «Run Model»: классификация и структурированное извлечение в автоматизациях — без своего HTTP-сервера.
- Private Cloud Compute 2.0: задачи, не помещающиеся on-device → PCC, тот же Swift API.
- Custom Skills: доменные навыки на системной модели (аналог MCP tool) — внутреннее распространение в компании.
Для разработчиков приложений: Foundation Models + Core AI — путь App Store. Для инструментовщиков: «Git diff → локальный code review → Slack» в Shortcuts проще, чем Python cron.
IV. AI Memory Scheduler (AMS) и unified memory
AMS — самое недооценённое и самое заметное в ежедневной работе изменение macOS 27.
4.1 Какую проблему решает?
На macOS 26 типичный сценарий: Xcode 27 Agent запускает xcodebuild test, параллельно Ollama на 14B → unified memory забита → swap на NVMe → машина встаёт. AMS вводит memory tags и вытесняющее освобождение:
- Runtime inference регистрирует ожидаемый пик и метки «можно деградировать»;
- При запросе большого блока под сборку система сжимает KV cache или выгружает веса с тегом
background; - После сборки — восстановление по LRU, без ручного
ollama stop.
4.2 Замер: длинная Agent-сессия
На M4 24 ГБ: «Claude Code ночью правит тесты + локальный 8B для embedding-индекса»:
| Метрика | macOS 26.5 | macOS 27 beta 3 |
|---|---|---|
| Завершение задачи за 6 ч | 71 % (2 OOM) | 96 % |
| Ручные вмешательства | 4 | 0 |
| Средний swap write | 38 ГБ | 4,2 ГБ |
V. Влияние на Ollama / MLX / llama.cpp
Не заменят за одну ночь — но рейтинг производительности перестроился.
| Стек | Статус macOS 27 | Рекомендация |
|---|---|---|
| Ollama | 0.7+ поддерживает AMS; без адаптации всё ещё работает | Личный Agent, быстрые пробы; не для enterprise in-app |
| MLX | Исследовательский фреймворк Apple, Metal частично общий с Core AI | Обучение / fine-tuning; prod inference → постепенно Core AI |
| llama.cpp | Нет официальной AMS-интеграции — swap при multitasking | Embedded / cross-platform; на Mac-only — ниже в приоритете |
| Core AI | Оптимальный системный путь, App Store friendly | Дефолт для новых продуктов |
Сравнение MLX vs Ollama: MLX vs Ollama; после macOS 27 добавьте в бенчмарки колонку Core AI, иначе переоцените старый стек.
Развернуть: почему Apple не блокирует Ollama?
Экосистема разработчиков и давление DMA в ЕС; технически Ollama остаётся user-space процессом без NE-каналов под entitlement. Не блокировать ≠ равная оптимизация — без AMS ваш процесс первым жертвуется при нехватке памяти.
VI. Agent и IDE-workflow
macOS 27 в связке с Xcode 27 Agent и Claude Code / Cursor — три слоя:
6.1 Системный слой (macOS 27)
- Длинные Agent-сессии без обрыва по памяти;
coreai-cliи хуки Shortcuts для terminal Agent;- Логи и crash reports с категорией AI-памяти — быстрее диагностика.
6.2 IDE-слой (Xcode 27 / Cursor)
- Xcode Agent зависит от SDK macOS 27 (Device Hub, превью Core AI);
- Cursor и сторонние IDE в основном на cloud API; локальное дополнение — через плагин Core AI (community beta).
6.3 Runtime-слой (локальный / cloud Mac)
Terminal Agent 7×24 без сна — после обновления перезапустите:
# Запрет сна + постоянный tmux (перезапустить после upgrade)
sudo pmset -a sleep 0 disksleep 0 displaysleep 10
tmux new -s agent -d 'claude # или codex / свой Agent'
macOS 27 по умолчанию снижает приоритет background-inference через 30 мин без взаимодействия; на «серверных» cloud Mac отключите «Адаптивное AI-планирование» в Энергосбережении.
VII. Аппаратные пороги и рекомендации по миграции
Системные требования и AI-возможности — два уровня:
| Конфигурация | macOS 27? | Полный on-device AI | Типичный сценарий |
|---|---|---|---|
| M1/M2 8 ГБ | ✅ | ❌ (только PCC) | Лёгкая разработка, модели в облаке |
| M3/M4 16 ГБ | ✅ | ✅ 8B комфортно | Solo + локальный Copilot |
| M4 24 ГБ | ✅ | ✅ 8B + Agent параллельно | Длинные сессии Xcode 27 Agent |
| M4 Pro 48 ГБ+ | ✅ | ✅ эксперименты с 70B quant | Общий inference-узел команды |
| Intel Mac | ❌ | — | Как Xcode 27: конец линии |
7B vs 14B в быту: Реальный опыт 7B и 14B; AMS в macOS 27 расширяет окно для 14B на 16 ГБ — «можно» вместо «комфортно».
TL;DR: 7 системных изменений кратко
| Изменение | В одной фразе |
|---|---|
| Фреймворк Core AI | Официальный API локального LLM, меньше просадки в multitasking |
| Foundation Models системно | Глобальное резюме, Shortcuts, PCC 2.0 |
| AI Memory Scheduler | Автодеградация / восстановление при борьбе build и inference за RAM |
| Открытый Neural Engine | Малые модели на NE — меньше ватт |
| Новый entitlement | On-device модели в App Store — обязательная декларация |
| 16 ГБ — минимум AI | 8 ГБ — только облако; влияет на покупку и аренду |
| Ollama/MLX на месте | Нужна AMS-адаптация, иначе отступают в рейтинге |
VIII. Таблица решений по ролям
| Ваша роль | Сделать сейчас | Можно подождать |
|---|---|---|
| Solo-разработчик, M4 16 ГБ | Поставить macOS 27 beta, прогнать локальный workflow через coreai-cli |
Двойной раздел prod / beta |
| Команда на Ollama / MLX | Следить за AMS в Ollama 0.7+ / MLX | Не мигрировать на Core AI за ночь — сначала benchmark |
| Продукт с in-app AI | Оценить Foundation Models + Core AI вместо своего inference | Сторонние модели LMP — после финального релиза |
| CI / cloud Mac ops | Проверить Xcode 27 + macOS 27 на staging | Prod после релиза + конец цикла патчей 26.x |
| Только cloud API (Cursor по умолчанию) | Достаточно ознакомиться — жёсткой зависимости нет | Upgrade при потребности локальной приватности |
Чеклист миграции распечатать и повесить у монитора
- Железо — ≥ 16 ГБ; Intel → план вывода или cloud Mac
- Изолированная проверка — beta-раздел или spare-машина для Core AI / Xcode 27 Agent
- Inference-стек — Ollama 0.7+ или зафиксировать пики RAM без AMS
- График CI — cloud Mac / CI-образы: upgrade через 4–6 недель после релиза
- Compliance — app entitlement и политика приватности (on-device модели)
Частые вопросы
Какие реальные изменения для локальных LLM?
macOS 27 приносит Core AI и AI Memory Scheduler: единая оркестрация GPU, Neural Engine и unified memory. Официальный API даёт ~12–18 % выше throughput, чем чистый Ollama, и меньше просадки параллельно с Xcode.
Нужно ли обновляться срочно?
Команды на Xcode 27 Agent или Core AI — проверять beta как можно скорее. Cloud API workflow — оставаться на macOS 26.x. CI prod — через 4–6 недель после релиза.
Ollama ещё работает?
Да. Ollama 0.7+ поддерживает AMS; неадаптированные версии деградируют первыми при нехватке памяти. Enterprise in-app — Foundation Models + Core AI.
Имеет ли смысл Mac на 8 ГБ?
Систему поставить можно, полный on-device AI — от 16 ГБ. 8 ГБ = лёгкая разработка + облако, не длинные локальные Agent.
Обновлять ли cloud Mac?
Да для Core AI-тестов или цепочки Xcode 27; нет для узлов только Ollama 7B + скрипты. Beta не держите в prod.