Компания без собственных моделей — и оценка в 1,3 миллиарда долларов
В 2026 году OpenRouter закрыл новый раунд с оценкой 1,3 млрд долларов. Компания не обучает модели, не владеет GPU-кластерами и не публикует «эксклюзивных исследований». Она делает одно: маршрутизирует запросы разработчиков к API Claude, GPT-4o, Gemini, Llama, Qwen и более чем 300 других моделей — и берёт комиссию за транзит.
Если вы слышите об этом впервые, кажется странным: почему «посредник» стоит столько? Кто давно в индустрии LLM, чувствует сигнал за этой оценкой: центральный нарратив вендоров начинает рассыпаться.
Сначала цифры: почему OpenRouter стоит 1,3 миллиарда
Рынок не платит 1,3 млрд за историю — он покупает верифицируемую кривую роста. После Series A (июнь 2025) оценка ~547 млн $ (PitchBook / TechCrunch); после Series B (май 2026, 113 млн $ инвестиций) ~1,3 млрд $ — ×2,4 за 11 месяцев. Лид: CapitalG (Google). Соинвесторы: NVIDIA NVentures, Snowflake, Databricks, MongoDB и др. Ставка на слой мульти-модельной маршрутизации, а не на одну модель.
| Показатель | Июнь 2025 (Series A) | Май–июнь 2026 (Series B) | Изменение |
|---|---|---|---|
| Post-money оценка | ~$547M | ~$1.3B | +2.4× |
| Зарегистрированные разработчики | 2,5 млн+ | 8 млн+ | +3.2× |
| Годовой объём токенов (annualized) | ~100 трлн / год | ~1 500 трлн / год | +15× |
| Недельный трафик токенов | ~5 трлн / нед | ~25 трлн / нед | +5× (за 6 мес.) |
| Размер команды | — | ~50 человек | ~20 трлн токенов / чел. / год |
| Подключённые модели | Сотни | 400+ | Рост продолжается |
Источники: анонс Series B OpenRouter, TechCrunch, Menlo Ventures (май–июнь 2026).
Для масштаба: Menlo Ventures оценивает, что OpenRouter уже обрабатывает 15–30 % token run rate Google, 20–40 % OpenAI и >50 % Azure Foundry — шлюз без собственных моделей перехватывает огромную долю inference-трафика. Если бы разработчики были «верны» одному API, такого объёма не было бы.
Данные 1: недельный рейтинг меняется каждый месяц — никто не «незаменим»
Три года каждый вендор рассказывает одно: наша модель лидирует; качество создаёт лояльность — отсюда ров. Рейтинги трафика в реальном времени OpenRouter (миллионы реальных токенов разработчиков, ежедневное обновление) говорят иное:
| Нед. ранг | Модель | Вендор | Токенов / нед | Нед. к нед. |
|---|---|---|---|---|
| 1 | MiniMax M3 | MiniMax (Китай) | 4,64 трлн | +44% |
| 2 | DeepSeek V4 Flash | DeepSeek (Китай) | 4,41 трлн | +4% |
| 3 | Hy3 Preview | Tencent (Китай) | 3,84 трлн | +9% |
| 4 | MiMo-V2.5 | Xiaomi (Китай) | 3,66 трлн | +34% |
| 5 | Claude Opus 4.7 | Anthropic (США) | 2,69 трлн | +67% |
| 6 | Owl Alpha | OpenRouter (своя) | 2,45 трлн | +22% |
| 8 | Claude Sonnet 4.6 | Anthropic (США) | 1,88 трлн | +4% |
| — | GPT-5.5 | OpenAI (США) | вне Top 10 | — |
Источник: OpenRouter LLM Rankings, июнь 2026. WoW — поле платформы.
Три вывода сразу:
- Лидер меняется каждые несколько недель: MiniMax M3 +44 % за неделю — при настоящей брендовой лояльности рейтинг не был бы таким волатильным
- Доминируют китайские модели: все четыре места Top 4 — миф «только US closed-source готов к продакшену» не выдерживает проверки
- OpenAI вне Top 10: GPT-5.5 громко анонсировали, но в реальном объёме OpenRouter его нет в десятке — шум ≠ выбор разработчиков
Годовой отчёт (State of AI Report) фиксирует более долгие сдвиги:
| Тренд | Начало 2025 | Конец 2025 | Смысл |
|---|---|---|---|
| Доля open-source токенов | ~15% | ~30% | Open source — прод, не эксперимент |
| Доля coding-запросов | ~11% | >50% | Разработчики — главная аудитория, сравнивают цены |
| Макс. доля одной OS-модели | DeepSeek >50% | ни одна >25% | Трафик распределён, монополии нет |
| Доля Anthropic в coding | долго >60% | нояб. 2025 впервые <60% | Даже «лучший» теряет долю |
Вывод: пользователи не лояльны бренду модели, а лучшему сочетанию цены, латентности и задачи здесь и сейчас. Если бы ров был реальным, OpenRouter не существовал бы — никому не нужно было бы переключаться.
Данные 2: цена токена упала в 600 раз за шесть лет — ров масштаба опустошён
Второй отраслевой нарратив: обучение стоит миллиарды; только облачные гиганты это амортизируют — API создаёт защитный эффект масштаба. Цены говорят обратное:
| Дата | Эталонная модель | Input ($/M токенов) | К базе GPT-3 | Эквивалентная способность |
|---|---|---|---|---|
| Июнь 2020 | API GPT-3 | $60.00 | 1× (база) | Единственный коммерческий API ~MMLU 42 |
| Март 2023 | GPT-4 | $30.00 | 0.5× | MMLU ~83, цена пополам |
| Середина 2024 | GPT-4o | $5.00 | 0.08× | Мультимодальный, ещё ÷6 |
| Февр. 2025 | Gemini 2.0 Flash | $0.10 | 0.0017× | Часто выше GPT-4 в bench, 1/600 цены GPT-3 |
| Апр. 2026 | GPT-5.5 | $2.25 | 0.04× | Flagship reasoning, лишь 4 % от GPT-3 |
| 2026 (open-source API) | DeepSeek V4 Flash | $0.098 | 0.0016× | #2 недели OpenRouter, стандарт для dev |
| 2024 (open source) | Llama 3.2 3B (Together.ai) | $0.06 | 0.001× | MMLU уровня GPT-3, цена 1000× ниже |
Источники: a16z «LLMflation» (2024), трекинг Epoch AI, arXiv «Tiered Super-Moore's Law» (2026), тарифы OpenRouter. Падение при равной способности сильнее номинальной цены.
Исследования называют это «Tiered Super-Moore's Law»: период полураспада цен economy-моделей 1,10 года, mid-tier 1,55 года — быстрее классического закона Мура (2 года). От GPT-3 ($60/M) до Gemini Flash ($0,10/M): ~600× номинально; по паритету benchmark — ещё больше.
a16z: для одного и того же MMLU стоимость inference падает ~10× в год — быстрее, чем compute в эпоху PC или пропускная способность. Ров масштаба строился на высоких marginal cost; когда цена падает на порядок каждые 12–18 месяцев, «масштаб» перестаёт быть барьером.
Одна задача, разные маршруты: таблица цен
Типичная agent-нагрузка: 2 000 input + 800 output токенов на запрос (code review / doc Q&A). Стоимость одного вызова по тарифам OpenRouter (июнь 2026):
| Маршрут | Модель | Input $/M | Output $/M | Стоимость / вызов | К самому дешёвому |
|---|---|---|---|---|---|
| Локальный Ollama (Mac-узел) | Qwen2.5-7B | $0 | $0 | $0 | База |
| OpenRouter | DeepSeek V4 Flash | $0.098 | $0.196 | $0.00035 | — |
| OpenRouter | Gemini 3 Flash Preview | $0.15 | $0.60 | $0.00078 | 2.2× |
| OpenRouter | Claude Sonnet 4.6 | $3.00 | $15.00 | $0.018 | 51× |
| OpenRouter | Claude Opus 4.8 | $15.00 | $75.00 | $0.090 | 257× |
| Прямой API Anthropic | Claude Sonnet 4.6 | $3.00 | $15.00 | $0.018 | 51× |
Стоимость/вызов = 2 000 × input + 800 × output. OpenRouter: openrouter.ai/models; Anthropic для сравнения. Локальная строка — marginal cost без аренды машины.
Один code review через Claude Sonnet стоит в 51 раз дороже, чем через DeepSeek V4 Flash. Разработчики не «лояльны бренду» — они сравнивают цены в реальном времени, отсюда DeepSeek и MiniMax на вершине недельных charts.
Данные 3: месячный счёт — cloud API vs локальный Mac-узел
Unit-цены — половина картины. Главный вопрос команды: сколько стоит мой месячный объём? Оценка TCO для типичных профилей (input:output = 5:2, как выше):
| Токенов / мес | Эквив. (~2 800 токенов/вызов) | Claude Sonnet 4.6 | DeepSeek V4 Flash | Аренда Mac Mini M4 16GB | Дешевле всего |
|---|---|---|---|---|---|
| 10M | ~3 600 вызовов/мес (side project) | ~$64 | ~$1.3 | $102.9 фикс | Cloud DeepSeek |
| 50M | ~18 000 вызовов/мес (внутренний tool малой команды) | ~$321 | ~$6.3 | $102.9 фикс | Локально vs Claude; DeepSeek ещё дешевле |
| 200M | ~71 000 вызовов/мес (agent-пилот на 8 человек) | ~$1,286 | ~$25 | $102.9 фикс | Локально vs Claude (−92 %) |
| 500M | ~179 000 вызовов/мес (CI review + RAG) | ~$3,214 | ~$63 | $102.9 фикс | Локально vs Claude (−97 %) |
| 800M+ | ~286 000 вызовов/мес (high-frequency batch) | ~$5,143+ | ~$100+ | $102.9 фикс | Локально обходит unit-цену DeepSeek |
| 2B | ~714 000 вызовов/мес (24/7 agent pipeline) | ~$12,857 | ~$250 | $102.9 (или 24GB $202.9) | Локально (−59–99 %) |
Формула: вызов = 2 000 × input + 800 × output; месячный объём масштабируется линейно. Cloud — OpenRouter; локально Macstripe M4 16GB $102.9/мес (тарифы, июнь 2026).
Как читать таблицу:
- Vs Claude Sonnet: с ~15–20M токенов/мес фиксированный локальный узел выгоднее — при 200M экономия 92 %
- Vs DeepSeek Flash: по unit-цене локально выигрывает с ~800M токенов/мес — но локально даёт без rate limit, данные на узле, фиксированную версию; CI batch часто мигрирует раньше
- Гибрид — прагматично: в нашем полевом тесте на 8 человек cloud API $300/мес → $50/мес (−83 %) — механические задачи локально, тяжёлый reasoning в облаке
Не только деньги: жёсткие метрики
Сам факт OpenRouter ставит под сомнение «только cloud»: если можно маршрутизировать 300+ моделей, почему не свой узел?
| Измерение | Прямой API Claude | Маршрутизация OpenRouter | Локальный Mac + Ollama |
|---|---|---|---|
| Месячная стоимость (200M токенов) | ~$1,286 | ~$1,286 (та же цена) + наценка маршрутизации | $102.9 фикс |
| Rate limit (Tier 1 типично) | ~50 RPM / 40K TPM | Upstream + платформа, двойной потолок | Без лимитов (выделенный compute) |
| TTFT (time to first token) | ~0,8–2,5 с (с сетью) | ~1,0–3,0 с (доп. hop) | ~0,3–1,8 с (LAN) |
| Устойчивый throughput (7B 4-bit) | По квоте, пики ограничены | По квоте, пики ограничены | ~38–51 tok/s эксклюзивно |
| Путь данных | Prompt → серверы Anthropic | Prompt → OpenRouter → upstream | Prompt не покидает узел |
| Смена модели | SDK / ключи / код | Меняете имя model | То же (OpenAI-compatible) |
| Фиксация версии | Вендор обновляет когда угодно | То же | Веса под вашим контролем |
| Лучше для | Сильнейший reasoning, сложные agents | Multi-model сравнение, быстрые эксперименты | Batch, чувствительные данные, CI review |
TTFT / tok/s: гид по локальным LLM на M4 Macstripe; rate limits — документация Anthropic Tier 1 (зависит от аккаунта).
Сигнал оценки в 1,3 млрд: мульти-провайдерная маршрутизация — будущее, и ваш inference-узел должен быть одним из «провайдеров». Не «или-или», а слои по чувствительности данных и сложности задачи.
Три лжи — одна сводная таблица
Всё в одном месте — для обсуждения с командой или руководством:
| Отраслевой нарратив (ложь) | Что говорят данные | Для разработчиков |
|---|---|---|
| «Наша модель незаменима» | Лидер менялся 3× за 6 мес.; GPT-5.5 вне Top 10; ни одна OS >25 % (было >50 %) | Нет модели «обязательной к привязке» — переключение норма |
| «Масштаб API = ров» | Цена токена ~600× за 6 лет; полураспад economy ~1,1 года | Pay-per-use непредсказуем; узел с фикс. cost стабильнее |
| «Inference только в облаке» | 200M токенов/мес: Claude $1 286 vs локально $102,9 (−92 %); гибрид 8 чел. −83 % API | Локальный узел — легитимное звено маршрутизации, не запасной вариант |
| «OpenRouter — мелкий инструмент» | Оценка $1,3B; 1 500 трлн токенов/год; 20–40 % run rate OpenAI | Multi-model routing — инфраструктура; проектируйте сейчас |
После пробуждения: бизнес-логика, которую подтверждает OpenRouter
С тремя ложами на фоне оценка становится понятной:
Отрасль расслаивается: способности модели, inference compute, доступ к API и data pipeline годами продавали bundle'ом — теперь у каждого слоя свой игрок и цена.
OpenRouter занимает слой «агрегация API-доступа». Ценность не в магической технологии, а в реальной боли: вы не хотите поддерживать 300 SDK, 300 key store, 300 сверок биллинга и failover-логику. Кто централизует — получает умеренную премию; это и есть история на 1,3 млрд в одном предложении.
Минимальная model-agnostic реализация
С OpenAI-compatible SDK провайдер меняется одной строкой:
from openai import OpenAI
# 切换到 OpenRouter(路由到任意云端模型)
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-...",
)
# 切换到本地 Mac Mini 节点(Ollama)
client = OpenAI(
base_url="http://YOUR_MAC_NODE:11434/v1",
api_key="ollama",
)
# 切换到 Anthropic 直接 API
client = OpenAI(
base_url="https://api.anthropic.com/v1",
api_key="sk-ant-...",
)
# 三种切换,业务代码零改动:
response = client.chat.completions.create(
model="qwen2.5:32b", # 或 claude-sonnet-4-5, 或任意模型名
messages=[{"role": "user", "content": prompt}],
)
Смысл: источник inference — OpenRouter, любой cloud API или ваш Mac Mini. Выбор за вами.
Если слой маршрутизации стоит 1,3 млрд — сколько стоит «свой узел»?
OpenRouter решает vendor lock-in — но остаётся третьей стороной: данные на чужих серверах, латентность и uptime зависят от сети и upstream.
Свой inference-узел закрывает то, что OpenRouter не покрывает:
- Суверенитет данных: prompts и ответы без третьих лиц — код, пользовательские данные, внутренние документы на вашей машине
- Потолок расходов: фиксированная аренда, сколько угодно запросов без token-meter
- Нулевой rate limit: batch-jobs идут до конца без Tier-1 потолка
- Фиксация версии: обновления модели под контролем — регрессионные тесты остаются валидными
- Offline: самолёт, air-gap, регулируемый ЦОД
Unified Memory Apple Silicon делает Mac Mini M4 особенно уместным: нет границы CPU/GPU RAM, низкая латентность на малых и средних моделях, потребление — доля GPU-стойки.
| Mac Mini M4 | Unified memory | Рекомендуемая модель | Inference (4-bit) |
|---|---|---|---|
| M4 (базовый) | 16 GB | Qwen2.5-7B, Llama-3.1-8B | ~38–50 token/s |
| M4 Pro | 24 GB | Qwen2.5-14B, Phi-4 | ~30–42 token/s |
| M4 Pro (большая память) | 48 GB | Qwen2.5-32B, DeepSeek-R1-32B | ~18–28 token/s |
Для CI review, внутреннего doc Q&A и batch-обработки 40 tok/s более чем достаточно — эксклюзивно, без лимитов, без оплаты за токены.
На практике: подключить свой Mac к системе маршрутизации
Macstripe даёт выделенные Mac Mini M4 — по SSH полноценный macOS. Самый быстрый старт:
Шаг 1: запустить Ollama на Mac-узле
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取模型(以 Qwen2.5-7B 为例)
ollama pull qwen2.5:7b
# 启动 OpenAI 兼容 API,监听所有接口
OLLAMA_HOST=0.0.0.0 ollama serve
Шаг 2: простая логика маршрутизации в коде
По типу задачи, бюджету и чувствительности данных:
import os
from openai import OpenAI
def get_llm_client(mode: str = "auto"):
"""
mode="local" → 自己的 Mac Mini 节点(Ollama)
mode="router" → OpenRouter(路由到任意云端模型)
mode="auto" → 默认本地,本地不可用时降级到 OpenRouter
"""
if mode == "local":
return OpenAI(
base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
api_key="ollama",
), "qwen2.5:7b"
if mode == "router":
return OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"],
), "anthropic/claude-sonnet-4-5"
# auto 模式:先尝试本地节点
try:
client = OpenAI(
base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
api_key="ollama",
timeout=2.0,
)
client.models.list() # 健康检查
return client, "qwen2.5:7b"
except Exception:
return OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"],
), "anthropic/claude-sonnet-4-5"
mode="local"; тяжёлый reasoning → mode="router"; некритичные пути → mode="auto" с fallback. Это настоящая multi-provider архитектура.Итог: ложь развеяна — возможность у подготовленных разработчиков
Оценка OpenRouter в 1,3 млрд — сигнал эпохи: центр ценности индустрии смещается от «чья модель сильнее» к «кто даёт разработчикам самый эффективный доступ ко всем моделям».
Для вас это значит:
- Не ставьте на одного вендора моделей — model-agnostic архитектура с первого дня
- Локальный inference-узел — часть маршрутизации, а не «дешёвая копия cloud»
- Чувствительные данные локально, пики и эксперименты в облаке — разумное разделение
- Управляйте cost structure: предсказуемая нагрузка на фикс. узле, пики — pay-per-use в cloud
Три года внушали: «вы зависите от нас». OpenRouter отвечает 1,3 млрд: это была ложь — рынок уже платит за независимость от любого одного игрока.
Следующий вопрос: готова ли ваша inference-архитектура?
FAQ
Чем OpenRouter отличается от прямого вызова API модели? Единый формат API, ключ и биллинг для 300+ моделей. Минус: данные проходят через OpenRouter — для нечувствительных workloads.
Локальный inference и OpenRouter вместе? Да. Рекомендуется: чувствительное локально, остальное через OpenRouter к подходящей cloud-модели — OpenAI-compatible интерфейс, бесшовное переключение.
Хватит ли Qwen2.5-7B на Mac Mini M4 для продакшена? Для code review, summary доков и генерации тестов с чётким input/output — да. Сложный reasoning → 32B или cloud routing.
Быстро протестировать локально? На главной Macstripe выберите Mac Mini M4, SSH за ~5 минут, установите Ollama как выше — приватный inference-узел за ~10 минут.