Абстрактная схема сетевых маршрутизаторов — OpenRouter между API больших языковых моделей

Компания без собственных моделей — и оценка в 1,3 миллиарда долларов

В 2026 году OpenRouter закрыл новый раунд с оценкой 1,3 млрд долларов. Компания не обучает модели, не владеет GPU-кластерами и не публикует «эксклюзивных исследований». Она делает одно: маршрутизирует запросы разработчиков к API Claude, GPT-4o, Gemini, Llama, Qwen и более чем 300 других моделей — и берёт комиссию за транзит.

Если вы слышите об этом впервые, кажется странным: почему «посредник» стоит столько? Кто давно в индустрии LLM, чувствует сигнал за этой оценкой: центральный нарратив вендоров начинает рассыпаться.

Тезис статьи: оценка OpenRouter в 1,3 млрд — голос против главной лжи отрасли: сама модель — это ров, и пользователи останутся верны одному API. Все выводы ниже опираются на проверяемые данные; источники — в сносках к таблицам.

Сначала цифры: почему OpenRouter стоит 1,3 миллиарда

Рынок не платит 1,3 млрд за историю — он покупает верифицируемую кривую роста. После Series A (июнь 2025) оценка ~547 млн $ (PitchBook / TechCrunch); после Series B (май 2026, 113 млн $ инвестиций) ~1,3 млрд $×2,4 за 11 месяцев. Лид: CapitalG (Google). Соинвесторы: NVIDIA NVentures, Snowflake, Databricks, MongoDB и др. Ставка на слой мульти-модельной маршрутизации, а не на одну модель.

Показатель Июнь 2025 (Series A) Май–июнь 2026 (Series B) Изменение
Post-money оценка ~$547M ~$1.3B +2.4×
Зарегистрированные разработчики 2,5 млн+ 8 млн+ +3.2×
Годовой объём токенов (annualized) ~100 трлн / год ~1 500 трлн / год +15×
Недельный трафик токенов ~5 трлн / нед ~25 трлн / нед +5× (за 6 мес.)
Размер команды ~50 человек ~20 трлн токенов / чел. / год
Подключённые модели Сотни 400+ Рост продолжается

Источники: анонс Series B OpenRouter, TechCrunch, Menlo Ventures (май–июнь 2026).

Для масштаба: Menlo Ventures оценивает, что OpenRouter уже обрабатывает 15–30 % token run rate Google, 20–40 % OpenAI и >50 % Azure Foundry — шлюз без собственных моделей перехватывает огромную долю inference-трафика. Если бы разработчики были «верны» одному API, такого объёма не было бы.

Данные 1: недельный рейтинг меняется каждый месяц — никто не «незаменим»

Три года каждый вендор рассказывает одно: наша модель лидирует; качество создаёт лояльность — отсюда ров. Рейтинги трафика в реальном времени OpenRouter (миллионы реальных токенов разработчиков, ежедневное обновление) говорят иное:

Нед. ранг Модель Вендор Токенов / нед Нед. к нед.
1 MiniMax M3 MiniMax (Китай) 4,64 трлн +44%
2 DeepSeek V4 Flash DeepSeek (Китай) 4,41 трлн +4%
3 Hy3 Preview Tencent (Китай) 3,84 трлн +9%
4 MiMo-V2.5 Xiaomi (Китай) 3,66 трлн +34%
5 Claude Opus 4.7 Anthropic (США) 2,69 трлн +67%
6 Owl Alpha OpenRouter (своя) 2,45 трлн +22%
8 Claude Sonnet 4.6 Anthropic (США) 1,88 трлн +4%
GPT-5.5 OpenAI (США) вне Top 10

Источник: OpenRouter LLM Rankings, июнь 2026. WoW — поле платформы.

Три вывода сразу:

  • Лидер меняется каждые несколько недель: MiniMax M3 +44 % за неделю — при настоящей брендовой лояльности рейтинг не был бы таким волатильным
  • Доминируют китайские модели: все четыре места Top 4 — миф «только US closed-source готов к продакшену» не выдерживает проверки
  • OpenAI вне Top 10: GPT-5.5 громко анонсировали, но в реальном объёме OpenRouter его нет в десятке — шум ≠ выбор разработчиков

Годовой отчёт (State of AI Report) фиксирует более долгие сдвиги:

Тренд Начало 2025 Конец 2025 Смысл
Доля open-source токенов ~15% ~30% Open source — прод, не эксперимент
Доля coding-запросов ~11% >50% Разработчики — главная аудитория, сравнивают цены
Макс. доля одной OS-модели DeepSeek >50% ни одна >25% Трафик распределён, монополии нет
Доля Anthropic в coding долго >60% нояб. 2025 впервые <60% Даже «лучший» теряет долю

Вывод: пользователи не лояльны бренду модели, а лучшему сочетанию цены, латентности и задачи здесь и сейчас. Если бы ров был реальным, OpenRouter не существовал бы — никому не нужно было бы переключаться.

Данные 2: цена токена упала в 600 раз за шесть лет — ров масштаба опустошён

Второй отраслевой нарратив: обучение стоит миллиарды; только облачные гиганты это амортизируют — API создаёт защитный эффект масштаба. Цены говорят обратное:

Дата Эталонная модель Input ($/M токенов) К базе GPT-3 Эквивалентная способность
Июнь 2020 API GPT-3 $60.00 1× (база) Единственный коммерческий API ~MMLU 42
Март 2023 GPT-4 $30.00 0.5× MMLU ~83, цена пополам
Середина 2024 GPT-4o $5.00 0.08× Мультимодальный, ещё ÷6
Февр. 2025 Gemini 2.0 Flash $0.10 0.0017× Часто выше GPT-4 в bench, 1/600 цены GPT-3
Апр. 2026 GPT-5.5 $2.25 0.04× Flagship reasoning, лишь 4 % от GPT-3
2026 (open-source API) DeepSeek V4 Flash $0.098 0.0016× #2 недели OpenRouter, стандарт для dev
2024 (open source) Llama 3.2 3B (Together.ai) $0.06 0.001× MMLU уровня GPT-3, цена 1000× ниже

Источники: a16z «LLMflation» (2024), трекинг Epoch AI, arXiv «Tiered Super-Moore's Law» (2026), тарифы OpenRouter. Падение при равной способности сильнее номинальной цены.

Исследования называют это «Tiered Super-Moore's Law»: период полураспада цен economy-моделей 1,10 года, mid-tier 1,55 года — быстрее классического закона Мура (2 года). От GPT-3 ($60/M) до Gemini Flash ($0,10/M): ~600× номинально; по паритету benchmark — ещё больше.

a16z: для одного и того же MMLU стоимость inference падает ~10× в год — быстрее, чем compute в эпоху PC или пропускная способность. Ров масштаба строился на высоких marginal cost; когда цена падает на порядок каждые 12–18 месяцев, «масштаб» перестаёт быть барьером.

Одна задача, разные маршруты: таблица цен

Типичная agent-нагрузка: 2 000 input + 800 output токенов на запрос (code review / doc Q&A). Стоимость одного вызова по тарифам OpenRouter (июнь 2026):

Маршрут Модель Input $/M Output $/M Стоимость / вызов К самому дешёвому
Локальный Ollama (Mac-узел) Qwen2.5-7B $0 $0 $0 База
OpenRouter DeepSeek V4 Flash $0.098 $0.196 $0.00035
OpenRouter Gemini 3 Flash Preview $0.15 $0.60 $0.00078 2.2×
OpenRouter Claude Sonnet 4.6 $3.00 $15.00 $0.018 51×
OpenRouter Claude Opus 4.8 $15.00 $75.00 $0.090 257×
Прямой API Anthropic Claude Sonnet 4.6 $3.00 $15.00 $0.018 51×

Стоимость/вызов = 2 000 × input + 800 × output. OpenRouter: openrouter.ai/models; Anthropic для сравнения. Локальная строка — marginal cost без аренды машины.

Один code review через Claude Sonnet стоит в 51 раз дороже, чем через DeepSeek V4 Flash. Разработчики не «лояльны бренду» — они сравнивают цены в реальном времени, отсюда DeepSeek и MiniMax на вершине недельных charts.

Данные 3: месячный счёт — cloud API vs локальный Mac-узел

Unit-цены — половина картины. Главный вопрос команды: сколько стоит мой месячный объём? Оценка TCO для типичных профилей (input:output = 5:2, как выше):

Токенов / мес Эквив. (~2 800 токенов/вызов) Claude Sonnet 4.6 DeepSeek V4 Flash Аренда Mac Mini M4 16GB Дешевле всего
10M ~3 600 вызовов/мес (side project) ~$64 ~$1.3 $102.9 фикс Cloud DeepSeek
50M ~18 000 вызовов/мес (внутренний tool малой команды) ~$321 ~$6.3 $102.9 фикс Локально vs Claude; DeepSeek ещё дешевле
200M ~71 000 вызовов/мес (agent-пилот на 8 человек) ~$1,286 ~$25 $102.9 фикс Локально vs Claude (−92 %)
500M ~179 000 вызовов/мес (CI review + RAG) ~$3,214 ~$63 $102.9 фикс Локально vs Claude (−97 %)
800M+ ~286 000 вызовов/мес (high-frequency batch) ~$5,143+ ~$100+ $102.9 фикс Локально обходит unit-цену DeepSeek
2B ~714 000 вызовов/мес (24/7 agent pipeline) ~$12,857 ~$250 $102.9 (или 24GB $202.9) Локально (−59–99 %)

Формула: вызов = 2 000 × input + 800 × output; месячный объём масштабируется линейно. Cloud — OpenRouter; локально Macstripe M4 16GB $102.9/мес (тарифы, июнь 2026).

Как читать таблицу:

  • Vs Claude Sonnet: с ~15–20M токенов/мес фиксированный локальный узел выгоднее — при 200M экономия 92 %
  • Vs DeepSeek Flash: по unit-цене локально выигрывает с ~800M токенов/мес — но локально даёт без rate limit, данные на узле, фиксированную версию; CI batch часто мигрирует раньше
  • Гибрид — прагматично: в нашем полевом тесте на 8 человек cloud API $300/мес → $50/мес (−83 %) — механические задачи локально, тяжёлый reasoning в облаке

Не только деньги: жёсткие метрики

Сам факт OpenRouter ставит под сомнение «только cloud»: если можно маршрутизировать 300+ моделей, почему не свой узел?

Измерение Прямой API Claude Маршрутизация OpenRouter Локальный Mac + Ollama
Месячная стоимость (200M токенов) ~$1,286 ~$1,286 (та же цена) + наценка маршрутизации $102.9 фикс
Rate limit (Tier 1 типично) ~50 RPM / 40K TPM Upstream + платформа, двойной потолок Без лимитов (выделенный compute)
TTFT (time to first token) ~0,8–2,5 с (с сетью) ~1,0–3,0 с (доп. hop) ~0,3–1,8 с (LAN)
Устойчивый throughput (7B 4-bit) По квоте, пики ограничены По квоте, пики ограничены ~38–51 tok/s эксклюзивно
Путь данных Prompt → серверы Anthropic Prompt → OpenRouter → upstream Prompt не покидает узел
Смена модели SDK / ключи / код Меняете имя model То же (OpenAI-compatible)
Фиксация версии Вендор обновляет когда угодно То же Веса под вашим контролем
Лучше для Сильнейший reasoning, сложные agents Multi-model сравнение, быстрые эксперименты Batch, чувствительные данные, CI review

TTFT / tok/s: гид по локальным LLM на M4 Macstripe; rate limits — документация Anthropic Tier 1 (зависит от аккаунта).

Сигнал оценки в 1,3 млрд: мульти-провайдерная маршрутизация — будущее, и ваш inference-узел должен быть одним из «провайдеров». Не «или-или», а слои по чувствительности данных и сложности задачи.

Три лжи — одна сводная таблица

Всё в одном месте — для обсуждения с командой или руководством:

Отраслевой нарратив (ложь) Что говорят данные Для разработчиков
«Наша модель незаменима» Лидер менялся 3× за 6 мес.; GPT-5.5 вне Top 10; ни одна OS >25 % (было >50 %) Нет модели «обязательной к привязке» — переключение норма
«Масштаб API = ров» Цена токена ~600× за 6 лет; полураспад economy ~1,1 года Pay-per-use непредсказуем; узел с фикс. cost стабильнее
«Inference только в облаке» 200M токенов/мес: Claude $1 286 vs локально $102,9 (−92 %); гибрид 8 чел. −83 % API Локальный узел — легитимное звено маршрутизации, не запасной вариант
«OpenRouter — мелкий инструмент» Оценка $1,3B; 1 500 трлн токенов/год; 20–40 % run rate OpenAI Multi-model routing — инфраструктура; проектируйте сейчас

После пробуждения: бизнес-логика, которую подтверждает OpenRouter

С тремя ложами на фоне оценка становится понятной:

Отрасль расслаивается: способности модели, inference compute, доступ к API и data pipeline годами продавали bundle'ом — теперь у каждого слоя свой игрок и цена.

OpenRouter занимает слой «агрегация API-доступа». Ценность не в магической технологии, а в реальной боли: вы не хотите поддерживать 300 SDK, 300 key store, 300 сверок биллинга и failover-логику. Кто централизует — получает умеренную премию; это и есть история на 1,3 млрд в одном предложении.

Для разработчиков: не ждите, пока вендор скажет, какую модель использовать. Стройте с первого дня model-agnostic архитектуру — inference как заменяемая инфраструктура, не часть доменной логики.

Минимальная model-agnostic реализация

С OpenAI-compatible SDK провайдер меняется одной строкой:

from openai import OpenAI

# 切换到 OpenRouter(路由到任意云端模型)
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-...",
)

# 切换到本地 Mac Mini 节点(Ollama)
client = OpenAI(
    base_url="http://YOUR_MAC_NODE:11434/v1",
    api_key="ollama",
)

# 切换到 Anthropic 直接 API
client = OpenAI(
    base_url="https://api.anthropic.com/v1",
    api_key="sk-ant-...",
)

# 三种切换,业务代码零改动:
response = client.chat.completions.create(
    model="qwen2.5:32b",  # 或 claude-sonnet-4-5, 或任意模型名
    messages=[{"role": "user", "content": prompt}],
)

Смысл: источник inference — OpenRouter, любой cloud API или ваш Mac Mini. Выбор за вами.

Если слой маршрутизации стоит 1,3 млрд — сколько стоит «свой узел»?

OpenRouter решает vendor lock-in — но остаётся третьей стороной: данные на чужих серверах, латентность и uptime зависят от сети и upstream.

Свой inference-узел закрывает то, что OpenRouter не покрывает:

  • Суверенитет данных: prompts и ответы без третьих лиц — код, пользовательские данные, внутренние документы на вашей машине
  • Потолок расходов: фиксированная аренда, сколько угодно запросов без token-meter
  • Нулевой rate limit: batch-jobs идут до конца без Tier-1 потолка
  • Фиксация версии: обновления модели под контролем — регрессионные тесты остаются валидными
  • Offline: самолёт, air-gap, регулируемый ЦОД

Unified Memory Apple Silicon делает Mac Mini M4 особенно уместным: нет границы CPU/GPU RAM, низкая латентность на малых и средних моделях, потребление — доля GPU-стойки.

Mac Mini M4 Unified memory Рекомендуемая модель Inference (4-bit)
M4 (базовый) 16 GB Qwen2.5-7B, Llama-3.1-8B ~38–50 token/s
M4 Pro 24 GB Qwen2.5-14B, Phi-4 ~30–42 token/s
M4 Pro (большая память) 48 GB Qwen2.5-32B, DeepSeek-R1-32B ~18–28 token/s

Для CI review, внутреннего doc Q&A и batch-обработки 40 tok/s более чем достаточно — эксклюзивно, без лимитов, без оплаты за токены.

На практике: подключить свой Mac к системе маршрутизации

Macstripe даёт выделенные Mac Mini M4 — по SSH полноценный macOS. Самый быстрый старт:

Шаг 1: запустить Ollama на Mac-узле

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型(以 Qwen2.5-7B 为例)
ollama pull qwen2.5:7b

# 启动 OpenAI 兼容 API,监听所有接口
OLLAMA_HOST=0.0.0.0 ollama serve

Шаг 2: простая логика маршрутизации в коде

По типу задачи, бюджету и чувствительности данных:

import os
from openai import OpenAI

def get_llm_client(mode: str = "auto"):
    """
    mode="local"   → 自己的 Mac Mini 节点(Ollama)
    mode="router"  → OpenRouter(路由到任意云端模型)
    mode="auto"    → 默认本地,本地不可用时降级到 OpenRouter
    """
    if mode == "local":
        return OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
        ), "qwen2.5:7b"

    if mode == "router":
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"

    # auto 模式:先尝试本地节点
    try:
        client = OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
            timeout=2.0,
        )
        client.models.list()  # 健康检查
        return client, "qwen2.5:7b"
    except Exception:
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"
Best practice: внутренний код и пользовательские данные → mode="local"; тяжёлый reasoning → mode="router"; некритичные пути → mode="auto" с fallback. Это настоящая multi-provider архитектура.

Итог: ложь развеяна — возможность у подготовленных разработчиков

Оценка OpenRouter в 1,3 млрд — сигнал эпохи: центр ценности индустрии смещается от «чья модель сильнее» к «кто даёт разработчикам самый эффективный доступ ко всем моделям».

Для вас это значит:

  • Не ставьте на одного вендора моделей — model-agnostic архитектура с первого дня
  • Локальный inference-узел — часть маршрутизации, а не «дешёвая копия cloud»
  • Чувствительные данные локально, пики и эксперименты в облаке — разумное разделение
  • Управляйте cost structure: предсказуемая нагрузка на фикс. узле, пики — pay-per-use в cloud

Три года внушали: «вы зависите от нас». OpenRouter отвечает 1,3 млрд: это была ложь — рынок уже платит за независимость от любого одного игрока.

Следующий вопрос: готова ли ваша inference-архитектура?

FAQ

Чем OpenRouter отличается от прямого вызова API модели? Единый формат API, ключ и биллинг для 300+ моделей. Минус: данные проходят через OpenRouter — для нечувствительных workloads.

Локальный inference и OpenRouter вместе? Да. Рекомендуется: чувствительное локально, остальное через OpenRouter к подходящей cloud-модели — OpenAI-compatible интерфейс, бесшовное переключение.

Хватит ли Qwen2.5-7B на Mac Mini M4 для продакшена? Для code review, summary доков и генерации тестов с чётким input/output — да. Сложный reasoning → 32B или cloud routing.

Быстро протестировать локально? На главной Macstripe выберите Mac Mini M4, SSH за ~5 минут, установите Ollama как выше — приватный inference-узел за ~10 минут.