网络路由节点示意图,象征 OpenRouter 在多个大模型 API 之间扮演的智能路由角色

一个不做模型的公司,凭什么值 13 亿美元

2026年,OpenRouter 完成新一轮融资,估值达到 13 亿美元(约 94 亿人民币)。这家公司自己不训练任何模型,不持有任何 GPU 集群,不做任何"独家研究"——它只做一件事:把来自开发者的请求,路由到 Claude、GPT-4o、Gemini、Llama、Qwen 等 300 多个模型的 API 上,然后统一收取转发费用。

如果你头一次听说这件事,可能会觉得奇怪:一个"二道贩子"凭什么值这么多钱?但如果你在 AI 行业待过一段时间,你应该能感受到这个估值背后一个令人不安的信号——大模型公司苦心营造的核心叙事,正在悄悄崩塌。

本文的核心论点:OpenRouter 的 13 亿估值,是市场对"大模型行业最大谎言"投的一张反对票——这个谎言就是:模型本身是护城河,用户会忠于某一家的 API。下文所有判断都尽量用可核对的数据支撑,来源见各表脚注。

先用数据说话:OpenRouter 凭什么值 13 亿

资本市场不会为"故事"付 13 亿——它买的是可验证的增长曲线。OpenRouter 在 2025 年 6 月 Series A 后估值约 5.47 亿美元(PitchBook / TechCrunch),2026 年 5 月 Series B 融资 1.13 亿美元后估值约 13 亿美元——11 个月内估值翻 2.4 倍。领投方是 Google 旗下 CapitalG,跟投包括 NVIDIA NVentures、Snowflake、Databricks、MongoDB 等——它们投的不是某个模型,而是多模型路由层

指标 2025 年 6 月(Series A) 2026 年 5–6 月(Series B) 变化
投后估值 约 $547M 约 $1.3B +2.4×
注册开发者 250 万+ 800 万+ +3.2×
年化 token 处理量 约 100 万亿 / 年 约 1,500 万亿 / 年 +15×
周 token 流量 约 5 万亿 / 周 约 25 万亿 / 周 +5×(6 个月内)
团队规模 约 50 人 人均约 20 万亿 token / 年
接入模型数 数百个 400+ 个 持续扩张

数据来源:OpenRouter Series B 公告TechCrunchMenlo Ventures(2026 年 5–6 月)。

更关键的是 token 规模的参照系:Menlo Ventures 估算 OpenRouter 年化处理量已达 Google token run rate 的 15–30%、OpenAI 的 20–40%、Azure Foundry 的 >50%——一个不做模型的网关,已经吃掉了相当大的推理流量入口。如果开发者真的"忠于"某一家 API,这个体量根本不可能存在。

数据一:模型流量排名每月都在变——没有"离不开"这回事

过去三年,每一家大模型公司都在讲同一个故事:我们的模型能力领先,用户会因为模型质量产生强粘性,从而形成护城河。但 OpenRouter 的实时流量排名(基于数百万开发者的真实 token 用量,每日更新)讲的是另一个版本:

周排名 模型 厂商 周 token 量 周环比
1 MiniMax M3 MiniMax(中国) 4.64 万亿 +44%
2 DeepSeek V4 Flash DeepSeek(中国) 4.41 万亿 +4%
3 Hy3 Preview 腾讯(中国) 3.84 万亿 +9%
4 MiMo-V2.5 小米(中国) 3.66 万亿 +34%
5 Claude Opus 4.7 Anthropic(美国) 2.69 万亿 +67%
6 Owl Alpha OpenRouter 自研 2.45 万亿 +22%
8 Claude Sonnet 4.6 Anthropic(美国) 1.88 万亿 +4%
GPT-5.5 OpenAI(美国) 未进 Top 10

数据来源:OpenRouter LLM Rankings,抓取于 2026 年 6 月。周环比为平台公示字段。

读这张表,有三件事立刻跳出来:

  • 榜首每几周就换人:MiniMax M3 一周暴涨 44% 登顶——如果用户真的"忠于品牌",排名不会这么 volatile
  • 中国模型占主导:周榜 Top 4 里有 4 个中国厂商模型,合计吞掉大部分流量——"只有美国闭源模型能商用"的叙事站不住
  • OpenAI 不在前十:GPT-5.5 发布后市场声量很大,但 OpenRouter 真实用量里连周榜前十都没进——声量 ≠ 开发者选择

OpenRouter 年度趋势报告还记录了更长期的结构性变化(State of AI Report):

趋势指标 2025 年初 2025 年末 含义
开源模型 token 占比 约 15% 约 30% 开源不是试验品,已是生产流量
编程类查询占比 约 11% 超 50% 开发者是最大用户群,且高度比价
单一开源模型最高份额 DeepSeek 曾 >50% 无模型 >25% 流量快速分散,无人垄断
Anthropic 编程任务份额 长期 >60% 2025 年 11 月首次跌破 60% 即便"最强"也在被蚕食

这些行为共同指向一个结论:用户忠于的不是某个模型品牌,而是"当下性价比最高、响应最快、最符合当前任务"的推理能力。如果模型真的有不可替代的护城河,OpenRouter 就根本不会存在——因为没有人需要切换。

数据二:Token 价格在 6 年里跌了 600 倍——规模护城河被掏空

大模型公司的第二个核心叙事是:训练成本极高,只有超大规模才能摊薄,所以 API 会形成规模效应护城河。但价格数据给出了相反的答案:

时间节点 代表模型 输入价格($/百万 token) 相对 GPT-3 基准 同等能力备注
2020 年 6 月 GPT-3 API $60.00 1×(基准) 当时唯一可达 MMLU 42 的商用 API
2023 年 3 月 GPT-4 $30.00 0.5× MMLU ~83,能力跃升但价腰斩
2024 年中 GPT-4o $5.00 0.08× 多模态,价格再砍 6 倍
2025 年 2 月 Gemini 2.0 Flash $0.10 0.0017× 多数基准超 GPT-4,价仅为 1/600
2026 年 4 月 GPT-5.5 $2.25 0.04× 旗舰推理,仍仅为 GPT-3 的 4%
2026 年(开源 API) DeepSeek V4 Flash $0.098 0.0016× OpenRouter 周榜 #2,编程场景主流选择
2024 年(开源) Llama 3.2 3B(Together.ai) $0.06 0.001× 达到 GPT-3 同级 MMLU,价跌 1000×

数据来源:a16z《LLMflation》(2024)、Epoch AI 价格追踪、arXiv《Tiered Super-Moore's Law》(2026)、OpenRouter 定价页。同等能力价格降幅高于名义标价降幅。

学术研究把这个趋势叫做 "Tiered Super-Moore's Law"(分层超摩尔定律):经济型模型价格半衰期仅 1.10 年,中端模型 1.55 年——均快于传统摩尔定律的 2 年翻倍周期。经济型 token 从 GPT-3 的 $60/M 到 Gemini Flash 的 $0.10/M,名义跌幅约 600 倍;按同等 benchmark 分数折算,跌幅更大。

a16z 的跟踪还显示:达到同一 MMLU 分数的模型,推理成本以约 每年 10 倍的速度下降——快于 PC 时代的算力降价,也快于互联网带宽降价。规模效应的护城河建立在高成本基础上;当单价每 12–18 个月跌一个数量级,"规模"本身不再是壁垒。

同任务、不同路由:一张价目表看清差距

假设一个典型 Agent 工作负载:每次请求 2,000 input + 800 output token(代码审查 / 文档问答常见比例),以下为 OpenRouter 公示价格(2026 年 6 月)下的单次调用成本

路由目标 模型 输入 $/M 输出 $/M 单次成本 相对最便宜
本地 Ollama(Mac 节点) Qwen2.5-7B $0 $0 $0 基准
OpenRouter DeepSeek V4 Flash $0.098 $0.196 $0.00035
OpenRouter Gemini 3 Flash Preview $0.15 $0.60 $0.00078 2.2×
OpenRouter Claude Sonnet 4.6 $3.00 $15.00 $0.018 51×
OpenRouter Claude Opus 4.8 $15.00 $75.00 $0.090 257×
直连 Anthropic API Claude Sonnet 4.6 $3.00 $15.00 $0.018 51×

单次成本 = 2,000 × 输入单价 + 800 × 输出单价。OpenRouter 价格来源:openrouter.ai/models;Anthropic 官网定价对照。本地行仅计 token 边际成本,不含机器租金。

同一次代码审查,走 Claude Sonnet 比走 DeepSeek V4 Flash 贵 51 倍;比本地 7B 则是一个数量级以上的差距。开发者不是"忠于品牌",是在实时比价——这正是 OpenRouter 周榜里 DeepSeek、MiniMax 霸榜的原因。

数据三:月账单对照——云端 API vs 本地 Mac 节点,谁更划算?

价格表只说明单价。团队真正关心的是:我这个月跑多少量,花多少钱?下面按三种典型月用量做 TCO 估算(假设 input:output = 5:2,与上文 Agent 场景一致):

月 token 总量 约等于(2,800 token/次) Claude Sonnet 4.6 DeepSeek V4 Flash Mac Mini M4 16GB 租用 最省方案
10M 约 3,600 次/月(个人 side project) $64 $1.3 $102.9 固定 云端 DeepSeek
50M 约 1.8 万次/月(小团队内部工具) $321 $6.3 $102.9 固定 本地 vs Claude;DeepSeek 仍更便宜
200M 约 7.1 万次/月(8 人 Agent 试点) $1,286 $25 $102.9 固定 本地 vs Claude(省 92%)
500M 约 17.9 万次/月(CI 审查 + RAG) $3,214 $63 $102.9 固定 本地 vs Claude(省 97%)
800M+ 约 28.6 万次/月(高频批量) 约 $5,143+ $100+ $102.9 固定 本地开始优于 DeepSeek 单价
2B 约 71 万次/月(全天候 Agent 流水线) $12,857 $250 $102.9(或 24GB $202.9) 本地(省 59–99%)

计算公式:单次 = 2,000 × 输入单价 + 800 × 输出单价;月总量按等比例放大。云端价来自 OpenRouter;本地按 Macstripe M4 16GB 包月 $102.9定价页,2026 年 6 月)。

怎么读这张表:

  • 对标 Claude Sonnet:月用量超过约 15–20M token,本地固定成本就开始划算——200M token 场景可省 92%
  • 对标 DeepSeek Flash:纯单价要到 800M token/月 左右本地才更便宜——但本地同时白送不限速、数据不出节点、版本锁定,批量 CI 场景往往提前切换
  • 混合路由最务实:Macstripe 站内 8 人团队实测,云 API 从 $300/月 → $50/月(−83%),靠的是机械性任务走本地、复杂推理走云端——不是非此即彼

不只是钱:本地节点在硬指标上的对比

OpenRouter 的存在本身就是对"只能走云端"的质疑:如果你可以路由到 300 多个模型,为什么不能路由到自己部署的模型?

对比维度 直连 Claude API OpenRouter 路由 本地 Mac + Ollama
月成本(200M token) $1,286 约 $1,286(同价)+ 路由溢价 $102.9 固定
Rate Limit(Tier 1 典型) 约 50 RPM / 40K TPM 受上游 + 平台双层限制 无限制(独享算力)
首 token 延迟(TTFT) 约 0.8–2.5s(含网络) 约 1.0–3.0s(多一跳) 0.3–1.8s(LAN 内网)
持续吞吐(7B 4-bit) 按配额,峰值受限 按配额,峰值受限 38–51 tok/s 独享
数据路径 Prompt → Anthropic 服务器 Prompt → OpenRouter → 上游 Prompt 不出节点
模型切换成本 换 SDK / 换密钥 / 改代码 改 model 名即可 同左(OpenAI 兼容接口)
版本锁定 供应商随时更新模型 同左 模型权重由你控制
适合场景 最强推理、复杂 Agent 多模型比价、快速试验 批量任务、敏感数据、CI 审查

TTFT / tok/s 参考 Macstripe 站内 M4 本地大模型实测;Rate Limit 参考 Anthropic Tier 1 公开文档(随账户等级变化)。

OpenRouter 的 13 亿估值告诉我们:多提供商路由是未来,而你自己的推理节点,理应是其中一个"提供商"。合理架构不是三选一,而是按数据敏感度与任务难度分层路由。

三个谎言,一张总表

把上文数据收拢成一张对照表,方便你拿去跟团队或老板讨论:

行业叙事(谎言) 数据怎么说 对开发者意味着什么
「我们的模型无可替代」 周榜榜首 6 个月换 3 次;GPT-5.5 未进 Top 10;单一开源模型份额从 >50% 降至 <25% 没有"必须绑定"的模型,随时切换是常态
「API 规模即护城河」 Token 价 6 年跌 600×;经济型模型价格半衰期 1.1 年 按量付费的长期成本不可预测,固定成本节点更稳
「推理只能走云端」 200M token/月:Claude $1,286 vs 本地 $102.9(省 92%);8 人团队混合路由 API 账单 −83% 本地节点是路由体系的合法一环,不是备胎
「OpenRouter 只是小工具」 估值 $1.3B;年化 1,500 万亿 token;占 OpenAI run rate 20–40% 多模型路由已是基础设施层,值得现在就开始架构

谎言破了之后:OpenRouter 验证的商业逻辑

理解了这三个谎言,OpenRouter 的估值逻辑就清晰了:

大模型行业正在经历一次结构性分层。原来被捆绑在一起销售的东西——模型能力、推理算力、API 接入、数据处理流程——正在被解绑。每一层都会有专业公司来做,每一层都会有独立的定价。

OpenRouter 占据的是"API 接入聚合"这一层。它的价值不是技术有多复杂,而是它解决了一个真实的用户痛点:你不想为 300 个模型维护 300 套 SDK、密钥管理、计费对账和故障切换逻辑。有人帮你做,你愿意付一点溢价——这是 13 亿美元背后最朴素的商业逻辑。

对开发者的启示:不要等大模型公司来告诉你"应该用哪个模型"。应该从一开始就构建模型无关(model-agnostic)的架构——把推理层当作可替换的基础设施,而不是业务逻辑的一部分。

模型无关架构的最小实现

用 OpenAI SDK 的兼容接口可以一行代码切换提供商:

from openai import OpenAI

# 切换到 OpenRouter(路由到任意云端模型)
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-...",
)

# 切换到本地 Mac Mini 节点(Ollama)
client = OpenAI(
    base_url="http://YOUR_MAC_NODE:11434/v1",
    api_key="ollama",
)

# 切换到 Anthropic 直接 API
client = OpenAI(
    base_url="https://api.anthropic.com/v1",
    api_key="sk-ant-...",
)

# 三种切换,业务代码零改动:
response = client.chat.completions.create(
    model="qwen2.5:32b",  # 或 claude-sonnet-4-5, 或任意模型名
    messages=[{"role": "user", "content": prompt}],
)

这段代码的含义是:你的推理来源,可以是 OpenRouter,可以是任何一家云端 API,也可以是你自己的 Mac Mini 节点。选择权在你。

如果路由层值 13 亿,"自己掌控推理节点"值什么

OpenRouter 解决的是"我不想被一家绑定"的问题,但它本身仍然是一个第三方——你的数据还是经过了别人的服务器,你仍然受到网络延迟和上游 API 可用性的影响。

把自己的推理节点加入进来,补上的恰好是 OpenRouter 解决不了的那部分:

  • 数据主权:Prompt 和响应不经过任何第三方,代码库、用户数据、内部文档留在你自己的机器上
  • 成本封顶:租一台节点,成本固定,跑多少请求都不额外计费
  • 零限速:不受任何供应商的 Rate Limit 政策约束,批量任务跑到完
  • 版本锁定:模型版本不会因为供应商更新而突然变化,回归测试结果可信
  • 离线可用:在网络受限环境(机舱、内网隔离区、受监管机房)中照常运行

Apple Silicon 的统一内存架构使得 Mac Mini M4 在这个场景里格外适合:没有 CPU/GPU 内存边界,中小规模模型跑起来延迟低、吞吐稳定,功耗却只有 GPU 服务器的几十分之一。

Mac Mini M4 型号 统一内存 推荐模型 推理速度(4-bit 量化)
M4(基础款) 16 GB Qwen2.5-7B、Llama-3.1-8B 约 38–50 token/s
M4 Pro 24 GB Qwen2.5-14B、Phi-4 约 30–42 token/s
M4 Pro(大内存) 48 GB Qwen2.5-32B、DeepSeek-R1-32B 约 18–28 token/s

对于 CI 代码审查、内部文档问答、批量数据处理这类场景,40 token/s 绰绰够用——而且是你独享、不限速、不计 token 费用的 40 token/s。

具体怎么做:把自己的 Mac 节点加入路由体系

Macstripe 提供独享 Mac Mini M4 节点,SSH 进去就是一台完整的 macOS 机器。以下是最快的接入方式:

第一步:在 Mac 节点上启动 Ollama

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型(以 Qwen2.5-7B 为例)
ollama pull qwen2.5:7b

# 启动 OpenAI 兼容 API,监听所有接口
OLLAMA_HOST=0.0.0.0 ollama serve

第二步:在业务代码里构建简单的路由逻辑

你可以根据任务类型、成本预算、数据敏感度来决定路由到哪里:

import os
from openai import OpenAI

def get_llm_client(mode: str = "auto"):
    """
    mode="local"   → 自己的 Mac Mini 节点(Ollama)
    mode="router"  → OpenRouter(路由到任意云端模型)
    mode="auto"    → 默认本地,本地不可用时降级到 OpenRouter
    """
    if mode == "local":
        return OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
        ), "qwen2.5:7b"

    if mode == "router":
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"

    # auto 模式:先尝试本地节点
    try:
        client = OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
            timeout=2.0,
        )
        client.models.list()  # 健康检查
        return client, "qwen2.5:7b"
    except Exception:
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"
最佳实践:对内部代码和用户数据走 mode="local",对需要最强推理能力的复杂任务走 mode="router",对非关键路径走 mode="auto" 自动降级。这就是真正的多提供商架构。

结语:谎言破了,机会留给有准备的开发者

OpenRouter 的 13 亿估值本质上是一个时代信号:大模型行业的价值中心,正在从"谁的模型最强"转移到"谁能让开发者最高效地使用所有模型"。

对于开发者来说,这意味着:

  • 不要押注任何一家模型供应商,从第一天就构建模型无关的架构
  • 把本地推理节点当作路由体系的一部分,而不是云端 API 的"劣质替代品"
  • 数据敏感的任务走本地,算力需求超出本地的任务走云端——这是合理分工,而不是非此即彼
  • 控制成本结构:把可预测的推理负载用固定成本的本地节点承接,把高峰和实验性需求用按量计费的云端覆盖

大模型行业用了三年时间让你相信"你需要依赖我们"。OpenRouter 用 13 亿美元的估值告诉你:这是一个谎言,市场已经在为"不依赖任何一家"出钱。

下一个问题是:你的推理架构,准备好了吗?

FAQ

OpenRouter 和直接调用模型 API 有什么区别?OpenRouter 统一了 API 格式、密钥管理和计费,让你用一个接口访问 300+ 模型。缺点是数据经过了 OpenRouter 的服务器,适合非敏感数据场景。

本地推理和 OpenRouter 可以同时用吗?当然可以。推荐的架构是:敏感数据走本地,其他任务通过 OpenRouter 路由到最合适的云端模型,两者用 OpenAI 兼容接口无缝切换。

Mac Mini M4 跑 7B 模型,质量够用吗?对于代码审查、文档摘要、测试用例生成这类有明确输入输出的任务,Qwen2.5-7B 的质量已可上生产。复杂推理可以升级到 32B 或路由到云端模型。

怎么快速测试本地推理方案?访问 Macstripe 首页,选择 Mac Mini M4 节点,5 分钟内拿到 SSH 连接,按照上文步骤装 Ollama,10 分钟你的私有推理节点就在线了。