一个不做模型的公司,凭什么值 13 亿美元
2026年,OpenRouter 完成新一轮融资,估值达到 13 亿美元(约 94 亿人民币)。这家公司自己不训练任何模型,不持有任何 GPU 集群,不做任何"独家研究"——它只做一件事:把来自开发者的请求,路由到 Claude、GPT-4o、Gemini、Llama、Qwen 等 300 多个模型的 API 上,然后统一收取转发费用。
如果你头一次听说这件事,可能会觉得奇怪:一个"二道贩子"凭什么值这么多钱?但如果你在 AI 行业待过一段时间,你应该能感受到这个估值背后一个令人不安的信号——大模型公司苦心营造的核心叙事,正在悄悄崩塌。
先用数据说话:OpenRouter 凭什么值 13 亿
资本市场不会为"故事"付 13 亿——它买的是可验证的增长曲线。OpenRouter 在 2025 年 6 月 Series A 后估值约 5.47 亿美元(PitchBook / TechCrunch),2026 年 5 月 Series B 融资 1.13 亿美元后估值约 13 亿美元——11 个月内估值翻 2.4 倍。领投方是 Google 旗下 CapitalG,跟投包括 NVIDIA NVentures、Snowflake、Databricks、MongoDB 等——它们投的不是某个模型,而是多模型路由层。
| 指标 | 2025 年 6 月(Series A) | 2026 年 5–6 月(Series B) | 变化 |
|---|---|---|---|
| 投后估值 | 约 $547M | 约 $1.3B | +2.4× |
| 注册开发者 | 250 万+ | 800 万+ | +3.2× |
| 年化 token 处理量 | 约 100 万亿 / 年 | 约 1,500 万亿 / 年 | +15× |
| 周 token 流量 | 约 5 万亿 / 周 | 约 25 万亿 / 周 | +5×(6 个月内) |
| 团队规模 | — | 约 50 人 | 人均约 20 万亿 token / 年 |
| 接入模型数 | 数百个 | 400+ 个 | 持续扩张 |
数据来源:OpenRouter Series B 公告、TechCrunch、Menlo Ventures(2026 年 5–6 月)。
更关键的是 token 规模的参照系:Menlo Ventures 估算 OpenRouter 年化处理量已达 Google token run rate 的 15–30%、OpenAI 的 20–40%、Azure Foundry 的 >50%——一个不做模型的网关,已经吃掉了相当大的推理流量入口。如果开发者真的"忠于"某一家 API,这个体量根本不可能存在。
数据一:模型流量排名每月都在变——没有"离不开"这回事
过去三年,每一家大模型公司都在讲同一个故事:我们的模型能力领先,用户会因为模型质量产生强粘性,从而形成护城河。但 OpenRouter 的实时流量排名(基于数百万开发者的真实 token 用量,每日更新)讲的是另一个版本:
| 周排名 | 模型 | 厂商 | 周 token 量 | 周环比 |
|---|---|---|---|---|
| 1 | MiniMax M3 | MiniMax(中国) | 4.64 万亿 | +44% |
| 2 | DeepSeek V4 Flash | DeepSeek(中国) | 4.41 万亿 | +4% |
| 3 | Hy3 Preview | 腾讯(中国) | 3.84 万亿 | +9% |
| 4 | MiMo-V2.5 | 小米(中国) | 3.66 万亿 | +34% |
| 5 | Claude Opus 4.7 | Anthropic(美国) | 2.69 万亿 | +67% |
| 6 | Owl Alpha | OpenRouter 自研 | 2.45 万亿 | +22% |
| 8 | Claude Sonnet 4.6 | Anthropic(美国) | 1.88 万亿 | +4% |
| — | GPT-5.5 | OpenAI(美国) | 未进 Top 10 | — |
数据来源:OpenRouter LLM Rankings,抓取于 2026 年 6 月。周环比为平台公示字段。
读这张表,有三件事立刻跳出来:
- 榜首每几周就换人:MiniMax M3 一周暴涨 44% 登顶——如果用户真的"忠于品牌",排名不会这么 volatile
- 中国模型占主导:周榜 Top 4 里有 4 个中国厂商模型,合计吞掉大部分流量——"只有美国闭源模型能商用"的叙事站不住
- OpenAI 不在前十:GPT-5.5 发布后市场声量很大,但 OpenRouter 真实用量里连周榜前十都没进——声量 ≠ 开发者选择
OpenRouter 年度趋势报告还记录了更长期的结构性变化(State of AI Report):
| 趋势指标 | 2025 年初 | 2025 年末 | 含义 |
|---|---|---|---|
| 开源模型 token 占比 | 约 15% | 约 30% | 开源不是试验品,已是生产流量 |
| 编程类查询占比 | 约 11% | 超 50% | 开发者是最大用户群,且高度比价 |
| 单一开源模型最高份额 | DeepSeek 曾 >50% | 无模型 >25% | 流量快速分散,无人垄断 |
| Anthropic 编程任务份额 | 长期 >60% | 2025 年 11 月首次跌破 60% | 即便"最强"也在被蚕食 |
这些行为共同指向一个结论:用户忠于的不是某个模型品牌,而是"当下性价比最高、响应最快、最符合当前任务"的推理能力。如果模型真的有不可替代的护城河,OpenRouter 就根本不会存在——因为没有人需要切换。
数据二:Token 价格在 6 年里跌了 600 倍——规模护城河被掏空
大模型公司的第二个核心叙事是:训练成本极高,只有超大规模才能摊薄,所以 API 会形成规模效应护城河。但价格数据给出了相反的答案:
| 时间节点 | 代表模型 | 输入价格($/百万 token) | 相对 GPT-3 基准 | 同等能力备注 |
|---|---|---|---|---|
| 2020 年 6 月 | GPT-3 API | $60.00 | 1×(基准) | 当时唯一可达 MMLU 42 的商用 API |
| 2023 年 3 月 | GPT-4 | $30.00 | 0.5× | MMLU ~83,能力跃升但价腰斩 |
| 2024 年中 | GPT-4o | $5.00 | 0.08× | 多模态,价格再砍 6 倍 |
| 2025 年 2 月 | Gemini 2.0 Flash | $0.10 | 0.0017× | 多数基准超 GPT-4,价仅为 1/600 |
| 2026 年 4 月 | GPT-5.5 | $2.25 | 0.04× | 旗舰推理,仍仅为 GPT-3 的 4% |
| 2026 年(开源 API) | DeepSeek V4 Flash | $0.098 | 0.0016× | OpenRouter 周榜 #2,编程场景主流选择 |
| 2024 年(开源) | Llama 3.2 3B(Together.ai) | $0.06 | 0.001× | 达到 GPT-3 同级 MMLU,价跌 1000× |
数据来源:a16z《LLMflation》(2024)、Epoch AI 价格追踪、arXiv《Tiered Super-Moore's Law》(2026)、OpenRouter 定价页。同等能力价格降幅高于名义标价降幅。
学术研究把这个趋势叫做 "Tiered Super-Moore's Law"(分层超摩尔定律):经济型模型价格半衰期仅 1.10 年,中端模型 1.55 年——均快于传统摩尔定律的 2 年翻倍周期。经济型 token 从 GPT-3 的 $60/M 到 Gemini Flash 的 $0.10/M,名义跌幅约 600 倍;按同等 benchmark 分数折算,跌幅更大。
a16z 的跟踪还显示:达到同一 MMLU 分数的模型,推理成本以约 每年 10 倍的速度下降——快于 PC 时代的算力降价,也快于互联网带宽降价。规模效应的护城河建立在高成本基础上;当单价每 12–18 个月跌一个数量级,"规模"本身不再是壁垒。
同任务、不同路由:一张价目表看清差距
假设一个典型 Agent 工作负载:每次请求 2,000 input + 800 output token(代码审查 / 文档问答常见比例),以下为 OpenRouter 公示价格(2026 年 6 月)下的单次调用成本:
| 路由目标 | 模型 | 输入 $/M | 输出 $/M | 单次成本 | 相对最便宜 |
|---|---|---|---|---|---|
| 本地 Ollama(Mac 节点) | Qwen2.5-7B | $0 | $0 | $0 | 基准 |
| OpenRouter | DeepSeek V4 Flash | $0.098 | $0.196 | $0.00035 | — |
| OpenRouter | Gemini 3 Flash Preview | $0.15 | $0.60 | $0.00078 | 2.2× |
| OpenRouter | Claude Sonnet 4.6 | $3.00 | $15.00 | $0.018 | 51× |
| OpenRouter | Claude Opus 4.8 | $15.00 | $75.00 | $0.090 | 257× |
| 直连 Anthropic API | Claude Sonnet 4.6 | $3.00 | $15.00 | $0.018 | 51× |
单次成本 = 2,000 × 输入单价 + 800 × 输出单价。OpenRouter 价格来源:openrouter.ai/models;Anthropic 官网定价对照。本地行仅计 token 边际成本,不含机器租金。
同一次代码审查,走 Claude Sonnet 比走 DeepSeek V4 Flash 贵 51 倍;比本地 7B 则是一个数量级以上的差距。开发者不是"忠于品牌",是在实时比价——这正是 OpenRouter 周榜里 DeepSeek、MiniMax 霸榜的原因。
数据三:月账单对照——云端 API vs 本地 Mac 节点,谁更划算?
价格表只说明单价。团队真正关心的是:我这个月跑多少量,花多少钱?下面按三种典型月用量做 TCO 估算(假设 input:output = 5:2,与上文 Agent 场景一致):
| 月 token 总量 | 约等于(2,800 token/次) | Claude Sonnet 4.6 | DeepSeek V4 Flash | Mac Mini M4 16GB 租用 | 最省方案 |
|---|---|---|---|---|---|
| 10M | 约 3,600 次/月(个人 side project) | 约 $64 | 约 $1.3 | $102.9 固定 | 云端 DeepSeek |
| 50M | 约 1.8 万次/月(小团队内部工具) | 约 $321 | 约 $6.3 | $102.9 固定 | 本地 vs Claude;DeepSeek 仍更便宜 |
| 200M | 约 7.1 万次/月(8 人 Agent 试点) | 约 $1,286 | 约 $25 | $102.9 固定 | 本地 vs Claude(省 92%) |
| 500M | 约 17.9 万次/月(CI 审查 + RAG) | 约 $3,214 | 约 $63 | $102.9 固定 | 本地 vs Claude(省 97%) |
| 800M+ | 约 28.6 万次/月(高频批量) | 约 $5,143+ | 约 $100+ | $102.9 固定 | 本地开始优于 DeepSeek 单价 |
| 2B | 约 71 万次/月(全天候 Agent 流水线) | 约 $12,857 | 约 $250 | $102.9(或 24GB $202.9) | 本地(省 59–99%) |
计算公式:单次 = 2,000 × 输入单价 + 800 × 输出单价;月总量按等比例放大。云端价来自 OpenRouter;本地按 Macstripe M4 16GB 包月 $102.9(定价页,2026 年 6 月)。
怎么读这张表:
- 对标 Claude Sonnet:月用量超过约 15–20M token,本地固定成本就开始划算——200M token 场景可省 92%
- 对标 DeepSeek Flash:纯单价要到 800M token/月 左右本地才更便宜——但本地同时白送不限速、数据不出节点、版本锁定,批量 CI 场景往往提前切换
- 混合路由最务实:Macstripe 站内 8 人团队实测,云 API 从 $300/月 → $50/月(−83%),靠的是机械性任务走本地、复杂推理走云端——不是非此即彼
不只是钱:本地节点在硬指标上的对比
OpenRouter 的存在本身就是对"只能走云端"的质疑:如果你可以路由到 300 多个模型,为什么不能路由到自己部署的模型?
| 对比维度 | 直连 Claude API | OpenRouter 路由 | 本地 Mac + Ollama |
|---|---|---|---|
| 月成本(200M token) | 约 $1,286 | 约 $1,286(同价)+ 路由溢价 | $102.9 固定 |
| Rate Limit(Tier 1 典型) | 约 50 RPM / 40K TPM | 受上游 + 平台双层限制 | 无限制(独享算力) |
| 首 token 延迟(TTFT) | 约 0.8–2.5s(含网络) | 约 1.0–3.0s(多一跳) | 约 0.3–1.8s(LAN 内网) |
| 持续吞吐(7B 4-bit) | 按配额,峰值受限 | 按配额,峰值受限 | 约 38–51 tok/s 独享 |
| 数据路径 | Prompt → Anthropic 服务器 | Prompt → OpenRouter → 上游 | Prompt 不出节点 |
| 模型切换成本 | 换 SDK / 换密钥 / 改代码 | 改 model 名即可 | 同左(OpenAI 兼容接口) |
| 版本锁定 | 供应商随时更新模型 | 同左 | 模型权重由你控制 |
| 适合场景 | 最强推理、复杂 Agent | 多模型比价、快速试验 | 批量任务、敏感数据、CI 审查 |
TTFT / tok/s 参考 Macstripe 站内 M4 本地大模型实测;Rate Limit 参考 Anthropic Tier 1 公开文档(随账户等级变化)。
OpenRouter 的 13 亿估值告诉我们:多提供商路由是未来,而你自己的推理节点,理应是其中一个"提供商"。合理架构不是三选一,而是按数据敏感度与任务难度分层路由。
三个谎言,一张总表
把上文数据收拢成一张对照表,方便你拿去跟团队或老板讨论:
| 行业叙事(谎言) | 数据怎么说 | 对开发者意味着什么 |
|---|---|---|
| 「我们的模型无可替代」 | 周榜榜首 6 个月换 3 次;GPT-5.5 未进 Top 10;单一开源模型份额从 >50% 降至 <25% | 没有"必须绑定"的模型,随时切换是常态 |
| 「API 规模即护城河」 | Token 价 6 年跌 600×;经济型模型价格半衰期 1.1 年 | 按量付费的长期成本不可预测,固定成本节点更稳 |
| 「推理只能走云端」 | 200M token/月:Claude $1,286 vs 本地 $102.9(省 92%);8 人团队混合路由 API 账单 −83% | 本地节点是路由体系的合法一环,不是备胎 |
| 「OpenRouter 只是小工具」 | 估值 $1.3B;年化 1,500 万亿 token;占 OpenAI run rate 20–40% | 多模型路由已是基础设施层,值得现在就开始架构 |
谎言破了之后:OpenRouter 验证的商业逻辑
理解了这三个谎言,OpenRouter 的估值逻辑就清晰了:
大模型行业正在经历一次结构性分层。原来被捆绑在一起销售的东西——模型能力、推理算力、API 接入、数据处理流程——正在被解绑。每一层都会有专业公司来做,每一层都会有独立的定价。
OpenRouter 占据的是"API 接入聚合"这一层。它的价值不是技术有多复杂,而是它解决了一个真实的用户痛点:你不想为 300 个模型维护 300 套 SDK、密钥管理、计费对账和故障切换逻辑。有人帮你做,你愿意付一点溢价——这是 13 亿美元背后最朴素的商业逻辑。
模型无关架构的最小实现
用 OpenAI SDK 的兼容接口可以一行代码切换提供商:
from openai import OpenAI
# 切换到 OpenRouter(路由到任意云端模型)
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-...",
)
# 切换到本地 Mac Mini 节点(Ollama)
client = OpenAI(
base_url="http://YOUR_MAC_NODE:11434/v1",
api_key="ollama",
)
# 切换到 Anthropic 直接 API
client = OpenAI(
base_url="https://api.anthropic.com/v1",
api_key="sk-ant-...",
)
# 三种切换,业务代码零改动:
response = client.chat.completions.create(
model="qwen2.5:32b", # 或 claude-sonnet-4-5, 或任意模型名
messages=[{"role": "user", "content": prompt}],
)
这段代码的含义是:你的推理来源,可以是 OpenRouter,可以是任何一家云端 API,也可以是你自己的 Mac Mini 节点。选择权在你。
如果路由层值 13 亿,"自己掌控推理节点"值什么
OpenRouter 解决的是"我不想被一家绑定"的问题,但它本身仍然是一个第三方——你的数据还是经过了别人的服务器,你仍然受到网络延迟和上游 API 可用性的影响。
把自己的推理节点加入进来,补上的恰好是 OpenRouter 解决不了的那部分:
- 数据主权:Prompt 和响应不经过任何第三方,代码库、用户数据、内部文档留在你自己的机器上
- 成本封顶:租一台节点,成本固定,跑多少请求都不额外计费
- 零限速:不受任何供应商的 Rate Limit 政策约束,批量任务跑到完
- 版本锁定:模型版本不会因为供应商更新而突然变化,回归测试结果可信
- 离线可用:在网络受限环境(机舱、内网隔离区、受监管机房)中照常运行
Apple Silicon 的统一内存架构使得 Mac Mini M4 在这个场景里格外适合:没有 CPU/GPU 内存边界,中小规模模型跑起来延迟低、吞吐稳定,功耗却只有 GPU 服务器的几十分之一。
| Mac Mini M4 型号 | 统一内存 | 推荐模型 | 推理速度(4-bit 量化) |
|---|---|---|---|
| M4(基础款) | 16 GB | Qwen2.5-7B、Llama-3.1-8B | 约 38–50 token/s |
| M4 Pro | 24 GB | Qwen2.5-14B、Phi-4 | 约 30–42 token/s |
| M4 Pro(大内存) | 48 GB | Qwen2.5-32B、DeepSeek-R1-32B | 约 18–28 token/s |
对于 CI 代码审查、内部文档问答、批量数据处理这类场景,40 token/s 绰绰够用——而且是你独享、不限速、不计 token 费用的 40 token/s。
具体怎么做:把自己的 Mac 节点加入路由体系
Macstripe 提供独享 Mac Mini M4 节点,SSH 进去就是一台完整的 macOS 机器。以下是最快的接入方式:
第一步:在 Mac 节点上启动 Ollama
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取模型(以 Qwen2.5-7B 为例)
ollama pull qwen2.5:7b
# 启动 OpenAI 兼容 API,监听所有接口
OLLAMA_HOST=0.0.0.0 ollama serve
第二步:在业务代码里构建简单的路由逻辑
你可以根据任务类型、成本预算、数据敏感度来决定路由到哪里:
import os
from openai import OpenAI
def get_llm_client(mode: str = "auto"):
"""
mode="local" → 自己的 Mac Mini 节点(Ollama)
mode="router" → OpenRouter(路由到任意云端模型)
mode="auto" → 默认本地,本地不可用时降级到 OpenRouter
"""
if mode == "local":
return OpenAI(
base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
api_key="ollama",
), "qwen2.5:7b"
if mode == "router":
return OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"],
), "anthropic/claude-sonnet-4-5"
# auto 模式:先尝试本地节点
try:
client = OpenAI(
base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
api_key="ollama",
timeout=2.0,
)
client.models.list() # 健康检查
return client, "qwen2.5:7b"
except Exception:
return OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"],
), "anthropic/claude-sonnet-4-5"
mode="local",对需要最强推理能力的复杂任务走 mode="router",对非关键路径走 mode="auto" 自动降级。这就是真正的多提供商架构。结语:谎言破了,机会留给有准备的开发者
OpenRouter 的 13 亿估值本质上是一个时代信号:大模型行业的价值中心,正在从"谁的模型最强"转移到"谁能让开发者最高效地使用所有模型"。
对于开发者来说,这意味着:
- 不要押注任何一家模型供应商,从第一天就构建模型无关的架构
- 把本地推理节点当作路由体系的一部分,而不是云端 API 的"劣质替代品"
- 数据敏感的任务走本地,算力需求超出本地的任务走云端——这是合理分工,而不是非此即彼
- 控制成本结构:把可预测的推理负载用固定成本的本地节点承接,把高峰和实验性需求用按量计费的云端覆盖
大模型行业用了三年时间让你相信"你需要依赖我们"。OpenRouter 用 13 亿美元的估值告诉你:这是一个谎言,市场已经在为"不依赖任何一家"出钱。
下一个问题是:你的推理架构,准备好了吗?
FAQ
OpenRouter 和直接调用模型 API 有什么区别?OpenRouter 统一了 API 格式、密钥管理和计费,让你用一个接口访问 300+ 模型。缺点是数据经过了 OpenRouter 的服务器,适合非敏感数据场景。
本地推理和 OpenRouter 可以同时用吗?当然可以。推荐的架构是:敏感数据走本地,其他任务通过 OpenRouter 路由到最合适的云端模型,两者用 OpenAI 兼容接口无缝切换。
Mac Mini M4 跑 7B 模型,质量够用吗?对于代码审查、文档摘要、测试用例生成这类有明确输入输出的任务,Qwen2.5-7B 的质量已可上生产。复杂推理可以升级到 32B 或路由到云端模型。
怎么快速测试本地推理方案?访问 Macstripe 首页,选择 Mac Mini M4 节点,5 分钟内拿到 SSH 连接,按照上文步骤装 Ollama,10 分钟你的私有推理节点就在线了。