13亿估值的 OpenRouter，戳破了大模型行业的最大谎言

网络路由节点示意图，象征 OpenRouter 在多个大模型 API 之间扮演的智能路由角色

一个不做模型的公司，凭什么值 13 亿美元

2026年，OpenRouter 完成新一轮融资，估值达到 13 亿美元（约 94 亿人民币）。这家公司自己不训练任何模型，不持有任何 GPU 集群，不做任何"独家研究"——它只做一件事：把来自开发者的请求，路由到 Claude、GPT-4o、Gemini、Llama、Qwen 等 300 多个模型的 API 上，然后统一收取转发费用。

如果你头一次听说这件事，可能会觉得奇怪：一个"二道贩子"凭什么值这么多钱？但如果你在 AI 行业待过一段时间，你应该能感受到这个估值背后一个令人不安的信号——大模型公司苦心营造的核心叙事，正在悄悄崩塌。

本文的核心论点：OpenRouter 的 13 亿估值，是市场对"大模型行业最大谎言"投的一张反对票——这个谎言就是：模型本身是护城河，用户会忠于某一家的 API。下文所有判断都尽量用可核对的数据支撑，来源见各表脚注。

先用数据说话：OpenRouter 凭什么值 13 亿

资本市场不会为"故事"付 13 亿——它买的是可验证的增长曲线。OpenRouter 在 2025 年 6 月 Series A 后估值约 5.47 亿美元（PitchBook / TechCrunch），2026 年 5 月 Series B 融资 1.13 亿美元后估值约 13 亿美元——11 个月内估值翻 2.4 倍。领投方是 Google 旗下 CapitalG，跟投包括 NVIDIA NVentures、Snowflake、Databricks、MongoDB 等——它们投的不是某个模型，而是多模型路由层。

指标	2025 年 6 月（Series A）	2026 年 5–6 月（Series B）	变化
投后估值	约 $547M	约 $1.3B	+2.4×
注册开发者	250 万+	800 万+	+3.2×
年化 token 处理量	约 100 万亿 / 年	约 1,500 万亿 / 年	+15×
周 token 流量	约 5 万亿 / 周	约 25 万亿 / 周	+5×（6 个月内）
团队规模	—	约 50 人	人均约 20 万亿 token / 年
接入模型数	数百个	400+ 个	持续扩张

数据来源：OpenRouter Series B 公告、TechCrunch、Menlo Ventures（2026 年 5–6 月）。

更关键的是 token 规模的参照系：Menlo Ventures 估算 OpenRouter 年化处理量已达 Google token run rate 的 15–30%、OpenAI 的 20–40%、Azure Foundry 的 >50%——一个不做模型的网关，已经吃掉了相当大的推理流量入口。如果开发者真的"忠于"某一家 API，这个体量根本不可能存在。

数据一：模型流量排名每月都在变——没有"离不开"这回事

过去三年，每一家大模型公司都在讲同一个故事：我们的模型能力领先，用户会因为模型质量产生强粘性，从而形成护城河。但 OpenRouter 的实时流量排名（基于数百万开发者的真实 token 用量，每日更新）讲的是另一个版本：

周排名	模型	厂商	周 token 量	周环比
1	MiniMax M3	MiniMax（中国）	4.64 万亿	+44%
2	DeepSeek V4 Flash	DeepSeek（中国）	4.41 万亿	+4%
3	Hy3 Preview	腾讯（中国）	3.84 万亿	+9%
4	MiMo-V2.5	小米（中国）	3.66 万亿	+34%
5	Claude Opus 4.7	Anthropic（美国）	2.69 万亿	+67%
6	Owl Alpha	OpenRouter 自研	2.45 万亿	+22%
8	Claude Sonnet 4.6	Anthropic（美国）	1.88 万亿	+4%
—	GPT-5.5	OpenAI（美国）	未进 Top 10	—

数据来源：OpenRouter LLM Rankings，抓取于 2026 年 6 月。周环比为平台公示字段。

读这张表，有三件事立刻跳出来：

榜首每几周就换人：MiniMax M3 一周暴涨 44% 登顶——如果用户真的"忠于品牌"，排名不会这么 volatile
中国模型占主导：周榜 Top 4 里有 4 个中国厂商模型，合计吞掉大部分流量——"只有美国闭源模型能商用"的叙事站不住
OpenAI 不在前十：GPT-5.5 发布后市场声量很大，但 OpenRouter 真实用量里连周榜前十都没进——声量 ≠ 开发者选择

OpenRouter 年度趋势报告还记录了更长期的结构性变化（State of AI Report）：

趋势指标	2025 年初	2025 年末	含义
开源模型 token 占比	约 15%	约 30%	开源不是试验品，已是生产流量
编程类查询占比	约 11%	超 50%	开发者是最大用户群，且高度比价
单一开源模型最高份额	DeepSeek 曾 >50%	无模型 >25%	流量快速分散，无人垄断
Anthropic 编程任务份额	长期 >60%	2025 年 11 月首次跌破 60%	即便"最强"也在被蚕食

这些行为共同指向一个结论：用户忠于的不是某个模型品牌，而是"当下性价比最高、响应最快、最符合当前任务"的推理能力。如果模型真的有不可替代的护城河，OpenRouter 就根本不会存在——因为没有人需要切换。

数据二：Token 价格在 6 年里跌了 600 倍——规模护城河被掏空

大模型公司的第二个核心叙事是：训练成本极高，只有超大规模才能摊薄，所以 API 会形成规模效应护城河。但价格数据给出了相反的答案：

时间节点	代表模型	输入价格（$/百万 token）	相对 GPT-3 基准	同等能力备注
2020 年 6 月	GPT-3 API	$60.00	1×（基准）	当时唯一可达 MMLU 42 的商用 API
2023 年 3 月	GPT-4	$30.00	0.5×	MMLU ~83，能力跃升但价腰斩
2024 年中	GPT-4o	$5.00	0.08×	多模态，价格再砍 6 倍
2025 年 2 月	Gemini 2.0 Flash	$0.10	0.0017×	多数基准超 GPT-4，价仅为 1/600
2026 年 4 月	GPT-5.5	$2.25	0.04×	旗舰推理，仍仅为 GPT-3 的 4%
2026 年（开源 API）	DeepSeek V4 Flash	$0.098	0.0016×	OpenRouter 周榜 #2，编程场景主流选择
2024 年（开源）	Llama 3.2 3B（Together.ai）	$0.06	0.001×	达到 GPT-3 同级 MMLU，价跌 1000×

数据来源：a16z《LLMflation》（2024）、Epoch AI 价格追踪、arXiv《Tiered Super-Moore's Law》（2026）、OpenRouter 定价页。同等能力价格降幅高于名义标价降幅。

学术研究把这个趋势叫做 "Tiered Super-Moore's Law"（分层超摩尔定律）：经济型模型价格半衰期仅 1.10 年，中端模型 1.55 年——均快于传统摩尔定律的 2 年翻倍周期。经济型 token 从 GPT-3 的 $60/M 到 Gemini Flash 的 $0.10/M，名义跌幅约 600 倍；按同等 benchmark 分数折算，跌幅更大。

a16z 的跟踪还显示：达到同一 MMLU 分数的模型，推理成本以约 每年 10 倍的速度下降——快于 PC 时代的算力降价，也快于互联网带宽降价。规模效应的护城河建立在高成本基础上；当单价每 12–18 个月跌一个数量级，"规模"本身不再是壁垒。

同任务、不同路由：一张价目表看清差距

假设一个典型 Agent 工作负载：每次请求 2,000 input + 800 output token（代码审查 / 文档问答常见比例），以下为 OpenRouter 公示价格（2026 年 6 月）下的单次调用成本：

路由目标	模型	输入 $/M	输出 $/M	单次成本	相对最便宜
本地 Ollama（Mac 节点）	Qwen2.5-7B	$0	$0	$0	基准
OpenRouter	DeepSeek V4 Flash	$0.098	$0.196	$0.00035	—
OpenRouter	Gemini 3 Flash Preview	$0.15	$0.60	$0.00078	2.2×
OpenRouter	Claude Sonnet 4.6	$3.00	$15.00	$0.018	51×
OpenRouter	Claude Opus 4.8	$15.00	$75.00	$0.090	257×
直连 Anthropic API	Claude Sonnet 4.6	$3.00	$15.00	$0.018	51×

单次成本 = 2,000 × 输入单价 + 800 × 输出单价。OpenRouter 价格来源：openrouter.ai/models；Anthropic 官网定价对照。本地行仅计 token 边际成本，不含机器租金。

同一次代码审查，走 Claude Sonnet 比走 DeepSeek V4 Flash 贵 51 倍；比本地 7B 则是一个数量级以上的差距。开发者不是"忠于品牌"，是在实时比价——这正是 OpenRouter 周榜里 DeepSeek、MiniMax 霸榜的原因。

数据三：月账单对照——云端 API vs 本地 Mac 节点，谁更划算？

价格表只说明单价。团队真正关心的是：我这个月跑多少量，花多少钱？下面按三种典型月用量做 TCO 估算（假设 input:output = 5:2，与上文 Agent 场景一致）：

月 token 总量	约等于（2,800 token/次）	Claude Sonnet 4.6	DeepSeek V4 Flash	Mac Mini M4 16GB 租用	最省方案
10M	约 3,600 次/月（个人 side project）	约 $64	约 $1.3	$102.9 固定	云端 DeepSeek
50M	约 1.8 万次/月（小团队内部工具）	约 $321	约 $6.3	$102.9 固定	本地 vs Claude；DeepSeek 仍更便宜
200M	约 7.1 万次/月（8 人 Agent 试点）	约 $1,286	约 $25	$102.9 固定	本地 vs Claude（省 92%）
500M	约 17.9 万次/月（CI 审查 + RAG）	约 $3,214	约 $63	$102.9 固定	本地 vs Claude（省 97%）
800M+	约 28.6 万次/月（高频批量）	约 $5,143+	约 $100+	$102.9 固定	本地开始优于 DeepSeek 单价
2B	约 71 万次/月（全天候 Agent 流水线）	约 $12,857	约 $250	$102.9（或 24GB $202.9）	本地（省 59–99%）

计算公式：单次 = 2,000 × 输入单价 + 800 × 输出单价；月总量按等比例放大。云端价来自 OpenRouter；本地按 Macstripe M4 16GB 包月 $102.9（定价页，2026 年 6 月）。

怎么读这张表：

对标 Claude Sonnet：月用量超过约 15–20M token，本地固定成本就开始划算——200M token 场景可省 92%
对标 DeepSeek Flash：纯单价要到 800M token/月 左右本地才更便宜——但本地同时白送不限速、数据不出节点、版本锁定，批量 CI 场景往往提前切换
混合路由最务实：Macstripe 站内 8 人团队实测，云 API 从 $300/月 → $50/月（−83%），靠的是机械性任务走本地、复杂推理走云端——不是非此即彼

不只是钱：本地节点在硬指标上的对比

OpenRouter 的存在本身就是对"只能走云端"的质疑：如果你可以路由到 300 多个模型，为什么不能路由到自己部署的模型？

对比维度	直连 Claude API	OpenRouter 路由	本地 Mac + Ollama
月成本（200M token）	约 $1,286	约 $1,286（同价）+ 路由溢价	$102.9 固定
Rate Limit（Tier 1 典型）	约 50 RPM / 40K TPM	受上游 + 平台双层限制	无限制（独享算力）
首 token 延迟（TTFT）	约 0.8–2.5s（含网络）	约 1.0–3.0s（多一跳）	约 0.3–1.8s（LAN 内网）
持续吞吐（7B 4-bit）	按配额，峰值受限	按配额，峰值受限	约 38–51 tok/s 独享
数据路径	Prompt → Anthropic 服务器	Prompt → OpenRouter → 上游	Prompt 不出节点
模型切换成本	换 SDK / 换密钥 / 改代码	改 model 名即可	同左（OpenAI 兼容接口）
版本锁定	供应商随时更新模型	同左	模型权重由你控制
适合场景	最强推理、复杂 Agent	多模型比价、快速试验	批量任务、敏感数据、CI 审查

TTFT / tok/s 参考 Macstripe 站内 M4 本地大模型实测；Rate Limit 参考 Anthropic Tier 1 公开文档（随账户等级变化）。

OpenRouter 的 13 亿估值告诉我们：多提供商路由是未来，而你自己的推理节点，理应是其中一个"提供商"。合理架构不是三选一，而是按数据敏感度与任务难度分层路由。

三个谎言，一张总表

把上文数据收拢成一张对照表，方便你拿去跟团队或老板讨论：

行业叙事（谎言）	数据怎么说	对开发者意味着什么
「我们的模型无可替代」	周榜榜首 6 个月换 3 次；GPT-5.5 未进 Top 10；单一开源模型份额从 >50% 降至 <25%	没有"必须绑定"的模型，随时切换是常态
「API 规模即护城河」	Token 价 6 年跌 600×；经济型模型价格半衰期 1.1 年	按量付费的长期成本不可预测，固定成本节点更稳
「推理只能走云端」	200M token/月：Claude $1,286 vs 本地 $102.9（省 92%）；8 人团队混合路由 API 账单 −83%	本地节点是路由体系的合法一环，不是备胎
「OpenRouter 只是小工具」	估值 $1.3B；年化 1,500 万亿 token；占 OpenAI run rate 20–40%	多模型路由已是基础设施层，值得现在就开始架构

谎言破了之后：OpenRouter 验证的商业逻辑

理解了这三个谎言，OpenRouter 的估值逻辑就清晰了：

大模型行业正在经历一次结构性分层。原来被捆绑在一起销售的东西——模型能力、推理算力、API 接入、数据处理流程——正在被解绑。每一层都会有专业公司来做，每一层都会有独立的定价。

OpenRouter 占据的是"API 接入聚合"这一层。它的价值不是技术有多复杂，而是它解决了一个真实的用户痛点：你不想为 300 个模型维护 300 套 SDK、密钥管理、计费对账和故障切换逻辑。有人帮你做，你愿意付一点溢价——这是 13 亿美元背后最朴素的商业逻辑。

对开发者的启示：不要等大模型公司来告诉你"应该用哪个模型"。应该从一开始就构建模型无关（model-agnostic）的架构——把推理层当作可替换的基础设施，而不是业务逻辑的一部分。

模型无关架构的最小实现

用 OpenAI SDK 的兼容接口可以一行代码切换提供商：

from openai import OpenAI

# 切换到 OpenRouter（路由到任意云端模型）
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-...",
)

# 切换到本地 Mac Mini 节点（Ollama）
client = OpenAI(
    base_url="http://YOUR_MAC_NODE:11434/v1",
    api_key="ollama",
)

# 切换到 Anthropic 直接 API
client = OpenAI(
    base_url="https://api.anthropic.com/v1",
    api_key="sk-ant-...",
)

# 三种切换，业务代码零改动：
response = client.chat.completions.create(
    model="qwen2.5:32b",  # 或 claude-sonnet-4-5, 或任意模型名
    messages=[{"role": "user", "content": prompt}],
)

这段代码的含义是：你的推理来源，可以是 OpenRouter，可以是任何一家云端 API，也可以是你自己的 Mac Mini 节点。选择权在你。

如果路由层值 13 亿，"自己掌控推理节点"值什么

OpenRouter 解决的是"我不想被一家绑定"的问题，但它本身仍然是一个第三方——你的数据还是经过了别人的服务器，你仍然受到网络延迟和上游 API 可用性的影响。

把自己的推理节点加入进来，补上的恰好是 OpenRouter 解决不了的那部分：

数据主权：Prompt 和响应不经过任何第三方，代码库、用户数据、内部文档留在你自己的机器上
成本封顶：租一台节点，成本固定，跑多少请求都不额外计费
零限速：不受任何供应商的 Rate Limit 政策约束，批量任务跑到完
版本锁定：模型版本不会因为供应商更新而突然变化，回归测试结果可信
离线可用：在网络受限环境（机舱、内网隔离区、受监管机房）中照常运行

Apple Silicon 的统一内存架构使得 Mac Mini M4 在这个场景里格外适合：没有 CPU/GPU 内存边界，中小规模模型跑起来延迟低、吞吐稳定，功耗却只有 GPU 服务器的几十分之一。

Mac Mini M4 型号	统一内存	推荐模型	推理速度（4-bit 量化）
M4（基础款）	16 GB	Qwen2.5-7B、Llama-3.1-8B	约 38–50 token/s
M4 Pro	24 GB	Qwen2.5-14B、Phi-4	约 30–42 token/s
M4 Pro（大内存）	48 GB	Qwen2.5-32B、DeepSeek-R1-32B	约 18–28 token/s

对于 CI 代码审查、内部文档问答、批量数据处理这类场景，40 token/s 绰绰够用——而且是你独享、不限速、不计 token 费用的 40 token/s。

具体怎么做：把自己的 Mac 节点加入路由体系

Macstripe 提供独享 Mac Mini M4 节点，SSH 进去就是一台完整的 macOS 机器。以下是最快的接入方式：

第一步：在 Mac 节点上启动 Ollama

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型（以 Qwen2.5-7B 为例）
ollama pull qwen2.5:7b

# 启动 OpenAI 兼容 API，监听所有接口
OLLAMA_HOST=0.0.0.0 ollama serve

第二步：在业务代码里构建简单的路由逻辑

你可以根据任务类型、成本预算、数据敏感度来决定路由到哪里：

import os
from openai import OpenAI

def get_llm_client(mode: str = "auto"):
    """
    mode="local"   → 自己的 Mac Mini 节点（Ollama）
    mode="router"  → OpenRouter（路由到任意云端模型）
    mode="auto"    → 默认本地，本地不可用时降级到 OpenRouter
    """
    if mode == "local":
        return OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
        ), "qwen2.5:7b"

    if mode == "router":
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"

    # auto 模式：先尝试本地节点
    try:
        client = OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
            timeout=2.0,
        )
        client.models.list()  # 健康检查
        return client, "qwen2.5:7b"
    except Exception:
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"

最佳实践：对内部代码和用户数据走 mode="local"，对需要最强推理能力的复杂任务走 mode="router"，对非关键路径走 mode="auto" 自动降级。这就是真正的多提供商架构。

结语：谎言破了，机会留给有准备的开发者

OpenRouter 的 13 亿估值本质上是一个时代信号：大模型行业的价值中心，正在从"谁的模型最强"转移到"谁能让开发者最高效地使用所有模型"。

对于开发者来说，这意味着：

不要押注任何一家模型供应商，从第一天就构建模型无关的架构
把本地推理节点当作路由体系的一部分，而不是云端 API 的"劣质替代品"
数据敏感的任务走本地，算力需求超出本地的任务走云端——这是合理分工，而不是非此即彼
控制成本结构：把可预测的推理负载用固定成本的本地节点承接，把高峰和实验性需求用按量计费的云端覆盖

大模型行业用了三年时间让你相信"你需要依赖我们"。OpenRouter 用 13 亿美元的估值告诉你：这是一个谎言，市场已经在为"不依赖任何一家"出钱。

下一个问题是：你的推理架构，准备好了吗？

FAQ

OpenRouter 和直接调用模型 API 有什么区别？OpenRouter 统一了 API 格式、密钥管理和计费，让你用一个接口访问 300+ 模型。缺点是数据经过了 OpenRouter 的服务器，适合非敏感数据场景。

本地推理和 OpenRouter 可以同时用吗？当然可以。推荐的架构是：敏感数据走本地，其他任务通过 OpenRouter 路由到最合适的云端模型，两者用 OpenAI 兼容接口无缝切换。

Mac Mini M4 跑 7B 模型，质量够用吗？对于代码审查、文档摘要、测试用例生成这类有明确输入输出的任务，Qwen2.5-7B 的质量已可上生产。复杂推理可以升级到 32B 或路由到云端模型。

怎么快速测试本地推理方案？访问 Macstripe 首页，选择 Mac Mini M4 节点，5 分钟内拿到 SSH 连接，按照上文步骤装 Ollama，10 分钟你的私有推理节点就在线了。