一家不做模型的公司,憑什麼值 13 億美元
2026 年,OpenRouter 完成新一輪融資,估值達到 13 億美元(約 94 億人民幣)。這家公司自己不訓練任何模型,不持有任何 GPU 叢集,不做任何「獨家研究」——它只做一件事:把來自開發者的請求,路由到 Claude、GPT-4o、Gemini、Llama、Qwen 等 300 多個模型的 API 上,然後統一收取轉發費用。
如果你頭一次聽說這件事,可能會覺得奇怪:一個「中間商」憑什麼值這麼多錢?但如果你在 AI 產業待過一段時間,你應該能感受到這個估值背後一個令人不安的訊號——大模型公司苦心營造的核心敘事,正在悄悄崩塌。
先用資料說話:OpenRouter 憑什麼值 13 億
資本市場不會為「故事」付 13 億——它買的是可驗證的成長曲線。OpenRouter 在 2025 年 6 月 Series A 後估值約 5.47 億美元(PitchBook / TechCrunch),2026 年 5 月 Series B 融資 1.13 億美元後估值約 13 億美元——11 個月內估值翻 2.4 倍。領投方是 Google 旗下 CapitalG,跟投包括 NVIDIA NVentures、Snowflake、Databricks、MongoDB 等——它們投的不是某個模型,而是多模型路由層。
| 指標 | 2025 年 6 月(Series A) | 2026 年 5–6 月(Series B) | 變化 |
|---|---|---|---|
| 投後估值 | 約 $547M | 約 $1.3B | +2.4× |
| 註冊開發者 | 250 萬+ | 800 萬+ | +3.2× |
| 年化 token 處理量 | 約 100 萬億 / 年 | 約 1,500 萬億 / 年 | +15× |
| 週 token 流量 | 約 5 萬億 / 週 | 約 25 萬億 / 週 | +5×(6 個月內) |
| 團隊規模 | — | 約 50 人 | 人均約 20 萬億 token / 年 |
| 接入模型數 | 數百個 | 400+ 個 | 持續擴張 |
資料來源:OpenRouter Series B 公告、TechCrunch、Menlo Ventures(2026 年 5–6 月)。
更關鍵的是 token 規模的參照系:Menlo Ventures 估算 OpenRouter 年化處理量已達 Google token run rate 的 15–30%、OpenAI 的 20–40%、Azure Foundry 的 >50%——一個不做模型的閘道,已經吃掉了相當大的推理流量入口。如果開發者真的「忠於」某一家 API,這個體量根本不可能存在。
資料一:模型流量排名每月都在變——沒有「離不開」這回事
過去三年,每一家大模型公司都在講同一個故事:我們的模型能力領先,使用者會因為模型品質產生強黏性,從而形成護城河。但 OpenRouter 的即時流量排名(基於數百萬開發者的真實 token 用量,每日更新)講的是另一個版本:
| 週排名 | 模型 | 廠商 | 週 token 量 | 週環比 |
|---|---|---|---|---|
| 1 | MiniMax M3 | MiniMax(中國) | 4.64 萬億 | +44% |
| 2 | DeepSeek V4 Flash | DeepSeek(中國) | 4.41 萬億 | +4% |
| 3 | Hy3 Preview | 騰訊(中國) | 3.84 萬億 | +9% |
| 4 | MiMo-V2.5 | 小米(中國) | 3.66 萬億 | +34% |
| 5 | Claude Opus 4.7 | Anthropic(美國) | 2.69 萬億 | +67% |
| 6 | Owl Alpha | OpenRouter 自研 | 2.45 萬億 | +22% |
| 8 | Claude Sonnet 4.6 | Anthropic(美國) | 1.88 萬億 | +4% |
| — | GPT-5.5 | OpenAI(美國) | 未進 Top 10 | — |
資料來源:OpenRouter LLM Rankings,擷取於 2026 年 6 月。週環比為平台公示欄位。
讀這張表,有三件事立刻跳出來:
- 榜首每幾週就換人:MiniMax M3 一週暴漲 44% 登頂——如果使用者真的「忠於品牌」,排名不會這麼 volatile
- 中國模型占主導:週榜 Top 4 裡有 4 個中國廠商模型,合計吞掉大部分流量——「只有美國閉源模型能商用」的敘事站不住
- OpenAI 不在前十:GPT-5.5 發布後市場聲量很大,但 OpenRouter 真實用量裡連週榜前十都沒進——聲量 ≠ 開發者選擇
OpenRouter 年度趨勢報告還記錄了更長期的結構性變化(State of AI Report):
| 趨勢指標 | 2025 年初 | 2025 年末 | 含義 |
|---|---|---|---|
| 開源模型 token 占比 | 約 15% | 約 30% | 開源不是試驗品,已是生產流量 |
| 程式設計類查詢占比 | 約 11% | 超 50% | 開發者是最大使用者群,且高度比價 |
| 單一開源模型最高份額 | DeepSeek 曾 >50% | 無模型 >25% | 流量快速分散,無人壟斷 |
| Anthropic 程式設計任務份額 | 長期 >60% | 2025 年 11 月首次跌破 60% | 即便「最強」也在被蠶食 |
這些行為共同指向一個結論:使用者忠於的不是某個模型品牌,而是「當下性價比最高、回應最快、最符合當前任務」的推理能力。如果模型真的有不可替代的護城河,OpenRouter 就根本不會存在——因為沒有人需要切換。
資料二:Token 價格在 6 年裡跌了 600 倍——規模護城河被掏空
大模型公司的第二個核心敘事是:訓練成本極高,只有超大規模才能攤薄,所以 API 會形成規模效應護城河。但價格資料給出了相反的答案:
| 時間節點 | 代表模型 | 輸入價格($/百萬 token) | 相對 GPT-3 基準 | 同等能力備註 |
|---|---|---|---|---|
| 2020 年 6 月 | GPT-3 API | $60.00 | 1×(基準) | 當時唯一可達 MMLU 42 的商用 API |
| 2023 年 3 月 | GPT-4 | $30.00 | 0.5× | MMLU ~83,能力躍升但價格腰斬 |
| 2024 年中 | GPT-4o | $5.00 | 0.08× | 多模態,價格再砍 6 倍 |
| 2025 年 2 月 | Gemini 2.0 Flash | $0.10 | 0.0017× | 多數基準超 GPT-4,價僅為 1/600 |
| 2026 年 4 月 | GPT-5.5 | $2.25 | 0.04× | 旗艦推理,仍僅為 GPT-3 的 4% |
| 2026 年(開源 API) | DeepSeek V4 Flash | $0.098 | 0.0016× | OpenRouter 週榜 #2,程式設計場景主流選擇 |
| 2024 年(開源) | Llama 3.2 3B(Together.ai) | $0.06 | 0.001× | 達到 GPT-3 同級 MMLU,價跌 1000× |
資料來源:a16z《LLMflation》(2024)、Epoch AI 價格追蹤、arXiv《Tiered Super-Moore's Law》(2026)、OpenRouter 定價頁。同等能力價格降幅高於名義標價降幅。
學術研究把這個趨勢叫做 "Tiered Super-Moore's Law"(分層超摩爾定律):經濟型模型價格半衰期僅 1.10 年,中端模型 1.55 年——均快於傳統摩爾定律的 2 年翻倍週期。經濟型 token 從 GPT-3 的 $60/M 到 Gemini Flash 的 $0.10/M,名義跌幅約 600 倍;按同等 benchmark 分數折算,跌幅更大。
a16z 的追蹤還顯示:達到同一 MMLU 分數的模型,推理成本以約 每年 10 倍的速度下降——快於 PC 時代的算力降價,也快於網際網路頻寬降價。規模效應的護城河建立在高成本基礎上;當單價每 12–18 個月跌一個數量級,「規模」本身不再是壁壘。
同任務、不同路由:一張價目表看清差距
假設一個典型 Agent 工作負載:每次請求 2,000 input + 800 output token(程式碼審查 / 文件問答常見比例),以下為 OpenRouter 公示價格(2026 年 6 月)下的單次呼叫成本:
| 路由目標 | 模型 | 輸入 $/M | 輸出 $/M | 單次成本 | 相對最便宜 |
|---|---|---|---|---|---|
| 本機 Ollama(Mac 節點) | Qwen2.5-7B | $0 | $0 | $0 | 基準 |
| OpenRouter | DeepSeek V4 Flash | $0.098 | $0.196 | $0.00035 | — |
| OpenRouter | Gemini 3 Flash Preview | $0.15 | $0.60 | $0.00078 | 2.2× |
| OpenRouter | Claude Sonnet 4.6 | $3.00 | $15.00 | $0.018 | 51× |
| OpenRouter | Claude Opus 4.8 | $15.00 | $75.00 | $0.090 | 257× |
| 直連 Anthropic API | Claude Sonnet 4.6 | $3.00 | $15.00 | $0.018 | 51× |
單次成本 = 2,000 × 輸入單價 + 800 × 輸出單價。OpenRouter 價格來源:openrouter.ai/models;Anthropic 官網定價對照。本機行僅計 token 邊際成本,不含機器租金。
同一次程式碼審查,走 Claude Sonnet 比走 DeepSeek V4 Flash 貴 51 倍;比本機 7B 則是一個數量級以上的差距。開發者不是「忠於品牌」,是在即時比價——這正是 OpenRouter 週榜裡 DeepSeek、MiniMax 霸榜的原因。
資料三:月帳單對照——雲端 API vs 本機 Mac 節點,誰更划算?
價格表只說明單價。團隊真正關心的是:我這個月跑多少量,花多少錢?下面按三種典型月用量做 TCO 估算(假設 input:output = 5:2,與上文 Agent 場景一致):
| 月 token 總量 | 約等於(2,800 token/次) | Claude Sonnet 4.6 | DeepSeek V4 Flash | Mac Mini M4 16GB 租用 | 最省方案 |
|---|---|---|---|---|---|
| 10M | 約 3,600 次/月(個人 side project) | 約 $64 | 約 $1.3 | $102.9 固定 | 雲端 DeepSeek |
| 50M | 約 1.8 萬次/月(小團隊內部工具) | 約 $321 | 約 $6.3 | $102.9 固定 | 本機 vs Claude;DeepSeek 仍更便宜 |
| 200M | 約 7.1 萬次/月(8 人 Agent 試點) | 約 $1,286 | 約 $25 | $102.9 固定 | 本機 vs Claude(省 92%) |
| 500M | 約 17.9 萬次/月(CI 審查 + RAG) | 約 $3,214 | 約 $63 | $102.9 固定 | 本機 vs Claude(省 97%) |
| 800M+ | 約 28.6 萬次/月(高頻批量) | 約 $5,143+ | 約 $100+ | $102.9 固定 | 本機開始優於 DeepSeek 單價 |
| 2B | 約 71 萬次/月(全天候 Agent 流水線) | 約 $12,857 | 約 $250 | $102.9(或 24GB $202.9) | 本機(省 59–99%) |
計算公式:單次 = 2,000 × 輸入單價 + 800 × 輸出單價;月總量按等比例放大。雲端價來自 OpenRouter;本機按 Macstripe M4 16GB 包月 $102.9(定價頁,2026 年 6 月)。
怎麼讀這張表:
- 對標 Claude Sonnet:月用量超過約 15–20M token,本機固定成本就開始划算——200M token 場景可省 92%
- 對標 DeepSeek Flash:純單價要到 800M token/月 左右本機才更便宜——但本機同時白送不限速、資料不出節點、版本鎖定,批量 CI 場景往往提前切換
- 混合路由最務實:Macstripe 站內 8 人團隊實測,雲 API 從 $300/月 → $50/月(−83%),靠的是機械性任務走本機、複雜推理走雲端——不是非此即彼
不只是錢:本機節點在硬指標上的對比
OpenRouter 的存在本身就是對「只能走雲端」的質疑:如果你可以路由到 300 多個模型,為什麼不能路由到自己部署的模型?
| 對比維度 | 直連 Claude API | OpenRouter 路由 | 本機 Mac + Ollama |
|---|---|---|---|
| 月成本(200M token) | 約 $1,286 | 約 $1,286(同價)+ 路由溢價 | $102.9 固定 |
| Rate Limit(Tier 1 典型) | 約 50 RPM / 40K TPM | 受上游 + 平台雙層限制 | 無限制(獨享算力) |
| 首 token 延遲(TTFT) | 約 0.8–2.5s(含網路) | 約 1.0–3.0s(多一跳) | 約 0.3–1.8s(LAN 內網) |
| 持續吞吐(7B 4-bit) | 按配額,峰值受限 | 按配額,峰值受限 | 約 38–51 tok/s 獨享 |
| 資料路徑 | Prompt → Anthropic 伺服器 | Prompt → OpenRouter → 上游 | Prompt 不出節點 |
| 模型切換成本 | 換 SDK / 換金鑰 / 改程式碼 | 改 model 名即可 | 同左(OpenAI 相容介面) |
| 版本鎖定 | 供應商隨時更新模型 | 同左 | 模型權重由你控制 |
| 適合場景 | 最強推理、複雜 Agent | 多模型比價、快速試驗 | 批量任務、敏感資料、CI 審查 |
TTFT / tok/s 參考 Macstripe 站內 M4 本機大模型實測;Rate Limit 參考 Anthropic Tier 1 公開文件(隨帳戶等級變化)。
OpenRouter 的 13 億估值告訴我們:多提供商路由是未來,而你自己的推理節點,理應是其中一個「提供商」。合理架構不是三選一,而是按資料敏感度與任務難度分層路由。
三個謊言,一張總表
把上文資料收攏成一張對照表,方便你拿去跟團隊或老闆討論:
| 產業敘事(謊言) | 資料怎麼說 | 對開發者意味著什麼 |
|---|---|---|
| 「我們的模型無可替代」 | 週榜榜首 6 個月換 3 次;GPT-5.5 未進 Top 10;單一開源模型份額從 >50% 降至 <25% | 沒有「必須綁定」的模型,隨時切換是常態 |
| 「API 規模即護城河」 | Token 價 6 年跌 600×;經濟型模型價格半衰期 1.1 年 | 按量付費的長期成本不可預測,固定成本節點更穩 |
| 「推理只能走雲端」 | 200M token/月:Claude $1,286 vs 本機 $102.9(省 92%);8 人團隊混合路由 API 帳單 −83% | 本機節點是路由體系的合法一環,不是備胎 |
| 「OpenRouter 只是小工具」 | 估值 $1.3B;年化 1,500 萬億 token;占 OpenAI run rate 20–40% | 多模型路由已是基礎設施層,值得現在就開始架構 |
謊言破了之後:OpenRouter 驗證的商業邏輯
理解了這三個謊言,OpenRouter 的估值邏輯就清晰了:
大模型產業正在經歷一次結構性分層。原來被捆綁在一起銷售的東西——模型能力、推理算力、API 接入、資料處理流程——正在被解綁。每一層都會有專業公司來做,每一層都會有獨立的定價。
OpenRouter 占據的是「API 接入聚合」這一層。它的價值不是技術有多複雜,而是它解決了一個真實的使用者痛點:你不想為 300 個模型維護 300 套 SDK、金鑰管理、計費對帳和故障切換邏輯。有人幫你做,你願意付一點溢價——這是 13 億美元背後最樸素的商業邏輯。
模型無關架構的最小實作
用 OpenAI SDK 的相容介面可以一行程式碼切換提供商:
from openai import OpenAI
# 切换到 OpenRouter(路由到任意云端模型)
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-...",
)
# 切换到本地 Mac Mini 节点(Ollama)
client = OpenAI(
base_url="http://YOUR_MAC_NODE:11434/v1",
api_key="ollama",
)
# 切换到 Anthropic 直接 API
client = OpenAI(
base_url="https://api.anthropic.com/v1",
api_key="sk-ant-...",
)
# 三种切换,业务代码零改动:
response = client.chat.completions.create(
model="qwen2.5:32b", # 或 claude-sonnet-4-5, 或任意模型名
messages=[{"role": "user", "content": prompt}],
)
這段程式碼的含義是:你的推理來源,可以是 OpenRouter,可以是任何一家雲端 API,也可以是你自己的 Mac Mini 節點。選擇權在你。
如果路由層值 13 億,「自己掌控推理節點」值什麼
OpenRouter 解決的是「我不想被一家綁定」的問題,但它本身仍然是一個第三方——你的資料還是經過了別人的伺服器,你仍然受到網路延遲和上游 API 可用性的影響。
把自己的推理節點加入進來,補上的恰好是 OpenRouter 解決不了的那部分:
- 資料主權:Prompt 和回應不經過任何第三方,程式碼庫、使用者資料、內部文件留在你自己的機器上
- 成本封頂:租一台節點,成本固定,跑多少請求都不額外計費
- 零限速:不受任何供應商的 Rate Limit 政策約束,批量任務跑到完
- 版本鎖定:模型版本不會因為供應商更新而突然變化,回歸測試結果可信
- 離線可用:在網路受限環境(機艙、內網隔離區、受監管機房)中照常運行
Apple Silicon 的統一記憶體架構使得 Mac Mini M4 在這個場景裡格外適合:沒有 CPU/GPU 記憶體邊界,中小規模模型跑起來延遲低、吞吐穩定,功耗卻只有 GPU 伺服器的幾十分之一。
| Mac Mini M4 型號 | 統一記憶體 | 推薦模型 | 推理速度(4-bit 量化) |
|---|---|---|---|
| M4(基礎款) | 16 GB | Qwen2.5-7B、Llama-3.1-8B | 約 38–50 token/s |
| M4 Pro | 24 GB | Qwen2.5-14B、Phi-4 | 約 30–42 token/s |
| M4 Pro(大記憶體) | 48 GB | Qwen2.5-32B、DeepSeek-R1-32B | 約 18–28 token/s |
對於 CI 程式碼審查、內部文件問答、批量資料處理這類場景,40 token/s 綽綽有餘——而且是你獨享、不限速、不計 token 費用的 40 token/s。
具體怎麼做:把自己的 Mac 節點加入路由體系
Macstripe 提供獨享 Mac Mini M4 節點,SSH 進去就是一台完整的 macOS 機器。以下是最快的接入方式:
第一步:在 Mac 節點上啟動 Ollama
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取模型(以 Qwen2.5-7B 为例)
ollama pull qwen2.5:7b
# 启动 OpenAI 兼容 API,监听所有接口
OLLAMA_HOST=0.0.0.0 ollama serve
第二步:在業務程式碼裡建構簡單的路由邏輯
你可以根據任務類型、成本預算、資料敏感度來決定路由到哪裡:
import os
from openai import OpenAI
def get_llm_client(mode: str = "auto"):
"""
mode="local" → 自己的 Mac Mini 节点(Ollama)
mode="router" → OpenRouter(路由到任意云端模型)
mode="auto" → 默认本地,本地不可用时降级到 OpenRouter
"""
if mode == "local":
return OpenAI(
base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
api_key="ollama",
), "qwen2.5:7b"
if mode == "router":
return OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"],
), "anthropic/claude-sonnet-4-5"
# auto 模式:先尝试本地节点
try:
client = OpenAI(
base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
api_key="ollama",
timeout=2.0,
)
client.models.list() # 健康检查
return client, "qwen2.5:7b"
except Exception:
return OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"],
), "anthropic/claude-sonnet-4-5"
mode="local",對需要最強推理能力的複雜任務走 mode="router",對非關鍵路徑走 mode="auto" 自動降級。這就是真正的多提供商架構。結語:謊言破了,機會留給有準備的開發者
OpenRouter 的 13 億估值本質上是一個時代訊號:大模型產業的價值中心,正在從「誰的模型最強」轉移到「誰能讓開發者最高效地使用所有模型」。
對於開發者來說,這意味著:
- 不要押注任何一家模型供應商,從第一天就建構模型無關的架構
- 把本機推理節點當作路由體系的一部分,而不是雲端 API 的「劣質替代品」
- 資料敏感的任務走本機,算力需求超出本機的任務走雲端——這是合理分工,而不是非此即彼
- 控制成本結構:把可預測的推理負載用固定成本的本機節點承接,把高峰和實驗性需求用按量計費的雲端覆蓋
大模型產業用了三年時間讓你相信「你需要依賴我們」。OpenRouter 用 13 億美元的估值告訴你:這是一個謊言,市場已經在為「不依賴任何一家」出錢。
下一個問題是:你的推理架構,準備好了嗎?
FAQ
OpenRouter 和直接呼叫模型 API 有什麼區別?OpenRouter 統一了 API 格式、金鑰管理和計費,讓你用一個介面存取 300+ 模型。缺點是資料經過了 OpenRouter 的伺服器,適合非敏感資料場景。
本機推理和 OpenRouter 可以同時用嗎?當然可以。推薦的架構是:敏感資料走本機,其他任務透過 OpenRouter 路由到最合適的雲端模型,兩者用 OpenAI 相容介面無縫切換。
Mac Mini M4 跑 7B 模型,品質夠用嗎?對於程式碼審查、文件摘要、測試用例生成這類有明確輸入輸出的任務,Qwen2.5-7B 的品質已可上生產。複雜推理可以升級到 32B 或路由到雲端模型。
怎麼快速測試本機推理方案?造訪 Macstripe 首頁,選擇 Mac Mini M4 節點,5 分鐘內拿到 SSH 連線,按照上文步驟裝 Ollama,10 分鐘你的私有推理節點就在線了。