13 億估值的 OpenRouter，戳破了大模型產業的最大謊言

網路路由節點示意圖，象徵 OpenRouter 在多個大模型 API 之間扮演的智慧路由角色

一家不做模型的公司，憑什麼值 13 億美元

2026 年，OpenRouter 完成新一輪融資，估值達到 13 億美元（約 94 億人民幣）。這家公司自己不訓練任何模型，不持有任何 GPU 叢集，不做任何「獨家研究」——它只做一件事：把來自開發者的請求，路由到 Claude、GPT-4o、Gemini、Llama、Qwen 等 300 多個模型的 API 上，然後統一收取轉發費用。

如果你頭一次聽說這件事，可能會覺得奇怪：一個「中間商」憑什麼值這麼多錢？但如果你在 AI 產業待過一段時間，你應該能感受到這個估值背後一個令人不安的訊號——大模型公司苦心營造的核心敘事，正在悄悄崩塌。

本文的核心論點：OpenRouter 的 13 億估值，是市場對「大模型產業最大謊言」投的一張反對票——這個謊言就是：模型本身是護城河，使用者會忠於某一家 API。下文所有判斷都盡量用可核對的資料支撐，來源見各表註腳。

先用資料說話：OpenRouter 憑什麼值 13 億

資本市場不會為「故事」付 13 億——它買的是可驗證的成長曲線。OpenRouter 在 2025 年 6 月 Series A 後估值約 5.47 億美元（PitchBook / TechCrunch），2026 年 5 月 Series B 融資 1.13 億美元後估值約 13 億美元——11 個月內估值翻 2.4 倍。領投方是 Google 旗下 CapitalG，跟投包括 NVIDIA NVentures、Snowflake、Databricks、MongoDB 等——它們投的不是某個模型，而是多模型路由層。

指標	2025 年 6 月（Series A）	2026 年 5–6 月（Series B）	變化
投後估值	約 $547M	約 $1.3B	+2.4×
註冊開發者	250 萬+	800 萬+	+3.2×
年化 token 處理量	約 100 萬億 / 年	約 1,500 萬億 / 年	+15×
週 token 流量	約 5 萬億 / 週	約 25 萬億 / 週	+5×（6 個月內）
團隊規模	—	約 50 人	人均約 20 萬億 token / 年
接入模型數	數百個	400+ 個	持續擴張

資料來源：OpenRouter Series B 公告、TechCrunch、Menlo Ventures（2026 年 5–6 月）。

更關鍵的是 token 規模的參照系：Menlo Ventures 估算 OpenRouter 年化處理量已達 Google token run rate 的 15–30%、OpenAI 的 20–40%、Azure Foundry 的 >50%——一個不做模型的閘道，已經吃掉了相當大的推理流量入口。如果開發者真的「忠於」某一家 API，這個體量根本不可能存在。

資料一：模型流量排名每月都在變——沒有「離不開」這回事

過去三年，每一家大模型公司都在講同一個故事：我們的模型能力領先，使用者會因為模型品質產生強黏性，從而形成護城河。但 OpenRouter 的即時流量排名（基於數百萬開發者的真實 token 用量，每日更新）講的是另一個版本：

週排名	模型	廠商	週 token 量	週環比
1	MiniMax M3	MiniMax（中國）	4.64 萬億	+44%
2	DeepSeek V4 Flash	DeepSeek（中國）	4.41 萬億	+4%
3	Hy3 Preview	騰訊（中國）	3.84 萬億	+9%
4	MiMo-V2.5	小米（中國）	3.66 萬億	+34%
5	Claude Opus 4.7	Anthropic（美國）	2.69 萬億	+67%
6	Owl Alpha	OpenRouter 自研	2.45 萬億	+22%
8	Claude Sonnet 4.6	Anthropic（美國）	1.88 萬億	+4%
—	GPT-5.5	OpenAI（美國）	未進 Top 10	—

資料來源：OpenRouter LLM Rankings，擷取於 2026 年 6 月。週環比為平台公示欄位。

讀這張表，有三件事立刻跳出來：

榜首每幾週就換人：MiniMax M3 一週暴漲 44% 登頂——如果使用者真的「忠於品牌」，排名不會這麼 volatile
中國模型占主導：週榜 Top 4 裡有 4 個中國廠商模型，合計吞掉大部分流量——「只有美國閉源模型能商用」的敘事站不住
OpenAI 不在前十：GPT-5.5 發布後市場聲量很大，但 OpenRouter 真實用量裡連週榜前十都沒進——聲量 ≠ 開發者選擇

OpenRouter 年度趨勢報告還記錄了更長期的結構性變化（State of AI Report）：

趨勢指標	2025 年初	2025 年末	含義
開源模型 token 占比	約 15%	約 30%	開源不是試驗品，已是生產流量
程式設計類查詢占比	約 11%	超 50%	開發者是最大使用者群，且高度比價
單一開源模型最高份額	DeepSeek 曾 >50%	無模型 >25%	流量快速分散，無人壟斷
Anthropic 程式設計任務份額	長期 >60%	2025 年 11 月首次跌破 60%	即便「最強」也在被蠶食

這些行為共同指向一個結論：使用者忠於的不是某個模型品牌，而是「當下性價比最高、回應最快、最符合當前任務」的推理能力。如果模型真的有不可替代的護城河，OpenRouter 就根本不會存在——因為沒有人需要切換。

資料二：Token 價格在 6 年裡跌了 600 倍——規模護城河被掏空

大模型公司的第二個核心敘事是：訓練成本極高，只有超大規模才能攤薄，所以 API 會形成規模效應護城河。但價格資料給出了相反的答案：

時間節點	代表模型	輸入價格（$/百萬 token）	相對 GPT-3 基準	同等能力備註
2020 年 6 月	GPT-3 API	$60.00	1×（基準）	當時唯一可達 MMLU 42 的商用 API
2023 年 3 月	GPT-4	$30.00	0.5×	MMLU ~83，能力躍升但價格腰斬
2024 年中	GPT-4o	$5.00	0.08×	多模態，價格再砍 6 倍
2025 年 2 月	Gemini 2.0 Flash	$0.10	0.0017×	多數基準超 GPT-4，價僅為 1/600
2026 年 4 月	GPT-5.5	$2.25	0.04×	旗艦推理，仍僅為 GPT-3 的 4%
2026 年（開源 API）	DeepSeek V4 Flash	$0.098	0.0016×	OpenRouter 週榜 #2，程式設計場景主流選擇
2024 年（開源）	Llama 3.2 3B（Together.ai）	$0.06	0.001×	達到 GPT-3 同級 MMLU，價跌 1000×

資料來源：a16z《LLMflation》（2024）、Epoch AI 價格追蹤、arXiv《Tiered Super-Moore's Law》（2026）、OpenRouter 定價頁。同等能力價格降幅高於名義標價降幅。

學術研究把這個趨勢叫做 "Tiered Super-Moore's Law"（分層超摩爾定律）：經濟型模型價格半衰期僅 1.10 年，中端模型 1.55 年——均快於傳統摩爾定律的 2 年翻倍週期。經濟型 token 從 GPT-3 的 $60/M 到 Gemini Flash 的 $0.10/M，名義跌幅約 600 倍；按同等 benchmark 分數折算，跌幅更大。

a16z 的追蹤還顯示：達到同一 MMLU 分數的模型，推理成本以約 每年 10 倍的速度下降——快於 PC 時代的算力降價，也快於網際網路頻寬降價。規模效應的護城河建立在高成本基礎上；當單價每 12–18 個月跌一個數量級，「規模」本身不再是壁壘。

同任務、不同路由：一張價目表看清差距

假設一個典型 Agent 工作負載：每次請求 2,000 input + 800 output token（程式碼審查 / 文件問答常見比例），以下為 OpenRouter 公示價格（2026 年 6 月）下的單次呼叫成本：

路由目標	模型	輸入 $/M	輸出 $/M	單次成本	相對最便宜
本機 Ollama（Mac 節點）	Qwen2.5-7B	$0	$0	$0	基準
OpenRouter	DeepSeek V4 Flash	$0.098	$0.196	$0.00035	—
OpenRouter	Gemini 3 Flash Preview	$0.15	$0.60	$0.00078	2.2×
OpenRouter	Claude Sonnet 4.6	$3.00	$15.00	$0.018	51×
OpenRouter	Claude Opus 4.8	$15.00	$75.00	$0.090	257×
直連 Anthropic API	Claude Sonnet 4.6	$3.00	$15.00	$0.018	51×

單次成本 = 2,000 × 輸入單價 + 800 × 輸出單價。OpenRouter 價格來源：openrouter.ai/models；Anthropic 官網定價對照。本機行僅計 token 邊際成本，不含機器租金。

同一次程式碼審查，走 Claude Sonnet 比走 DeepSeek V4 Flash 貴 51 倍；比本機 7B 則是一個數量級以上的差距。開發者不是「忠於品牌」，是在即時比價——這正是 OpenRouter 週榜裡 DeepSeek、MiniMax 霸榜的原因。

資料三：月帳單對照——雲端 API vs 本機 Mac 節點，誰更划算？

價格表只說明單價。團隊真正關心的是：我這個月跑多少量，花多少錢？下面按三種典型月用量做 TCO 估算（假設 input:output = 5:2，與上文 Agent 場景一致）：

月 token 總量	約等於（2,800 token/次）	Claude Sonnet 4.6	DeepSeek V4 Flash	Mac Mini M4 16GB 租用	最省方案
10M	約 3,600 次/月（個人 side project）	約 $64	約 $1.3	$102.9 固定	雲端 DeepSeek
50M	約 1.8 萬次/月（小團隊內部工具）	約 $321	約 $6.3	$102.9 固定	本機 vs Claude；DeepSeek 仍更便宜
200M	約 7.1 萬次/月（8 人 Agent 試點）	約 $1,286	約 $25	$102.9 固定	本機 vs Claude（省 92%）
500M	約 17.9 萬次/月（CI 審查 + RAG）	約 $3,214	約 $63	$102.9 固定	本機 vs Claude（省 97%）
800M+	約 28.6 萬次/月（高頻批量）	約 $5,143+	約 $100+	$102.9 固定	本機開始優於 DeepSeek 單價
2B	約 71 萬次/月（全天候 Agent 流水線）	約 $12,857	約 $250	$102.9（或 24GB $202.9）	本機（省 59–99%）

計算公式：單次 = 2,000 × 輸入單價 + 800 × 輸出單價；月總量按等比例放大。雲端價來自 OpenRouter；本機按 Macstripe M4 16GB 包月 $102.9（定價頁，2026 年 6 月）。

怎麼讀這張表：

對標 Claude Sonnet：月用量超過約 15–20M token，本機固定成本就開始划算——200M token 場景可省 92%
對標 DeepSeek Flash：純單價要到 800M token/月 左右本機才更便宜——但本機同時白送不限速、資料不出節點、版本鎖定，批量 CI 場景往往提前切換
混合路由最務實：Macstripe 站內 8 人團隊實測，雲 API 從 $300/月 → $50/月（−83%），靠的是機械性任務走本機、複雜推理走雲端——不是非此即彼

不只是錢：本機節點在硬指標上的對比

OpenRouter 的存在本身就是對「只能走雲端」的質疑：如果你可以路由到 300 多個模型，為什麼不能路由到自己部署的模型？

對比維度	直連 Claude API	OpenRouter 路由	本機 Mac + Ollama
月成本（200M token）	約 $1,286	約 $1,286（同價）+ 路由溢價	$102.9 固定
Rate Limit（Tier 1 典型）	約 50 RPM / 40K TPM	受上游 + 平台雙層限制	無限制（獨享算力）
首 token 延遲（TTFT）	約 0.8–2.5s（含網路）	約 1.0–3.0s（多一跳）	約 0.3–1.8s（LAN 內網）
持續吞吐（7B 4-bit）	按配額，峰值受限	按配額，峰值受限	約 38–51 tok/s 獨享
資料路徑	Prompt → Anthropic 伺服器	Prompt → OpenRouter → 上游	Prompt 不出節點
模型切換成本	換 SDK / 換金鑰 / 改程式碼	改 model 名即可	同左（OpenAI 相容介面）
版本鎖定	供應商隨時更新模型	同左	模型權重由你控制
適合場景	最強推理、複雜 Agent	多模型比價、快速試驗	批量任務、敏感資料、CI 審查

TTFT / tok/s 參考 Macstripe 站內 M4 本機大模型實測；Rate Limit 參考 Anthropic Tier 1 公開文件（隨帳戶等級變化）。

OpenRouter 的 13 億估值告訴我們：多提供商路由是未來，而你自己的推理節點，理應是其中一個「提供商」。合理架構不是三選一，而是按資料敏感度與任務難度分層路由。

三個謊言，一張總表

把上文資料收攏成一張對照表，方便你拿去跟團隊或老闆討論：

產業敘事（謊言）	資料怎麼說	對開發者意味著什麼
「我們的模型無可替代」	週榜榜首 6 個月換 3 次；GPT-5.5 未進 Top 10；單一開源模型份額從 >50% 降至 <25%	沒有「必須綁定」的模型，隨時切換是常態
「API 規模即護城河」	Token 價 6 年跌 600×；經濟型模型價格半衰期 1.1 年	按量付費的長期成本不可預測，固定成本節點更穩
「推理只能走雲端」	200M token/月：Claude $1,286 vs 本機 $102.9（省 92%）；8 人團隊混合路由 API 帳單 −83%	本機節點是路由體系的合法一環，不是備胎
「OpenRouter 只是小工具」	估值 $1.3B；年化 1,500 萬億 token；占 OpenAI run rate 20–40%	多模型路由已是基礎設施層，值得現在就開始架構

謊言破了之後：OpenRouter 驗證的商業邏輯

理解了這三個謊言，OpenRouter 的估值邏輯就清晰了：

大模型產業正在經歷一次結構性分層。原來被捆綁在一起銷售的東西——模型能力、推理算力、API 接入、資料處理流程——正在被解綁。每一層都會有專業公司來做，每一層都會有獨立的定價。

OpenRouter 占據的是「API 接入聚合」這一層。它的價值不是技術有多複雜，而是它解決了一個真實的使用者痛點：你不想為 300 個模型維護 300 套 SDK、金鑰管理、計費對帳和故障切換邏輯。有人幫你做，你願意付一點溢價——這是 13 億美元背後最樸素的商業邏輯。

對開發者的啟示：不要等大模型公司來告訴你「應該用哪個模型」。應該從一開始就建構模型無關（model-agnostic）的架構——把推理層當作可替換的基礎設施，而不是業務邏輯的一部分。

模型無關架構的最小實作

用 OpenAI SDK 的相容介面可以一行程式碼切換提供商：

from openai import OpenAI

# 切换到 OpenRouter（路由到任意云端模型）
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-...",
)

# 切换到本地 Mac Mini 节点（Ollama）
client = OpenAI(
    base_url="http://YOUR_MAC_NODE:11434/v1",
    api_key="ollama",
)

# 切换到 Anthropic 直接 API
client = OpenAI(
    base_url="https://api.anthropic.com/v1",
    api_key="sk-ant-...",
)

# 三种切换，业务代码零改动：
response = client.chat.completions.create(
    model="qwen2.5:32b",  # 或 claude-sonnet-4-5, 或任意模型名
    messages=[{"role": "user", "content": prompt}],
)

這段程式碼的含義是：你的推理來源，可以是 OpenRouter，可以是任何一家雲端 API，也可以是你自己的 Mac Mini 節點。選擇權在你。

如果路由層值 13 億，「自己掌控推理節點」值什麼

OpenRouter 解決的是「我不想被一家綁定」的問題，但它本身仍然是一個第三方——你的資料還是經過了別人的伺服器，你仍然受到網路延遲和上游 API 可用性的影響。

把自己的推理節點加入進來，補上的恰好是 OpenRouter 解決不了的那部分：

資料主權：Prompt 和回應不經過任何第三方，程式碼庫、使用者資料、內部文件留在你自己的機器上
成本封頂：租一台節點，成本固定，跑多少請求都不額外計費
零限速：不受任何供應商的 Rate Limit 政策約束，批量任務跑到完
版本鎖定：模型版本不會因為供應商更新而突然變化，回歸測試結果可信
離線可用：在網路受限環境（機艙、內網隔離區、受監管機房）中照常運行

Apple Silicon 的統一記憶體架構使得 Mac Mini M4 在這個場景裡格外適合：沒有 CPU/GPU 記憶體邊界，中小規模模型跑起來延遲低、吞吐穩定，功耗卻只有 GPU 伺服器的幾十分之一。

Mac Mini M4 型號	統一記憶體	推薦模型	推理速度（4-bit 量化）
M4（基礎款）	16 GB	Qwen2.5-7B、Llama-3.1-8B	約 38–50 token/s
M4 Pro	24 GB	Qwen2.5-14B、Phi-4	約 30–42 token/s
M4 Pro（大記憶體）	48 GB	Qwen2.5-32B、DeepSeek-R1-32B	約 18–28 token/s

對於 CI 程式碼審查、內部文件問答、批量資料處理這類場景，40 token/s 綽綽有餘——而且是你獨享、不限速、不計 token 費用的 40 token/s。

具體怎麼做：把自己的 Mac 節點加入路由體系

Macstripe 提供獨享 Mac Mini M4 節點，SSH 進去就是一台完整的 macOS 機器。以下是最快的接入方式：

第一步：在 Mac 節點上啟動 Ollama

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型（以 Qwen2.5-7B 为例）
ollama pull qwen2.5:7b

# 启动 OpenAI 兼容 API，监听所有接口
OLLAMA_HOST=0.0.0.0 ollama serve

第二步：在業務程式碼裡建構簡單的路由邏輯

你可以根據任務類型、成本預算、資料敏感度來決定路由到哪裡：

import os
from openai import OpenAI

def get_llm_client(mode: str = "auto"):
    """
    mode="local"   → 自己的 Mac Mini 节点（Ollama）
    mode="router"  → OpenRouter（路由到任意云端模型）
    mode="auto"    → 默认本地，本地不可用时降级到 OpenRouter
    """
    if mode == "local":
        return OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
        ), "qwen2.5:7b"

    if mode == "router":
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"

    # auto 模式：先尝试本地节点
    try:
        client = OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
            timeout=2.0,
        )
        client.models.list()  # 健康检查
        return client, "qwen2.5:7b"
    except Exception:
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"

最佳實踐：對內部程式碼和使用者資料走 mode="local"，對需要最強推理能力的複雜任務走 mode="router"，對非關鍵路徑走 mode="auto" 自動降級。這就是真正的多提供商架構。

結語：謊言破了，機會留給有準備的開發者

OpenRouter 的 13 億估值本質上是一個時代訊號：大模型產業的價值中心，正在從「誰的模型最強」轉移到「誰能讓開發者最高效地使用所有模型」。

對於開發者來說，這意味著：

不要押注任何一家模型供應商，從第一天就建構模型無關的架構
把本機推理節點當作路由體系的一部分，而不是雲端 API 的「劣質替代品」
資料敏感的任務走本機，算力需求超出本機的任務走雲端——這是合理分工，而不是非此即彼
控制成本結構：把可預測的推理負載用固定成本的本機節點承接，把高峰和實驗性需求用按量計費的雲端覆蓋

大模型產業用了三年時間讓你相信「你需要依賴我們」。OpenRouter 用 13 億美元的估值告訴你：這是一個謊言，市場已經在為「不依賴任何一家」出錢。

下一個問題是：你的推理架構，準備好了嗎？

FAQ

OpenRouter 和直接呼叫模型 API 有什麼區別？OpenRouter 統一了 API 格式、金鑰管理和計費，讓你用一個介面存取 300+ 模型。缺點是資料經過了 OpenRouter 的伺服器，適合非敏感資料場景。

本機推理和 OpenRouter 可以同時用嗎？當然可以。推薦的架構是：敏感資料走本機，其他任務透過 OpenRouter 路由到最合適的雲端模型，兩者用 OpenAI 相容介面無縫切換。

Mac Mini M4 跑 7B 模型，品質夠用嗎？對於程式碼審查、文件摘要、測試用例生成這類有明確輸入輸出的任務，Qwen2.5-7B 的品質已可上生產。複雜推理可以升級到 32B 或路由到雲端模型。

怎麼快速測試本機推理方案？造訪 Macstripe 首頁，選擇 Mac Mini M4 節點，5 分鐘內拿到 SSH 連線，按照上文步驟裝 Ollama，10 分鐘你的私有推理節點就在線了。