網路路由節點示意圖,象徵 OpenRouter 在多個大模型 API 之間扮演的智慧路由角色

一家不做模型的公司,憑什麼值 13 億美元

2026 年,OpenRouter 完成新一輪融資,估值達到 13 億美元(約 94 億人民幣)。這家公司自己不訓練任何模型,不持有任何 GPU 叢集,不做任何「獨家研究」——它只做一件事:把來自開發者的請求,路由到 Claude、GPT-4o、Gemini、Llama、Qwen 等 300 多個模型的 API 上,然後統一收取轉發費用。

如果你頭一次聽說這件事,可能會覺得奇怪:一個「中間商」憑什麼值這麼多錢?但如果你在 AI 產業待過一段時間,你應該能感受到這個估值背後一個令人不安的訊號——大模型公司苦心營造的核心敘事,正在悄悄崩塌。

本文的核心論點:OpenRouter 的 13 億估值,是市場對「大模型產業最大謊言」投的一張反對票——這個謊言就是:模型本身是護城河,使用者會忠於某一家 API。下文所有判斷都盡量用可核對的資料支撐,來源見各表註腳。

先用資料說話:OpenRouter 憑什麼值 13 億

資本市場不會為「故事」付 13 億——它買的是可驗證的成長曲線。OpenRouter 在 2025 年 6 月 Series A 後估值約 5.47 億美元(PitchBook / TechCrunch),2026 年 5 月 Series B 融資 1.13 億美元後估值約 13 億美元——11 個月內估值翻 2.4 倍。領投方是 Google 旗下 CapitalG,跟投包括 NVIDIA NVentures、Snowflake、Databricks、MongoDB 等——它們投的不是某個模型,而是多模型路由層

指標 2025 年 6 月(Series A) 2026 年 5–6 月(Series B) 變化
投後估值 約 $547M 約 $1.3B +2.4×
註冊開發者 250 萬+ 800 萬+ +3.2×
年化 token 處理量 約 100 萬億 / 年 約 1,500 萬億 / 年 +15×
週 token 流量 約 5 萬億 / 週 約 25 萬億 / 週 +5×(6 個月內)
團隊規模 約 50 人 人均約 20 萬億 token / 年
接入模型數 數百個 400+ 個 持續擴張

資料來源:OpenRouter Series B 公告TechCrunchMenlo Ventures(2026 年 5–6 月)。

更關鍵的是 token 規模的參照系:Menlo Ventures 估算 OpenRouter 年化處理量已達 Google token run rate 的 15–30%、OpenAI 的 20–40%、Azure Foundry 的 >50%——一個不做模型的閘道,已經吃掉了相當大的推理流量入口。如果開發者真的「忠於」某一家 API,這個體量根本不可能存在。

資料一:模型流量排名每月都在變——沒有「離不開」這回事

過去三年,每一家大模型公司都在講同一個故事:我們的模型能力領先,使用者會因為模型品質產生強黏性,從而形成護城河。但 OpenRouter 的即時流量排名(基於數百萬開發者的真實 token 用量,每日更新)講的是另一個版本:

週排名 模型 廠商 週 token 量 週環比
1 MiniMax M3 MiniMax(中國) 4.64 萬億 +44%
2 DeepSeek V4 Flash DeepSeek(中國) 4.41 萬億 +4%
3 Hy3 Preview 騰訊(中國) 3.84 萬億 +9%
4 MiMo-V2.5 小米(中國) 3.66 萬億 +34%
5 Claude Opus 4.7 Anthropic(美國) 2.69 萬億 +67%
6 Owl Alpha OpenRouter 自研 2.45 萬億 +22%
8 Claude Sonnet 4.6 Anthropic(美國) 1.88 萬億 +4%
GPT-5.5 OpenAI(美國) 未進 Top 10

資料來源:OpenRouter LLM Rankings,擷取於 2026 年 6 月。週環比為平台公示欄位。

讀這張表,有三件事立刻跳出來:

  • 榜首每幾週就換人:MiniMax M3 一週暴漲 44% 登頂——如果使用者真的「忠於品牌」,排名不會這麼 volatile
  • 中國模型占主導:週榜 Top 4 裡有 4 個中國廠商模型,合計吞掉大部分流量——「只有美國閉源模型能商用」的敘事站不住
  • OpenAI 不在前十:GPT-5.5 發布後市場聲量很大,但 OpenRouter 真實用量裡連週榜前十都沒進——聲量 ≠ 開發者選擇

OpenRouter 年度趨勢報告還記錄了更長期的結構性變化(State of AI Report):

趨勢指標 2025 年初 2025 年末 含義
開源模型 token 占比 約 15% 約 30% 開源不是試驗品,已是生產流量
程式設計類查詢占比 約 11% 超 50% 開發者是最大使用者群,且高度比價
單一開源模型最高份額 DeepSeek 曾 >50% 無模型 >25% 流量快速分散,無人壟斷
Anthropic 程式設計任務份額 長期 >60% 2025 年 11 月首次跌破 60% 即便「最強」也在被蠶食

這些行為共同指向一個結論:使用者忠於的不是某個模型品牌,而是「當下性價比最高、回應最快、最符合當前任務」的推理能力。如果模型真的有不可替代的護城河,OpenRouter 就根本不會存在——因為沒有人需要切換。

資料二:Token 價格在 6 年裡跌了 600 倍——規模護城河被掏空

大模型公司的第二個核心敘事是:訓練成本極高,只有超大規模才能攤薄,所以 API 會形成規模效應護城河。但價格資料給出了相反的答案:

時間節點 代表模型 輸入價格($/百萬 token) 相對 GPT-3 基準 同等能力備註
2020 年 6 月 GPT-3 API $60.00 1×(基準) 當時唯一可達 MMLU 42 的商用 API
2023 年 3 月 GPT-4 $30.00 0.5× MMLU ~83,能力躍升但價格腰斬
2024 年中 GPT-4o $5.00 0.08× 多模態,價格再砍 6 倍
2025 年 2 月 Gemini 2.0 Flash $0.10 0.0017× 多數基準超 GPT-4,價僅為 1/600
2026 年 4 月 GPT-5.5 $2.25 0.04× 旗艦推理,仍僅為 GPT-3 的 4%
2026 年(開源 API) DeepSeek V4 Flash $0.098 0.0016× OpenRouter 週榜 #2,程式設計場景主流選擇
2024 年(開源) Llama 3.2 3B(Together.ai) $0.06 0.001× 達到 GPT-3 同級 MMLU,價跌 1000×

資料來源:a16z《LLMflation》(2024)、Epoch AI 價格追蹤、arXiv《Tiered Super-Moore's Law》(2026)、OpenRouter 定價頁。同等能力價格降幅高於名義標價降幅。

學術研究把這個趨勢叫做 "Tiered Super-Moore's Law"(分層超摩爾定律):經濟型模型價格半衰期僅 1.10 年,中端模型 1.55 年——均快於傳統摩爾定律的 2 年翻倍週期。經濟型 token 從 GPT-3 的 $60/M 到 Gemini Flash 的 $0.10/M,名義跌幅約 600 倍;按同等 benchmark 分數折算,跌幅更大。

a16z 的追蹤還顯示:達到同一 MMLU 分數的模型,推理成本以約 每年 10 倍的速度下降——快於 PC 時代的算力降價,也快於網際網路頻寬降價。規模效應的護城河建立在高成本基礎上;當單價每 12–18 個月跌一個數量級,「規模」本身不再是壁壘。

同任務、不同路由:一張價目表看清差距

假設一個典型 Agent 工作負載:每次請求 2,000 input + 800 output token(程式碼審查 / 文件問答常見比例),以下為 OpenRouter 公示價格(2026 年 6 月)下的單次呼叫成本

路由目標 模型 輸入 $/M 輸出 $/M 單次成本 相對最便宜
本機 Ollama(Mac 節點) Qwen2.5-7B $0 $0 $0 基準
OpenRouter DeepSeek V4 Flash $0.098 $0.196 $0.00035
OpenRouter Gemini 3 Flash Preview $0.15 $0.60 $0.00078 2.2×
OpenRouter Claude Sonnet 4.6 $3.00 $15.00 $0.018 51×
OpenRouter Claude Opus 4.8 $15.00 $75.00 $0.090 257×
直連 Anthropic API Claude Sonnet 4.6 $3.00 $15.00 $0.018 51×

單次成本 = 2,000 × 輸入單價 + 800 × 輸出單價。OpenRouter 價格來源:openrouter.ai/models;Anthropic 官網定價對照。本機行僅計 token 邊際成本,不含機器租金。

同一次程式碼審查,走 Claude Sonnet 比走 DeepSeek V4 Flash 貴 51 倍;比本機 7B 則是一個數量級以上的差距。開發者不是「忠於品牌」,是在即時比價——這正是 OpenRouter 週榜裡 DeepSeek、MiniMax 霸榜的原因。

資料三:月帳單對照——雲端 API vs 本機 Mac 節點,誰更划算?

價格表只說明單價。團隊真正關心的是:我這個月跑多少量,花多少錢?下面按三種典型月用量做 TCO 估算(假設 input:output = 5:2,與上文 Agent 場景一致):

月 token 總量 約等於(2,800 token/次) Claude Sonnet 4.6 DeepSeek V4 Flash Mac Mini M4 16GB 租用 最省方案
10M 約 3,600 次/月(個人 side project) $64 $1.3 $102.9 固定 雲端 DeepSeek
50M 約 1.8 萬次/月(小團隊內部工具) $321 $6.3 $102.9 固定 本機 vs Claude;DeepSeek 仍更便宜
200M 約 7.1 萬次/月(8 人 Agent 試點) $1,286 $25 $102.9 固定 本機 vs Claude(省 92%)
500M 約 17.9 萬次/月(CI 審查 + RAG) $3,214 $63 $102.9 固定 本機 vs Claude(省 97%)
800M+ 約 28.6 萬次/月(高頻批量) 約 $5,143+ $100+ $102.9 固定 本機開始優於 DeepSeek 單價
2B 約 71 萬次/月(全天候 Agent 流水線) $12,857 $250 $102.9(或 24GB $202.9) 本機(省 59–99%)

計算公式:單次 = 2,000 × 輸入單價 + 800 × 輸出單價;月總量按等比例放大。雲端價來自 OpenRouter;本機按 Macstripe M4 16GB 包月 $102.9定價頁,2026 年 6 月)。

怎麼讀這張表:

  • 對標 Claude Sonnet:月用量超過約 15–20M token,本機固定成本就開始划算——200M token 場景可省 92%
  • 對標 DeepSeek Flash:純單價要到 800M token/月 左右本機才更便宜——但本機同時白送不限速、資料不出節點、版本鎖定,批量 CI 場景往往提前切換
  • 混合路由最務實:Macstripe 站內 8 人團隊實測,雲 API 從 $300/月 → $50/月(−83%),靠的是機械性任務走本機、複雜推理走雲端——不是非此即彼

不只是錢:本機節點在硬指標上的對比

OpenRouter 的存在本身就是對「只能走雲端」的質疑:如果你可以路由到 300 多個模型,為什麼不能路由到自己部署的模型?

對比維度 直連 Claude API OpenRouter 路由 本機 Mac + Ollama
月成本(200M token) $1,286 約 $1,286(同價)+ 路由溢價 $102.9 固定
Rate Limit(Tier 1 典型) 約 50 RPM / 40K TPM 受上游 + 平台雙層限制 無限制(獨享算力)
首 token 延遲(TTFT) 約 0.8–2.5s(含網路) 約 1.0–3.0s(多一跳) 0.3–1.8s(LAN 內網)
持續吞吐(7B 4-bit) 按配額,峰值受限 按配額,峰值受限 38–51 tok/s 獨享
資料路徑 Prompt → Anthropic 伺服器 Prompt → OpenRouter → 上游 Prompt 不出節點
模型切換成本 換 SDK / 換金鑰 / 改程式碼 改 model 名即可 同左(OpenAI 相容介面)
版本鎖定 供應商隨時更新模型 同左 模型權重由你控制
適合場景 最強推理、複雜 Agent 多模型比價、快速試驗 批量任務、敏感資料、CI 審查

TTFT / tok/s 參考 Macstripe 站內 M4 本機大模型實測;Rate Limit 參考 Anthropic Tier 1 公開文件(隨帳戶等級變化)。

OpenRouter 的 13 億估值告訴我們:多提供商路由是未來,而你自己的推理節點,理應是其中一個「提供商」。合理架構不是三選一,而是按資料敏感度與任務難度分層路由。

三個謊言,一張總表

把上文資料收攏成一張對照表,方便你拿去跟團隊或老闆討論:

產業敘事(謊言) 資料怎麼說 對開發者意味著什麼
「我們的模型無可替代」 週榜榜首 6 個月換 3 次;GPT-5.5 未進 Top 10;單一開源模型份額從 >50% 降至 <25% 沒有「必須綁定」的模型,隨時切換是常態
「API 規模即護城河」 Token 價 6 年跌 600×;經濟型模型價格半衰期 1.1 年 按量付費的長期成本不可預測,固定成本節點更穩
「推理只能走雲端」 200M token/月:Claude $1,286 vs 本機 $102.9(省 92%);8 人團隊混合路由 API 帳單 −83% 本機節點是路由體系的合法一環,不是備胎
「OpenRouter 只是小工具」 估值 $1.3B;年化 1,500 萬億 token;占 OpenAI run rate 20–40% 多模型路由已是基礎設施層,值得現在就開始架構

謊言破了之後:OpenRouter 驗證的商業邏輯

理解了這三個謊言,OpenRouter 的估值邏輯就清晰了:

大模型產業正在經歷一次結構性分層。原來被捆綁在一起銷售的東西——模型能力、推理算力、API 接入、資料處理流程——正在被解綁。每一層都會有專業公司來做,每一層都會有獨立的定價。

OpenRouter 占據的是「API 接入聚合」這一層。它的價值不是技術有多複雜,而是它解決了一個真實的使用者痛點:你不想為 300 個模型維護 300 套 SDK、金鑰管理、計費對帳和故障切換邏輯。有人幫你做,你願意付一點溢價——這是 13 億美元背後最樸素的商業邏輯。

對開發者的啟示:不要等大模型公司來告訴你「應該用哪個模型」。應該從一開始就建構模型無關(model-agnostic)的架構——把推理層當作可替換的基礎設施,而不是業務邏輯的一部分。

模型無關架構的最小實作

用 OpenAI SDK 的相容介面可以一行程式碼切換提供商:

from openai import OpenAI

# 切换到 OpenRouter(路由到任意云端模型)
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-...",
)

# 切换到本地 Mac Mini 节点(Ollama)
client = OpenAI(
    base_url="http://YOUR_MAC_NODE:11434/v1",
    api_key="ollama",
)

# 切换到 Anthropic 直接 API
client = OpenAI(
    base_url="https://api.anthropic.com/v1",
    api_key="sk-ant-...",
)

# 三种切换,业务代码零改动:
response = client.chat.completions.create(
    model="qwen2.5:32b",  # 或 claude-sonnet-4-5, 或任意模型名
    messages=[{"role": "user", "content": prompt}],
)

這段程式碼的含義是:你的推理來源,可以是 OpenRouter,可以是任何一家雲端 API,也可以是你自己的 Mac Mini 節點。選擇權在你。

如果路由層值 13 億,「自己掌控推理節點」值什麼

OpenRouter 解決的是「我不想被一家綁定」的問題,但它本身仍然是一個第三方——你的資料還是經過了別人的伺服器,你仍然受到網路延遲和上游 API 可用性的影響。

把自己的推理節點加入進來,補上的恰好是 OpenRouter 解決不了的那部分:

  • 資料主權:Prompt 和回應不經過任何第三方,程式碼庫、使用者資料、內部文件留在你自己的機器上
  • 成本封頂:租一台節點,成本固定,跑多少請求都不額外計費
  • 零限速:不受任何供應商的 Rate Limit 政策約束,批量任務跑到完
  • 版本鎖定:模型版本不會因為供應商更新而突然變化,回歸測試結果可信
  • 離線可用:在網路受限環境(機艙、內網隔離區、受監管機房)中照常運行

Apple Silicon 的統一記憶體架構使得 Mac Mini M4 在這個場景裡格外適合:沒有 CPU/GPU 記憶體邊界,中小規模模型跑起來延遲低、吞吐穩定,功耗卻只有 GPU 伺服器的幾十分之一。

Mac Mini M4 型號 統一記憶體 推薦模型 推理速度(4-bit 量化)
M4(基礎款) 16 GB Qwen2.5-7B、Llama-3.1-8B 約 38–50 token/s
M4 Pro 24 GB Qwen2.5-14B、Phi-4 約 30–42 token/s
M4 Pro(大記憶體) 48 GB Qwen2.5-32B、DeepSeek-R1-32B 約 18–28 token/s

對於 CI 程式碼審查、內部文件問答、批量資料處理這類場景,40 token/s 綽綽有餘——而且是你獨享、不限速、不計 token 費用的 40 token/s。

具體怎麼做:把自己的 Mac 節點加入路由體系

Macstripe 提供獨享 Mac Mini M4 節點,SSH 進去就是一台完整的 macOS 機器。以下是最快的接入方式:

第一步:在 Mac 節點上啟動 Ollama

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型(以 Qwen2.5-7B 为例)
ollama pull qwen2.5:7b

# 启动 OpenAI 兼容 API,监听所有接口
OLLAMA_HOST=0.0.0.0 ollama serve

第二步:在業務程式碼裡建構簡單的路由邏輯

你可以根據任務類型、成本預算、資料敏感度來決定路由到哪裡:

import os
from openai import OpenAI

def get_llm_client(mode: str = "auto"):
    """
    mode="local"   → 自己的 Mac Mini 节点(Ollama)
    mode="router"  → OpenRouter(路由到任意云端模型)
    mode="auto"    → 默认本地,本地不可用时降级到 OpenRouter
    """
    if mode == "local":
        return OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
        ), "qwen2.5:7b"

    if mode == "router":
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"

    # auto 模式:先尝试本地节点
    try:
        client = OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
            timeout=2.0,
        )
        client.models.list()  # 健康检查
        return client, "qwen2.5:7b"
    except Exception:
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"
最佳實踐:對內部程式碼和使用者資料走 mode="local",對需要最強推理能力的複雜任務走 mode="router",對非關鍵路徑走 mode="auto" 自動降級。這就是真正的多提供商架構。

結語:謊言破了,機會留給有準備的開發者

OpenRouter 的 13 億估值本質上是一個時代訊號:大模型產業的價值中心,正在從「誰的模型最強」轉移到「誰能讓開發者最高效地使用所有模型」。

對於開發者來說,這意味著:

  • 不要押注任何一家模型供應商,從第一天就建構模型無關的架構
  • 把本機推理節點當作路由體系的一部分,而不是雲端 API 的「劣質替代品」
  • 資料敏感的任務走本機,算力需求超出本機的任務走雲端——這是合理分工,而不是非此即彼
  • 控制成本結構:把可預測的推理負載用固定成本的本機節點承接,把高峰和實驗性需求用按量計費的雲端覆蓋

大模型產業用了三年時間讓你相信「你需要依賴我們」。OpenRouter 用 13 億美元的估值告訴你:這是一個謊言,市場已經在為「不依賴任何一家」出錢。

下一個問題是:你的推理架構,準備好了嗎?

FAQ

OpenRouter 和直接呼叫模型 API 有什麼區別?OpenRouter 統一了 API 格式、金鑰管理和計費,讓你用一個介面存取 300+ 模型。缺點是資料經過了 OpenRouter 的伺服器,適合非敏感資料場景。

本機推理和 OpenRouter 可以同時用嗎?當然可以。推薦的架構是:敏感資料走本機,其他任務透過 OpenRouter 路由到最合適的雲端模型,兩者用 OpenAI 相容介面無縫切換。

Mac Mini M4 跑 7B 模型,品質夠用嗎?對於程式碼審查、文件摘要、測試用例生成這類有明確輸入輸出的任務,Qwen2.5-7B 的品質已可上生產。複雜推理可以升級到 32B 或路由到雲端模型。

怎麼快速測試本機推理方案?造訪 Macstripe 首頁,選擇 Mac Mini M4 節點,5 分鐘內拿到 SSH 連線,按照上文步驟裝 Ollama,10 分鐘你的私有推理節點就在線了。