ネットワークルーティングノードの図 — OpenRouter が複数 LLM API を横断するインテリジェントルーティング層を象徴

モデルを作らない会社が、なぜ 13 億ドルも評価されるのか

2026 年、OpenRouter は新ラウンドを完了し、評価額は 13 億ドル(約 94 億人民元)に達しました。自社でモデルを学習せず、GPU クラスタも持たず、「独自研究」もしない——やっていることはひとつだけ。開発者からのリクエストを Claude、GPT-4o、Gemini、Llama、Qwen など 300 超のモデル API へルーティングし、転送手数料を徴収することです。

初めて聞いた人は「中抜き業者にそんな値段?」と思うかもしれません。AI 業界にいるなら、この数字が示す不安なシグナルに気づくはずです——大手が必死に語ってきた核心ナラティブが、静かに崩れ始めている。

本稿の主張:OpenRouter の 13 億ドル評価は、LLM 業界最大の嘘への反対票です。その嘘とは、「モデル自体が堀であり、ユーザーは特定ベンダーの API に忠誠を誓う」というもの。以下の判断は可能な限り検証可能なデータで支え、出典は各表の脚注に記載します。

まず数字で:OpenRouter が 13 億ドルに値する理由

資本市場は「ストーリー」に 13 億ドルは払いません。買っているのは検証可能な成長曲線です。OpenRouter は 2025 年 6 月の Series A 後、評価額約 5.47 億ドル(PitchBook / TechCrunch)。2026 年 5 月の Series B で 1.13 億ドル調達後、評価額約 13 億ドル——11 か月で 2.4 倍。リードは Google 傘下 CapitalG、NVentures、Snowflake、Databricks、MongoDB などが続きます。投資対象は特定モデルではなくマルチモデルルーティング層です。

指標 2025 年 6 月(Series A) 2026 年 5–6 月(Series B) 変化
投後評価額 約 $547M 約 $1.3B +2.4×
登録開発者 250 万+ 800 万+ +3.2×
年間 token 処理量 約 100 兆 / 年 約 1,500 兆 / 年 +15×
週次 token 流量 約 5 兆 / 週 約 25 兆 / 週 +5×(6 か月)
チーム規模 約 50 人 1 人あたり約 20 兆 token / 年
接続モデル数 数百 400+ 拡大中

出典:OpenRouter Series B 発表TechCrunchMenlo Ventures(2026 年 5–6 月)。

さらに重要なのは token 規模の参照系です。Menlo Ventures は OpenRouter の年間処理量が Google の token run rate の 15–30%、OpenAI の 20–40%、Azure Foundry の >50% に達したと推計——モデルを作らないゲートウェイが、推論トラフィックの相当部分を握っています。開発者が本当に特定 API に「忠誠」なら、この規模はあり得ません。

データ①:週次ランキングは毎月入れ替わる——「離れられない」は存在しない

過去 3 年、各 LLM ベンダーは同じ話を繰り返してきました。「当社モデルが最強。品質への忠誠が堀になる」。OpenRouter のリアルタイム流量ランキング(数百万開発者の実 token 使用量、日次更新)が語るのは別の物語です。

週次順位 モデル ベンダー 週 token 量 週次 MoM
1 MiniMax M3 MiniMax(中国) 4.64 兆 +44%
2 DeepSeek V4 Flash DeepSeek(中国) 4.41 兆 +4%
3 Hy3 Preview 腾讯(中国) 3.84 兆 +9%
4 MiMo-V2.5 小米(中国) 3.66 兆 +34%
5 Claude Opus 4.7 Anthropic(米国) 2.69 兆 +67%
6 Owl Alpha OpenRouter 自社 2.45 兆 +22%
8 Claude Sonnet 4.6 Anthropic(米国) 1.88 兆 +4%
GPT-5.5 OpenAI(米国) Top 10 圏外

出典:OpenRouter LLM Rankings、2026 年 6 月取得。週次 MoM はプラットフォーム公開値。

この表から読み取れる 3 点:

  • 首位は数週ごとに交代:MiniMax M3 が 1 週で +44% してトップ——ブランド忠誠があるなら、ここまで volatile にはならない
  • 中国モデルが主導:週次 Top 4 はすべて中国ベンダー——「商用は米国クローズドソースだけ」という話は成り立たない
  • OpenAI は Top 10 外:GPT-5.5 は話題になったが、OpenRouter 実用量では週次 Top 10 圏外——話題量 ≠ 開発者の選択

OpenRouter 年次レポートはより長期的な構造変化も記録しています(State of AI Report):

トレンド指標 2025 年初 2025 年末 意味
オープンソース token 比率 約 15% 約 30% OSS は実験品ではなく本番流量
コーディング系クエリ比率 約 11% 50% 超 開発者が最大ユーザー層、価格比較も激しい
単一 OSS モデル最大シェア DeepSeek が >50% どのモデルも >25% なし 流量分散、独占なし
Anthropic コーディングタスクシェア 長期 >60% 2025 年 11 月初の 60% 割れ 「最強」でも侵食されている

これらの行動はひとつの結論へ向かいます。ユーザーが忠誠を捧げるのはブランドではなく、「今この瞬間、コスパ・速度・タスク適合が最も高い推論能力」です。モデルに代替不可能な堀があれば、OpenRouter 自体が存在しません——切り替える必要がないからです。

データ②:Token 価格は 6 年で 600 分の 1——規模の堀は空洞化

LLM ベンダーの第二のナラティブ:学習コストは天文学的。超大規模だけが償却でき、API に規模の堀ができる。価格データは逆を示しています。

時点 代表モデル 入力単価($/百万 token) GPT-3 基準比 同等能力メモ
2020 年 6 月 GPT-3 API $60.00 1×(基準) 当時 MMLU 42 に到達した唯一の商用 API
2023 年 3 月 GPT-4 $30.00 0.5× MMLU ~83、能力向上なのに価格半減
2024 年中 GPT-4o $5.00 0.08× マルチモーダル、さらに 6 分の 1
2025 年 2 月 Gemini 2.0 Flash $0.10 0.0017× 多くのベンチで GPT-4 超、価格は 1/600
2026 年 4 月 GPT-5.5 $2.25 0.04× フラッグシップ推論、GPT-3 の 4% 程度
2026 年(OSS API) DeepSeek V4 Flash $0.098 0.0016× OpenRouter 週次 #2、コーディング主流
2024 年(OSS) Llama 3.2 3B(Together.ai) $0.06 0.001× GPT-3 級 MMLU、価格 1000× 下落

出典:a16z「LLMflation」(2024)、Epoch AI 価格追跡、arXiv「Tiered Super-Moore's Law」(2026)、OpenRouter 料金ページ。同等能力ベースの下落は名目価格下落を上回る。

学術界はこのトレンドを 「Tiered Super-Moore's Law(階層型超ムーアの法則)」と呼びます。エコノミークラスの半減期は 1.10 年、ミドルクラス 1.55 年——いずれも従来のムーア 2 年周期より速い。GPT-3 の $60/M から Gemini Flash の $0.10/M へ、名目で約 600 倍の下落。同等ベンチマークスコア換算ではさらに大きい。

a16z の追跡では、同一 MMLU スコアに到達する推論コストは年約 10 倍の速度で低下——PC 時代の算力値下げやインターネット帯域値下げより速い。規模の堀は高コストの上に築かれています。単価が 12–18 か月ごとに桁落ちするなら、「規模」自体は障壁ではなくなります。

同一タスク・別ルート:1 枚の表で差を見る

典型的な Agent ワークロード:1 リクエストあたり 2,000 input + 800 output token(コードレビュー / ドキュメント QA でよくある比率)。OpenRouter 公開価格(2026 年 6 月)での1 回あたりコスト

ルート先 モデル 入力 $/M 出力 $/M 1 回コスト 最安比
ローカル Ollama(Mac ノード) Qwen2.5-7B $0 $0 $0 基準
OpenRouter DeepSeek V4 Flash $0.098 $0.196 $0.00035
OpenRouter Gemini 3 Flash Preview $0.15 $0.60 $0.00078 2.2×
OpenRouter Claude Sonnet 4.6 $3.00 $15.00 $0.018 51×
OpenRouter Claude Opus 4.8 $15.00 $75.00 $0.090 257×
Anthropic API 直結 Claude Sonnet 4.6 $3.00 $15.00 $0.018 51×

1 回コスト = 2,000 × 入力単価 + 800 × 出力単価。OpenRouter 価格:openrouter.ai/models;Anthropic 公式料金と照合。ローカル行は token 限界費用のみ、マシン賃料は含まない。

同じコードレビュー、Claude Sonnet は DeepSeek V4 Flash の 51 倍。ローカル 7B との差は桁違い。開発者はブランドに忠誠を捧げているのではなく、リアルタイムで比較している——OpenRouter 週次で DeepSeek、MiniMax が上位を占める理由です。

データ③:月次請求書——クラウド API vs ローカル Mac ノード、どちらが得か

単価表だけでは足りません。チームが知りたいのは「今月どれだけ回して、いくらかかるか」。3 つの典型的な月次用量で TCO を試算(input:output = 5:2、上記 Agent シナリオと同じ):

月次 token 合計 目安(2,800 token/回) Claude Sonnet 4.6 DeepSeek V4 Flash Mac Mini M4 16GB レンタル 最安
10M 約 3,600 回/月(個人 side project) $64 $1.3 $102.9 固定 クラウド DeepSeek
50M 約 1.8 万回/月(小チーム内部ツール) $321 $6.3 $102.9 固定 ローカル vs Claude;DeepSeek は依然最安
200M 約 7.1 万回/月(8 人 Agent パイロット) $1,286 $25 $102.9 固定 ローカル vs Claude(92% 削減)
500M 約 17.9 万回/月(CI レビュー + RAG) $3,214 $63 $102.9 固定 ローカル vs Claude(97% 削減)
800M+ 約 28.6 万回/月(高頻度バッチ) 約 $5,143+ $100+ $102.9 固定 ローカルが DeepSeek 単価を上回る
2B 約 71 万回/月(24/7 Agent パイプライン) $12,857 $250 $102.9(または 24GB $202.9) ローカル(59–99% 削減)

計算式:1 回 = 2,000 × 入力単価 + 800 × 出力単価;月次合計は等比例拡大。クラウド価格は OpenRouter;ローカルは Macstripe M4 16GB 月額 $102.9料金ページ、2026 年 6 月)。

この表の読み方:

  • Claude Sonnet 比較:15–20M token を超えると固定費のローカルが有利——200M token シナリオで 92% 削減
  • DeepSeek Flash 比較:純粋な単価では 800M token/月 前後でローカルが逆転——ただしローカルはレート制限なし・データ非流出・バージョン固定も付いてくる。CI バッチは早めに切り替えるチームが多い
  • ハイブリッドルートが現実的:Macstripe サイトの 8 人チーム実測では、クラウド API が $300/月 → $50/月(−83%)。機械的タスクはローカル、複雑推論はクラウド——二者択一ではない

コストだけではない:ハード指標での比較

OpenRouter の存在自体が「クラウドしかない」という前提への疑問符です。300 超のモデルにルーティングできるなら、自前デプロイしたモデルにルーティングできない理由はありません。

比較軸 Claude API 直結 OpenRouter ルーティング ローカル Mac + Ollama
月次コスト(200M token) $1,286 約 $1,286(同額)+ ルーティング上乗せ $102.9 固定
Rate Limit(Tier 1 典型) 約 50 RPM / 40K TPM 上流 + プラットフォームの二重制限 制限なし(専有算力)
TTFT(初 token 遅延) 約 0.8–2.5s(ネットワーク込み) 約 1.0–3.0s(1 ホップ追加) 0.3–1.8s(LAN 内)
持続スループット(7B 4-bit) クォータ依存、ピーク制限 クォータ依存、ピーク制限 38–51 tok/s 専有
データ経路 Prompt → Anthropic サーバー Prompt → OpenRouter → 上流 Prompt はノード外に出ない
モデル切替コスト SDK / キー / コード変更 model 名を変えるだけ 同左(OpenAI 互換 API)
バージョン固定 ベンダーが随時更新 同左 重みは自分で管理
向いている場面 最強推論、複雑 Agent マルチモデル比較、高速試行 バッチ、機密データ、CI レビュー

TTFT / tok/s は Macstripe サイト M4 ローカル LLM 実測を参照。Rate Limit は Anthropic Tier 1 公開ドキュメント(アカウント等級で変動)。

OpenRouter の 13 億ドル評価が示すのは、マルチプロバイダルーティングが未来であり、自前の推論ノードはその「プロバイダー」のひとつであるべきということ。合理的なアーキテクチャは三択ではなく、データ機密度とタスク難易度で階層ルーティングです。

3 つの嘘、1 枚の総括表

上記データを 1 表にまとめ、チームや上司との議論に使えるようにしました。

業界ナラティブ(嘘) データの答え 開発者への意味
「当社モデルは代替不可能」 週次首位は 6 か月で 3 回交代;GPT-5.5 は Top 10 外;単一 OSS シェア >50% → <25% 「必須バインド」モデルはない。切り替えは日常
「API 規模=堀」 Token 価格 6 年で 600× 下落;エコノミー半減期 1.1 年 従量課金の長期コストは予測不能。固定費ノードの方が安定
「推論はクラウドしかない」 200M token/月:Claude $1,286 vs ローカル $102.9(92% 削減);8 人チーム混合ルートで API −83% ローカルノードはルーティング体系の正当な一環、予備品ではない
「OpenRouter は小さなツール」 評価額 $1.3B;年間 1,500 兆 token;OpenAI run rate の 20–40% マルチモデルルーティングはインフラ層。今から設計すべき

嘘が崩れたあと:OpenRouter が証明するビジネスロジック

3 つの嘘を理解すれば、OpenRouter の評価ロジックは明快になります。

LLM 業界は構造的分離の途中にあります。かつてセットで売られていたもの——モデル能力、推論算力、API 接続、データ処理フロー——が解きほぐされています。各層に専門企業が現れ、独立した価格設定が起きます。

OpenRouter が占めるのは「API 接続の集約」層です。技術の複雑さではなく、300 モデル分の SDK、キー管理、課金照合、フェイルオーバーを自前で維持したくないというリアルなペインを解く。誰かがやってくれるなら少し上乗せを払う——13 億ドルの素朴なロジックです。

開発者への示唆:LLM ベンダーに「どのモデルを使うべきか」を教わるのを待たない。モデル非依存(model-agnostic)アーキテクチャを最初から構築し、推論層をビジネスロジックではなく差し替え可能なインフラとして扱う。

モデル非依存アーキテクチャの最小実装

OpenAI SDK 互換インターフェースなら、1 行でプロバイダーを切り替えられます。

from openai import OpenAI

# 切换到 OpenRouter(路由到任意云端模型)
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-...",
)

# 切换到本地 Mac Mini 节点(Ollama)
client = OpenAI(
    base_url="http://YOUR_MAC_NODE:11434/v1",
    api_key="ollama",
)

# 切换到 Anthropic 直接 API
client = OpenAI(
    base_url="https://api.anthropic.com/v1",
    api_key="sk-ant-...",
)

# 三种切换,业务代码零改动:
response = client.chat.completions.create(
    model="qwen2.5:32b",  # 或 claude-sonnet-4-5, 或任意模型名
    messages=[{"role": "user", "content": prompt}],
)

このコードが意味するのは、推論ソースは OpenRouter でも、任意のクラウド API でも、自前 Mac Mini ノードでもよいということ。選択権はあなたにあります。

ルーティング層が 13 億ドルなら、「自前推論ノード」の価値は

OpenRouter は「1 社に縛られたくない」問題を解きますが、それ自体も第三者です——データは依然として他人のサーバーを経由し、ネットワーク遅延と上流 API の可用性の影響を受けます。

自前の推論ノードを加えることで、OpenRouter では埋められない部分を補完できます。

  • データ主権:Prompt とレスポンスが第三者を経由しない。コードベース、ユーザーデータ、社内文書は自前マシンに留まる
  • コスト上限:ノードを借りれば固定費。リクエスト数に関わら追加課金なし
  • レート制限ゼロ:ベンダーの Rate Limit ポリシーに縛られず、バッチを最後まで回せる
  • バージョン固定:ベンダー更新でモデルが突然変わらない。回帰テスト結果が信頼できる
  • オフライン可用:機内、エアギャップ、規制データセンターでも動作

Apple Silicon のユニファイドメモリは、Mac Mini M4 をこの用途に特に適しています。CPU/GPU メモリ境界がなく、中小規模モデルは低遅延・安定スループット。消費電力は GPU サーバーの数十分の一。

Mac Mini M4 モデル ユニファイドメモリ 推奨モデル 推論速度(4-bit 量子化)
M4(ベース) 16 GB Qwen2.5-7B、Llama-3.1-8B 約 38–50 token/s
M4 Pro 24 GB Qwen2.5-14B、Phi-4 約 30–42 token/s
M4 Pro(大メモリ) 48 GB Qwen2.5-32B、DeepSeek-R1-32B 約 18–28 token/s

CI コードレビュー、社内ドキュメント QA、バッチデータ処理のような場面では、40 token/s で十分——しかも専有・無制限・token 課金なしの 40 token/sです。

実践:自前 Mac ノードをルーティング体系に組み込む

Macstripe は専有 Mac Mini M4 ノードを提供。SSH 接続すればフル macOS マシンです。最速の接続手順:

ステップ 1:Mac ノードで Ollama を起動

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型(以 Qwen2.5-7B 为例)
ollama pull qwen2.5:7b

# 启动 OpenAI 兼容 API,监听所有接口
OLLAMA_HOST=0.0.0.0 ollama serve

ステップ 2:業務コードにシンプルなルーティングロジック

タスク種別、コスト予算、データ機密度でルート先を決められます。

import os
from openai import OpenAI

def get_llm_client(mode: str = "auto"):
    """
    mode="local"   → 自己的 Mac Mini 节点(Ollama)
    mode="router"  → OpenRouter(路由到任意云端模型)
    mode="auto"    → 默认本地,本地不可用时降级到 OpenRouter
    """
    if mode == "local":
        return OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
        ), "qwen2.5:7b"

    if mode == "router":
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"

    # auto 模式:先尝试本地节点
    try:
        client = OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
            timeout=2.0,
        )
        client.models.list()  # 健康检查
        return client, "qwen2.5:7b"
    except Exception:
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"
ベストプラクティス:社内コードとユーザーデータは mode="local"、最強推論が必要な複雑タスクは mode="router"、非クリティカルパスは mode="auto" で自動フォールバック。これが真のマルチプロバイダーアーキテクチャです。

結語:嘘が崩れた今、準備している開発者にチャンスがある

OpenRouter の 13 億ドル評価は時代のシグナルです。LLM 業界の価値中心は「誰のモデルが最強か」から「誰が開発者に全モデルを最も効率よく使わせるか」へ移っている。

開発者にとって意味すること:

  • 特定ベンダーに賭けない。初日からモデル非依存アーキテクチャを構築する
  • ローカル推論ノードをルーティング体系の一部として扱う。クラウド API の「劣化版」ではない
  • 機密データはローカル、ローカルを超える算力需要はクラウド——合理的な分業であり、二者択一ではない
  • コスト構造をコントロール:予測可能な負荷は固定費ローカル、ピークと実験は従量クラウドでカバー

LLM 業界は 3 年かけて「私たちに依存すべき」と信じさせようとした。OpenRouter は 13 億ドルで告げている——それは嘘であり、市場はすでに「どの 1 社にも依存しない」ことにお金を払っている。

次の問い:あなたの推論アーキテクチャは、準備できているか?

FAQ

OpenRouter とモデル API 直結の違いは? OpenRouter は API 形式、キー管理、課金を統一し、1 インターフェースで 300+ モデルにアクセスできます。欠点はデータが OpenRouter サーバーを経由すること。非機密データ向け。

ローカル推論と OpenRouter は併用できる? もちろん。推奨:機密データはローカル、それ以外は OpenRouter で最適なクラウドモデルへ。OpenAI 互換 API でシームレス切替。

Mac Mini M4 で 7B モデル、品質は足りる? コードレビュー、ドキュメント要約、テストケース生成のような入出力が明確なタスクなら、Qwen2.5-7B は本番投入可能。複雑推論は 32B へアップグレードかクラウドルート。

ローカル推論を素早く試すには? Macstripe トップから Mac Mini M4 ノードを選択。5 分で SSH 接続、上記手順で Ollama を入れれば 10 分でプライベート推論ノードがオンライン。