モデルを作らない会社が、なぜ 13 億ドルも評価されるのか
2026 年、OpenRouter は新ラウンドを完了し、評価額は 13 億ドル(約 94 億人民元)に達しました。自社でモデルを学習せず、GPU クラスタも持たず、「独自研究」もしない——やっていることはひとつだけ。開発者からのリクエストを Claude、GPT-4o、Gemini、Llama、Qwen など 300 超のモデル API へルーティングし、転送手数料を徴収することです。
初めて聞いた人は「中抜き業者にそんな値段?」と思うかもしれません。AI 業界にいるなら、この数字が示す不安なシグナルに気づくはずです——大手が必死に語ってきた核心ナラティブが、静かに崩れ始めている。
まず数字で:OpenRouter が 13 億ドルに値する理由
資本市場は「ストーリー」に 13 億ドルは払いません。買っているのは検証可能な成長曲線です。OpenRouter は 2025 年 6 月の Series A 後、評価額約 5.47 億ドル(PitchBook / TechCrunch)。2026 年 5 月の Series B で 1.13 億ドル調達後、評価額約 13 億ドル——11 か月で 2.4 倍。リードは Google 傘下 CapitalG、NVentures、Snowflake、Databricks、MongoDB などが続きます。投資対象は特定モデルではなくマルチモデルルーティング層です。
| 指標 | 2025 年 6 月(Series A) | 2026 年 5–6 月(Series B) | 変化 |
|---|---|---|---|
| 投後評価額 | 約 $547M | 約 $1.3B | +2.4× |
| 登録開発者 | 250 万+ | 800 万+ | +3.2× |
| 年間 token 処理量 | 約 100 兆 / 年 | 約 1,500 兆 / 年 | +15× |
| 週次 token 流量 | 約 5 兆 / 週 | 約 25 兆 / 週 | +5×(6 か月) |
| チーム規模 | — | 約 50 人 | 1 人あたり約 20 兆 token / 年 |
| 接続モデル数 | 数百 | 400+ | 拡大中 |
出典:OpenRouter Series B 発表、TechCrunch、Menlo Ventures(2026 年 5–6 月)。
さらに重要なのは token 規模の参照系です。Menlo Ventures は OpenRouter の年間処理量が Google の token run rate の 15–30%、OpenAI の 20–40%、Azure Foundry の >50% に達したと推計——モデルを作らないゲートウェイが、推論トラフィックの相当部分を握っています。開発者が本当に特定 API に「忠誠」なら、この規模はあり得ません。
データ①:週次ランキングは毎月入れ替わる——「離れられない」は存在しない
過去 3 年、各 LLM ベンダーは同じ話を繰り返してきました。「当社モデルが最強。品質への忠誠が堀になる」。OpenRouter のリアルタイム流量ランキング(数百万開発者の実 token 使用量、日次更新)が語るのは別の物語です。
| 週次順位 | モデル | ベンダー | 週 token 量 | 週次 MoM |
|---|---|---|---|---|
| 1 | MiniMax M3 | MiniMax(中国) | 4.64 兆 | +44% |
| 2 | DeepSeek V4 Flash | DeepSeek(中国) | 4.41 兆 | +4% |
| 3 | Hy3 Preview | 腾讯(中国) | 3.84 兆 | +9% |
| 4 | MiMo-V2.5 | 小米(中国) | 3.66 兆 | +34% |
| 5 | Claude Opus 4.7 | Anthropic(米国) | 2.69 兆 | +67% |
| 6 | Owl Alpha | OpenRouter 自社 | 2.45 兆 | +22% |
| 8 | Claude Sonnet 4.6 | Anthropic(米国) | 1.88 兆 | +4% |
| — | GPT-5.5 | OpenAI(米国) | Top 10 圏外 | — |
出典:OpenRouter LLM Rankings、2026 年 6 月取得。週次 MoM はプラットフォーム公開値。
この表から読み取れる 3 点:
- 首位は数週ごとに交代:MiniMax M3 が 1 週で +44% してトップ——ブランド忠誠があるなら、ここまで volatile にはならない
- 中国モデルが主導:週次 Top 4 はすべて中国ベンダー——「商用は米国クローズドソースだけ」という話は成り立たない
- OpenAI は Top 10 外:GPT-5.5 は話題になったが、OpenRouter 実用量では週次 Top 10 圏外——話題量 ≠ 開発者の選択
OpenRouter 年次レポートはより長期的な構造変化も記録しています(State of AI Report):
| トレンド指標 | 2025 年初 | 2025 年末 | 意味 |
|---|---|---|---|
| オープンソース token 比率 | 約 15% | 約 30% | OSS は実験品ではなく本番流量 |
| コーディング系クエリ比率 | 約 11% | 50% 超 | 開発者が最大ユーザー層、価格比較も激しい |
| 単一 OSS モデル最大シェア | DeepSeek が >50% | どのモデルも >25% なし | 流量分散、独占なし |
| Anthropic コーディングタスクシェア | 長期 >60% | 2025 年 11 月初の 60% 割れ | 「最強」でも侵食されている |
これらの行動はひとつの結論へ向かいます。ユーザーが忠誠を捧げるのはブランドではなく、「今この瞬間、コスパ・速度・タスク適合が最も高い推論能力」です。モデルに代替不可能な堀があれば、OpenRouter 自体が存在しません——切り替える必要がないからです。
データ②:Token 価格は 6 年で 600 分の 1——規模の堀は空洞化
LLM ベンダーの第二のナラティブ:学習コストは天文学的。超大規模だけが償却でき、API に規模の堀ができる。価格データは逆を示しています。
| 時点 | 代表モデル | 入力単価($/百万 token) | GPT-3 基準比 | 同等能力メモ |
|---|---|---|---|---|
| 2020 年 6 月 | GPT-3 API | $60.00 | 1×(基準) | 当時 MMLU 42 に到達した唯一の商用 API |
| 2023 年 3 月 | GPT-4 | $30.00 | 0.5× | MMLU ~83、能力向上なのに価格半減 |
| 2024 年中 | GPT-4o | $5.00 | 0.08× | マルチモーダル、さらに 6 分の 1 |
| 2025 年 2 月 | Gemini 2.0 Flash | $0.10 | 0.0017× | 多くのベンチで GPT-4 超、価格は 1/600 |
| 2026 年 4 月 | GPT-5.5 | $2.25 | 0.04× | フラッグシップ推論、GPT-3 の 4% 程度 |
| 2026 年(OSS API) | DeepSeek V4 Flash | $0.098 | 0.0016× | OpenRouter 週次 #2、コーディング主流 |
| 2024 年(OSS) | Llama 3.2 3B(Together.ai) | $0.06 | 0.001× | GPT-3 級 MMLU、価格 1000× 下落 |
出典:a16z「LLMflation」(2024)、Epoch AI 価格追跡、arXiv「Tiered Super-Moore's Law」(2026)、OpenRouter 料金ページ。同等能力ベースの下落は名目価格下落を上回る。
学術界はこのトレンドを 「Tiered Super-Moore's Law(階層型超ムーアの法則)」と呼びます。エコノミークラスの半減期は 1.10 年、ミドルクラス 1.55 年——いずれも従来のムーア 2 年周期より速い。GPT-3 の $60/M から Gemini Flash の $0.10/M へ、名目で約 600 倍の下落。同等ベンチマークスコア換算ではさらに大きい。
a16z の追跡では、同一 MMLU スコアに到達する推論コストは年約 10 倍の速度で低下——PC 時代の算力値下げやインターネット帯域値下げより速い。規模の堀は高コストの上に築かれています。単価が 12–18 か月ごとに桁落ちするなら、「規模」自体は障壁ではなくなります。
同一タスク・別ルート:1 枚の表で差を見る
典型的な Agent ワークロード:1 リクエストあたり 2,000 input + 800 output token(コードレビュー / ドキュメント QA でよくある比率)。OpenRouter 公開価格(2026 年 6 月)での1 回あたりコスト:
| ルート先 | モデル | 入力 $/M | 出力 $/M | 1 回コスト | 最安比 |
|---|---|---|---|---|---|
| ローカル Ollama(Mac ノード) | Qwen2.5-7B | $0 | $0 | $0 | 基準 |
| OpenRouter | DeepSeek V4 Flash | $0.098 | $0.196 | $0.00035 | — |
| OpenRouter | Gemini 3 Flash Preview | $0.15 | $0.60 | $0.00078 | 2.2× |
| OpenRouter | Claude Sonnet 4.6 | $3.00 | $15.00 | $0.018 | 51× |
| OpenRouter | Claude Opus 4.8 | $15.00 | $75.00 | $0.090 | 257× |
| Anthropic API 直結 | Claude Sonnet 4.6 | $3.00 | $15.00 | $0.018 | 51× |
1 回コスト = 2,000 × 入力単価 + 800 × 出力単価。OpenRouter 価格:openrouter.ai/models;Anthropic 公式料金と照合。ローカル行は token 限界費用のみ、マシン賃料は含まない。
同じコードレビュー、Claude Sonnet は DeepSeek V4 Flash の 51 倍。ローカル 7B との差は桁違い。開発者はブランドに忠誠を捧げているのではなく、リアルタイムで比較している——OpenRouter 週次で DeepSeek、MiniMax が上位を占める理由です。
データ③:月次請求書——クラウド API vs ローカル Mac ノード、どちらが得か
単価表だけでは足りません。チームが知りたいのは「今月どれだけ回して、いくらかかるか」。3 つの典型的な月次用量で TCO を試算(input:output = 5:2、上記 Agent シナリオと同じ):
| 月次 token 合計 | 目安(2,800 token/回) | Claude Sonnet 4.6 | DeepSeek V4 Flash | Mac Mini M4 16GB レンタル | 最安 |
|---|---|---|---|---|---|
| 10M | 約 3,600 回/月(個人 side project) | 約 $64 | 約 $1.3 | $102.9 固定 | クラウド DeepSeek |
| 50M | 約 1.8 万回/月(小チーム内部ツール) | 約 $321 | 約 $6.3 | $102.9 固定 | ローカル vs Claude;DeepSeek は依然最安 |
| 200M | 約 7.1 万回/月(8 人 Agent パイロット) | 約 $1,286 | 約 $25 | $102.9 固定 | ローカル vs Claude(92% 削減) |
| 500M | 約 17.9 万回/月(CI レビュー + RAG) | 約 $3,214 | 約 $63 | $102.9 固定 | ローカル vs Claude(97% 削減) |
| 800M+ | 約 28.6 万回/月(高頻度バッチ) | 約 $5,143+ | 約 $100+ | $102.9 固定 | ローカルが DeepSeek 単価を上回る |
| 2B | 約 71 万回/月(24/7 Agent パイプライン) | 約 $12,857 | 約 $250 | $102.9(または 24GB $202.9) | ローカル(59–99% 削減) |
計算式:1 回 = 2,000 × 入力単価 + 800 × 出力単価;月次合計は等比例拡大。クラウド価格は OpenRouter;ローカルは Macstripe M4 16GB 月額 $102.9(料金ページ、2026 年 6 月)。
この表の読み方:
- Claude Sonnet 比較:月 15–20M token を超えると固定費のローカルが有利——200M token シナリオで 92% 削減
- DeepSeek Flash 比較:純粋な単価では 800M token/月 前後でローカルが逆転——ただしローカルはレート制限なし・データ非流出・バージョン固定も付いてくる。CI バッチは早めに切り替えるチームが多い
- ハイブリッドルートが現実的:Macstripe サイトの 8 人チーム実測では、クラウド API が $300/月 → $50/月(−83%)。機械的タスクはローカル、複雑推論はクラウド——二者択一ではない
コストだけではない:ハード指標での比較
OpenRouter の存在自体が「クラウドしかない」という前提への疑問符です。300 超のモデルにルーティングできるなら、自前デプロイしたモデルにルーティングできない理由はありません。
| 比較軸 | Claude API 直結 | OpenRouter ルーティング | ローカル Mac + Ollama |
|---|---|---|---|
| 月次コスト(200M token) | 約 $1,286 | 約 $1,286(同額)+ ルーティング上乗せ | $102.9 固定 |
| Rate Limit(Tier 1 典型) | 約 50 RPM / 40K TPM | 上流 + プラットフォームの二重制限 | 制限なし(専有算力) |
| TTFT(初 token 遅延) | 約 0.8–2.5s(ネットワーク込み) | 約 1.0–3.0s(1 ホップ追加) | 約 0.3–1.8s(LAN 内) |
| 持続スループット(7B 4-bit) | クォータ依存、ピーク制限 | クォータ依存、ピーク制限 | 約 38–51 tok/s 専有 |
| データ経路 | Prompt → Anthropic サーバー | Prompt → OpenRouter → 上流 | Prompt はノード外に出ない |
| モデル切替コスト | SDK / キー / コード変更 | model 名を変えるだけ | 同左(OpenAI 互換 API) |
| バージョン固定 | ベンダーが随時更新 | 同左 | 重みは自分で管理 |
| 向いている場面 | 最強推論、複雑 Agent | マルチモデル比較、高速試行 | バッチ、機密データ、CI レビュー |
TTFT / tok/s は Macstripe サイト M4 ローカル LLM 実測を参照。Rate Limit は Anthropic Tier 1 公開ドキュメント(アカウント等級で変動)。
OpenRouter の 13 億ドル評価が示すのは、マルチプロバイダルーティングが未来であり、自前の推論ノードはその「プロバイダー」のひとつであるべきということ。合理的なアーキテクチャは三択ではなく、データ機密度とタスク難易度で階層ルーティングです。
3 つの嘘、1 枚の総括表
上記データを 1 表にまとめ、チームや上司との議論に使えるようにしました。
| 業界ナラティブ(嘘) | データの答え | 開発者への意味 |
|---|---|---|
| 「当社モデルは代替不可能」 | 週次首位は 6 か月で 3 回交代;GPT-5.5 は Top 10 外;単一 OSS シェア >50% → <25% | 「必須バインド」モデルはない。切り替えは日常 |
| 「API 規模=堀」 | Token 価格 6 年で 600× 下落;エコノミー半減期 1.1 年 | 従量課金の長期コストは予測不能。固定費ノードの方が安定 |
| 「推論はクラウドしかない」 | 200M token/月:Claude $1,286 vs ローカル $102.9(92% 削減);8 人チーム混合ルートで API −83% | ローカルノードはルーティング体系の正当な一環、予備品ではない |
| 「OpenRouter は小さなツール」 | 評価額 $1.3B;年間 1,500 兆 token;OpenAI run rate の 20–40% | マルチモデルルーティングはインフラ層。今から設計すべき |
嘘が崩れたあと:OpenRouter が証明するビジネスロジック
3 つの嘘を理解すれば、OpenRouter の評価ロジックは明快になります。
LLM 業界は構造的分離の途中にあります。かつてセットで売られていたもの——モデル能力、推論算力、API 接続、データ処理フロー——が解きほぐされています。各層に専門企業が現れ、独立した価格設定が起きます。
OpenRouter が占めるのは「API 接続の集約」層です。技術の複雑さではなく、300 モデル分の SDK、キー管理、課金照合、フェイルオーバーを自前で維持したくないというリアルなペインを解く。誰かがやってくれるなら少し上乗せを払う——13 億ドルの素朴なロジックです。
モデル非依存アーキテクチャの最小実装
OpenAI SDK 互換インターフェースなら、1 行でプロバイダーを切り替えられます。
from openai import OpenAI
# 切换到 OpenRouter(路由到任意云端模型)
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-...",
)
# 切换到本地 Mac Mini 节点(Ollama)
client = OpenAI(
base_url="http://YOUR_MAC_NODE:11434/v1",
api_key="ollama",
)
# 切换到 Anthropic 直接 API
client = OpenAI(
base_url="https://api.anthropic.com/v1",
api_key="sk-ant-...",
)
# 三种切换,业务代码零改动:
response = client.chat.completions.create(
model="qwen2.5:32b", # 或 claude-sonnet-4-5, 或任意模型名
messages=[{"role": "user", "content": prompt}],
)
このコードが意味するのは、推論ソースは OpenRouter でも、任意のクラウド API でも、自前 Mac Mini ノードでもよいということ。選択権はあなたにあります。
ルーティング層が 13 億ドルなら、「自前推論ノード」の価値は
OpenRouter は「1 社に縛られたくない」問題を解きますが、それ自体も第三者です——データは依然として他人のサーバーを経由し、ネットワーク遅延と上流 API の可用性の影響を受けます。
自前の推論ノードを加えることで、OpenRouter では埋められない部分を補完できます。
- データ主権:Prompt とレスポンスが第三者を経由しない。コードベース、ユーザーデータ、社内文書は自前マシンに留まる
- コスト上限:ノードを借りれば固定費。リクエスト数に関わら追加課金なし
- レート制限ゼロ:ベンダーの Rate Limit ポリシーに縛られず、バッチを最後まで回せる
- バージョン固定:ベンダー更新でモデルが突然変わらない。回帰テスト結果が信頼できる
- オフライン可用:機内、エアギャップ、規制データセンターでも動作
Apple Silicon のユニファイドメモリは、Mac Mini M4 をこの用途に特に適しています。CPU/GPU メモリ境界がなく、中小規模モデルは低遅延・安定スループット。消費電力は GPU サーバーの数十分の一。
| Mac Mini M4 モデル | ユニファイドメモリ | 推奨モデル | 推論速度(4-bit 量子化) |
|---|---|---|---|
| M4(ベース) | 16 GB | Qwen2.5-7B、Llama-3.1-8B | 約 38–50 token/s |
| M4 Pro | 24 GB | Qwen2.5-14B、Phi-4 | 約 30–42 token/s |
| M4 Pro(大メモリ) | 48 GB | Qwen2.5-32B、DeepSeek-R1-32B | 約 18–28 token/s |
CI コードレビュー、社内ドキュメント QA、バッチデータ処理のような場面では、40 token/s で十分——しかも専有・無制限・token 課金なしの 40 token/sです。
実践:自前 Mac ノードをルーティング体系に組み込む
Macstripe は専有 Mac Mini M4 ノードを提供。SSH 接続すればフル macOS マシンです。最速の接続手順:
ステップ 1:Mac ノードで Ollama を起動
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取模型(以 Qwen2.5-7B 为例)
ollama pull qwen2.5:7b
# 启动 OpenAI 兼容 API,监听所有接口
OLLAMA_HOST=0.0.0.0 ollama serve
ステップ 2:業務コードにシンプルなルーティングロジック
タスク種別、コスト予算、データ機密度でルート先を決められます。
import os
from openai import OpenAI
def get_llm_client(mode: str = "auto"):
"""
mode="local" → 自己的 Mac Mini 节点(Ollama)
mode="router" → OpenRouter(路由到任意云端模型)
mode="auto" → 默认本地,本地不可用时降级到 OpenRouter
"""
if mode == "local":
return OpenAI(
base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
api_key="ollama",
), "qwen2.5:7b"
if mode == "router":
return OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"],
), "anthropic/claude-sonnet-4-5"
# auto 模式:先尝试本地节点
try:
client = OpenAI(
base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
api_key="ollama",
timeout=2.0,
)
client.models.list() # 健康检查
return client, "qwen2.5:7b"
except Exception:
return OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"],
), "anthropic/claude-sonnet-4-5"
mode="local"、最強推論が必要な複雑タスクは mode="router"、非クリティカルパスは mode="auto" で自動フォールバック。これが真のマルチプロバイダーアーキテクチャです。結語:嘘が崩れた今、準備している開発者にチャンスがある
OpenRouter の 13 億ドル評価は時代のシグナルです。LLM 業界の価値中心は「誰のモデルが最強か」から「誰が開発者に全モデルを最も効率よく使わせるか」へ移っている。
開発者にとって意味すること:
- 特定ベンダーに賭けない。初日からモデル非依存アーキテクチャを構築する
- ローカル推論ノードをルーティング体系の一部として扱う。クラウド API の「劣化版」ではない
- 機密データはローカル、ローカルを超える算力需要はクラウド——合理的な分業であり、二者択一ではない
- コスト構造をコントロール:予測可能な負荷は固定費ローカル、ピークと実験は従量クラウドでカバー
LLM 業界は 3 年かけて「私たちに依存すべき」と信じさせようとした。OpenRouter は 13 億ドルで告げている——それは嘘であり、市場はすでに「どの 1 社にも依存しない」ことにお金を払っている。
次の問い:あなたの推論アーキテクチャは、準備できているか?
FAQ
OpenRouter とモデル API 直結の違いは? OpenRouter は API 形式、キー管理、課金を統一し、1 インターフェースで 300+ モデルにアクセスできます。欠点はデータが OpenRouter サーバーを経由すること。非機密データ向け。
ローカル推論と OpenRouter は併用できる? もちろん。推奨:機密データはローカル、それ以外は OpenRouter で最適なクラウドモデルへ。OpenAI 互換 API でシームレス切替。
Mac Mini M4 で 7B モデル、品質は足りる? コードレビュー、ドキュメント要約、テストケース生成のような入出力が明確なタスクなら、Qwen2.5-7B は本番投入可能。複雑推論は 32B へアップグレードかクラウドルート。
ローカル推論を素早く試すには? Macstripe トップから Mac Mini M4 ノードを選択。5 分で SSH 接続、上記手順で Ollama を入れれば 10 分でプライベート推論ノードがオンライン。