Ein Unternehmen ohne eigene Modelle — und trotzdem 1,3 Milliarden Dollar wert
2026 schloss OpenRouter eine neue Finanzierungsrunde ab: Bewertung 1,3 Milliarden US-Dollar. Das Unternehmen trainiert keine Modelle, betreibt keine GPU-Cluster und veröffentlicht keine exklusive Forschung. Es macht genau eines: Anfragen von Entwicklern an die APIs von Claude, GPT-4o, Gemini, Llama, Qwen und über 300 weiteren Modellen weiterleiten — und dafür eine Routing-Gebühr nehmen.
Wer das zum ersten Mal hört, fragt sich vielleicht: Warum ist ein „Zwischenhändler“ so viel wert? Wer schon länger in der KI-Branche arbeitet, spürt dahinter ein unbequemes Signal: Die Kernstory der LLM-Anbieter bröckelt.
Zuerst die Zahlen: Warum OpenRouter 1,3 Milliarden wert ist
Der Kapitalmarkt zahlt keine 1,3 Milliarden für reine Storytelling — er kauft nachweisbare Wachstumskurven. Nach Series A (Juni 2025) lag die Bewertung bei rund 547 Mio. USD (PitchBook / TechCrunch); nach Series B (Mai 2026, 113 Mio. USD frisches Kapital) bei rund 1,3 Mrd. USD — 2,4× in 11 Monaten. Lead-Investor: CapitalG (Google). Mitinvestoren: NVIDIA NVentures, Snowflake, Databricks, MongoDB u. a. Sie setzen nicht auf ein Modell, sondern auf die Multi-Model-Routing-Schicht.
| Kennzahl | Juni 2025 (Series A) | Mai–Juni 2026 (Series B) | Veränderung |
|---|---|---|---|
| Post-Money-Bewertung | ca. $547M | ca. $1.3B | +2.4× |
| Registrierte Entwickler | 2,5 Mio.+ | 8 Mio.+ | +3.2× |
| Annualisierte Token-Verarbeitung | ca. 100 Billionen / Jahr | ca. 1.500 Billionen / Jahr | +15× |
| Wöchentliches Token-Volumen | ca. 5 Billionen / Woche | ca. 25 Billionen / Woche | +5× (innerhalb 6 Monate) |
| Teamgröße | — | ca. 50 Personen | ca. 20 Billionen Token / Person / Jahr |
| Angebundene Modelle | Hunderte | 400+ | weiter wachsend |
Quellen: OpenRouter Series-B-Ankündigung, TechCrunch, Menlo Ventures (Mai–Juni 2026).
Als Referenz für die Token-Skala schätzt Menlo Ventures, OpenRouter verarbeite annualisiert bereits 15–30 % von Googles Token-Run-Rate, 20–40 % von OpenAI und >50 % von Azure Foundry — ein Gateway ohne eigene Modelle, das einen erheblichen Anteil des Inferenz-Traffics abfängt. Wären Entwickler wirklich an eine API gebunden, gäbe es dieses Volumen nicht.
Datenpunkt 1: Die Wochencharts wechseln ständig — niemand ist „unverzichtbar“
Drei Jahre lang erzählen LLM-Anbieter dieselbe Story: Unser Modell ist führend; Nutzer bleiben wegen der Qualität — das schafft einen Burggraben. OpenRouters Live-Traffic-Rankings (Millionen echter Token aus Entwickler-Workloads, täglich aktualisiert) erzählen etwas anderes:
| Wochenrang | Modell | Anbieter | Token / Woche | WoW |
|---|---|---|---|---|
| 1 | MiniMax M3 | MiniMax (China) | 4.64 Billionen | +44% |
| 2 | DeepSeek V4 Flash | DeepSeek (China) | 4.41 Billionen | +4% |
| 3 | Hy3 Preview | Tencent (China) | 3.84 Billionen | +9% |
| 4 | MiMo-V2.5 | Xiaomi (China) | 3.66 Billionen | +34% |
| 5 | Claude Opus 4.7 | Anthropic (USA) | 2.69 Billionen | +67% |
| 6 | Owl Alpha | OpenRouter (eigenes Modell) | 2.45 Billionen | +22% |
| 8 | Claude Sonnet 4.6 | Anthropic (USA) | 1.88 Billionen | +4% |
| — | GPT-5.5 | OpenAI (USA) | nicht in Top 10 | — |
Quelle: OpenRouter LLM Rankings, Stand Juni 2026. WoW = von der Plattform veröffentlichtes Wochen-zu-Woche-Feld.
Drei Dinge fallen sofort auf:
- Spitzenreiter wechseln alle paar Wochen: MiniMax M3 steigt in einer Woche um 44 % an die Spitze — bei echter Markentreue wäre das Ranking nicht so volatil
- Chinesische Modelle dominieren: alle vier Top-4-Plätze — die These „nur US-Closed-Source ist produktionsreif“ hält nicht stand
- OpenAI fehlt in den Top 10: GPT-5.5 sorgte für viel PR, taucht in OpenRouters echtem Volumen aber nicht unter den Top 10 auf — Lautstärke ≠ Entwicklerwahl
Der jährliche Trendbericht (State of AI Report) zeigt langfristigere Verschiebungen:
| Trend-Kennzahl | Anfang 2025 | Ende 2025 | Bedeutung |
|---|---|---|---|
| Anteil Open-Source-Token | ca. 15% | ca. 30% | Open Source ist Produktion, kein Spielzeug |
| Anteil Coding-Queries | ca. 11% | >50% | Entwickler sind die größte Gruppe — und vergleichen Preise |
| Max. Anteil eines Open-Source-Modells | DeepSeek einst >50% | kein Modell >25% | Traffic verteilt sich schnell, kein Monopol |
| Anthropic-Anteil bei Coding | lang >60% | Nov. 2025 erstmals <60% | Selbst „Best-in-Class“ verliert Anteile |
Daraus folgt: Nutzer sind keinem Modell-Brand treu, sondern der jeweils besten Kombination aus Preis, Latenz und Aufgabenpassung. Gäbe es echte Substituierbarkeit nicht, bräuchte es OpenRouter nicht — niemand würde wechseln.
Datenpunkt 2: Token-Preise sind in sechs Jahren um den Faktor 600 gefallen — der Skalierungs-Burggraben hohl
Die zweite Branchenstory: Training kostet Milliarden; nur Hyperscaler amortisieren das — API-Skaleneffekte schaffen einen Burggraben. Die Preisdaten sagen das Gegenteil:
| Zeitpunkt | Referenzmodell | Input ($/M Token) | Relativ zu GPT-3-Basis | Gleichwertige Fähigkeit |
|---|---|---|---|---|
| Juni 2020 | GPT-3 API | $60.00 | 1× (Basis) | Einzige API mit MMLU ~42 |
| März 2023 | GPT-4 | $30.00 | 0.5× | MMLU ~83, Preis halbiert |
| Mid 2024 | GPT-4o | $5.00 | 0.08× | Multimodal, nochmal ÷6 |
| Feb. 2025 | Gemini 2.0 Flash | $0.10 | 0.0017× | Meist über GPT-4 in Benchmarks, 1/600 des GPT-3-Preises |
| April 2026 | GPT-5.5 | $2.25 | 0.04× | Flagship-Reasoning, nur 4 % von GPT-3 |
| 2026 (Open-Source-API) | DeepSeek V4 Flash | $0.098 | 0.0016× | OpenRouter-Wochenrang #2, Standard für Coding |
| 2024 (Open Source) | Llama 3.2 3B (Together.ai) | $0.06 | 0.001× | GPT-3-Niveau MMLU, Preis 1000× tiefer |
Quellen: a16z „LLMflation“ (2024), Epoch-AI-Preistracking, arXiv „Tiered Super-Moore's Law“ (2026), OpenRouter-Preisseite. Preisverfall bei gleicher Fähigkeit ist stärker als der nominale Listenpreis.
Forschung spricht von „Tiered Super-Moore's Law“: Halbwertszeit der Preise bei Economy-Modellen nur 1,10 Jahre, bei Mid-Tier 1,55 Jahre — schneller als klassisches Moore (2 Jahre). Von GPT-3 ($60/M) zu Gemini Flash ($0,10/M): nominal ~600×; nach Benchmark-Parität noch drastischer.
a16z zeigt: Inferenzkosten für dasselbe MMLU-Niveau fallen mit etwa 10× pro Jahr — schneller als PC-Compute oder Bandbreite in den 2000ern. Der Skalierungs-Burggraben basiert auf hohen Grenzkosten; fällt der Preis alle 12–18 Monate um eine Größenordnung, ist „Scale“ keine Barriere mehr.
Gleiche Aufgabe, andere Route: eine Preistabelle
Typische Agent-Last: 2.000 Input + 800 Output Token pro Request (Code-Review / Doc-Q&A). Kosten pro Aufruf nach OpenRouter-Listen (Juni 2026):
| Route | Modell | Input $/M | Output $/M | Kosten / Aufruf | Relativ günstigste |
|---|---|---|---|---|---|
| Lokal Ollama (Mac-Knoten) | Qwen2.5-7B | $0 | $0 | $0 | Basis |
| OpenRouter | DeepSeek V4 Flash | $0.098 | $0.196 | $0.00035 | — |
| OpenRouter | Gemini 3 Flash Preview | $0.15 | $0.60 | $0.00078 | 2.2× |
| OpenRouter | Claude Sonnet 4.6 | $3.00 | $15.00 | $0.018 | 51× |
| OpenRouter | Claude Opus 4.8 | $15.00 | $75.00 | $0.090 | 257× |
| Direkt Anthropic API | Claude Sonnet 4.6 | $3.00 | $15.00 | $0.018 | 51× |
Kosten/Aufruf = 2.000 × Input-Preis + 800 × Output-Preis. OpenRouter: openrouter.ai/models; Anthropic-Listenpreis zum Vergleich. Lokale Zeile = marginale Token-Kosten ohne Miete.
Ein Code-Review über Claude Sonnet kostet 51× mehr als über DeepSeek V4 Flash — gegenüber lokalem 7B nochmal deutlich mehr. Entwickler sind nicht „markentreu“, sie vergleichen live Preise — deshalb dominieren DeepSeek und MiniMax in den Wochencharts.
Datenpunkt 3: Monatsrechnung — Cloud-API vs. lokaler Mac-Knoten
Listenpreise sind nur die halbe Wahrheit. Teams fragen: Was kostet mein Monatsvolumen? TCO-Schätzung für drei typische Profile (input:output = 5:2, wie oben):
| Token / Monat | Entspricht (~2.800 Token/Aufruf) | Claude Sonnet 4.6 | DeepSeek V4 Flash | Mac Mini M4 16GB Miete | Günstigste Option |
|---|---|---|---|---|---|
| 10M | ca. 3.600 Aufrufe/Monat (Side Project) | ca. $64 | ca. $1.3 | $102.9 fix | Cloud DeepSeek |
| 50M | ca. 18.000 Aufrufe/Monat (kleines Team-Tool) | ca. $321 | ca. $6.3 | $102.9 fix | Lokal vs. Claude; DeepSeek noch günstiger |
| 200M | ca. 71.000 Aufrufe/Monat (8-Personen-Agent-Pilot) | ca. $1,286 | ca. $25 | $102.9 fix | Lokal vs. Claude (−92 %) |
| 500M | ca. 179.000 Aufrufe/Monat (CI-Review + RAG) | ca. $3,214 | ca. $63 | $102.9 fix | Lokal vs. Claude (−97 %) |
| 800M+ | ca. 286.000 Aufrufe/Monat (High-Frequency-Batch) | ca. $5,143+ | ca. $100+ | $102.9 fix | Lokal schlägt DeepSeek-Stückpreis |
| 2B | ca. 714.000 Aufrufe/Monat (24/7-Agent-Pipeline) | ca. $12,857 | ca. $250 | $102.9 (oder 24GB $202.9) | Lokal (−59–99 %) |
Formel: Aufruf = 2.000 × Input + 800 × Output; Monatsvolumen linear skaliert. Cloud aus OpenRouter; lokal Macstripe M4 16GB $102.9/Monat (Preisseite, Juni 2026).
So liest man die Tabelle:
- Gegen Claude Sonnet: ab ca. 15–20M Token/Monat lohnt sich der Fixkosten-Knoten — bei 200M sparen Sie 92 %
- Gegen DeepSeek Flash: reiner Stückpreis erst ab ca. 800M Token/Monat — lokal liefert aber kein Rate Limit, Daten bleiben auf dem Knoten, Versions-Freeze; CI-Batch wechselt oft früher
- Hybrid ist pragmatisch: In unserem 8-Personen-Praxistest sank die Cloud-API von $300/Monat → $50/Monat (−83 %) — mechanische Tasks lokal, schweres Reasoning in der Cloud
Mehr als Kosten: harte Kennzahlen im Vergleich
OpenRouter widerlegt „nur Cloud“: Wenn Sie 300+ Modelle routen können, warum nicht auch Ihren eigenen Knoten?
| Dimension | Direkt Claude API | OpenRouter-Routing | Lokal Mac + Ollama |
|---|---|---|---|
| Monatskosten (200M Token) | ca. $1,286 | ca. $1,286 (gleicher Preis) + Routing-Aufschlag | $102.9 fix |
| Rate Limit (Tier 1 typisch) | ca. 50 RPM / 40K TPM | Upstream + Plattform, doppelt begrenzt | Kein Limit (dedizierte Compute) |
| TTFT (Time to First Token) | ca. 0.8–2.5s (inkl. Netz) | ca. 1.0–3.0s (zusätzlicher Hop) | ca. 0.3–1.8s (LAN) |
| Durchsatz (7B 4-bit) | Nach Kontingent, Peak begrenzt | Nach Kontingent, Peak begrenzt | ca. 38–51 tok/s exklusiv |
| Datenpfad | Prompt → Anthropic-Server | Prompt → OpenRouter → Upstream | Prompt verlässt Knoten nicht |
| Modellwechsel | SDK / Keys / Code anpassen | model-Name ändern | Gleich (OpenAI-kompatibel) |
| Versionskontrolle | Anbieter aktualisiert jederzeit | Gleich | Gewichte unter Ihrer Kontrolle |
| Ideal für | Stärkstes Reasoning, komplexe Agenten | Multi-Model-Vergleich, schnelle Tests | Batch, sensible Daten, CI-Review |
TTFT / tok/s: Macstripe M4-Lokal-LLM-Leitfaden; Rate Limits laut Anthropic Tier-1-Doku (kontabhängig).
OpenRouters 1,3-Mrd.-Signal: Multi-Provider-Routing ist die Zukunft — und Ihr eigener Inferenz-Knoten gehört in die Provider-Liste. Nicht entweder-oder, sondern Schichten nach Sensitivität und Task-Schwere.
Drei Lügen, eine Übersichtstabelle
Alles gebündelt — zum Diskutieren mit Team oder Management:
| Branchen-Narrativ (Lüge) | Was die Daten sagen | Für Entwickler |
|---|---|---|
| „Unser Modell ist unersetzlich“ | Spitzenplatz 3× in 6 Monaten gewechselt; GPT-5.5 nicht Top 10; kein Open-Source-Modell >25 % Anteil (von einst >50 %) | Kein „Muss-binden“-Modell — Wechsel ist Normalzustand |
| „API-Skaleneffekt = Burggraben“ | Token-Preis in 6 Jahren ~600× gefallen; Economy-Halbwertszeit 1,1 Jahre | Pay-per-use langfristig unplanbar; Fixkosten-Knoten stabiler |
| „Inferenz muss in der Cloud laufen“ | 200M Token/Monat: Claude $1.286 vs. lokal $102,9 (−92 %); 8-Personen-Hybrid −83 % API | Lokaler Knoten ist legitime Routing-Stufe, kein Notbehelf |
| „OpenRouter ist nur ein Gadget“ | Bewertung $1.3B; 1.500 Billionen Token/Jahr; 20–40 % von OpenAI-Run-Rate | Multi-Model-Routing ist Infrastruktur — jetzt architekturieren |
Nach dem Aufwecken: die OpenRouter-Geschäftslogik
Mit den drei Lügen im Hinterkopf wird die Bewertung nachvollziehbar:
Die Branche entkoppelt sich: Modellfähigkeit, Inferenz-Compute, API-Zugang und Daten-Pipeline wurden jahrelang gebündelt verkauft — jetzt trennen sich die Schichten, jede mit eigenem Preismodell.
OpenRouter sitzt auf „API-Aggregation“. Der Wert ist nicht magische Technik, sondern ein echtes Problem: Sie wollen nicht 300 SDKs, 300 Key-Stores, 300 Abrechnungen und Failover-Logiken pflegen. Wer das zentralisiert, verdient eine moderate Prämie — das ist die 1,3-Mrd.-Story in einem Satz.
Minimale modell-agnostische Implementierung
Mit dem OpenAI-kompatiblen SDK wechseln Sie den Provider in einer Zeile:
from openai import OpenAI
# 切换到 OpenRouter(路由到任意云端模型)
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-...",
)
# 切换到本地 Mac Mini 节点(Ollama)
client = OpenAI(
base_url="http://YOUR_MAC_NODE:11434/v1",
api_key="ollama",
)
# 切换到 Anthropic 直接 API
client = OpenAI(
base_url="https://api.anthropic.com/v1",
api_key="sk-ant-...",
)
# 三种切换,业务代码零改动:
response = client.chat.completions.create(
model="qwen2.5:32b", # 或 claude-sonnet-4-5, 或任意模型名
messages=[{"role": "user", "content": prompt}],
)
Botschaft: Ihre Inferenzquelle kann OpenRouter, jede Cloud-API oder Ihr Mac Mini sein. Sie entscheiden.
Wenn die Routing-Schicht 1,3 Milliarden wert ist — was ist „eigener Knoten“ wert?
OpenRouter löst Vendor-Lock-in — bleibt aber Drittanbieter: Daten passieren fremde Server, Latenz und Uptime hängen am Netz und an Upstreams.
Ein eigener Inferenz-Knoten schließt genau die Lücken, die OpenRouter offen lässt:
- Datensouveränität: Prompts und Antworten ohne Dritten — Code, Nutzerdaten, interne Docs bleiben auf Ihrer Maschine
- Kostenobergrenze: Feste Miete, beliebig viele Requests ohne Token-Meter
- Kein Rate Limit: Batch-Jobs laufen durch, ohne Tier-1-Deckel
- Versions-Freeze: Modell-Updates kontrolliert — Regressionstests bleiben gültig
- Offline-fähig: Flugzeug, Air-Gap, regulierte Rechenzentren
Apple Silicon Unified Memory macht den Mac Mini M4 hier besonders passend: kein CPU/GPU-RAM-Split, niedrige Latenz bei kleinen bis mittleren Modellen, Stromverbrauch ein Bruchteil von GPU-Racks.
| Mac Mini M4 Variante | Unified Memory | Empfohlenes Modell | Inferenz (4-bit) |
|---|---|---|---|
| M4 (Basis) | 16 GB | Qwen2.5-7B, Llama-3.1-8B | ca. 38–50 token/s |
| M4 Pro | 24 GB | Qwen2.5-14B, Phi-4 | ca. 30–42 token/s |
| M4 Pro (groß) | 48 GB | Qwen2.5-32B, DeepSeek-R1-32B | ca. 18–28 token/s |
Für CI-Review, interne Doc-Q&A und Batch-Verarbeitung reichen 40 tok/s locker — exklusiv, unbegrenzt, ohne Token-Rechnung.
Praxis: eigenen Mac-Knoten ins Routing einhängen
Macstripe liefert dedizierte Mac Mini M4 — per SSH eine volle macOS-Maschine. Schnellster Einstieg:
Schritt 1: Ollama auf dem Mac-Knoten
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取模型(以 Qwen2.5-7B 为例)
ollama pull qwen2.5:7b
# 启动 OpenAI 兼容 API,监听所有接口
OLLAMA_HOST=0.0.0.0 ollama serve
Schritt 2: Einfache Routing-Logik im App-Code
Nach Task-Typ, Budget und Datensensitivität wählen:
import os
from openai import OpenAI
def get_llm_client(mode: str = "auto"):
"""
mode="local" → 自己的 Mac Mini 节点(Ollama)
mode="router" → OpenRouter(路由到任意云端模型)
mode="auto" → 默认本地,本地不可用时降级到 OpenRouter
"""
if mode == "local":
return OpenAI(
base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
api_key="ollama",
), "qwen2.5:7b"
if mode == "router":
return OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"],
), "anthropic/claude-sonnet-4-5"
# auto 模式:先尝试本地节点
try:
client = OpenAI(
base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
api_key="ollama",
timeout=2.0,
)
client.models.list() # 健康检查
return client, "qwen2.5:7b"
except Exception:
return OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"],
), "anthropic/claude-sonnet-4-5"
mode="local"; schweres Reasoning → mode="router"; unkritische Pfade → mode="auto" mit Fallback. Das ist echte Multi-Provider-Architektur.Fazit: Die Lüge ist durch — Chancen für vorbereitete Teams
OpenRouters 1,3-Mrd.-Bewertung ist ein Zeichen der Zeit: Der Wertzentrum der Branche verschiebt sich von „wessen Modell am stärksten ist“ zu „wer Entwicklern den effizientesten Zugang zu allen Modellen gibt“.
Für Sie heißt das:
- Keinen einzelnen Modell-Vendor als Pflicht — von Anfang an modell-agnostisch bauen
- Lokalen Inferenz-Knoten als Routing-Stufe sehen, nicht als „billige Cloud-Kopie“
- Sensible Daten lokal, Spitzenlast und Experimente in der Cloud — sinnvolle Arbeitsteilung
- Kostenstruktur steuern: planbare Last auf Fixkosten-Knoten, Spitzen pay-per-use in der Cloud
Drei Jahre lang sollten Sie glauben: „Ihr braucht uns.“ OpenRouter sagt mit 1,3 Milliarden: Das war eine Lüge — der Markt bezahlt bereits für Unabhängigkeit von jedem Einzelanbieter.
Die nächste Frage: Ist Ihre Inferenz-Architektur bereit?
FAQ
Was unterscheidet OpenRouter vom direkten Modell-API-Aufruf? Einheitliches API-Format, zentraler Key und Abrechnung für 300+ Modelle. Nachteil: Daten laufen über OpenRouter — für nicht-sensitive Workloads.
Lokal und OpenRouter parallel? Ja. Empfohlen: sensibel lokal, Rest über OpenRouter zum passenden Cloud-Modell — OpenAI-kompatibel, nahtlos wechselbar.
Reicht Qwen2.5-7B auf Mac Mini M4 produktiv? Für Code-Review, Doc-Summary und Test-Generierung mit klarem Input/Output: ja. Schweres Reasoning → 32B oder Cloud-Routing.
Schnell lokal testen? Auf der Macstripe-Startseite Mac Mini M4 wählen, in ~5 Minuten SSH, Ollama wie oben — in ~10 Minuten privater Inferenz-Knoten online.