네트워크 라우팅 노드 다이어그램 — OpenRouter가 여러 LLM API를 가로지르는 지능형 라우팅 계층을 상징

모델을 만들지 않는 회사가 13억 달러를 받는 이유

2026년 OpenRouter는 새 라운드를 마치고 기업가치 13억 달러(약 94억 위안)에 도달했습니다. 자체 모델 학습 없음, GPU 클러스터 없음, 「독점 연구」도 없음——하는 일은 하나뿐입니다. 개발자 요청을 Claude, GPT-4o, Gemini, Llama, Qwen 등 300개 넘는 모델 API로 라우팅하고, 전달 수수료를 받는 것입니다.

처음 들으면 「중개업체가 왜 이렇게 비싸?」라고 느낄 수 있습니다. AI 업계에 있다면, 이 숫자 뒤에 숨은 불편한 신호를 알아챌 겁니다——빅테크가 오랫동안 구축해 온 핵심 서사가 조용히 무너지고 있다는 것입니다.

본문 핵심 주장: OpenRouter 13억 달러 가치는 LLM 업계 최대 거짓말에 대한 시장의 반대표입니다. 그 거짓말이란, 「모델 자체가 해자이고, 사용자는 특정 벤더 API에 충성한다」는 것입니다. 아래 판단은 가능한 한 검증 가능한 데이터로 뒷받침하며, 출처는 각 표 각주에 있습니다.

숫자부터: OpenRouter가 13억 달러를 받는 이유

자본시장은 「스토리」에 13억 달러를 내지 않습니다. 사는 것은 검증 가능한 성장 곡선입니다. OpenRouter는 2025년 6월 Series A 이후 기업가치 약 5.47억 달러(PitchBook / TechCrunch), 2026년 5월 Series B 1.13억 달러 조달 후 약 13억 달러——11개월 만에 2.4배. 리드는 Google 산하 CapitalG, NVentures, Snowflake, Databricks, MongoDB 등. 투자 대상은 특정 모델이 아니라 멀티모델 라우팅 계층입니다.

지표 2025년 6월(Series A) 2026년 5–6월(Series B) 변화
투자 후 기업가치 약 $547M 약 $1.3B +2.4×
등록 개발자 250만+ 800만+ +3.2×
연간 token 처리량 약 100조 / 년 약 1,500조 / 년 +15×
주간 token 트래픽 약 5조 / 주 약 25조 / 주 +5×(6개월)
팀 규모 약 50명 1인당 약 20조 token / 년
연결 모델 수 수백 400+ 지속 확장

출처: OpenRouter Series B 발표, TechCrunch, Menlo Ventures(2026년 5–6월).

더 중요한 건 token 규모의 기준점입니다. Menlo Ventures는 OpenRouter 연간 처리량이 Google token run rate의 15–30%, OpenAI 20–40%, Azure Foundry >50%에 달했다고 추정——모델을 만들지 않는 게이트웨이가 추론 트래픽 입구의 상당 부분을 잡고 있습니다. 개발자가 정말 특정 API에 「충성」한다면, 이 규모는 불가능합니다.

데이터 ①: 주간 랭킹은 매달 바뀐다——「떠날 수 없다」는 건 없음

지난 3년, 모든 LLM 벤더는 같은 이야기를 반복했습니다. 「우리 모델이 최고. 품질에 대한 충성이 해자가 된다」. OpenRouter 실시간 트래픽 랭킹(수백만 개발자의 실제 token 사용량, 일일 갱신)이 말하는 건 다른 버전입니다.

주간 순위 모델 벤더 주간 token량 주간 MoM
1 MiniMax M3 MiniMax(중국) 4.64조 +44%
2 DeepSeek V4 Flash DeepSeek(중국) 4.41조 +4%
3 Hy3 Preview 腾讯(중국) 3.84조 +9%
4 MiMo-V2.5 小米(중국) 3.66조 +34%
5 Claude Opus 4.7 Anthropic(미국) 2.69조 +67%
6 Owl Alpha OpenRouter 자체 2.45조 +22%
8 Claude Sonnet 4.6 Anthropic(미국) 1.88조 +4%
GPT-5.5 OpenAI(미국) Top 10 밖

출처: OpenRouter LLM Rankings, 2026년 6월 수집. 주간 MoM은 플랫폼 공개값.

이 표에서 바로 보이는 3가지:

  • 1위는 몇 주마다 교체: MiniMax M3가 1주 만에 +44%로 1위——브랜드 충성이 있다면 이렇게 volatile하지 않음
  • 중국 모델이 주도: 주간 Top 4가 모두 중국 벤더——「상용은 미국 폐쇄형만」이라는 서사는 성립하지 않음
  • OpenAI는 Top 10 밖: GPT-5.5는 화제였지만 OpenRouter 실사용량에서는 주간 Top 10 밖——화제량 ≠ 개발자 선택

OpenRouter 연간 리포트는 더 긴 구조 변화도 기록합니다(State of AI Report):

트렌드 지표 2025년 초 2025년 말 의미
오픈소스 token 비율 약 15% 약 30% OSS는 실험품이 아니라 프로덕션 트래픽
코딩 쿼리 비율 약 11% 50% 초과 개발자가 최대 사용자층, 가격 비교도 치열
단일 OSS 모델 최대 점유 DeepSeek >50% 어떤 모델도 >25% 없음 트래픽 분산, 독점 없음
Anthropic 코딩 태스크 점유 장기 >60% 2025년 11월 처음 60% 아래 「최강」도 잠식당하는 중

이 행동들은 한 결론을 가리킵니다. 사용자가 충성하는 건 브랜드가 아니라 「지금 이 순간, 가성비·속도·태스크 적합도가 가장 높은 추론 능력」입니다. 모델에 대체 불가능한 해자가 있다면 OpenRouter 자체가 존재하지 않습니다——전환할 필요가 없으니까요.

데이터 ②: Token 가격 6년 만에 600분의 1——규모 해자는 공허해짐

LLM 벤더의 두 번째 서사: 학습 비용은 천문학적. 초대규모만 상각 가능, API에 규모의 해자가 생긴다. 가격 데이터는 반대를 보여줍니다.

시점 대표 모델 입력 단가($/백만 token) GPT-3 기준 대비 동급 능력 메모
2020년 6월 GPT-3 API $60.00 1×(기준) 당시 MMLU 42에 도달한 유일한 상용 API
2023년 3월 GPT-4 $30.00 0.5× MMLU ~83, 능력↑인데 가격 반토막
2024년 중 GPT-4o $5.00 0.08× 멀티모달, 다시 6분의 1
2025년 2월 Gemini 2.0 Flash $0.10 0.0017× 다수 벤치 GPT-4 초과, 가격 1/600
2026년 4월 GPT-5.5 $2.25 0.04× 플래그십 추론, GPT-3의 4% 수준
2026년(OSS API) DeepSeek V4 Flash $0.098 0.0016× OpenRouter 주간 #2, 코딩 주류
2024년(OSS) Llama 3.2 3B(Together.ai) $0.06 0.001× GPT-3급 MMLU, 가격 1000× 하락

출처: a16z 「LLMflation」(2024), Epoch AI 가격 추적, arXiv 「Tiered Super-Moore's Law」(2026), OpenRouter 요금 페이지. 동급 능력 기준 하락은 명목가 하락을 상회.

학계는 이 추세를 「Tiered Super-Moore's Law(계층형 초무어의 법칙)」라 부릅니다. 이코노미 클래스 반감기 1.10년, 미드클래스 1.55년——모두 전통 무어 2년 주기보다 빠름. GPT-3 $60/M에서 Gemini Flash $0.10/M까지, 명목 약 600배 하락. 동급 벤치마크 점수 환산 시 더 큼.

a16z 추적에 따르면, 동일 MMLU 점수에 도달하는 추론 비용은 연 약 10배 속도로 하락——PC 시대 연산값 하락, 인터넷 대역값 하락보다 빠름. 규모의 해자는 고비용 위에 세워집니다. 단가가 12–18개월마다 한 자릿수 떨어지면, 「규모」 자체는 장벽이 아닙니다.

같은 태스크, 다른 라우트: 한 장으로 차이 보기

전형적 Agent 워크로드: 요청당 2,000 input + 800 output token(코드 리뷰 / 문서 QA에서 흔한 비율). OpenRouter 공개 가격(2026년 6월) 기준 1회 비용:

라우트 대상 모델 입력 $/M 출력 $/M 1회 비용 최저 대비
로컬 Ollama(Mac 노드) Qwen2.5-7B $0 $0 $0 기준
OpenRouter DeepSeek V4 Flash $0.098 $0.196 $0.00035
OpenRouter Gemini 3 Flash Preview $0.15 $0.60 $0.00078 2.2×
OpenRouter Claude Sonnet 4.6 $3.00 $15.00 $0.018 51×
OpenRouter Claude Opus 4.8 $15.00 $75.00 $0.090 257×
Anthropic API 직결 Claude Sonnet 4.6 $3.00 $15.00 $0.018 51×

1회 비용 = 2,000 × 입력 단가 + 800 × 출력 단가. OpenRouter 가격: openrouter.ai/models; Anthropic 공식 요금 대조. 로컬 행은 token 한계 비용만, 머신 임대료 미포함.

같은 코드 리뷰, Claude Sonnet은 DeepSeek V4 Flash의 51배. 로컬 7B와의 차이는 자릿수. 개발자는 브랜드에 충성하는 게 아니라 실시간으로 비교합니다——OpenRouter 주간에서 DeepSeek, MiniMax가 상위를 차지하는 이유입니다.

데이터 ③: 월 청구서——클라우드 API vs 로컬 Mac 노드, 뭐가 이득?

단가표만으로는 부족합니다. 팀이 알고 싶은 건 「이번 달 얼마나 돌리면, 얼마 나가?」. 세 가지 전형적 월간 사용량으로 TCO 추정(input:output = 5:2, 위 Agent 시나리오와 동일):

월간 token 합계 대략(2,800 token/회) Claude Sonnet 4.6 DeepSeek V4 Flash Mac Mini M4 16GB 렌탈 최저
10M 약 3,600회/월(개인 side project) $64 $1.3 $102.9 고정 클라우드 DeepSeek
50M 약 1.8만 회/월(소규모 팀 내부 도구) $321 $6.3 $102.9 고정 로컬 vs Claude; DeepSeek은 여전히 최저
200M 약 7.1만 회/월(8인 Agent 파일럿) $1,286 $25 $102.9 고정 로컬 vs Claude(92% 절감)
500M 약 17.9만 회/월(CI 리뷰 + RAG) $3,214 $63 $102.9 고정 로컬 vs Claude(97% 절감)
800M+ 약 28.6만 회/월(고빈도 배치) 약 $5,143+ $100+ $102.9 고정 로컬이 DeepSeek 단가를 상회
2B 약 71만 회/월(24/7 Agent 파이프라인) $12,857 $250 $102.9(또는 24GB $202.9) 로컬(59–99% 절감)

계산식: 1회 = 2,000 × 입력 단가 + 800 × 출력 단가; 월 합계는 등비 확대. 클라우드 가격 OpenRouter; 로컬은 Macstripe M4 16GB 월 $102.9(요금 페이지, 2026년 6월).

이 표 읽는 법:

  • Claude Sonnet 비교:15–20M token 넘으면 고정비 로컬이 유리——200M token 시나리오 92% 절감
  • DeepSeek Flash 비교: 순수 단가 기준 800M token/월 전후에 로컬 역전——다만 로컬은 속도 제한 없음·데이터 미유출·버전 고정도 포함. CI 배치는 더 일찍 전환하는 팀이 많음
  • 하이브리드 라우트가 현실적: Macstripe 사이트 8인 팀 실측에서 클라우드 API $300/월 → $50/월(−83%). 기계적 태스크는 로컬, 복잡 추론은 클라우드——양자택일 아님

비용만이 아님: 하드 지표 비교

OpenRouter 존재 자체가 「클라우드밖에 없다」는 전제에 대한 의문입니다. 300개 넘는 모델로 라우팅할 수 있다면, 자체 배포 모델로 라우팅 못 할 이유가 없습니다.

비교 축 Claude API 직결 OpenRouter 라우팅 로컬 Mac + Ollama
월 비용(200M token) $1,286 약 $1,286(동일) + 라우팅 프리미엄 $102.9 고정
Rate Limit(Tier 1 전형) 약 50 RPM / 40K TPM 상류 + 플랫폼 이중 제한 제한 없음(전용 연산)
TTFT(첫 token 지연) 약 0.8–2.5s(네트워크 포함) 약 1.0–3.0s(1홉 추가) 0.3–1.8s(LAN 내부)
지속 처리량(7B 4-bit) 쿼터 의존, 피크 제한 쿼터 의존, 피크 제한 38–51 tok/s 전용
데이터 경로 Prompt → Anthropic 서버 Prompt → OpenRouter → 상류 Prompt는 노드 밖으로 안 나감
모델 전환 비용 SDK / 키 / 코드 변경 model 이름만 변경 동일(OpenAI 호환 API)
버전 고정 벤더가 수시 업데이트 동일 가중치는 직접 관리
적합 시나리오 최강 추론, 복잡 Agent 멀티모델 비교, 빠른 실험 배치, 민감 데이터, CI 리뷰

TTFT / tok/s는 Macstripe 사이트 M4 로컬 LLM 실측 참조. Rate Limit은 Anthropic Tier 1 공개 문서(계정 등급별 변동).

OpenRouter 13억 달러 가치가 말하는 것: 멀티프로바이더 라우팅이 미래이고, 자체 추론 노드는 그 「프로바이더」 중 하나여야 한다는 것. 합리적 아키텍처는 삼택일이 아니라, 데이터 민감도와 태스크 난이도로 계층 라우팅입니다.

세 가지 거짓말, 한 장 요약표

위 데이터를 한 표로 모아, 팀이나 상사와 논의할 때 쓰세요.

업계 서사(거짓말) 데이터의 답 개발자에게 의미
「우리 모델은 대체 불가」 주간 1위 6개월간 3번 교체; GPT-5.5 Top 10 밖; 단일 OSS 점유 >50% → <25% 「필수 바인딩」 모델 없음. 전환은 일상
「API 규모 = 해자」 Token 가격 6년 600× 하락; 이코노미 반감기 1.1년 종량제 장기 비용 예측 불가. 고정비 노드가 더 안정
「추론은 클라우드밖에 없다」 200M token/월: Claude $1,286 vs 로컬 $102.9(92% 절감); 8인 팀 혼합 라우트 API −83% 로컬 노드는 라우팅 체계의 정당한 일환, 예비품 아님
「OpenRouter는 작은 도구」 기업가치 $1.3B; 연간 1,500조 token; OpenAI run rate 20–40% 멀티모델 라우팅은 인프라 계층. 지금부터 설계해야

거짓말이 무너진 뒤: OpenRouter가 증명하는 비즈니스 로직

세 가지 거짓말을 이해하면 OpenRouter 가치 논리는 명확해집니다.

LLM 업계는 구조적 분리 중입니다. 한때 묶여 팔리던 것——모델 능력, 추론 연산, API 접속, 데이터 처리 플로우——이 풀리고 있습니다. 각 계층에 전문 기업이 생기고, 독립 가격 책정이 일어납니다.

OpenRouter가 차지하는 건 「API 접속 집약」 계층입니다. 기술 복잡도가 아니라, 300개 모델분 SDK, 키 관리, 과금 대조, 페일오버를 직접 유지하고 싶지 않다는 실제 페인을 풉니다. 누군가 해주면 약간의 프리미엄을 지불——13억 달러의 소박한 로직입니다.

개발자 시사점: LLM 벤더가 「어떤 모델을 써야 하는지」 알려주길 기다리지 마세요. 처음부터 모델 비종속(model-agnostic) 아키텍처를 구축하고, 추론 계층을 비즈니스 로직이 아니라 교체 가능한 인프라로 취급하세요.

모델 비종속 아키텍처 최소 구현

OpenAI SDK 호환 인터페이스면 한 줄로 프로바이더를 전환할 수 있습니다.

from openai import OpenAI

# 切换到 OpenRouter(路由到任意云端模型)
client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sk-or-...",
)

# 切换到本地 Mac Mini 节点(Ollama)
client = OpenAI(
    base_url="http://YOUR_MAC_NODE:11434/v1",
    api_key="ollama",
)

# 切换到 Anthropic 直接 API
client = OpenAI(
    base_url="https://api.anthropic.com/v1",
    api_key="sk-ant-...",
)

# 三种切换,业务代码零改动:
response = client.chat.completions.create(
    model="qwen2.5:32b",  # 或 claude-sonnet-4-5, 或任意模型名
    messages=[{"role": "user", "content": prompt}],
)

이 코드가 의미하는 것: 추론 소스는 OpenRouter든, 아무 클라우드 API든, 자체 Mac Mini 노드든 상관없다는 것. 선택권은 당신에게 있습니다.

라우팅 계층이 13억 달러라면, 「자체 추론 노드」의 가치는

OpenRouter는 「한 곳에 묶이고 싶지 않다」는 문제를 풉니다. 하지만 그 자체도 제3자——데이터는 여전히 타인 서버를 거치고, 네트워크 지연과 상류 API 가용성 영향을 받습니다.

자체 추론 노드를 추가하면 OpenRouter가 채울 수 없는 부분을 보완합니다.

  • 데이터 주권: Prompt와 응답이 제3자를 거치지 않음. 코드베이스, 사용자 데이터, 내부 문서는 자체 머신에 잔류
  • 비용 상한: 노드를 빌리면 고정비. 요청 수와 무관하게 추가 과금 없음
  • 속도 제한 제로: 벤더 Rate Limit 정책에 묶이지 않고, 배치를 끝까지 돌릴 수 있음
  • 버전 고정: 벤더 업데이트로 모델이 갑자기 바뀌지 않음. 회귀 테스트 결과 신뢰 가능
  • 오프라인 가용: 기내, 에어갭, 규제 데이터센터에서도 동작

Apple Silicon 통합 메모리는 Mac Mini M4를 이 용도에 특히 적합하게 만듭니다. CPU/GPU 메모리 경계 없이, 중소규모 모델은 낮은 지연·안정 처리량. 전력 소비는 GPU 서버의 수십 분의 일.

Mac Mini M4 모델 통합 메모리 권장 모델 추론 속도(4-bit 양자화)
M4(베이스) 16 GB Qwen2.5-7B, Llama-3.1-8B 약 38–50 token/s
M4 Pro 24 GB Qwen2.5-14B, Phi-4 약 30–42 token/s
M4 Pro(대용량) 48 GB Qwen2.5-32B, DeepSeek-R1-32B 약 18–28 token/s

CI 코드 리뷰, 내부 문서 QA, 배치 데이터 처리 같은 시나리오에서 40 token/s면 충분——게다가 전용·무제한·token 과금 없는 40 token/s입니다.

실전: 자체 Mac 노드를 라우팅 체계에 넣기

Macstripe는 전용 Mac Mini M4 노드를 제공합니다. SSH 접속하면 풀 macOS 머신입니다. 가장 빠른 연결 절차:

1단계: Mac 노드에서 Ollama 시작

# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取模型(以 Qwen2.5-7B 为例)
ollama pull qwen2.5:7b

# 启动 OpenAI 兼容 API,监听所有接口
OLLAMA_HOST=0.0.0.0 ollama serve

2단계: 비즈니스 코드에 간단한 라우팅 로직

태스크 유형, 비용 예산, 데이터 민감도로 라우트 대상을 결정할 수 있습니다.

import os
from openai import OpenAI

def get_llm_client(mode: str = "auto"):
    """
    mode="local"   → 自己的 Mac Mini 节点(Ollama)
    mode="router"  → OpenRouter(路由到任意云端模型)
    mode="auto"    → 默认本地,本地不可用时降级到 OpenRouter
    """
    if mode == "local":
        return OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
        ), "qwen2.5:7b"

    if mode == "router":
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"

    # auto 模式:先尝试本地节点
    try:
        client = OpenAI(
            base_url=f"http://{os.environ['MAC_NODE_IP']}:11434/v1",
            api_key="ollama",
            timeout=2.0,
        )
        client.models.list()  # 健康检查
        return client, "qwen2.5:7b"
    except Exception:
        return OpenAI(
            base_url="https://openrouter.ai/api/v1",
            api_key=os.environ["OPENROUTER_API_KEY"],
        ), "anthropic/claude-sonnet-4-5"
베스트 프랙티스: 내부 코드와 사용자 데이터는 mode="local", 최강 추론이 필요한 복잡 태스크는 mode="router", 비핵심 경로는 mode="auto"로 자동 폴백. 이것이 진짜 멀티프로바이더 아키텍처입니다.

맺음말: 거짓말이 무너진 지금, 준비한 개발자에게 기회가 있다

OpenRouter 13억 달러 가치는 시대의 신호입니다. LLM 업계 가치 중심이 「누구 모델이 최강인가」에서 「누가 개발자에게 모든 모델을 가장 효율적으로 쓰게 하는가」로 이동하고 있다는 것.

개발자에게 의미하는 것:

  • 특정 벤더에 베팅하지 마세요. 첫날부터 모델 비종속 아키텍처를 구축하세요
  • 로컬 추론 노드를 라우팅 체계의 일부로 취급하세요. 클라우드 API 「열등판」이 아닙니다
  • 민감 데이터는 로컬, 로컬을 넘는 연산 수요는 클라우드——합리적 분업이지 양자택일이 아닙니다
  • 비용 구조 통제: 예측 가능한 부하는 고정비 로컬, 피크와 실험은 종량 클라우드로 커버

LLM 업업은 3년간 「우리에게 의존해야 한다」고 믿게 했습니다. OpenRouter는 13억 달러로 말합니다——그건 거짓말이고, 시장은 이미 「어느 한 곳에도 의존하지 않음」에 돈을 내고 있다는 것.

다음 질문: 당신의 추론 아키텍처, 준비됐습니까?

FAQ

OpenRouter와 모델 API 직결의 차이는? OpenRouter는 API 형식, 키 관리, 과금을 통합해 1개 인터페이스로 300+ 모델에 접근합니다. 단점은 데이터가 OpenRouter 서버를 거친다는 것. 비민감 데이터용.

로컬 추론과 OpenRouter를 같이 쓸 수 있나? 물론입니다. 권장: 민감 데이터는 로컬, 나머지는 OpenRouter로 최적 클라우드 모델. OpenAI 호환 API로 seamless 전환.

Mac Mini M4에서 7B 모델, 품질은 충분? 코드 리뷰, 문서 요약, 테스트 케이스 생성처럼 입출력이 명확한 태스크면 Qwen2.5-7B는 프로덕션 투입 가능. 복잡 추론은 32B 업그레이드 또는 클라우드 라우트.

로컬 추론을 빠르게 테스트하려면? Macstripe 홈에서 Mac Mini M4 노드를 선택. 5분 안에 SSH 연결, 위 절차로 Ollama 설치하면 10분 안에 프라이빗 추론 노드 온라인.