2026 OpenClaw: Ollama und vLLM im Intranet hinter dem Gateway — Mapping, Timeouts und doctor/status

Wenn Ollama auf dem Büro-Mac und vLLM auf einem Linux-GPU-Host im VLAN laufen, will das OpenClaw-Gateway dieselbe OpenAI-kompatible Oberfläche wie gegenüber öffentlichen APIs — nur ohne DNS-Surprises und mit strengeren Latenzbudgets. Zwischen curl und GPU liegen oft mDNS, split DNS, interne CAs und ältere Reverse-Proxys. Typische Fehler sind doppelte Wahrheiten: /v1/models listet Aliasnamen, die der Upstream nicht kennt; oder das Gateway bricht Streaming wegen eines kürzeren Proxys ab, während Ollama noch tokenisiert — halten Sie Request-IDs und Stdout-Artefakte pro Schritt fest. Dieses Tutorial führt einen reproduzierbaren Kreuzlauf: Basis-URL und Router stabilisieren, Timeouts als Kette dokumentieren, Parallelität in Scheiben legen, dann doctor und openclaw gateway status --require-rpc als Abnahme. Vertiefend zu Sandboxing und Plugin-HTTP finden Sie 2026 OpenClaw 2026.3.x-Upgrade und Docker-Sandbox: config validate, expliziter OPENCLAW_SANDBOX-Schalter, setupCommand-Normalisierung, Plugin-HTTP-Routing mit doctor — reproduzierbare Fehlersuche (isolierter Hoch-RAM-Remote-Mac und CI-Koexistenz); für Secrets, Audit und dauerhafte Hoch-RAM-Gateways ergänzend 2026 OpenClaw SecretRef und 64-Bit-Credentials-Oberfläche: Fail-Fast-Lesepfade, Laufzeit-Sammler und Audit-Streams; Brew-, npm- und Docker-Mix, openclaw backup-Checksummen mit doctor — reproduzierbares Tutorial inkl. permanenter Hoch-RAM-Remote-Mac-Gateway und Xcode-Overflow.

1. Endpunkt-Mapping: eine Basis-URL, zwei Backends

Legen Sie pro Upstream ein eindeutiges Präfix oder einen Host-Alias fest und notieren Sie das Tripel Gateway-Basis-URL, Router-Name und Upstream-OpenAI-Pfad. Ollama spricht /api/chat oder OpenAI-kompatibel /v1/chat/completions; vLLM exponiert /v1/*, differiert aber in Streaming-Chunking und manchen Feldern wie response_format oder tool_choice — testen Sie diese explizit. Dieselben Modellstrings müssen in /v1/models, Agent-Manifest und Server-Launch stehen; Suffixe wie -ollama / -vllm helfen beim Support. Artefakt: identischer Curl-Header direkt gegen Ollama und über das Gateway; weicht nur die äußere Route ab, liegt das Problem vor OpenClaw. Scheitern beide Pfade gleich, prüfen Sie ACL oder Upstream, nicht weiter drehen am Gateway.

Merksatz: Mapping ist Konfigurationsarbeit — keine „magische Autodiscovery" im VLAN.

Wenn Sie später öffentliche und private Endpunkte mischen, versionieren Sie die Router-Tabelle wie eine Dependency-Datei: gleicher Commit-Hash auf Gateway und Dokumentation, sonst erklärt der nächste Rollout plötzlich wieder falsche Modellnamen.

2. Timeouts als Kette statt als Einzelknopf

Intranet bedeutet oft IDS, HTTP-Proxys und TLS-Inspection. Dokumentieren Sie vier Stufen: Client-Read-Timeout, Ingress read_timeout, Gateway-LLM-Timeout und Upstream-Deadline — verlängern Sie nicht nur die äußere Stufe, während der Kern kurz bleibt. Achten Sie auf HTTP/2-Downgrades, die SSE puffern. Start mit stream:false und Mini-Prompts; dann Streaming und Zeit bis zum ersten Chunk vs. Durchsatz messen. Reißt der Stream mittendrin, prüfen Sie Idle-Proxys und Keep-Alive vor einem Redeploy. Bei langen Antworten zeigen nettop/iftop, ob noch Bytes fließen; große Authorization-Header brechen manchmal erst unter Last.

3. Concurrency-Slicing: Gateway vor GPU hungern lassen

vLLM batcht kontinuierlich; Ollama serialisiert oft stärker. Ohne Parallelitäts-Slicing erzeugen viele Agenten RAM-Spikes, die Healthchecks mitreißen. Setzen Sie Kontingente: max. gleichzeitige Streams, getrennte Warteschlangen für kurze Tools vs. lange Jobs, Circuit-Breaker bei GPU-OOM. Trennen Sie CPU-lastige Vorverarbeitung (lange Systemprompts, große Tool-Schemas) vom GPU-Pfad, damit der Gateway-Event-Loop nicht blockiert. vLLM: Batching und max-model-len; Ollama: parallele Requests pro Gewicht. Nach Minor-Upgrades Slice-Limits erneut messen; bei geteiltem VLAN QoS oder Zeitfenster für große Downloads vereinbaren.

  • Wie viele parallele Langkontext-Sessions sind auf demselben Host zulässig?
  • Gibt es eine Prioritätswarteschlange für interaktive vs. Batch-Inferenz?
  • Wer überwacht Resident Set und Throttling, wenn der Mac selbst Co-Host ist?

4. doctor und status: reproduzierbare Abnahme

Führen Sie doctor mit demselben User und PATH wie launchd/systemd — sonst grün lokal, rot in Prod (andere Node-Version, fehlende Env). Speichern Sie Stdout neben einem erfolgreichen /v1/models im Ticket. openclaw gateway status --require-rpc ist die harte RPC-Barriere: TCP kann täuschen. HTTP grün, RPC rot: Bind, Token-Audience, Zombie-PIDs nach Canary. Workspace für Plugins/Sandbox synchron halten. Nach VPN-Reconnect die Checks wiederholen — Intranet-Routing driftet schneller als Code.

Versionieren Sie die Abnahme knapp: Zeitstempel, Gateway-Build, Modellalias und die ersten Zeilen von doctor — damit lassen sich Regressionen zwischen zwei Releases ohne Rätselraten eingrenzen.

5. Fallstudie: Langkontext-Overflow auf Hoch-RAM-Fern-Mac

Ein Team hielt Ollama auf dem Entwickler-Mac für „schnell genug", scheiterte aber an 128k-ähnlichen Fenstern plus parallelen PR-Agenten — Speicherdruck wächst überproportional. Ausweg: ein Hoch-RAM-Remote-Mac für schwere Inferenz, Gateway und Tools auf einem schlankeren Knoten; VPN/SSH-Tunnel halten Daten im Policy-Raum. Der Mac hostet Ollama nativ oder stabilisiert HTTP, Linux kann weiter vLLM für Batch fahren — Rollen im Runbook fixieren. Vorher/Nachher denselben synthetischen Prompt messen; dokumentieren Sie Modellbindung pro Host. Kalter Reboot-Test: Tunnel, Keys und Modellpfade müssen ohne Klicks wieder grün werden.

Warum Mac mini und macOS diesen Split besonders tragen

Ein klar getrennter Inferenzknoten profitiert von hoher Speicherbandbreite und ruhigen I/O-Pfaden — dort punktet Apple Silicon bei großen Kontexten und mehreren Streams. macOS liefert Gatekeeper, SIP und FileVault, wenn Tokens und Artefakte auf dem Host liegen; Unix, Homebrew und stabile Power-Profile eignen sich für Dauerbetrieb. Ein Mac mini M4 bleibt leise und sehr sparsam im Leerlauf — gut als 24/7-Gateway oder Hoch-RAM-Peer mit niedriger TCO. Kapazität für einen zweiten Knoten auf der Macstripe-Startseite prüfen und Rollen trennen. Jetzt einen Mac mini M4 auswählen, damit LAN-LLM, Mapping und lange Kontexte auf messbar stabiler Hardware laufen.