Wenn Ollama auf dem Büro-Mac und vLLM auf einem Linux-GPU-Host im VLAN laufen, will das OpenClaw-Gateway dieselbe OpenAI-kompatible Oberfläche wie gegenüber öffentlichen APIs — nur ohne DNS-Surprises und mit strengeren Latenzbudgets. Zwischen curl und GPU liegen oft mDNS, split DNS, interne CAs und ältere Reverse-Proxys. Typische Fehler sind doppelte Wahrheiten: /v1/models listet Aliasnamen, die der Upstream nicht kennt; oder das Gateway bricht Streaming wegen eines kürzeren Proxys ab, während Ollama noch tokenisiert — halten Sie Request-IDs und Stdout-Artefakte pro Schritt fest. Dieses Tutorial führt einen reproduzierbaren Kreuzlauf: Basis-URL und Router stabilisieren, Timeouts als Kette dokumentieren, Parallelität in Scheiben legen, dann doctor und openclaw gateway status --require-rpc als Abnahme. Vertiefend zu Sandboxing und Plugin-HTTP finden Sie
2026 OpenClaw 2026.3.x-Upgrade und Docker-Sandbox: config validate, expliziter OPENCLAW_SANDBOX-Schalter, setupCommand-Normalisierung, Plugin-HTTP-Routing mit doctor — reproduzierbare Fehlersuche (isolierter Hoch-RAM-Remote-Mac und CI-Koexistenz); für Secrets, Audit und dauerhafte Hoch-RAM-Gateways ergänzend
2026 OpenClaw SecretRef und 64-Bit-Credentials-Oberfläche: Fail-Fast-Lesepfade, Laufzeit-Sammler und Audit-Streams; Brew-, npm- und Docker-Mix, openclaw backup-Checksummen mit doctor — reproduzierbares Tutorial inkl. permanenter Hoch-RAM-Remote-Mac-Gateway und Xcode-Overflow.
1. Endpunkt-Mapping: eine Basis-URL, zwei Backends
Legen Sie pro Upstream ein eindeutiges Präfix oder einen Host-Alias fest und notieren Sie das Tripel Gateway-Basis-URL, Router-Name und Upstream-OpenAI-Pfad. Ollama spricht /api/chat oder OpenAI-kompatibel /v1/chat/completions; vLLM exponiert /v1/*, differiert aber in Streaming-Chunking und manchen Feldern wie response_format oder tool_choice — testen Sie diese explizit. Dieselben Modellstrings müssen in /v1/models, Agent-Manifest und Server-Launch stehen; Suffixe wie -ollama / -vllm helfen beim Support. Artefakt: identischer Curl-Header direkt gegen Ollama und über das Gateway; weicht nur die äußere Route ab, liegt das Problem vor OpenClaw. Scheitern beide Pfade gleich, prüfen Sie ACL oder Upstream, nicht weiter drehen am Gateway.
Wenn Sie später öffentliche und private Endpunkte mischen, versionieren Sie die Router-Tabelle wie eine Dependency-Datei: gleicher Commit-Hash auf Gateway und Dokumentation, sonst erklärt der nächste Rollout plötzlich wieder falsche Modellnamen.
2. Timeouts als Kette statt als Einzelknopf
Intranet bedeutet oft IDS, HTTP-Proxys und TLS-Inspection. Dokumentieren Sie vier Stufen: Client-Read-Timeout, Ingress read_timeout, Gateway-LLM-Timeout und Upstream-Deadline — verlängern Sie nicht nur die äußere Stufe, während der Kern kurz bleibt. Achten Sie auf HTTP/2-Downgrades, die SSE puffern. Start mit stream:false und Mini-Prompts; dann Streaming und Zeit bis zum ersten Chunk vs. Durchsatz messen. Reißt der Stream mittendrin, prüfen Sie Idle-Proxys und Keep-Alive vor einem Redeploy. Bei langen Antworten zeigen nettop/iftop, ob noch Bytes fließen; große Authorization-Header brechen manchmal erst unter Last.
3. Concurrency-Slicing: Gateway vor GPU hungern lassen
vLLM batcht kontinuierlich; Ollama serialisiert oft stärker. Ohne Parallelitäts-Slicing erzeugen viele Agenten RAM-Spikes, die Healthchecks mitreißen. Setzen Sie Kontingente: max. gleichzeitige Streams, getrennte Warteschlangen für kurze Tools vs. lange Jobs, Circuit-Breaker bei GPU-OOM. Trennen Sie CPU-lastige Vorverarbeitung (lange Systemprompts, große Tool-Schemas) vom GPU-Pfad, damit der Gateway-Event-Loop nicht blockiert. vLLM: Batching und max-model-len; Ollama: parallele Requests pro Gewicht. Nach Minor-Upgrades Slice-Limits erneut messen; bei geteiltem VLAN QoS oder Zeitfenster für große Downloads vereinbaren.
- Wie viele parallele Langkontext-Sessions sind auf demselben Host zulässig?
- Gibt es eine Prioritätswarteschlange für interaktive vs. Batch-Inferenz?
- Wer überwacht Resident Set und Throttling, wenn der Mac selbst Co-Host ist?
4. doctor und status: reproduzierbare Abnahme
Führen Sie doctor mit demselben User und PATH wie launchd/systemd — sonst grün lokal, rot in Prod (andere Node-Version, fehlende Env). Speichern Sie Stdout neben einem erfolgreichen /v1/models im Ticket. openclaw gateway status --require-rpc ist die harte RPC-Barriere: TCP kann täuschen. HTTP grün, RPC rot: Bind, Token-Audience, Zombie-PIDs nach Canary. Workspace für Plugins/Sandbox synchron halten. Nach VPN-Reconnect die Checks wiederholen — Intranet-Routing driftet schneller als Code.
Versionieren Sie die Abnahme knapp: Zeitstempel, Gateway-Build, Modellalias und die ersten Zeilen von doctor — damit lassen sich Regressionen zwischen zwei Releases ohne Rätselraten eingrenzen.
5. Fallstudie: Langkontext-Overflow auf Hoch-RAM-Fern-Mac
Ein Team hielt Ollama auf dem Entwickler-Mac für „schnell genug", scheiterte aber an 128k-ähnlichen Fenstern plus parallelen PR-Agenten — Speicherdruck wächst überproportional. Ausweg: ein Hoch-RAM-Remote-Mac für schwere Inferenz, Gateway und Tools auf einem schlankeren Knoten; VPN/SSH-Tunnel halten Daten im Policy-Raum. Der Mac hostet Ollama nativ oder stabilisiert HTTP, Linux kann weiter vLLM für Batch fahren — Rollen im Runbook fixieren. Vorher/Nachher denselben synthetischen Prompt messen; dokumentieren Sie Modellbindung pro Host. Kalter Reboot-Test: Tunnel, Keys und Modellpfade müssen ohne Klicks wieder grün werden.
Warum Mac mini und macOS diesen Split besonders tragen
Ein klar getrennter Inferenzknoten profitiert von hoher Speicherbandbreite und ruhigen I/O-Pfaden — dort punktet Apple Silicon bei großen Kontexten und mehreren Streams. macOS liefert Gatekeeper, SIP und FileVault, wenn Tokens und Artefakte auf dem Host liegen; Unix, Homebrew und stabile Power-Profile eignen sich für Dauerbetrieb. Ein Mac mini M4 bleibt leise und sehr sparsam im Leerlauf — gut als 24/7-Gateway oder Hoch-RAM-Peer mit niedriger TCO. Kapazität für einen zweiten Knoten auf der Macstripe-Startseite prüfen und Rollen trennen. Jetzt einen Mac mini M4 auswählen, damit LAN-LLM, Mapping und lange Kontexte auf messbar stabiler Hardware laufen.