OpenClaw Gateway とローカル LLM(Ollama/vLLM)のイントラ連携

Gateway 越しに OllamavLLM を OpenAI 互換へ写すと /v1/chat/completions/v1/models のまま実体だけ差し替えられます。写像ズレで HTTP だけ失敗しやすいので一行表で固定し doctorstatus で検収します。 probe/doctor(2026.5.x)遠隔 Mac/SSH/doctor FAQ

1. エンドポイント写像を一行表にする

listen URL・上流(Ollama/vLLM のベース)・モデル ID を横並びにし、vLLM の /v1 二重を潰します。/v1/models が CLI 期待と一致するかで縮図が取れます。

先に決める:ゲートウェイ・上流ベース・モデル別名を同一表に固定。

2. タイムアウトは「非ストリーム→ストリーム」の順で伸ばす

プロキシのアイドルタイムアウトはストリームで落ちやすいので、短い非ストリームで200→stream: true で切り分け、長文は読み取りかチャンク間 idle を本文に合わせます。

3. 並列スライスとキューの見える化

同時上限をゲートウェイ・プロキシ・本体の三段で揃え、429や滞留をログ化。用途別に別名/別上流へ振り分けて負荷を分散します。

4. doctorstatus の検収順

doctoropenclaw gateway status(必要なら --require-rpc)で listen と実 URL を一致。HTTP だけ失敗なら curl -vAuthorization を証跡化します。

5. 長コンテキストを遠隔高メモリ Mac へオーバーフロー

薄いゲートウェイ+高メモリ遠隔 Macへ長文だけ逃がす。トンネルで上流を固定し、軽量/重量の二系統に分け重量側だけ並列とタイムアウトを広げ、/v1/models で両系を確認します。

6. チェックリスト

  • /v1/models とクライアント ID が一致。
  • vLLM の /v1 二重なし。
  • ストリームのみ失敗→idle/読み取りタイムアウト確認。
  • doctorstatus--require-rpc)と listen・curl 先が同一表。

ゲートウェイと推論を分けるなら Mac mini

静音・低待機電力統合メモリMac mini はゲートウェイと推論の分離に向き、Gatekeeper/SIP/FileVault がトークン運用を楽にします。

Mac mini M4 を起点に、Macstripe ホームで比較し、今すぐ入手して検収を回してください。