2026 OpenClaw Ollama vLLM イントラ LAN ゲートウェイ doctor status

OpenClaw Gateway とローカル LLM（Ollama／vLLM）のイントラ連携

Gateway 越しに Ollama／vLLM を OpenAI 互換へ写すと /v1/chat/completions と /v1/models のまま実体だけ差し替えられます。写像ズレで HTTP だけ失敗しやすいので一行表で固定し doctor と status で検収します。 probe／doctor（2026.5.x）・遠隔 Mac／SSH／doctor FAQ

1. エンドポイント写像を一行表にする

listen URL・上流（Ollama／vLLM のベース）・モデル ID を横並びにし、vLLM の /v1 二重を潰します。/v1/models が CLI 期待と一致するかで縮図が取れます。

先に決める：ゲートウェイ・上流ベース・モデル別名を同一表に固定。

2. タイムアウトは「非ストリーム→ストリーム」の順で伸ばす

プロキシのアイドルタイムアウトはストリームで落ちやすいので、短い非ストリームで200→stream: true で切り分け、長文は読み取りかチャンク間 idle を本文に合わせます。

3. 並列スライスとキューの見える化

同時上限をゲートウェイ・プロキシ・本体の三段で揃え、429や滞留をログ化。用途別に別名／別上流へ振り分けて負荷を分散します。

4. `doctor` と `status` の検収順

doctor→openclaw gateway status（必要なら --require-rpc）で listen と実 URL を一致。HTTP だけ失敗なら curl -v で Authorization を証跡化します。

5. 長コンテキストを遠隔高メモリ Mac へオーバーフロー

薄いゲートウェイ＋高メモリ遠隔 Macへ長文だけ逃がす。トンネルで上流を固定し、軽量／重量の二系統に分け重量側だけ並列とタイムアウトを広げ、/v1/models で両系を確認します。

6. チェックリスト

/v1/models とクライアント ID が一致。
vLLM の /v1 二重なし。
ストリームのみ失敗→idle／読み取りタイムアウト確認。
doctor／status（--require-rpc）と listen・curl 先が同一表。

ゲートウェイと推論を分けるなら Mac mini

静音・低待機電力 と 統合メモリ の Mac mini はゲートウェイと推論の分離に向き、Gatekeeper／SIP／FileVault がトークン運用を楽にします。

Mac mini M4 を起点に、Macstripe ホームで比較し、今すぐ入手して検収を回してください。