Gateway 越しに Ollama/vLLM を OpenAI 互換へ写すと /v1/chat/completions と /v1/models のまま実体だけ差し替えられます。写像ズレで HTTP だけ失敗しやすいので一行表で固定し doctor と status で検収します。
probe/doctor(2026.5.x)・
遠隔 Mac/SSH/doctor FAQ
1. エンドポイント写像を一行表にする
listen URL・上流(Ollama/vLLM のベース)・モデル ID を横並びにし、vLLM の /v1 二重を潰します。/v1/models が CLI 期待と一致するかで縮図が取れます。
2. タイムアウトは「非ストリーム→ストリーム」の順で伸ばす
プロキシのアイドルタイムアウトはストリームで落ちやすいので、短い非ストリームで200→stream: true で切り分け、長文は読み取りかチャンク間 idle を本文に合わせます。
3. 並列スライスとキューの見える化
同時上限をゲートウェイ・プロキシ・本体の三段で揃え、429や滞留をログ化。用途別に別名/別上流へ振り分けて負荷を分散します。
4. doctor と status の検収順
doctor→openclaw gateway status(必要なら --require-rpc)で listen と実 URL を一致。HTTP だけ失敗なら curl -v で Authorization を証跡化します。
5. 長コンテキストを遠隔高メモリ Mac へオーバーフロー
薄いゲートウェイ+高メモリ遠隔 Macへ長文だけ逃がす。トンネルで上流を固定し、軽量/重量の二系統に分け重量側だけ並列とタイムアウトを広げ、/v1/models で両系を確認します。
6. チェックリスト
/v1/modelsとクライアント ID が一致。- vLLM の
/v1二重なし。 - ストリームのみ失敗→idle/読み取りタイムアウト確認。
doctor/status(--require-rpc)と listen・curl先が同一表。
ゲートウェイと推論を分けるなら Mac mini
静音・低待機電力 と 統合メモリ の Mac mini はゲートウェイと推論の分離に向き、Gatekeeper/SIP/FileVault がトークン運用を楽にします。
Mac mini M4 を起点に、Macstripe ホームで比較し、今すぐ入手して検収を回してください。