2026년 OpenClaw Ollama vLLM 내부망 LLM 게이트웨이 타임아웃 doctor status

내부망 Ollama·vLLM을 OpenClaw에 붙일 때 장애는 URL·타임아웃·동시성에서 납니다. curl 기준선, 슬라이싱, doctorstatus 순서를 고정합니다. MCP 타임아웃 튜토리얼, 5.x doctor·probe 런북과 대조하세요.

1. 토폴로지·베이스 URL

DNS·프록시 경로 스트립·TLS를 한 장에 그립니다. URL이 어긋나면 /v1/models만 통과하고 스트림만 끊깁니다. 비스트림·스트림 curl 두 줄을 런북에 남깁니다.

2. Ollama 별칭

호스트·포트·접두만 맞춥니다. 별칭은 표로 고정하고 GET /v1/models 스냅샷을 첨부합니다. 루프백·VIP를 번갈아 DNS·MTU를 분리합니다.

3. vLLM 타임아웃

프록시 읽기/쓰기·유휴 스트림이 병목입니다. 큰 컨텍스트로 첫 토큰 지연을 재현하고 타임아웃만 올렸을 때 통과하는지 적습니다. 배치는 동시성과 곱해집니다.

4. 동시성 슬라이싱

동시 호출에 업스트림이 먼저 포화됩니다. 워커·큐·백오프를 표로 정하고 스트림/비스트림을 별 큐로 나눕니다. 꼬리 지연은 GPU·CPU를 보고 원격 분리 시점을 정합니다.

5. doctorstatus

openclaw doctorgateway status(필요 시 RPC)로 제어 평면을 통과시킵니다. HTTP만 실패면 인증·URL, 둘 다 실패면 프로세스·포트입니다. 합격 캡처와 실패 로그를 한 티켓에 묶습니다.

6. 원격 고메모리 오버플로

창 넘침은 OOM으로 스트림이 끊깁니다. 임계치 초과만 정책 라우터로 원격 Mac의 Ollama/vLLM에 보냅니다. URL·인증은 유지하고 호스트만 바꿉니다.

Apple Silicon·Mac mini가 이 구성에 잘 맞는 이유

상시 게이트웨이는 낮은 유휴 전력, 무거운 추론은 통합 메모리 큰 Mac으로 나누면 지연이 줄고 Gatekeeper·SIP·FileVault로 키 유출도 줄입니다. Mac mini M4 앵커+원격 고메모리 확장이 비용 대비 안정적입니다. Macstripe 홈에서 Mac mini M4 상시 노드를 맞춰 보세요.