- ModelAdapter: 범용 OpenAI-compat 어댑터 (stream/complete/health)
- BackendRegistry: rewriter(EXAONE) + reasoner(Gemma4) 헬스체크 루프
- 2단계 파이프라인: EXAONE rewrite → Gemma reasoning (SSE rewrite 이벤트 노출)
- Fallback: 맥미니 다운 시 EXAONE 단독 모드, stream 중간 실패 시 자동 전환
- Cancel-safe: rewrite 전/후, streaming loop 내, fallback 경로 모두 체크
- Rewrite heartbeat: complete_chat 대기 중 2초 간격 processing 이벤트
- JobQueue: Semaphore(3) 기반 동시성 제한, 정확한 queue position
- GET /chat/{job_id}/status, GET /queue/stats 엔드포인트
- DB: rewrite_model, reasoning_model, rewritten_message 컬럼 추가
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
25 lines
492 B
Plaintext
25 lines
492 B
Plaintext
# Auth
|
|
OWNER_PASSWORD=
|
|
GUEST_PASSWORD=
|
|
JWT_SECRET=
|
|
|
|
# CORS (dev)
|
|
CORS_ORIGINS=http://localhost:5173
|
|
|
|
# GPU
|
|
NVIDIA_SMI_PATH=/usr/bin/nvidia-smi
|
|
|
|
# Backends config path (in Docker)
|
|
BACKENDS_CONFIG=/app/config/backends.json
|
|
|
|
# DB path (in Docker)
|
|
DB_PATH=/app/data/gateway.db
|
|
|
|
# NanoClaude
|
|
EXAONE_MODEL=exaone3.5:7.8b-instruct-q8_0
|
|
REASONING_BASE_URL=http://192.168.1.122:8800
|
|
REASONING_MODEL=mlx-community/gemma-4-26b-a4b-it-8bit
|
|
PIPELINE_ENABLED=true
|
|
MAX_CONCURRENT_JOBS=3
|
|
NANOCLAUDE_API_KEY=
|