diff --git a/app/services/search/synthesis_service.py b/app/services/search/synthesis_service.py index ef24ed1..a6b7aed 100644 --- a/app/services/search/synthesis_service.py +++ b/app/services/search/synthesis_service.py @@ -47,7 +47,7 @@ logger = setup_logger("synthesis") # ─── 상수 (plan 영구 룰) ───────────────────────────────── PROMPT_VERSION = "v2" -LLM_TIMEOUT_MS = 30000 # 2026-05-17 B-3: 15s 시 동시 부하 (Mac mini 26B classifier+evidence+synthesis serialized) 빈발 timeout — classifier (30s) 와 align +LLM_TIMEOUT_MS = 120000 # 2026-06-11 Qwen3.6-27B-6bit 전환: 프리필 ~112 tok/s·디코드 ~11.7 tok/s 실측 — 30s 면 synthesis(답변 본체) 상시 timeout. synthesis 는 graceful skip 불가(=답변 실패)라 단독 상향, config ask.backend.timeout_read_s=120 와 align CACHE_TTL = 3600 # 1h (answer 는 원문 변경에 민감 → query_analyzer 24h 보다 짧게) CACHE_MAXSIZE = 300 MAX_ANSWER_CHARS = 600 diff --git a/config.yaml b/config.yaml index da70dc6..5e266b9 100644 --- a/config.yaml +++ b/config.yaml @@ -59,9 +59,9 @@ ai: # classifier_service 가 hasattr 체크로 optional 이므로 이 섹션 제거 시 classifier gate 는 자동 skip (score-only). classifier: endpoint: "http://100.76.254.116:8801/v1/chat/completions" - model: "mlx-community/gemma-4-26b-a4b-it-8bit" + model: "mlx-community/Qwen3.6-27B-6bit" # 2026-06-11 B안 동승 — gemma id 잔존 시 mlx 서버가 Gemma 를 재로드(이중 적재) 위험 max_tokens: 512 - timeout: 30 # 2026-05-17: 15s 도 동시 부하 시 elapsed 14.4s 직전이라 tight — 30s 로 2x 마진 (Mac mini 26B concurrent load). classifier_service.LLM_TIMEOUT_MS=30000 와 align + timeout: 30 # 2026-05-17: 15s 도 동시 부하 시 elapsed 14.4s 직전이라 tight — 30s 로 2x 마진. classifier_service.LLM_TIMEOUT_MS=30000 와 align (초과 = score-only skip, graceful) # 제거: vision (미사용) # ─── deep_summary enqueue 폭발 억제 (B-1 R2) ─── @@ -85,7 +85,7 @@ search: macbook_url: "http://100.118.112.84:8810" # MacBook M5 Max Tailscale interface bind macbook_model: "mlx-community/Qwen3.6-27B-8bit" timeout_connect_s: 1 # MacBook sleep/wake 빠른 감지 (자동 fallback 부재 → 빠른 503) - timeout_read_s: 30 # synthesis_service.LLM_TIMEOUT_MS=30000 와 align + timeout_read_s: 120 # 2026-06-11 Qwen 27B(디코드 ~11.7 tok/s) — synthesis_service.LLM_TIMEOUT_MS=120000 와 align # PR-DocSrv-Ask-ToolCalling-ReAct-1: /api/search/ask/react ReAct loop (qwen-macbook only) react: enabled: true