Hyungi Ahn
324537cbc8
fix(search): LLM_TIMEOUT_MS 5000 → 15000 (실측 반영)
축소 프롬프트 재측정:
- prompt_tok 2406 → 802 (1/3 감소 성공)
- latency 10.5초 → 7~11초 (generation이 dominant)
- max_tokens 내려도 무효 (자연 EOS ~289 tok)
5000ms로는 여전히 모든 prewarm timeout. async 구조이므로
background에서 15초 기다려도 retrieval 경로 영향 0.
추가: prewarm delay_between 0.5 → 0.2 (총 prewarm 시간 단축).
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-08 14:50:56 +09:00
..
2026-04-07 13:46:04 +09:00
2026-04-07 13:46:04 +09:00
2026-04-07 13:46:04 +09:00
2026-04-08 14:50:56 +09:00
2026-04-08 12:41:47 +09:00
2026-04-08 13:02:23 +09:00
2026-04-07 13:46:04 +09:00