축소 프롬프트 재측정: - prompt_tok 2406 → 802 (1/3 감소 성공) - latency 10.5초 → 7~11초 (generation이 dominant) - max_tokens 내려도 무효 (자연 EOS ~289 tok) 5000ms로는 여전히 모든 prewarm timeout. async 구조이므로 background에서 15초 기다려도 retrieval 경로 영향 0. 추가: prewarm delay_between 0.5 → 0.2 (총 prewarm 시간 단축). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
14 KiB
14 KiB