43097e6fd9
검증 결과 모델이 envelope 안에서 자료 근거로 정답 번호를 재판단해서 거의 매번 guard_fail (answer_choice != correct_choice). 환각 가드는 정확히 작동했지만 caching 효율 0%. PR-3 의 free-form 풀이는 "사용자 정답 우선, 충돌 명시" 라 정상 ready 박혔지만 envelope.txt 가 "자료 근거 우선" 으로 충돌. 환각 가드의 본질 — 모델이 envelope 형식을 어겨 임의로 다른 번호를 박는 케이스 차단 — 을 유지하되, answer_choice 값은 사용자 정답 (correct_choice) 을 그대로 박도록 명시. 자료 근거와 사용자 정답이 다를 경우 explanation_md 안에 짧게 명시만 하고 answer_choice 는 보존. 정답 자체를 바꾸는 게 환각 가드의 차단 대상이라고 강조. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>