# Phase 3.5a Smoke Test Evaluation Set (10 queries) # 목적: 구조 검증 (smoke test), 정밀 튜닝 아님 # Phase 3.5b 에서 30+ 쿼리로 확장 예정 queries: # 정상 (4) — full answer expected - q: "산업안전보건법 제6장 주요 내용" expected_completeness: full expected_refuse: false notes: "prewarm #1. evidence 충분." - q: "기계 사고 관련 법령" expected_completeness: full expected_refuse: false notes: "prewarm #2. 법령 도메인." - q: "유해화학물질을 다루는 회사가 지켜야 할 안전 의무" expected_completeness: full expected_refuse: false notes: "prewarm #5. 긴 자연어 쿼리." - q: "위험성평가 절차" expected_completeness: full expected_refuse: false notes: "prewarm #12. 짧은 키워드 쿼리." # no-result (2) — insufficient expected - q: "xyzzy_nonexistent_query_12345" expected_completeness: insufficient expected_refuse: true notes: "Phase 3 에서 이미 검증됨." - q: "제주도 감귤 출하량 통계" expected_completeness: insufficient expected_refuse: true notes: "corpus 에 확실히 없는 도메인." # tricky mismatch (2) — classifier/grounding 핵심 케이스 - q: "산업안전보건법 제6장 처벌 조항" expected_completeness: partial expected_refuse: false notes: "제6장 내용은 있지만 처벌(제10장 벌칙)은 없음. intent_misalignment 이 잡아야 함." - q: "화학물질관리법과 산업안전보건법의 차이" expected_completeness: partial expected_refuse: false notes: "복합 쿼리. 하나만 있을 수 있음." # cross-domain (2) - q: "Python async best practice" expected_completeness: insufficient expected_refuse: true notes: "corpus 에 영어 프로그래밍 문서 적음." - q: "EU AI Act" expected_completeness: full expected_refuse: false notes: "news 도메인. prewarm #11."