Merge pull request 'feat(eval): v0.2 graded relevance schema + harness' (#24) from feat/eval-v0-2-graded-relevance into main

Reviewed-on: #24
This commit was merged in pull request #24.
This commit is contained in:
2026-05-23 13:03:12 +09:00
3 changed files with 742 additions and 121 deletions
+196
View File
@@ -0,0 +1,196 @@
# Document Server 검색 평가셋 (search_eval)
> Phase 1 산출물 — graded relevance baseline. peppy-hugging-nest.md Phase 1.
> Phase 2 모델 점검 (embedding / reranker / OCR-marker pipeline / STT) 의 객관 측정 도구.
## 개요
`tests/search_eval/queries.yaml` 은 Document Server 의 검색 품질을 정량 측정하기 위한 평가셋이다. 두 버전 존재:
- **v0.1** (2026-04-07) — binary relevance (relevant_ids set + top3_ids 보조). 23 case, 9 카테고리. corpus 753 documents 기준.
- **v0.2** (2026-05-23) — graded relevance (0~3 등급) + 사용자 권장 7 카테고리 + language / ocr_derived metadata. v0.1 호환 유지 (legacy_category + relevant_ids + top3_ids 컬럼 보존).
본 PR (PR-Eval-V0_2-Schema-Harness) = v0.1 23 case 의 v0.2 schema swap + run_eval graded harness 만. 신규 28 case (50+ 목표) + baseline 박제 + 약점 분석은 후속 PR (PR-Eval-V0_2-Baseline-Analysis).
## Graded relevance 등급 (4단계)
| Grade | 의미 | 기준 |
|---|---|---|
| **3** | highly relevant (top-3 강제) | direct match — 본법/본 chapter/본 article. 검색 결과 top-3 에 반드시 포함돼야 함. |
| **2** | relevant (정답 후보) | 보조 정답 — 시행령/규칙/관련 chapter. top-10 안 = OK. |
| **1** | marginal | 약한 관련 — 같은 법령군이지만 다른 chapter, 같은 주제지만 다른 문서 유형. top-10 안 = 가점, 밖 = 무감점. |
| **0** | irrelevant | 무관 — 검색 결과 잡히면 감점 후보 (현재는 표시만, 감점 미구현). |
failure_expected 케이스는 graded_relevance 비움 (`{}`). 검색 결과 0건 = correct.
### Graded score 계산식 (`run_eval.py`)
```python
# graded NDCG@k — gain = 2^grade - 1
dcg = sum((2 ** grade - 1) / log2(rank + 1) for rank, doc_id ...)
idcg = sum((2 ** g - 1) / log2(rank + 1) for rank, g in sorted(grades, desc)[:k] ...)
ndcg = dcg / idcg
# graded recall@k — grade >= threshold 만 정답
recall_t2 = |{returned[:k]} {grade>=2}| / |{grade>=2}|
recall_t3 = |{returned[:k]} {grade>=3}| / |{grade>=3}|
```
## 카테고리 (7개)
| Category | 의미 | 측정 목적 |
|---|---|---|
| **standards** | 법령/규칙/기준 (산업안전보건법, ASME, KGS, NIST 등) | exact_keyword + structured doc lookup |
| **korean_only** | 한국어 자연어 query → 한국어 doc | base semantic_search 품질 |
| **english_only** | 영어 자연어 query → 영어 doc | base 영어 자료 검색 |
| **mixed** | 한국어+영어 혼합 OR ko query → en doc OR vice versa | crosslingual 능력 (현재 0.53 미달 root cause 검증) |
| **exam** | 가스기사 study 도메인 (`study_questions` 기반) | 시험 문제 → 학습 자료 매칭 |
| **ocr_derived** | marker/OCR pipeline 통한 scanned PDF chunk 검색 | Phase 2C 입력 — OCR 추출 품질이 검색에 미치는 영향 |
| **failure_expected** | 결과 0건 expected | precision 측정 (no-result correctness) |
`legacy_category` 컬럼으로 v0.1 9 카테고리 호환 보존 (분석 시 옛 분포 재현 가능).
## v0.2 schema 컬럼
```yaml
- id: kw_001
query: "산업안전보건법 제6장"
category: standards # v0.2 7 카테고리 중 하나
legacy_category: exact_keyword # v0.1 카테고리 보존
intent: fact_lookup # semantic_search / fact_lookup / filter_browse
domain_hint: document # document / news / mixed
language: ko # ko / en / mixed
ocr_derived: false # marker/OCR chunk 검색 케이스 여부
failure_expected: false # 결과 0건 expected
graded_relevance: # {doc_id: grade} (0~3)
3856: 3
3868: 2
3879: 2
relevant_ids: [3856, 3868, 3879] # v0.1 호환 (--eval-version v0.1 용)
top3_ids: [3856] # v0.1 호환
notes: |
Act(3856) = grade 3 (본법, top-3 강제).
Decree(3868)/Rule(3879) = grade 2 (보조 정답, 본법 우선).
```
## 신규 case 작성 가이드
1. **id 명명**: 카테고리 prefix + 3-digit (예: `std_006`, `ko_006`, `en_001`, `mix_006`, `exam_001`, `ocr_001`, `fail_004`)
2. **graded_relevance 채점 사유 notes 필수** — 왜 그 등급 부여했는지 1~3줄 사람용 audit trail
3. **failure_expected = true** 인 case 는 `graded_relevance: {}` (빈 dict)
4. **language 결정**:
- 순수 한국어 query + 한국어 doc → `ko`
- 순수 영어 query + 영어 doc → `en`
- 혼합 (한국어+영어 keyword OR ko query → en doc) → `mixed`
- 다른 언어 (불어 등) 도 일단 `mixed` (PR-2 에서 enum 확장 검토)
5. **ocr_derived 결정**: 정답 doc 중 `documents.source_type='scanned'` 또는 marker 처리 chunk 가 1개 이상이면 `true`
6. **정답 doc_id 식별**: GPU DB 의 `documents` 테이블에서 `title ILIKE '%...%'` 또는 metadata grep 으로 식별. graded 등급은 사람 판단.
### Self-check (PR review)
- [ ] notes 에 채점 사유 명시?
- [ ] graded grade 분포 합리적 (모든 정답이 grade 3 = 의심)?
- [ ] failure_expected case 의 graded_relevance 가 `{}` 인가?
- [ ] legacy_category 보존 (v0.1 호환)?
- [ ] language / ocr_derived 일관성?
## v0.1 호환성
`--eval-version v0.1` 으로 옛 점수 (Recall@10 / MRR@10 / NDCG@10 / Top-3 hit-rate) 재현 가능. swap 후 옛 baseline 대비 ±0.001 이내여야 함.
`load_queries()` 의 v0.1 fallback:
- yaml 에 `graded_relevance` 없고 `relevant_ids` 만 있으면, `top3_ids` 는 grade 3 / 나머지 relevant_ids 는 grade 2 로 자동 매핑.
- 이 fallback 으로 v0.1 yaml 도 v0.2 mode 에서 graded score 산출 가능.
## CLI 사용 예
```bash
export DOCSRV_TOKEN="eyJ..."
# 단일 평가, default = 두 mode 다 출력
.venv/bin/python tests/search_eval/run_eval.py \
--base-url https://docs.hyungi.net \
--output reports/baseline_v0_2_2026-05-23.csv
# v0.2 graded only
.venv/bin/python tests/search_eval/run_eval.py \
--base-url https://docs.hyungi.net \
--eval-version v0.2 \
--output reports/v0_2_only.csv
# v0.1 mode (옛 점수 회귀 확인)
.venv/bin/python tests/search_eval/run_eval.py \
--base-url https://docs.hyungi.net \
--eval-version v0.1
# A/B 비교 (baseline vs candidate)
.venv/bin/python tests/search_eval/run_eval.py \
--baseline-url https://docs.hyungi.net \
--candidate-url http://localhost:8000 \
--output reports/phase2a_vs_baseline.csv
```
### Output (v0.2 mode 예)
```
=== single (n=23, scored=20, graded=20) ===
-- v0.2 graded --
NDCG@10 (graded) : 0.812
Recall@10 (grade>=2) : 0.756
Recall@10 (grade>=3) : 0.900
Latency p50: 240 ms
Latency p95: 412 ms
Failure-case precision: 3/3 (1.00) — empty result expected
by category:
failure_expected n= 3 recall=0.00 ndcg=0.00 gndcg=0.00
korean_only n= 9 recall=0.73 ndcg=0.78 gndcg=0.81
mixed n= 5 recall=0.53 ndcg=0.61 gndcg=0.65
standards n= 5 recall=0.90 ndcg=0.95 gndcg=0.95
english_only n= 1 recall=0.67 ndcg=0.75 gndcg=0.78
by language:
en n= 1 recall=0.67 gndcg=0.78
ko n=15 recall=0.81 gndcg=0.85
mixed n= 4 recall=0.55 gndcg=0.63
```
(위는 예시 — 실제 baseline 박제는 후속 PR)
## Baseline 박제 정책
위치: `tests/search_eval/baselines/v{version}_{date}.{json,md}`
각 baseline = 2 파일:
- **`.json`** — 점수 raw (overall + by_category + by_language + by_ocr_derived)
- **`.md`** — 약점 카테고리 분석 보고서 (사람용 audit)
박제 시점:
- 평가셋 schema 변경 시 (v0.1 → v0.2 swap)
- 검색 시스템 주요 변경 commit 직후 (모델 swap / chunks 재생성 / reranker 교체)
- Phase 2A~D Diagnose PR 의 비교 baseline
박제 명명 컨벤션: `v0_2_baseline_YYYY-MM-DD[_label].{json,md}`. label 은 선택 (예: `_after_embedding_swap`, `_chunks_md_content`).
## Phase 1 closure 조건 ([[feedback_quant_expectation_not_hard_gate]])
본 PR (PR-Eval-V0_2-Schema-Harness):
- [x] v0.2 schema swap (23 case)
- [x] run_eval graded 함수 + --eval-version flag
- [x] README.md (본 파일)
후속 PR (PR-Eval-V0_2-Baseline-Analysis):
- [ ] 50+ graded case 확정 (신규 28 case 작성)
- [ ] baseline json + analysis md 박제
- [ ] 약점 카테고리 보고서 — embedding-sensitive failure pattern 4 카테고리 식별:
- candidate recall@k (embedding 후보 selection)
- crosslingual miss (ko↔en mismatch)
- Korean-English mismatch (한자/영문 fallback)
- OCR-derived chunk miss
closure gate: **0.70 미달 OK** — 원인 분해 보고서 (analysis md) 가 있으면 Phase 1 closure.
## 관련
- Phase 1 plan: `~/.claude/plans/phase-1-graded-eval-v0-2.md`
- Parent plan: `~/.claude/plans/peppy-hugging-nest.md` § Phase 1
- 건강도 평가 (graded relevance 1년 미작성 gap): `~/.claude/projects/-Users-hyungi/memory/project_document_server_health_assessment.md:24`
- 발주건 단위 baseline (별 트랙, Phase 0 / merry-yawning-owl): `queries_order_baseline.yaml` + `order_groups.yaml` — 본 PR 영향 없음
+313 -108
View File
@@ -1,257 +1,462 @@
# Document Server 검색 평가셋 v0.1
# Document Server 검색 평가셋 v0.2 — graded relevance baseline
#
# Phase 0.2 산출물 — 정량 지표(Recall@10, MRR@10, NDCG@10) 측정용.
# 각 쿼리는 실제 코퍼스(2026-04-07 시점, 753 documents)에서 추출한
# 정답 doc_id와 함께 정의된다.
# Phase 1 산출물 (peppy-hugging-nest.md Phase 1) — Phase 2 모델 점검과 Phase 3
# Markdown 전환의 효과를 객관 측정할 도구 마련. graded relevance 1년 미작성
# (document-server-2026-05-21.md:24) gap 해소.
#
# 메타데이터:
# - intent : semantic_search | fact_lookup | filter_browse (Phase 2 QueryAnalyzer 분기 기준)
# - domain_hint : document | news | mixed (Phase 1 도메인 분기 기준)
# - category : 쿼리 유형 (eval 결과 그루핑용)
# - relevant_ids : 정답 doc_id 리스트 (eval에서 recall/ndcg 계산)
# - top3_ids : 반드시 top-3 안에 들어와야 하는 강한 정답 (선택)
# - notes : 의도/배경 (사람용)
# v0.2 schema 변경:
# - category : 사용자 권장 7 카테고리
# (standards / korean_only / english_only / mixed /
# exam / ocr_derived / failure_expected)
# - legacy_category : v0.1 카테고리 보존 (호환)
# - language : ko / en / mixed
# - ocr_derived : marker/OCR pipeline 통한 chunk 포함 여부
# - graded_relevance : {doc_id: grade}
# (0=irrelevant / 1=marginal / 2=relevant / 3=highly)
# - failure_expected : 결과 0건 expected (별도 flag)
#
# 주의:
# - 정답은 "현재 코퍼스에 실제 존재하는 문서"만 기재. 코퍼스가 바뀌면 갱신 필요.
# - relevant_ids가 빈 리스트인 쿼리는 "결과 없어야 정상" 또는 "low confidence가 정상"인 케이스.
# v0.1 호환:
# - relevant_ids / top3_ids 는 deprecated 가 아니라 호환용 (--mode v0.1 재현)
# - run_eval.py --mode v0.1 에서 옛 점수 ±0.001 재현 가능
#
# graded 등급 기준:
# - 3 : highly relevant (top-3 강제, direct match — 본법/본 chapter/본 article)
# - 2 : relevant (정답 후보, 보조 정답, top-10 within OK)
# - 1 : marginal (약한 관련, top-10 within = 가점, 밖 = 무감점)
# - 0 : irrelevant (검색 결과 잡히면 감점 후보, 현재는 표시만)
version: "0.1"
created_at: "2026-04-07"
corpus_size: 753
version: "0.2"
created_at: "2026-05-23"
corpus_size: 753 # v0.1 기준. PR-Eval-V0_2-Baseline-Analysis 에서 갱신
notes: |
Phase 0.2 초기 평가셋. 22개 쿼리, 6개 카테고리.
Phase 1 reranker 통합 후 NDCG@10 비교 baseline으로 사용.
search_failure_logs(Phase 0.3)에서 자동 수집된 쿼리로 점진 확장 예정.
Phase 1 plan: ~/.claude/plans/phase-1-graded-eval-v0-2.md
본 PR (PR-Eval-V0_2-Schema-Harness) = v0.1 23 case → v0.2 23 case schema swap
+ run_eval graded 함수 + README. 신규 28 case + baseline 박제는 후속 PR.
queries:
# ─────────────────────────────────────────────────────────
# 1. 정확 키워드 검색 (fact_lookup, document)
# 1. standards (법령/규칙/기준) — v0.1 exact_keyword 흡수
# ─────────────────────────────────────────────────────────
- id: kw_001
query: "산업안전보건법 제6장"
category: exact_keyword
category: standards
legacy_category: exact_keyword
intent: fact_lookup
domain_hint: document
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
3856: 3
3868: 2
3879: 2
relevant_ids: [3856, 3868, 3879]
top3_ids: [3856]
notes: |
"유해·위험 기계 등에 대한 조치"가 들어있는 6장.
Act(3856), Decree(3868), Rule(3879) 모두 정답이지만 본법(Act)이 최우선.
Act(3856) = grade 3 (본법, top-3 강제).
Decree(3868)/Rule(3879) = grade 2 (보조 정답, 본법 우선).
- id: kw_002
query: "중대재해 처벌 등에 관한 법률 제2장 중대산업재해"
category: exact_keyword
category: standards
legacy_category: exact_keyword
intent: fact_lookup
domain_hint: document
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
3917: 3
3921: 2
relevant_ids: [3917, 3921]
top3_ids: [3917]
notes: 본법 제2장(3917)이 정답. 시행령 동일 장(3921)도 허용.
notes: |
본법 제2장(3917) = grade 3.
시행령 동일 장(3921) = grade 2.
- id: kw_003
query: "화학물질관리법 유해화학물질 영업자"
category: exact_keyword
category: standards
legacy_category: exact_keyword
intent: fact_lookup
domain_hint: document
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
3981: 3
relevant_ids: [3981]
top3_ids: [3981]
notes: 화학물질관리법 제4장 = 유해화학물질 영업자.
notes: 화학물질관리법 제4장 = 유해화학물질 영업자 (3981, grade 3).
- id: kw_004
query: "근로기준법 안전과 보건"
category: exact_keyword
category: standards
legacy_category: exact_keyword
intent: fact_lookup
domain_hint: document
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
4041: 3
relevant_ids: [4041]
top3_ids: [4041]
notes: 근로기준법 제6장 = 안전과 보건.
notes: 근로기준법 제6장 = 안전과 보건 (4041, grade 3).
- id: kw_005
query: "산업안전보건기준에 관한 규칙 보호구"
category: exact_keyword
category: standards
legacy_category: exact_keyword
intent: fact_lookup
domain_hint: document
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
3888: 3
relevant_ids: [3888]
top3_ids: [3888]
notes: 산업안전보건기준 규칙 제4장 = 보호구.
notes: 산업안전보건기준 규칙 제4장 = 보호구 (3888, grade 3).
# ─────────────────────────────────────────────────────────
# 2. 한국어 자연어 질의 (semantic_search, document)
# 2. korean_only — v0.1 natural_language_ko + news_ko + other_domain 흡수
# ─────────────────────────────────────────────────────────
- id: nl_001
query: "기계로 인한 산업재해 관련 법령"
category: natural_language_ko
category: korean_only
legacy_category: natural_language_ko
intent: semantic_search
domain_hint: document
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
3856: 3
3868: 2
3879: 2
3854: 1
relevant_ids: [3856, 3868, 3879, 3854]
top3_ids: [3856]
notes: |
플랜의 대표 예시 쿼리. 기계 안전 = 산안법 6장(3856).
4장 유해·위험 방지 조치(3854)도 의미상 관련.
플랜의 대표 예시 쿼리. 기계 안전 = 산안법 6장(3856, grade 3).
Decree(3868)/Rule(3879) = grade 2.
4장 유해·위험 방지 조치(3854) = grade 1 (의미상 약한 관련).
- id: nl_002
query: "사업주가 도급을 줄 때 산업재해를 예방하기 위해 해야 할 일"
category: natural_language_ko
category: korean_only
legacy_category: natural_language_ko
intent: semantic_search
domain_hint: document
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
3855: 3
3867: 2
3878: 2
relevant_ids: [3855, 3867, 3878]
top3_ids: [3855]
notes: 산안법 제5장 도급 시 산업재해 예방.
notes: 산안법 제5장 도급 시 산업재해 예방. Act(3855) = grade 3, Decree(3867)/Rule(3878) = grade 2.
- id: nl_003
query: "유해화학물질을 다루는 회사가 지켜야 할 안전 의무"
category: natural_language_ko
category: korean_only
legacy_category: natural_language_ko
intent: semantic_search
domain_hint: document
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
3980: 2
3981: 2
3982: 2
relevant_ids: [3980, 3981, 3982]
notes: 화관법 제3-5장(유해화학물질 관리/영업자/사고 대응).
notes: |
화관법 제3-5장(유해화학물질 관리/영업자/사고 대응). 셋 다 동등하게 정답 후보.
특정 chapter 강제 없음 → grade 2 셋 (top3_ids 없음).
- id: nl_004
query: "중대재해가 발생했을 때 경영책임자가 처벌받는 기준"
category: natural_language_ko
category: korean_only
legacy_category: natural_language_ko
intent: semantic_search
domain_hint: document
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
3917: 3
3916: 2
3920: 2
3921: 2
relevant_ids: [3916, 3917, 3920, 3921]
top3_ids: [3917]
notes: 중대재해처벌법 본법+시행령 제1-2장.
notes: 중대재해처벌법 본법+시행령 제1-2장. 제2장(3917) = grade 3, 나머지 = grade 2.
- id: nl_005
query: "안전보건교육은 누가 받아야 하고 어떤 내용을 다루는가"
category: natural_language_ko
category: korean_only
legacy_category: natural_language_ko
intent: semantic_search
domain_hint: document
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
3853: 3
3865: 2
relevant_ids: [3853, 3865]
top3_ids: [3853]
notes: 산안법 제3장 안전보건교육 + 시행령 제3장.
notes: 산안법 제3장 안전보건교육 (3853, grade 3) + 시행령 제3장 (3865, grade 2).
- id: news_001
query: "이란과 미국의 군사 충돌"
category: korean_only
legacy_category: news_ko
intent: semantic_search
domain_hint: news
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
4303: 2
4304: 2
4307: 2
4316: 2
4322: 2
4323: 2
4327: 2
4335: 2
relevant_ids: [4303, 4304, 4307, 4316, 4322, 4323, 4327, 4335]
notes: |
경향신문의 이란-미국 전쟁 보도. recall 위주 평가, 동등 정답 8건 (grade 2).
diversity 제약 적용 후에도 최소 5건은 top-10에 들어와야 함.
- id: news_002
query: "호르무즈 해협 봉쇄"
category: korean_only
legacy_category: news_ko
intent: semantic_search
domain_hint: news
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
4316: 3
4320: 2
4322: 2
4327: 2
relevant_ids: [4316, 4320, 4322, 4327]
top3_ids: [4316]
notes: 호르무즈 해협 직접 언급 기사. 4316 = grade 3 (direct), 나머지 = grade 2.
- id: misc_001
query: "강체의 평면 운동학"
category: korean_only
legacy_category: other_domain
intent: fact_lookup
domain_hint: document
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
4063: 3
4065: 2
relevant_ids: [4063, 4065]
top3_ids: [4063]
notes: 공업역학 동역학 ch16(4063, grade 3), ch18(4065, grade 2).
- id: misc_002
query: "질점의 운동역학"
category: korean_only
legacy_category: other_domain
intent: semantic_search
domain_hint: document
language: ko
ocr_derived: false
failure_expected: false
graded_relevance:
4060: 2
4061: 2
4062: 2
relevant_ids: [4060, 4061, 4062]
notes: 공업역학 동역학 ch13~15 (질점 운동역학). 동등 정답 3건 (grade 2).
# ─────────────────────────────────────────────────────────
# 3. 한국어 → 영어 crosslingual (semantic_search, document)
# 3. english_only — v0.1 news_en 흡수
# ─────────────────────────────────────────────────────────
- id: news_003
query: "Trump Iran ultimatum"
category: english_only
legacy_category: news_en
intent: semantic_search
domain_hint: news
language: en
ocr_derived: false
failure_expected: false
graded_relevance:
4258: 2
4260: 2
4262: 2
relevant_ids: [4258, 4260, 4262]
notes: Der Spiegel 영어판 Iran 관련 기사. 동등 정답 3건 (grade 2).
# ─────────────────────────────────────────────────────────
# 4. mixed — v0.1 crosslingual_ko_en + news_fr + news_crosslingual 흡수
# ─────────────────────────────────────────────────────────
- id: cl_001
query: "기계 안전 가드 설계 원리"
category: crosslingual_ko_en
category: mixed
legacy_category: crosslingual_ko_en
intent: semantic_search
domain_hint: document
language: mixed
ocr_derived: false
failure_expected: false
graded_relevance:
3770: 3
3856: 2
relevant_ids: [3770, 3856]
top3_ids: [3770]
notes: |
Industrial Safety and Health Management(7-ED) Ch15 Machine Guarding(3770)이
한국어 쿼리로 검색되어야 함. 한국 산안법 6장(3856)도 관련.
Industrial Safety and Health Management(7-ED) Ch15 Machine Guarding(3770, grade 3)이
한국어 쿼리로 검색되어야 함. 한국 산안법 6장(3856) = grade 2.
- id: cl_002
query: "산업 안전 입문서"
category: crosslingual_ko_en
category: mixed
legacy_category: crosslingual_ko_en
intent: semantic_search
domain_hint: document
language: mixed
ocr_derived: false
failure_expected: false
graded_relevance:
3755: 2
3775: 2
3776: 2
3777: 2
relevant_ids: [3755, 3775, 3776, 3777]
notes: |
Safety and Health for Engineers / Industrial Safety and Health Management
영문 교재 입문 챕터들이 한국어 쿼리로 검색되어야 함.
영문 교재 입문 챕터들이 한국어 쿼리로 검색되어야 함. 동등 정답 4건 (grade 2).
- id: cl_003
query: "전기 안전 위험"
category: crosslingual_ko_en
category: mixed
legacy_category: crosslingual_ko_en
intent: semantic_search
domain_hint: document
language: mixed
ocr_derived: false
failure_expected: false
graded_relevance:
3772: 2
3790: 2
relevant_ids: [3772, 3790]
notes: |
Electrical Hazards(3772), Electrical Safety(3790) 영문 챕터.
한국어 안전기준 규칙 중 전기 관련 장도 있을 수 있음(보수적으로 영문만 정답).
# ─────────────────────────────────────────────────────────
# 4. 뉴스 / 다국어 (semantic_search, news)
# ─────────────────────────────────────────────────────────
- id: news_001
query: "이란과 미국의 군사 충돌"
category: news_ko
intent: semantic_search
domain_hint: news
relevant_ids: [4303, 4304, 4307, 4316, 4322, 4323, 4327, 4335]
notes: |
경향신문의 이란-미국 전쟁 보도. recall 위주 평가.
diversity 제약 적용 후에도 최소 5건은 top-10에 들어와야 함.
- id: news_002
query: "호르무즈 해협 봉쇄"
category: news_ko
intent: semantic_search
domain_hint: news
relevant_ids: [4316, 4320, 4322, 4327]
top3_ids: [4316]
notes: 호르무즈 해협 직접 언급 기사.
- id: news_003
query: "Trump Iran ultimatum"
category: news_en
intent: semantic_search
domain_hint: news
relevant_ids: [4258, 4260, 4262]
notes: Der Spiegel 영어판 Iran 관련 기사.
- id: news_004
query: "guerre en Iran"
category: news_fr
category: mixed
legacy_category: news_fr
intent: semantic_search
domain_hint: news
language: mixed # 정확히는 fr 이지만 v0.2 enum (ko/en/mixed) 에서 mixed 매핑
ocr_derived: false
failure_expected: false
graded_relevance:
4199: 2
4202: 2
4210: 2
4361: 2
4363: 2
4507: 2
4519: 2
4521: 2
relevant_ids: [4199, 4202, 4210, 4361, 4363, 4507, 4519, 4521]
notes: Le Monde 불어 Iran 전쟁 보도.
notes: |
Le Monde 불어 Iran 전쟁 보도. 동등 정답 8건 (grade 2).
불어 query 라 v0.2 의 ko/en/mixed enum 에서는 mixed 매핑 (정확히는 fr).
후속 PR 에서 language enum 확장 검토.
- id: news_005
query: "이란 미국 전쟁 글로벌 반응"
category: news_crosslingual
category: mixed
legacy_category: news_crosslingual
intent: semantic_search
domain_hint: news
language: mixed
ocr_derived: false
failure_expected: false
graded_relevance:
4202: 2
4258: 2
4262: 2
4536: 2
4303: 2
4304: 2
4316: 2
relevant_ids: [4202, 4258, 4262, 4536, 4303, 4304, 4316]
notes: |
한국어 쿼리로 한/영/불/독 뉴스가 골고루 검색되어야 함.
한국어 쿼리로 한/영/불/독 뉴스가 골고루 검색되어야 함. 동등 정답 7건 (grade 2).
Phase 1 domain-aware retrieval + multilingual embedding 효과 측정용.
diversity 제약(국가당 max 2)이 동작하면 최소 4개국 이상 노출.
# ─────────────────────────────────────────────────────────
# 5. 기타 도메인 (semantic_search, document)
# ─────────────────────────────────────────────────────────
- id: misc_001
query: "강체의 평면 운동학"
category: other_domain
intent: fact_lookup
domain_hint: document
relevant_ids: [4063, 4065]
top3_ids: [4063]
notes: 공업역학 동역학 ch16, ch18.
- id: misc_002
query: "질점의 운동역학"
category: other_domain
intent: semantic_search
domain_hint: document
relevant_ids: [4060, 4061, 4062]
notes: 공업역학 동역학 ch13~15 (질점 운동역학).
# ─────────────────────────────────────────────────────────
# 6. 실패 / 애매 케이스 (low confidence 기대)
# 5. failure_expected — 결과 0건 expected
# ─────────────────────────────────────────────────────────
- id: fail_001
query: "Rust async runtime tokio scheduler 내부 구조"
category: failure_expected
legacy_category: failure_expected
intent: semantic_search
domain_hint: document
language: mixed # 한국어 + 영문 keyword 혼합
ocr_derived: false
failure_expected: true
graded_relevance: {}
relevant_ids: []
notes: |
코퍼스에 Rust/프로그래밍 문서 없음. Phase 0.3 search_failure_logs로 자동 수집되어야 함.
코퍼스에 Rust/프로그래밍 문서 없음. 결과 0건 = correct.
Phase 0.3 search_failure_logs로 자동 수집되어야 함.
Phase 1+에서 confidence 점수 < 0.5로 분류되는지 확인.
- id: fail_002
query: "양자컴퓨터 큐비트 디코히어런스"
category: failure_expected
legacy_category: failure_expected
intent: semantic_search
domain_hint: document
language: ko
ocr_derived: false
failure_expected: true
graded_relevance: {}
relevant_ids: []
notes: 코퍼스에 양자물리 문서 없음.
notes: 코퍼스에 양자물리 문서 없음. 결과 0건 = correct.
- id: fail_003
query: "재즈 보컬리스트 빌리 홀리데이"
category: failure_expected
legacy_category: failure_expected
intent: semantic_search
domain_hint: news
language: ko
ocr_derived: false
failure_expected: true
graded_relevance: {}
relevant_ids: []
notes: 코퍼스에 음악/재즈 문서 없음.
notes: 코퍼스에 음악/재즈 문서 없음. 결과 0건 = correct.
# ─────────────────────────────────────────────────────────
# 신규 카테고리 (후속 PR-Eval-V0_2-Baseline-Analysis 에서 batch 작성):
# - exam : 가스기사 study 도메인 (study_questions 기반)
# - ocr_derived : marker/OCR pipeline 통한 scanned PDF chunk 검색
# - english_only : 영어 standards / 자연어 (현재 news_en 1건만)
# ─────────────────────────────────────────────────────────
+233 -13
View File
@@ -68,6 +68,12 @@ class Query:
relevant_ids: list[int]
top3_ids: list[int] = field(default_factory=list)
notes: str = ""
# v0.2 schema additions (Phase 1 — graded relevance baseline)
legacy_category: str = ""
language: str = "ko"
ocr_derived: bool = False
graded_relevance: dict[int, int] = field(default_factory=dict)
failure_expected: bool = False
@dataclass
@@ -80,6 +86,10 @@ class QueryResult:
mrr_at_10: float
ndcg_at_10: float
top3_hit: bool
# v0.2 graded scores (Phase 1)
graded_ndcg_at_10: float = 0.0
graded_recall_at_10_t2: float = 0.0
graded_recall_at_10_t3: float = 0.0
error: str | None = None
@@ -124,6 +134,48 @@ def ndcg_at_k(returned: list[int], relevant: list[int], k: int = 10) -> float:
return dcg / idcg if idcg > 0 else 0.0
def graded_ndcg_at_k(returned: list[int], grades: dict[int, int], k: int = 10) -> float:
"""graded NDCG@k. grades[doc_id] in {0,1,2,3}. v0.2 산출물.
gain = 2^grade - 1 (grade=0 → gain=0, grade=3 → gain=7).
ideal DCG = grades 를 grade 내림차순으로 top-k 채운 경우.
grades 비어 있으면 0.0 (failure_expected 케이스는 별도 처리).
"""
if not grades:
return 0.0
dcg = 0.0
for rank, doc_id in enumerate(returned[:k], start=1):
grade = grades.get(doc_id, 0)
if grade > 0:
dcg += (2 ** grade - 1) / math.log2(rank + 1)
sorted_grades = sorted(grades.values(), reverse=True)[:k]
idcg = sum(
(2 ** g - 1) / math.log2(r + 1)
for r, g in enumerate(sorted_grades, start=1)
if g > 0
)
return dcg / idcg if idcg > 0 else 0.0
def graded_recall_at_k(
returned: list[int],
grades: dict[int, int],
threshold: int = 2,
k: int = 10,
) -> float:
"""grade >= threshold 만 정답으로 본 recall@k. v0.2 산출물.
threshold=2 → grade 2/3 만 정답 (relevant 이상).
threshold=3 → grade 3 만 정답 (highly relevant 만).
"""
relevant_set = {doc_id for doc_id, g in grades.items() if g >= threshold}
if not relevant_set:
return 1.0 if not returned else 0.0
top_k = set(returned[:k])
hits = sum(1 for doc_id in relevant_set if doc_id in top_k)
return hits / len(relevant_set)
def top3_hit(returned: list[int], top3_ids: list[int]) -> bool:
"""top3_ids가 비어있으면 True (체크 안함). 있으면 그 중 하나라도 top-3에 들어와야 함."""
if not top3_ids:
@@ -205,6 +257,13 @@ async def evaluate(
mrr_at_10=mrr_at_k(returned_ids, q.relevant_ids, 10),
ndcg_at_10=ndcg_at_k(returned_ids, q.relevant_ids, 10),
top3_hit=top3_hit(returned_ids, q.top3_ids),
graded_ndcg_at_10=graded_ndcg_at_k(returned_ids, q.graded_relevance, 10),
graded_recall_at_10_t2=graded_recall_at_k(
returned_ids, q.graded_relevance, threshold=2, k=10
),
graded_recall_at_10_t3=graded_recall_at_k(
returned_ids, q.graded_relevance, threshold=3, k=10
),
)
)
except Exception as exc:
@@ -241,8 +300,18 @@ def percentile(values: list[float], p: float) -> float:
return s[f] + (s[c] - s[f]) * (k - f)
def print_summary(label: str, results: list[QueryResult]) -> dict[str, float]:
"""전체 + 카테고리별 요약 출력. 집계 dict 반환."""
def print_summary(
label: str,
results: list[QueryResult],
eval_version: str = "both",
) -> dict[str, Any]:
"""전체 + 카테고리별 요약 출력. 집계 dict 반환.
eval_version:
v0.1 — binary score 만 출력 (옛 점수 회귀 확인용)
v0.2 — graded score + language/ocr_derived 별 집계 (Phase 1)
both — 둘 다 출력 (default, baseline 박제용)
"""
n = len(results)
if n == 0:
return {}
@@ -251,11 +320,30 @@ def print_summary(label: str, results: list[QueryResult]) -> dict[str, float]:
scored = [r for r in results if r.query.relevant_ids]
failure_cases = [r for r in results if not r.query.relevant_ids]
# v0.1 binary scores
avg_recall = statistics.mean([r.recall_at_10 for r in scored]) if scored else 0.0
avg_mrr = statistics.mean([r.mrr_at_10 for r in scored]) if scored else 0.0
avg_ndcg = statistics.mean([r.ndcg_at_10 for r in scored]) if scored else 0.0
top3_rate = sum(1 for r in scored if r.top3_hit) / len(scored) if scored else 0.0
# v0.2 graded scores (graded_relevance 있는 케이스만 평균)
graded_scored = [r for r in results if r.query.graded_relevance]
avg_gndcg = (
statistics.mean([r.graded_ndcg_at_10 for r in graded_scored])
if graded_scored
else 0.0
)
avg_grecall_t2 = (
statistics.mean([r.graded_recall_at_10_t2 for r in graded_scored])
if graded_scored
else 0.0
)
avg_grecall_t3 = (
statistics.mean([r.graded_recall_at_10_t3 for r in graded_scored])
if graded_scored
else 0.0
)
latencies = [r.latency_ms for r in results if r.latency_ms > 0]
p50 = percentile(latencies, 0.50)
p95 = percentile(latencies, 0.95)
@@ -266,11 +354,23 @@ def print_summary(label: str, results: list[QueryResult]) -> dict[str, float]:
failure_correct / len(failure_cases) if failure_cases else 0.0
)
print(f"\n=== {label} (n={n}, scored={len(scored)}) ===")
print(f" Recall@10 : {avg_recall:.3f}")
print(f" MRR@10 : {avg_mrr:.3f}")
print(f" NDCG@10 : {avg_ndcg:.3f}")
print(f" Top-3 hit : {top3_rate:.3f}")
show_v01 = eval_version in ("v0.1", "both")
show_v02 = eval_version in ("v0.2", "both")
print(
f"\n=== {label} (n={n}, scored={len(scored)}, graded={len(graded_scored)}) ==="
)
if show_v01:
print(" -- v0.1 binary --")
print(f" Recall@10 : {avg_recall:.3f}")
print(f" MRR@10 : {avg_mrr:.3f}")
print(f" NDCG@10 : {avg_ndcg:.3f}")
print(f" Top-3 hit : {top3_rate:.3f}")
if show_v02:
print(" -- v0.2 graded --")
print(f" NDCG@10 (graded) : {avg_gndcg:.3f}")
print(f" Recall@10 (grade>=2) : {avg_grecall_t2:.3f}")
print(f" Recall@10 (grade>=3) : {avg_grecall_t3:.3f}")
print(f" Latency p50: {p50:.0f} ms")
print(f" Latency p95: {p95:.0f} ms")
if failure_cases:
@@ -283,13 +383,82 @@ def print_summary(label: str, results: list[QueryResult]) -> dict[str, float]:
by_cat: dict[str, list[QueryResult]] = {}
for r in scored:
by_cat.setdefault(r.query.category, []).append(r)
by_cat_map: dict[str, dict[str, Any]] = {}
print(" by category:")
for cat, items in sorted(by_cat.items()):
cat_recall = statistics.mean([r.recall_at_10 for r in items])
cat_ndcg = statistics.mean([r.ndcg_at_10 for r in items])
print(
f" {cat:<22} n={len(items):>2} recall={cat_recall:.2f} ndcg={cat_ndcg:.2f}"
graded_items = [r for r in items if r.query.graded_relevance]
cat_gndcg = (
statistics.mean([r.graded_ndcg_at_10 for r in graded_items])
if graded_items
else 0.0
)
by_cat_map[cat] = {
"n": len(items),
"recall_at_10": cat_recall,
"ndcg_at_10": cat_ndcg,
"graded_ndcg_at_10": cat_gndcg,
}
if show_v02:
print(
f" {cat:<22} n={len(items):>2} recall={cat_recall:.2f} ndcg={cat_ndcg:.2f} gndcg={cat_gndcg:.2f}"
)
else:
print(
f" {cat:<22} n={len(items):>2} recall={cat_recall:.2f} ndcg={cat_ndcg:.2f}"
)
# v0.2: language 별
by_lang_map: dict[str, dict[str, Any]] = {}
if show_v02:
by_lang: dict[str, list[QueryResult]] = {}
for r in scored:
by_lang.setdefault(r.query.language, []).append(r)
if by_lang:
print(" by language:")
for lang, items in sorted(by_lang.items()):
lang_recall = statistics.mean([r.recall_at_10 for r in items])
graded_items = [r for r in items if r.query.graded_relevance]
lang_gndcg = (
statistics.mean([r.graded_ndcg_at_10 for r in graded_items])
if graded_items
else 0.0
)
by_lang_map[lang] = {
"n": len(items),
"recall_at_10": lang_recall,
"graded_ndcg_at_10": lang_gndcg,
}
print(
f" {lang:<10} n={len(items):>2} recall={lang_recall:.2f} gndcg={lang_gndcg:.2f}"
)
# v0.2: ocr_derived 별
by_ocr_map: dict[str, dict[str, Any]] = {}
if show_v02:
by_ocr: dict[bool, list[QueryResult]] = {}
for r in scored:
by_ocr.setdefault(r.query.ocr_derived, []).append(r)
# OCR-derived 케이스가 1개 이상일 때만 표시
if any(flag for flag in by_ocr.keys()):
print(" by ocr_derived:")
for flag, items in sorted(by_ocr.items()):
ocr_recall = statistics.mean([r.recall_at_10 for r in items])
graded_items = [r for r in items if r.query.graded_relevance]
ocr_gndcg = (
statistics.mean([r.graded_ndcg_at_10 for r in graded_items])
if graded_items
else 0.0
)
by_ocr_map[str(flag).lower()] = {
"n": len(items),
"recall_at_10": ocr_recall,
"graded_ndcg_at_10": ocr_gndcg,
}
print(
f" {str(flag).lower():<10} n={len(items):>2} recall={ocr_recall:.2f} gndcg={ocr_gndcg:.2f}"
)
# 에러 케이스
errors = [r for r in results if r.error]
@@ -300,13 +469,21 @@ def print_summary(label: str, results: list[QueryResult]) -> dict[str, float]:
return {
"n": n,
"n_scored": len(scored),
"n_graded": len(graded_scored),
"recall_at_10": avg_recall,
"mrr_at_10": avg_mrr,
"ndcg_at_10": avg_ndcg,
"top3_hit_rate": top3_rate,
"graded_ndcg_at_10": avg_gndcg,
"graded_recall_at_10_t2": avg_grecall_t2,
"graded_recall_at_10_t3": avg_grecall_t3,
"latency_p50": p50,
"latency_p95": p95,
"failure_precision": failure_precision,
"by_category": by_cat_map,
"by_language": by_lang_map,
"by_ocr_derived": by_ocr_map,
}
@@ -319,35 +496,54 @@ def write_csv(results: list[QueryResult], output_path: Path) -> None:
"label",
"id",
"category",
"legacy_category",
"intent",
"domain_hint",
"language",
"ocr_derived",
"failure_expected",
"query",
"relevant_ids",
"graded_relevance",
"returned_ids_top10",
"latency_ms",
"recall_at_10",
"mrr_at_10",
"ndcg_at_10",
"top3_hit",
"graded_ndcg_at_10",
"graded_recall_at_10_t2",
"graded_recall_at_10_t3",
"error",
]
)
for r in results:
graded_str = ";".join(
f"{did}:{g}" for did, g in sorted(r.query.graded_relevance.items())
)
writer.writerow(
[
r.label,
r.query.id,
r.query.category,
r.query.legacy_category,
r.query.intent,
r.query.domain_hint,
r.query.language,
"1" if r.query.ocr_derived else "0",
"1" if r.query.failure_expected else "0",
r.query.query,
";".join(map(str, r.query.relevant_ids)),
graded_str,
";".join(map(str, r.returned_ids[:10])),
f"{r.latency_ms:.1f}",
f"{r.recall_at_10:.3f}",
f"{r.mrr_at_10:.3f}",
f"{r.ndcg_at_10:.3f}",
"1" if r.top3_hit else "0",
f"{r.graded_ndcg_at_10:.3f}",
f"{r.graded_recall_at_10_t2:.3f}",
f"{r.graded_recall_at_10_t3:.3f}",
r.error or "",
]
)
@@ -364,6 +560,15 @@ def load_queries(yaml_path: Path) -> list[Query]:
data = yaml.safe_load(f)
queries: list[Query] = []
for q in data["queries"]:
relevant_ids = q.get("relevant_ids", []) or []
graded_raw = q.get("graded_relevance", {}) or {}
graded = {int(k): int(v) for k, v in graded_raw.items()}
# v0.1 fallback: if no graded_relevance but has relevant_ids,
# treat top3_ids as grade 3 and remaining relevant_ids as grade 2.
if not graded and relevant_ids:
top3 = set(q.get("top3_ids", []) or [])
for rid in relevant_ids:
graded[int(rid)] = 3 if int(rid) in top3 else 2
queries.append(
Query(
id=q["id"],
@@ -371,9 +576,17 @@ def load_queries(yaml_path: Path) -> list[Query]:
category=q["category"],
intent=q["intent"],
domain_hint=q["domain_hint"],
relevant_ids=q.get("relevant_ids", []) or [],
relevant_ids=relevant_ids,
top3_ids=q.get("top3_ids", []) or [],
notes=q.get("notes", "") or "",
# v0.2 columns (graceful default for v0.1 yaml)
legacy_category=q.get("legacy_category", q.get("category", "")) or "",
language=q.get("language", "ko") or "ko",
ocr_derived=bool(q.get("ocr_derived", False)),
graded_relevance=graded,
failure_expected=bool(
q.get("failure_expected", not relevant_ids)
),
)
)
return queries
@@ -1046,6 +1259,13 @@ def main() -> int:
action="store_true",
help="검색 API debug=true 요청 (발주건 모드에서 응답 검증용)",
)
parser.add_argument(
"--eval-version",
type=str,
default="both",
choices=["v0.1", "v0.2", "both"],
help="점수 출력 모드 (Phase 1, default both). v0.1=binary only / v0.2=graded only / both=둘 다",
)
args = parser.parse_args()
if not args.token:
@@ -1100,14 +1320,14 @@ def main() -> int:
results = asyncio.run(
evaluate(queries, args.base_url, args.token, "single", mode=args.mode, fusion=args.fusion, rerank=args.rerank, analyze=args.analyze)
)
print_summary("single", results)
print_summary("single", results, eval_version=args.eval_version)
all_results.extend(results)
else:
print(f"\n>>> baseline: {args.baseline_url}")
baseline_results = asyncio.run(
evaluate(queries, args.baseline_url, args.token, "baseline", mode=args.mode, fusion=args.fusion, rerank=args.rerank, analyze=args.analyze)
)
baseline_summary = print_summary("baseline", baseline_results)
baseline_summary = print_summary("baseline", baseline_results, eval_version=args.eval_version)
print(f"\n>>> candidate: {args.candidate_url}")
candidate_results = asyncio.run(
@@ -1115,7 +1335,7 @@ def main() -> int:
queries, args.candidate_url, args.token, "candidate", mode=args.mode, fusion=args.fusion, rerank=args.rerank, analyze=args.analyze
)
)
candidate_summary = print_summary("candidate", candidate_results)
candidate_summary = print_summary("candidate", candidate_results, eval_version=args.eval_version)
# 델타
print("\n=== Δ (candidate - baseline) ===")