# Passage-RAG Diagnose — judge report (PR-DocSrv-Hier-PassageRAG-Diagnose-1 c4) **측정일** 2026-05-25 | generator gemma-4-26b (Mac mini) | judge = Claude Code 분리 subagent (hypothesis-blind, label-blind, shuffle) | exact_knn | snapshot doc≤25912/chunk≤71164 보고 순서 = objective 우선 (작은 N 에서 파이프라인 객관값이 모델 주관 pairwise 보다 안정적). ## ① 조건부 subset (retrieval 통제) - 시작 22 Q (answer-seeking, exam7/korean7/mixed8) × {prehier, hier_sim_clean}. - **조건부 = 두 변종 모두 타깃(grade≥2) doc 을 evidence 에 포함 + 둘 다 non-empty answer → N=12** (≥12 tier, pairwise directional 유효). - 제외 10: hier 타깃 retrieval 실패 3 (exam_005/006, cl_007 — doc-search NO-GO 일관) / prehier 실패 2 (cl_001/002, hier 가 gain) / 둘 다 실패 4 (cl_006/008, exam_004, nl_005) / prehier empty-synth 1 (cl_005). ## ② objective signal (조건부 N=12, 파이프라인 객관값) | signal | prehier | hier_sim_clean | |---|---|---| | hallucination_flags (합) | 36 | 36 | | grounding weak / strong | 8 / 12 | 8 / 11 | | completeness full/part/insuf | 0/12/0 | 1/11/0 | | refused | 0 | 0 | | avg answer_len (chars) | 237 | 217 | → **objective 동일** (citation hallucination 동수, grounding 동급, completeness 동급). retrieval 통제 시 evidence 단위 차이가 객관 groundedness 에 영향 0. ## ③ blind pairwise (judge subagent, hypothesis-blind) prehier **4 승** / hier_sim_clean **3 승** / **tie 5** (N=12). → 유의한 edge 없음 (prehier +1 = noise). ## ④ unblind + axis + verbosity - axis 평균 (0-3): prehier faith 3.00 / correct 2.92 / complete 2.75 · hier faith 2.92 / correct 3.00 / complete 2.67 → **±0.08 내 동등**. - **verbosity 교차**: prehier 가 평균 더 길었으나(237>217) 승수도 prehier 가 +1 → 길이→승률 친-hier 편향 없음. judge 승리 사유 = completeness/on-point (길이 아님, rubric 준수). → win-rate 는 길이 artifact 아님. - variance spot-check (cache clear 후 3 Q 재생성): answer 길이 **byte-identical** (255/125·268/309·258/266) → gemma temp~0.3 사실상 deterministic, **run-to-run 분산 ≈ 0** → single-sample 신뢰, 동등 결과는 noise artifact 아님. ## ⑤ 판정 **retrieval 통제 시 hier-leaf evidence ≈ legacy evidence (답변 품질 무차이)**. pairwise 무 edge + axis 동등 + objective 동일 + 분산 0 = 4-way 수렴. hier 의 "정밀한 짧은 절" 가설은 passage-RAG 답변 품질에서 실현 안 됨 — gemma 가 legacy 윈도우에서도 동등 답변 생성.