Files
hyungi_document_server/reports/passage_rag_judge_2026-05-25.md
T
hyungi cd33ded7a8 docs(search): passage-RAG go/no-go = NO-GO (hier evidence 동등, diagnose c4+c5)
PR-DocSrv-Hier-PassageRAG-Diagnose-1 c4+c5. 조건부 N=12(retrieval 통제) blind pairwise
(hypothesis-blind subagent, 익명 3-file split). 결과 4-way 수렴 = 동등:
pairwise prehier4/hier3/tie5(no edge) + axis ±0.08 + objective 동일(halluc36/36) +
variance~0(byte-identical 재생성). verbosity artifact 없음(prehier 더 길었으나 승+1).
=> NO-GO: hier-leaf evidence 무이득. hier leaf = section-outline UI 전용 완전 확정
(UI yes / doc-search NO-GO / passage-RAG NO-GO 3영역 종결). 2026-06-21 freeze input only.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-25 07:02:46 +00:00

2.5 KiB
Raw Blame History

Passage-RAG Diagnose — judge report (PR-DocSrv-Hier-PassageRAG-Diagnose-1 c4)

측정일 2026-05-25 | generator gemma-4-26b (Mac mini) | judge = Claude Code 분리 subagent (hypothesis-blind, label-blind, shuffle) | exact_knn | snapshot doc≤25912/chunk≤71164

보고 순서 = objective 우선 (작은 N 에서 파이프라인 객관값이 모델 주관 pairwise 보다 안정적).

① 조건부 subset (retrieval 통제)

  • 시작 22 Q (answer-seeking, exam7/korean7/mixed8) × {prehier, hier_sim_clean}.
  • 조건부 = 두 변종 모두 타깃(grade≥2) doc 을 evidence 에 포함 + 둘 다 non-empty answer → N=12 (≥12 tier, pairwise directional 유효).
  • 제외 10: hier 타깃 retrieval 실패 3 (exam_005/006, cl_007 — doc-search NO-GO 일관) / prehier 실패 2 (cl_001/002, hier 가 gain) / 둘 다 실패 4 (cl_006/008, exam_004, nl_005) / prehier empty-synth 1 (cl_005).

② objective signal (조건부 N=12, 파이프라인 객관값)

signal prehier hier_sim_clean
hallucination_flags (합) 36 36
grounding weak / strong 8 / 12 8 / 11
completeness full/part/insuf 0/12/0 1/11/0
refused 0 0
avg answer_len (chars) 237 217
objective 동일 (citation hallucination 동수, grounding 동급, completeness 동급). retrieval 통제 시 evidence 단위 차이가 객관 groundedness 에 영향 0.

③ blind pairwise (judge subagent, hypothesis-blind)

prehier 4 승 / hier_sim_clean 3 승 / tie 5 (N=12). → 유의한 edge 없음 (prehier +1 = noise).

④ unblind + axis + verbosity

  • axis 평균 (0-3): prehier faith 3.00 / correct 2.92 / complete 2.75 · hier faith 2.92 / correct 3.00 / complete 2.67 → ±0.08 내 동등.
  • verbosity 교차: prehier 가 평균 더 길었으나(237>217) 승수도 prehier 가 +1 → 길이→승률 친-hier 편향 없음. judge 승리 사유 = completeness/on-point (길이 아님, rubric 준수). → win-rate 는 길이 artifact 아님.
  • variance spot-check (cache clear 후 3 Q 재생성): answer 길이 byte-identical (255/125·268/309·258/266) → gemma temp~0.3 사실상 deterministic, run-to-run 분산 ≈ 0 → single-sample 신뢰, 동등 결과는 noise artifact 아님.

⑤ 판정

retrieval 통제 시 hier-leaf evidence ≈ legacy evidence (답변 품질 무차이). pairwise 무 edge + axis 동등 + objective 동일 + 분산 0 = 4-way 수렴. hier 의 "정밀한 짧은 절" 가설은 passage-RAG 답변 품질에서 실현 안 됨 — gemma 가 legacy 윈도우에서도 동등 답변 생성.