hyungi_document_server

hyungi/hyungi_document_server

Fork 0

Commit Graph

Author	SHA1	Message	Date
Hyungi Ahn	8021a1debd	test(search): Phase 0.5 fusion 전략 A/B 비교 결과 23개 평가셋 × 3 전략(legacy/rrf/rrf_boost) 측정 + 분석. 핵심 발견: - 전체 NDCG: legacy 0.705 → rrf 0.699 → rrf_boost 0.700 (미세 차이) - RRF가 약간 나쁜 이유: kw_001(산업안전보건법 제6장)에서 RRF가 4041 (근로기준법 안전과 보건)을 false positive로 promotion. NDCG 1.000→0.906. - boost가 가치 입증한 사례: news_004(guerre en Iran)에서 RRF의 미스를 완벽 보정해 legacy NDCG 복원. - RRF의 진짜 가치는 Phase 1+ 다중 신호(trigram, reranker, multi-query) 통합 시 발휘됨. 현 평가셋은 너무 단순해서 차이가 noise에 묻힘. 결정: rrf_boost를 default로 유지. Phase 1 후 재측정. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-07 09:25:49 +09:00
Hyungi Ahn	ec36ea3d6d	test(search): Phase 0.2 baseline 측정 결과 23개 쿼리에 대한 현재 검색(FTS+ILIKE+Vector hybrid) baseline. Phase 1+ 개선 비교 기준점으로 보존. 전체: Recall@10 0.788 / NDCG@10 0.705 / Top-3 0.95 / p95 1695ms 핵심 약점 (Phase 1+ 타겟): - news_crosslingual catastrophic (Recall 0.14) → domain-aware 필수 - failure-case precision 0/3 → confidence threshold 부재 - p95 1695ms (목표 500ms의 3배) → trigram/parallel retrieval - nl 쿼리 top-3 ordering 약함 → chunk-level + reranker Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-07 08:22:53 +09:00

Author

SHA1

Message

Date

Hyungi Ahn

8021a1debd

test(search): Phase 0.5 fusion 전략 A/B 비교 결과

23개 평가셋 × 3 전략(legacy/rrf/rrf_boost) 측정 + 분석.

핵심 발견:
- 전체 NDCG: legacy 0.705 → rrf 0.699 → rrf_boost 0.700 (미세 차이)
- RRF가 약간 나쁜 이유: kw_001(산업안전보건법 제6장)에서 RRF가 4041
  (근로기준법 안전과 보건)을 false positive로 promotion. NDCG 1.000→0.906.
- boost가 가치 입증한 사례: news_004(guerre en Iran)에서 RRF의 미스를
  완벽 보정해 legacy NDCG 복원.
- RRF의 진짜 가치는 Phase 1+ 다중 신호(trigram, reranker, multi-query)
  통합 시 발휘됨. 현 평가셋은 너무 단순해서 차이가 noise에 묻힘.

결정: rrf_boost를 default로 유지. Phase 1 후 재측정.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

2026-04-07 09:25:49 +09:00

Hyungi Ahn

ec36ea3d6d

test(search): Phase 0.2 baseline 측정 결과

23개 쿼리에 대한 현재 검색(FTS+ILIKE+Vector hybrid) baseline.
Phase 1+ 개선 비교 기준점으로 보존.

전체: Recall@10 0.788 / NDCG@10 0.705 / Top-3 0.95 / p95 1695ms

핵심 약점 (Phase 1+ 타겟):
- news_crosslingual catastrophic (Recall 0.14) → domain-aware 필수
- failure-case precision 0/3 → confidence threshold 부재
- p95 1695ms (목표 500ms의 3배) → trigram/parallel retrieval
- nl 쿼리 top-3 ordering 약함 → chunk-level + reranker

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

2026-04-07 08:22:53 +09:00

2 Commits