Hyungi Ahn
2ca67dacea
feat(search): Phase 1.2-G hybrid retrieval (doc + chunks)
Phase 1.2-C 평가셋: chunks-only Recall 0.788 → 0.660 catastrophic.
ivfflat probes 1 → 10 → 20 진단 결과 잔여 차이는 chunks vs docs embedding의
본질적 차이 (segment 매칭 vs 전체 본문 평균).
해결: doc + chunks hybrid retrieval (정석).
신규 구조:
- search_vector(): 두 SQL을 asyncio.gather로 병렬 호출
- _search_vector_docs(): documents.embedding cosine top N (recall robust)
- _search_vector_chunks(): document_chunks.embedding window partition
(doc당 top 2 chunks, ivfflat top inner_k 후 ROW_NUMBER PARTITION)
- _merge_doc_and_chunk_vectors(): 가중치 + dedup
- chunk score * 1.2 (segment 매칭 더 정확)
- doc score * 1.0 (recall 보완)
- doc_id 기준 dedup, chunks 우선
데이터 흐름:
1. query embedding 1번 (bge-m3)
2. asyncio.gather([_docs_call(), _chunks_call()])
3. _merge_doc_and_chunk_vectors → list[SearchResult]
4. compress_chunks_to_docs (그대로 사용)
5. fusion (그대로)
6. (Phase 1.3) chunks_by_doc 회수 → reranker
검증 게이트 (회복 목표):
- Recall@10 ≥ 0.75 (baseline 0.788 - 0.04 이내)
- unique_docs per query ≥ 8
- natural_language_ko Recall ≥ 0.65
- latency p95 < 250ms