hyungi_document_server

hyungi/hyungi_document_server

Fork 0

Commit Graph

Author	SHA1	Message	Date
Hyungi Ahn	25ef3996ec	feat(chunk): Phase 1.2-G embedding 입력 강화 (title + section + text) Phase 1.2-G hybrid retrieval 측정 결과 Recall 0.66 정체 + 진단: 직접 nl 쿼리 시도 결과 일부 정답 doc(3854, 3981, 3982, 3920, 3921)이 top-100에도 못 들어옴. doc은 corpus + chunks + embedding 모두 정상. 진짜 원인: 자연어 query ↔ 법령 조항 의미 거리 + 짧은 본문 embedding signal 약함. - query: '유해화학물질을 다루는 회사가 지켜야 할 안전 의무' - 본문: '화학물질관리법 제4장 유해화학물질 영업자' - bge-m3 입장: chunk text만으로는 같은 의미인지 못 알아봄 해결: chunks embedding 입력에 doc.title + section_title 포함. - before: embed(c['text']) - after: embed('[제목] {title}\n[섹션] {section}\n[본문] {text}') 기대 효과: - 짧은 조항 문서 매칭 회복 (3920/3921 등 300자대) - 자연어 query → 법령 조항 의미 매칭 개선 - Recall 0.66 → 0.72~0.78 영향: chunks embedding 차원/구조 변경 X — 입력 텍스트 prefix만 다름. 재인덱싱 1회로 모든 chunks 재생성 필요.	2026-04-08 13:08:23 +09:00
Hyungi Ahn	731d1396e8	fix(chunk): _chunk_legal 영어 법령 sliding window fallback 영어/외국 법령(ai_domain Foreign_Law 등)은 '제N조' 패턴이 없어 split 결과가 1개 element만 나옴 → 서문 chunk(첫 1500자)만 생성되고 본문 대부분 손실. 발견: doc 3759 (Industrial Safety, 93KB 영어) → 1개 chunk만 생성. 수정: parts split 결과가 1개 이하면 _chunk_sliding fallback 호출. 한국어 법령(제N조 패턴 있음)은 기존 분할 로직 그대로 작동. Phase 1.2-D smoke test에서 발견. 재인덱싱 전 fix 필수.	2026-04-08 12:26:38 +09:00
Hyungi Ahn	378fbc7845	feat(chunk): Phase 0.1 chunk 인덱싱 — ORM/worker/migration 정리 GPU 서버에 untracked로만 존재하던 Phase 0.1 코드를 정식 commit: - app/models/chunk.py — DocumentChunk ORM (country/source/domain 메타 포함) - app/workers/chunk_worker.py — 6가지 chunking 전략 (legal/news/markdown/email/long_pdf/default) - migrations/014_document_chunks.sql — pgvector + FTS + trigram 인덱스 - app/models/queue.py — ProcessingQueue enum에 'chunk' stage 추가 - app/workers/queue_consumer.py — chunk stage 등록, classify→[embed,chunk] 자동 연결 Phase 1 reranker 통합 작업의 전제 조건. document_chunks 테이블 기반 retrieval에 사용.	2026-04-07 13:26:37 +09:00

Author

SHA1

Message

Date

Hyungi Ahn

25ef3996ec

feat(chunk): Phase 1.2-G embedding 입력 강화 (title + section + text)

Phase 1.2-G hybrid retrieval 측정 결과 Recall 0.66 정체 + 진단:

직접 nl 쿼리 시도 결과 일부 정답 doc(3854, 3981, 3982, 3920, 3921)이
top-100에도 못 들어옴. doc은 corpus + chunks + embedding 모두 정상.

진짜 원인: 자연어 query ↔ 법령 조항 의미 거리 + 짧은 본문 embedding signal 약함.
- query: '유해화학물질을 다루는 회사가 지켜야 할 안전 의무'
- 본문: '화학물질관리법 제4장 유해화학물질 영업자'
- bge-m3 입장: chunk text만으로는 같은 의미인지 못 알아봄

해결: chunks embedding 입력에 doc.title + section_title 포함.
- before: embed(c['text'])
- after:  embed('[제목] {title}\n[섹션] {section}\n[본문] {text}')

기대 효과:
- 짧은 조항 문서 매칭 회복 (3920/3921 등 300자대)
- 자연어 query → 법령 조항 의미 매칭 개선
- Recall 0.66 → 0.72~0.78

영향: chunks embedding 차원/구조 변경 X — 입력 텍스트 prefix만 다름.
재인덱싱 1회로 모든 chunks 재생성 필요.

2026-04-08 13:08:23 +09:00

Hyungi Ahn

731d1396e8

fix(chunk): _chunk_legal 영어 법령 sliding window fallback

영어/외국 법령(ai_domain Foreign_Law 등)은 '제N조' 패턴이 없어 split 결과가
1개 element만 나옴 → 서문 chunk(첫 1500자)만 생성되고 본문 대부분 손실.

발견: doc 3759 (Industrial Safety, 93KB 영어) → 1개 chunk만 생성.

수정: parts split 결과가 1개 이하면 _chunk_sliding fallback 호출.
한국어 법령(제N조 패턴 있음)은 기존 분할 로직 그대로 작동.

Phase 1.2-D smoke test에서 발견. 재인덱싱 전 fix 필수.

2026-04-08 12:26:38 +09:00

Hyungi Ahn

378fbc7845

feat(chunk): Phase 0.1 chunk 인덱싱 — ORM/worker/migration 정리

GPU 서버에 untracked로만 존재하던 Phase 0.1 코드를 정식 commit:
- app/models/chunk.py — DocumentChunk ORM (country/source/domain 메타 포함)
- app/workers/chunk_worker.py — 6가지 chunking 전략 (legal/news/markdown/email/long_pdf/default)
- migrations/014_document_chunks.sql — pgvector + FTS + trigram 인덱스
- app/models/queue.py — ProcessingQueue enum에 'chunk' stage 추가
- app/workers/queue_consumer.py — chunk stage 등록, classify→[embed,chunk] 자동 연결

Phase 1 reranker 통합 작업의 전제 조건. document_chunks 테이블 기반 retrieval에 사용.

2026-04-07 13:26:37 +09:00

3 Commits