hyungi_document_server

Author	SHA1	Message	Date
Hyungi Ahn	c81b728ddf	refactor(search): Phase 2.1 QueryAnalyzer를 async-only 구조로 전환 ## 철학 수정 (실측 기반) gemma-4-26b-a4b-it-8bit MLX 실측: - full query_analyze.txt (prompt_tok=2406) → 10.5초 - max_tokens 축소 무효 (모델 자연 EOS 조기 종료) - 쿼리 길이 영향 거의 없음 (프롬프트 자체가 지배) → 800ms timeout 가정은 13배 초과. 동기 호출 완전히 불가능. 따라서 QueryAnalyzer는 "즉시 실행하는 기능" → "미리 준비해두는 기능"으로 포지셔닝 변경. retrieval 경로에서 analyzer 동기 호출 금지. ## 구조 ``` query → retrieval (항상 즉시) ↘ trigger_background_analysis (fire-and-forget) → analyze() [5초+] → cache 저장 다음 호출 (동일 쿼리) → get_cached() 히트 → Phase 2 파이프라인 활성화 ``` ## 변경 사항 ### app/prompts/query_analyze.txt - 5971 chars → 2403 chars (40%) - 예시 4개 → 1개, 규칙 설명 축약 - 목표 prompt_tok 2406 → ~600 (1/4) ### app/services/search/query_analyzer.py - LLM_TIMEOUT_MS 800 → 5000 (background이므로 여유 OK) - PROMPT_VERSION v1 → v2 (cache auto-invalidate) - get_cached / set_cached 유지 — retrieval 경로 O(1) 조회 - trigger_background_analysis(query) 신규 — 동기 함수, 즉시 반환, task 생성 - _PENDING set으로 task 참조 유지 (premature GC 방지) - _INFLIGHT set으로 동일 쿼리 중복 실행 방지 - prewarm_analyzer() 신규 — startup에서 15~20 쿼리 미리 분석 - DEFAULT_PREWARM_QUERIES: 평가셋 fixed 7 + 법령 3 + 뉴스 2 + 실무 3 ### app/api/search.py - 기존 sync analyzer 호출 완전 제거 - analyze=True → get_cached(q) 조회만 O(1) - hit: query_analysis 활용 (Phase 2.2/2.3 파이프라인 조건부 활성화) - miss: trigger_background_analysis(q) + 기존 경로 그대로 - timing["analyze_ms"] 제거 (경로에 LLM 호출 없음) - notes에 analyzer cache_hit/cache_miss 상태 기록 - debug.query_analysis는 cache hit 시에만 채워짐 ### app/main.py - lifespan startup에 prewarm_analyzer() background task 추가 - 논블로킹 — 앱 시작 막지 않음 - delay_between=0.5로 MLX 부하 완화 ## 기대 효과 - cold 요청 latency: 기존 Phase 1.3 그대로 (회귀 0) - warm 요청 + prewarmed: cache hit → query_analysis 활용 - 예상 cache hit rate: 초기 70~80% (prewarm) + 사용 누적 - Phase 2.2/2.3 multilingual/filter 기능은 cache hit 시에만 동작 ## 참조 - memory: feedback_analyzer_async_only.md (영구 룰 저장) - plan: ~/.claude/plans/zesty-painting-kahan.md ("철학 수정" 섹션) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 14:47:09 +09:00
Hyungi Ahn	d28ef2fca0	feat(search): Phase 2.1 QueryAnalyzer + LRU cache + confidence 3-tier QueryAnalyzer 스켈레톤 구현. 자연어 쿼리를 구조화된 분석 결과로 변환. Phase 2.1은 debug 노출 + tier 판정까지만 — retrieval 경로는 변경 X (회귀 0 목표). multilingual/filter 실제 분기는 2.2/2.3에서 이 분석 결과를 활용. app/prompts/query_analyze.txt - gemma-4 JSON-only 응답 규약 - intent/query_type/domain_hint/language_scope/normalized_queries/ hard_filters/soft_filters/expanded_terms/analyzer_confidence - 4가지 예시 (자연어 법령, 정확 조항, 뉴스 다국어, 의미 불명) - classify.txt 구조 참고 app/services/search/query_analyzer.py - LLM_TIMEOUT_MS=800 (MLX 멈춤 시 검색 전체 멈춤 방지, 절대 늘리지 말 것) - MAX_NORMALIZED_QUERIES=3 (multilingual explosion 방지) - in-memory FIFO LRU (maxsize=1000, TTL=86400) - cache key = sha256(query + PROMPT_VERSION + primary.model) → 모델/프롬프트 변경 시 자동 invalidate - 저신뢰(<0.5) / 실패 결과 캐시 금지 - weight 합=1.0 정규화 (fusion 왜곡 방지) - 실패 시 analyzer_confidence=float 0.0 (None 금지, TypeError 방지) app/api/search.py - ?analyze=true\|false 파라미터 (default False — 회귀 영향 0) - query_analyzer.analyze() 호출 + timing["analyze_ms"] 기록 - _analyzer_tier(conf) → "ignore" \| "original_fallback" \| "merge" \| "analyzed" (tier 게이트: 0.5 / 0.7 / 0.85) - debug.query_analysis 필드 채움 + notes에 tier/fallback_reason - logger 라인에 analyzer conf/tier 병기 app/services/search_telemetry.py - record_search_event(analyzer_confidence=None) 추가 - base_ctx에 analyzer_confidence 기록 (다층 confidence 시드) - result confidence와 분리된 축 — Phase 2.2+에서 failure 분류에 활용 검증: - python3 -m py_compile 통과 - 런타임 검증은 GPU 재배포 후 수행 (fixed 7 query + 평가셋) 참조: ~/.claude/plans/zesty-painting-kahan.md (Phase 2.1 섹션) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 14:21:37 +09:00
Hyungi Ahn	6d73e7ee12	feat: 분류 체계 전면 개편 — taxonomy + document_type + confidence - config.yaml: 6개 domain × 3단계 taxonomy + 13개 document_types 정의 - classify.txt: 영문 프롬프트, taxonomy 경로 기반 분류 + 분류 규칙 주입 - classify_worker: taxonomy 검증, confidence 기반 분류, document_type 저장 - migration 008: document_type, importance, ai_confidence 컬럼 - API: DocumentResponse에 document_type, importance, ai_confidence 추가 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-03 13:32:20 +09:00
Hyungi Ahn	131dbd7b7c	feat: scaffold v2 project structure with Docker, FastAPI, and config 동작하는 최소 코드 수준의 v2 스캐폴딩: - docker-compose.yml: postgres, fastapi, kordoc, frontend, caddy - app/: FastAPI 백엔드 (main, core, models, ai, prompts) - services/kordoc/: Node.js 문서 파싱 마이크로서비스 - gpu-server/: AI Gateway + GPU docker-compose - frontend/: SvelteKit 기본 구조 - migrations/: PostgreSQL 초기 스키마 (documents, tasks, processing_queue) - tests/: pytest conftest 기본 설정 - config.yaml, Caddyfile, credentials.env.example 갱신 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-02 10:20:15 +09:00

4 Commits