hyungi_document_server

Author	SHA1	Message	Date
Hyungi Ahn	e1a2cdc677	feat(study): AI 풀이 생성 — 수동 트리거 + RAG (PR-3) 복습 답 제출 후 또는 편집 화면에서 사용자가 명시적으로 누를 때만 AI 가 4지선다 풀이 생성. 자동 일괄 생성 금지 (하루 100문제 입력 시 MLX 부하· 잘못 입력 문제 해설 위험). 데이터 모델 (migrations 191~192): - study_questions 4 컬럼 추가: ai_explanation TEXT, ai_explanation_status VARCHAR(20) DEFAULT 'none' (none/pending/ready/failed/stale), ai_explanation_generated_at, ai_explanation_model - partial idx (study_topic_id, ai_explanation_status) WHERE status != 'none' PATCH stale 자동 전이: question_text/choice_*/correct_choice 변경 시 status='ready' 만 'stale' 로. 본문은 보존, UI 배지 + "다시 생성" 동선. 신규 엔드포인트: POST /api/study-questions/{id}/ai-explanation - regenerate=false + ready/stale → 캐시 즉시 (MLX 호출 없음, is_stale 플래그) - pending → 409 (race-safe 조건부 UPDATE 로 동시 호출 차단) - 그 외 → 새 생성 RAG 입력 풀: - 1순위: study_topic 매핑 documents 청크 + ai_summary, bge-reranker top-5 - 2순위: 같은 토픽 다른 questions (자기 자신 제외, ai_explanation 은 ready 상태만 포함 — 재귀적 hallucination 방지), reranker top-3 - 제외: 필기 OCR / 외부 웹 / Premium 모델 모델: Mac mini MLX gemma-4-26b primary 단독. get_mlx_gate() Semaphore(1) 경유, 30s timeout. 실패 시 status='failed' + 직전 본문 보존. 프롬프트 (app/prompts/study_question_explanation.txt): 자료 우선순위·인용 형식·할루시네이션 방지 절대 규칙 (법령명·조항·수치·표준 번호 단정 금지, "자료에서 확인되지 않음" 명시). 프론트: - 복습 화면 답 제출 후 인라인 expand. status별 버튼 분기 (ready 캐시 / stale "이전 풀이"+"다시 생성" / failed "다시 시도") - 편집 화면 별도 카드. 상태 배지 + "이전 풀이 보기" / "다시 생성" 분리 - 참고 근거 토글 (source_type 별 아이콘 📄/❓ + 제목 + snippet) 후속 PR 보류: 오답노트/통계, AI 일괄 백그라운드 생성, 필기 OCR RAG, Premium/Claude 재생성, /api/search/ask retrieval scope 통합. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-28 08:41:46 +09:00
Hyungi Ahn	34f79f84f2	feat(search): B-2 evidence LLM → 4B triage 전환 + answerability 컬럼 Plan 본래 의도: 근거 선별은 4B, 합성은 26B. - evidence_service: LLM 호출을 primary(26B MLX) → triage(4B Ollama) 로 전환. Ollama concurrent 가능하므로 get_mlx_gate() 제거. synthesis 는 여전히 llm_gate Semaphore(1) 경유로 MLX 보호. - prompt_version v3-evidence-triage bump (synthesis 프롬프트 자체는 v2-600char 그대로, evidence LLM 경로 변경을 분리 추적). - migrations 161/162: analyze_events 에 answerability / partial_basis / suggested_query_count 컬럼 + partial index. /ask 는 이미 ask_events 에 completeness (full/partial/insufficient) 기록 운영 중이므로, analyze_events 쪽은 향후 문서 분석에서 answerability 개념 도입 시 활용 예비. - telemetry record_analyze_event 에 answerability / partial_basis / suggested_query_count 파라미터 확장. 기존 /ask 3-state completeness 로직 (classifier_service + 7-tier gate) 은 그대로 유지 — 이미 Phase 3.5a 에서 완성된 상태. B-2 는 LLM 부하 재분배와 관측성 확장에 집중. MLX 부하 감소 효과: 이전엔 쿼리 1건당 evidence(26B) + synthesis(26B) 2번 MLX 호출. 이제는 evidence(4B Ollama) + synthesis(26B MLX) 로 MLX 호출 절반. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 10:33:32 +09:00
Hyungi Ahn	6fdc48e5b6	feat(ai): B-1 summary tier 분할 — triage(4B) + deep_summary(26B) PR-A policy 레이어를 재사용하여 classify_worker 에 tier triage 경로를 추가. Legacy ai_summary / ai_domain / ai_suggestion 은 유지 (회귀 0), tldr/bullets/ detail/inconsistencies 는 별도 필드로 분리. Migrations (156~160): - 156 documents: ai_tldr, ai_bullets, ai_detail_summary, ai_inconsistencies, ai_analysis_tier 5컬럼 - 157 process_stage 에 'deep_summary' ADD VALUE 단독 (Postgres 동일 트랜잭션 제약 회피) - 158 processing_queue.payload JSONB (envelope 전달) - 159 analyze_events 에 tier + suppressed_reason - 160 suppressed_reason partial index Models/ORM: - Document: 5컬럼 Mapped 추가 - ProcessingQueue: deep_summary enum 확장 + payload 필드, enqueue_stage 에 payload 옵션 - AnalyzeEvent: PR-A shadow 6컬럼 + PR-B tier/suppressed_reason Workers: - classify_worker: 기존 legacy 경로 뒤에 _run_tier_triage 추가. - _match_subject_domain(doc, text): source_channel + 본문 keywords + ai_domain prefix 로 PR-A policy 의 subject_domain 이름 결정 (category 매칭 금지). - R1 TriageOutput pydantic + JSON 깨짐 fallback (triage_json_invalid). - R2 _check_backlog_guard(): 30분 window ratio > threshold OR pending 초과면 soft escalate suppress. hard escalate 는 통과. - R3 _slice_text_ranges(): 260k 초과 시 head 120k + mid 20k + tail 120k 3조각. - escalate 시 EscalationEnvelope 구성 + {envelope, subject_domain} payload 로 deep_summary enqueue. - deep_summary_worker (신규): queue payload 에서 envelope + subject_domain 읽기 → render_26b("p3c_deep_summary", subject_domain) + MLX 호출 (llm_gate Semaphore(1) 경유) → ai_detail_summary + ai_inconsistencies 저장 + ai_analysis_tier='deep'. _filter_inconsistencies 로 허용 kind (version_drift / procedure_conflict / source_conflict / missing_basis) 만 통과 — 구매/계약 kind drop. - queue_consumer: workers dict 에 deep_summary 추가 + BATCH_SIZE=1. next_stages 는 건드리지 않음 — classify → embed/chunk 는 그대로, deep_summary 는 독립 체인. Telemetry: - record_analyze_event: subject_domain / risk_flags / escalation_reasons / confidence / policy_version / shadow_would_route_to / tier / escalated_to_26b / suppressed_reason 파라미터 확장. classify/deep worker 가 mode="summary_triage" 또는 "summary_deep" 로 기록. API: - DocumentResponse 에 ai_tldr / ai_bullets / ai_detail_summary / ai_inconsistencies / ai_analysis_tier 5필드 노출. Prompts: - classify.txt 에 DEPRECATED 주석만 추가 (파일 유지 — rollback 경로 보존). - PR-A 의 app/prompts/policy/p3a_short_summary.txt (4B) 와 p3c_deep_summary.txt (26B) 를 그대로 사용. 내 소유의 summary_triage.txt / summary_deep.txt 는 중복 이라 별도 커밋에서 제거하지 않고 바로 생성 전 삭제. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 10:22:40 +09:00
Hyungi Ahn	99672292d3	fix(policy): use container-compatible imports (drop app. prefix) 프로덕션 컨테이너는 /app 을 cwd 로 실행하고 import 는 `from api...`, `from core...`, `from workers...` 처럼 무접두 스타일을 사용한다. PR-A 내부 import 가 `from app.policy...`, `from app.ai.envelope` 로 되어 있어서 컨테이너에서 ModuleNotFoundError 발생. 변경: - app/policy/.py: `from app.policy.X` → `from policy.X` - app/services/prompt_versions.py: lazy import 도 `from policy.prompt_render` - app/ai/envelope.py: 영향 없음 (내부 import 없음) - tests/policy/.py: 모두 `from policy.X` / `from ai.envelope` 로 통일 - tests/policy/conftest.py: 로컬 pytest 용 sys.path.insert(app/) 추가 (MacBook 에서 repo-root 기준 실행 시 app/ 를 package root 로 취급) CI: pytest tests/policy/ -q → 98 passed (로컬, 동일 결과) 프로덕션: docker exec fastapi python -c "from policy.loader import load_policy" → OK Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 09:42:24 +09:00
Hyungi Ahn	f51583f9d6	feat(policy): prompt_render + policy_version hash app/policy/prompt_render.py: - render_4b(task, subject) / render_26b(task, subject) — template + yaml excerpt 주입. {forbidden_block} / {subject_description} / {confidence_threshold} / {context_cap} placeholder 치환. - policy_version(task) → sha256(yaml_bytes + template_bytes)[:12]. deterministic — yaml 이나 template 이 바뀌면 hash 변경, analyze_events. policy_version 컬럼으로 drift 추적. - KNOWN_4B_TASKS / KNOWN_26B_TASKS — 잘못된 task 호출 ValueError. - 미정의 subject_domain 은 fallback_domain.description 사용. app/services/prompt_versions.py: - compute_policy_version(task) helper 추가. app.policy 지연 import 로 worker 경로에 정책 dependency 유입 방지 (런타임 격리). - 기존 ASK_PROMPT_VERSION / ANALYZE_PROMPT_VERSION 상수 미변경. plan: ~/.claude/plans/wise-gliding-hippo.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 09:34:48 +09:00
Hyungi Ahn	eb9dc94604	feat(search): E.3 — ask synthesis prompt v2-600char bump 한도 400 → 600 자. baseline 관찰(partial avg 168자 / full 10%)에서 길이 제약이 실제 출력 제약이 되는 현상 확인, 절차·비교 카테고리 답변 깊이 확보 목적. 변경 4 라인: - search_synthesis.txt:17 answer 400→600 characters max - prompt_versions.py:20 v1-400char → v2-600char (telemetry) - synthesis_service.py:42 PROMPT_VERSION v1→v2 (cache key 의미론 동기화) - synthesis_service.py:46 MAX_ANSWER_CHARS 400→600 (hard clip 동기화) v1 post-tier0 baseline: 225 rows, partial 51% / insufficient 49% / full 0% (Tier 0 fix 로 full+refused=True 모순 0 건). E.6 는 이 clean baseline 을 compare-against 로 사용. 향후 티켓: PROMPT_VERSION 과 ASK_PROMPT_VERSION 단일 소스 통합. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-17 12:02:51 +09:00
Hyungi Ahn	5bfbb79641	feat(verifier): Phase 3.5 B2 — numeric_conflict promote (env flag) + Tier 4 VERIFIER_NUMERIC_PROMOTE 환경변수로 numeric_conflict severity 승격 실험. verifier_service.py: - _NUMERIC_PROMOTE = os.getenv('VERIFIER_NUMERIC_PROMOTE', '0') == '1' (import time 평가 — env 변경 시 process restart 필수) - _SEVERITY_MAP['numeric_conflict']: env=1 → critical=strong / minor=medium, env=0 (기본) → 둘 다 medium (기존 동작 유지) - direct_negation 은 env 무관 항상 strong (안전장치) verifier.txt: - numeric_conflict 정의에 critical/minor 분리 명시 (core quantity vs peripheral) - "Range values satisfy any answer within range" rule 추가 - severity mapping 갱신: numeric_conflict 분기 명시 search.py re-gate (Tier 1~7 재번호, B2 신규 Tier 4): - v_strong_numeric = sum(1 for f in v_strong if f.startswith('verifier_numeric_conflict')) - Tier 4 (신규): g_strong + v_strong_numeric >= 1 + low_conf → refuse re_gate value: 'refuse(grounding+verifier_numeric)' - 원칙 유지: verifier strong 단독 refuse 금지 — g_strong 교차 필수 - 호환성: 기존 re_gate string literals 그대로 유지, 신규 1개만 추가 credentials.env.example: VERIFIER_NUMERIC_PROMOTE=0 (off, B3 통과 후 production 전환) tests/test_verifier_numeric_promote.py: 4 케이스 (env off / on / explicit 0 / direct_negation invariant). monkeypatch.setenv + importlib.reload 패턴. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-17 08:11:06 +09:00
Hyungi Ahn	2665d4eb60	feat(grounding): Phase 3.5 B1 — unit-aware fabricated_number + bound semantics Codex adversarial review (no-ship) 반영: fix1: unit-aware numeric clearing - _extract_numeric_corpus(): 단위별 bucket dict (exact_by_unit) + ranges_by_unit (양방향 + 단방향 bound 통합) - _within_unit_range / _close_to_unit_pool: 같은 unit 안에서만 매칭 bare answer 는 보수적으로 range/tolerance 패스 X - 2-pass cleared_pairs (unit, digits): cross-unit cleared 절대 skip 안 함. bare(None) 답변은 unit-anchored cleared 시 duplicate 로 skip (콤마 normalize 부산물 보호 — Codex 케이스는 그대로 flag) fix3: 최대/최소 bound semantics - _APPROX_PREFIX_RE 에서 최대/최소 제거 (약/대략/거의/얼추 만 strip) - _BOUND_PATTERN_RE: 최대 N → range (0, N-1), 최소 N → range (N+1, 1e18) - 경계값 자체는 cleared 대상 아님 ("최대 100명" + answer "100명" → flag) - bound span 내 숫자는 exact pool 에서 제외 기존 prefix strip / 콤마 / 부터 separator / 단위 동의어 / tolerance 4자리+ / 식별자성 단위 1자리 flag 동작 모두 유지. tests/test_grounding_fabricated_number.py: 25 케이스 — 기존 17 + Codex unit-mismatch 3 (won_vs_myeong_range/tol, pct_vs_myeong_range) + bound 5 (최대/최소 boundary/inner/outer). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-17 08:11:06 +09:00
Hyungi Ahn	09883d0358	feat(ask): Phase 3.5 A0 — ask_events source/eval_case_id + eval auth boundary - migrations 138~142: source TEXT DEFAULT 'document_server' + eval_case_id TEXT 추가, 인덱스 2개, backfill, 1주 관찰 후 NOT NULL (140 적용 분리) - app/models/ask_event.py: source / eval_case_id ORM 필드 (138~141 단계 nullable) - app/services/search_telemetry.py: record_ask_event 시그니처에 source / eval_case_id - app/core/config.py: settings.eval_runner_token + EVAL_RUNNER_TOKEN env 로드 - app/api/search.py: - X-Source / X-Eval-Case-Id / X-Eval-Token 헤더 수신 - _resolve_eval_identity(): hmac.compare_digest 로 token 검증, 실패 시 source 'document_server' 강등 + warning log + eval_case_id=None - 두 record_ask_event 호출에 검증된 source/eval_case_id 전달 - credentials.env.example: EVAL_RUNNER_TOKEN= (empty default = 모든 eval claim 거부) - tests/test_ask_eval_auth.py: 9 케이스 — token 없음/틀림/일치, env 미설정, case_id only, non-eval source forces case_id None trust boundary: 일반 client 의 X-Source=eval / X-Eval-Case-Id 시도는 무시되어 calibration telemetry 오염 불가. eval runner 만 EVAL_RUNNER_TOKEN 으로 인증. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-17 08:11:06 +09:00
Hyungi Ahn	8a8096a444	feat(api): Phase E.2 — analyze_events 테이블 + 로깅 POST /documents/{id}/analyze 호출을 DB에 기록. failure mode 분류 + source 식별. - migrations/137: analyze_events 테이블 (doc_id FK, mode, truncated, layers_returned JSONB, cached, latency_ms, error_code, source TEXT NOT NULL DEFAULT 'document_server', prompt_version) - ORM: models/analyze_event.py 신규 - services/document_telemetry.py: record_analyze_event() + sanitize_source() 서버 fallback 강제 (enum 외 → unknown, None → document_server) - app/api/documents.py: · X-Source 헤더 + BackgroundTasks 의존성 추가 · try/finally 패턴으로 성공/cache/에러 모든 exit에서 background insert · error_code: None(성공) \| not_found \| no_text \| timeout \| llm \| parse \| missing_summary Phase F에서 nanoclaude가 X-Source: synology_chat 헤더로 호출하면 source 구분 가능. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-16 13:58:58 +09:00
Hyungi Ahn	59e38d80b0	feat(api): Phase E.1 — ask_events 측정 필드 확장 (answer_length/prompt_version) E.3 400→600자 튜닝 전후 비교 + 단계 5 failure mode 분석의 기준 필드 추가. - migrations/135: answer_length/covered_aspects/missing_aspects/model_name/prompt_version 컬럼 + prompt_version 인덱스 - ORM: ask_event.py에 동일 5개 필드 매핑 - prompt_versions.py: ASK_PROMPT_VERSION="search_synthesis.v1-400char" 상수 + resolve_primary_model() helper - search_telemetry.record_ask_event: 시그니처에 keyword-only 필드 5개 추가 (하위 호환) - search.py: refused + success 두 호출사이트에서 새 필드 전달. answer_length는 len(sr.answer or ""), model_name/prompt_version은 상수 모듈 기반 기존 호출 구조(이미 search_telemetry+background_tasks로 DB insert 중)는 유지. 순수 확장 커밋. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-16 13:52:14 +09:00
Hyungi Ahn	083aa3126a	feat(search): retrieval+evidence 품질 개선 - embed_worker: ai_summary 누락 시 text[:800] fallback → ToC 감지 + 서술형 문단 우선 선택 (보수적 휴리스틱, 강신호 2개 이상 + 스킵 상한) - retrieval_service: snippet 200자 → 1200자 (리랭커/evidence에 더 넓은 문맥 제공) - evidence_service: CANDIDATE_SNIPPET_CHARS 800 → 1200 (LLM evidence window 확대) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 14:56:33 +09:00
Hyungi Ahn	6b189f0d47	fix(digest): multi-word ai_sub_group matching + NYT_API_KEY example - loader.py: first-token + all-but-last-token 이중 키 매칭 (Le Monde, Der Spiegel 대응) - chunk_worker.py: startswith 매칭 보강 - credentials.env.example: NYT_API_KEY 항목 추가 핫픽스 — 단계 3에서 news_source_id FK 정규화로 문자열 매칭 제거 예정 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-13 14:33:04 +09:00
Hyungi Ahn	e405ed3414	fix(ask): evidence sparse 문제 해결 — 프롬프트 + supplement + source 분리 근본 원인: evidence 프롬프트가 "<0.5 = 탈락" 명시 → LLM 하향 편향 → candidates 5개 중 4개 탈락 → synthesis 자체 거부. Change 2: evidence_extract.txt - relevance 스케일 재정의: "탈락" 라벨 제거 - 0.3~0.5 약한 부분 연관 / 0.5~0.7 명확한 부분 연관 구간 세분화 - "directly answer" → "no connection at all" 완화 Change 3: search_synthesis.txt - refused 조건: "직접 답 아니면 거부" → "완전 무관일 때만 거부" - "covered only" 제한: partial evidence로 missing part 추론 금지 - supplement evidence weight 지시 추가 (보조 취급) Change 1: evidence_service.py - sparse evidence supplement: kept 1~2 + candidates 3+ → rule-only 보충 - substring + critical token 필터 (recall+precision) - critical token: 길이 3자+ OR 의미 기반 suffix (조건/기준/처벌 등) - EvidenceItem.source 필드 ("llm"\|"supplement"\|"rule_fallback") Change 4: search.py - defense_log["evidence"] 추가 (skip_reason, kept_count) synthesis_service.py - supplement evidence [n] (보충) 마킹 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 16:11:57 +09:00
Hyungi Ahn	b2306c3afd	feat(ask): Phase 3.5b guardrails — verifier + telemetry + grounding 강화 Phase 3.5a(classifier+refusal gate+grounding) 위에 4개 Item 추가: Item 0: ask_events telemetry 배선 - AskEvent ORM 모델 + record_ask_event() — ask_events INSERT 완성 - defense_layers에 input_snapshot(query, chunks, answer) 저장 - refused/normal 두 경로 모두 telemetry 호출 Item 3: evidence 간 numeric conflict detection - 동일 단위 다른 숫자 → weak flag - "이상/이하/초과/미만" threshold 표현 → skip (FP 방지) Item 4: fabricated_number normalization 개선 - 단위 접미사 건/원 추가, 범위 표현(10~20%) 양쪽 추출 - bare number 2자리 이상만 (1자리 FP 제거) Item 1: exaone semantic verifier (판단권 잠금 배선) - verifier_service.py — 3s timeout, circuit breaker, severity 3단계 - direct_negation만 strong, numeric/intent→medium, 나머지→weak - verifier strong 단독 refuse 금지 — grounding과 교차 필수 - 6-tier re-gate (4라운드 리뷰 확정) - grounding strong 2+ OR max_score<0.2 → verifier skip Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 09:49:56 +09:00
Hyungi Ahn	a0e1717206	fix(grounding): citation marker [n] 을 fabricated_number 에서 제외 [1][2][4] 같은 citation 마커의 숫자가 evidence 에 없다고 판정되어 모든 정상 답변이 refuse(2+strong) 되는 critical bug. answer 에서 \[\d+\] 제거 후 숫자 추출. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 08:59:29 +09:00
Hyungi Ahn	06443947bf	feat(ask): Phase 3.5a guardrails (classifier + refusal gate + grounding + partial) 신규 파일: - classifier_service.py: exaone binary classifier (sufficient/insufficient) parallel with evidence, circuit breaker, timeout 5s - refusal_gate.py: multi-signal fusion (score + classifier) AND 조건, conservative fallback 3-tier (classifier 부재 시) - grounding_check.py: strong/weak flag 분리 strong: fabricated_number + intent_misalignment(important keywords) weak: uncited_claim + low_overlap + intent_misalignment(generic) re-gate: 2+ strong → refuse, 1 strong → partial - sentence_splitter.py: regex 기반 (Phase 3.5b KSS 업그레이드) - classifier.txt: exaone Y+ prompt (calibration examples 포함) - search_synthesis_partial.txt: partial answer 전용 프롬프트 - 102_ask_events.sql: /ask 관측 테이블 (completeness 3-분리 지표) - queries.yaml: Phase 3.5 smoke test 평가셋 10개 수정 파일: - search.py /ask: classifier parallel + refusal gate + grounding re-gate + defense_layers 로깅 + AskResponse completeness/aspects/confirmed_items - config.yaml: classifier model 섹션 (exaone3.5:7.8b GPU Ollama) - config.py: classifier optional 파싱 - AskAnswer.svelte: 4분기 렌더 (full/partial/insufficient/loading) - ask.ts: Completeness + ConfirmedItem 타입 P1 실측: exaone ternary 불안정 → binary gate 축소. partial은 grounding이 담당. 토론 9라운드 확정. plan: quiet-meandering-nova.md Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 08:49:11 +09:00
Hyungi Ahn	46ba9dd231	fix(digest/loader): raw SQL pgvector string 형태 파싱 지원 raw text() SQL + asyncpg 조합에서는 pgvector Vector(1024) 컬럼이 '[0.087,0.305,...]' 형태의 string 으로 반환되며 numpy 변환이 실패함 (ORM 을 쓰면 type 등록되지만 raw SQL 은 안 됨). _to_numpy_embedding 에서 string 이면 json.loads 로 먼저 파싱한 뒤 numpy.asarray. 변환 실패 시 None 반환 (해당 doc 자동 drop). Phase 4 deploy 워커 첫 실행 검증 중 발견.	2026-04-09 08:00:43 +09:00
Hyungi Ahn	75a1919342	feat(digest): Phase 4 Global News Digest (cluster-level batch summarization) 7일 rolling window 뉴스를 country × topic 2-level로 묶어 매일 04:00 KST 배치 생성. search 파이프라인 미사용. documents → clustering → cluster-level LLM summarization → digest. 핵심 결정: - adaptive threshold (0.75/0.78/0.80) + EMA centroid (α=0.7) + time-decay (λ=ln(2)/3) - min_articles=3, max_topics=10/country, top-5 MMR diversity, ai_summary[:300] truncate - cluster-level LLM only, drop금지 fallback (topic_label="주요 뉴스 묶음" + top member ai_summary[:200]) - importance_score country별 0~1 normalize + raw_weight_sum 별도 보존, max(score, 0.01) floor - per-call timeout 25s + pipeline hard cap 600s - DELETE+INSERT idempotent (UNIQUE digest_date), AIClient._call_chat 직접 호출 (client.py 수정 없음) 신규: - migrations/101_global_digests.sql (2테이블 정규화) - app/models/digest.py (GlobalDigest + DigestTopic ORM) - app/services/digest/{loader,clustering,selection,summarizer,pipeline}.py - app/workers/digest_worker.py (PIPELINE_HARD_CAP + CLI 진입점) - app/api/digest.py (/latest, ?date\|country, /regenerate, inline Pydantic) - app/prompts/digest_topic.txt (JSON-only + 절대 금지 블록) main.py 4줄: import 2 + scheduler add_job 1 + include_router 1. plan: ~/.claude/plans/quiet-herding-tome.md	2026-04-09 07:45:11 +09:00
Hyungi Ahn	64322e4f6f	feat(search): Phase 3 Ask pipeline (evidence + synthesis + /api/search/ask) - llm_gate.py: MLX single-inference 전역 semaphore (analyzer/evidence/synthesis 공유) - search_pipeline.py: run_search() 추출, /search 와 /ask 단일 진실 소스 - evidence_service.py: Rule + LLM span select (EV-A), doc-group ordering, span too-short 자동 확장(<80자→120자), fallback 은 query 중심 window 강제 - synthesis_service.py: grounded answer + citation 검증 + LRU 캐시(1h/300), refused 처리, span_text ONLY 룰 (full_snippet 프롬프트 금지) - /api/search/ask: 15s timeout, 9가지 failure mode + 한국어 no_results_reason - rerank_service: rerank_score raw 보존 (display drift 방지) - query_analyzer: _get_llm_semaphore 를 llm_gate.get_mlx_gate 로 위임 - prompts: evidence_extract.txt, search_synthesis.txt (JSON-only, example 포함) config.yaml / docker / ollama / infra_inventory 변경 없음. plan: ~/.claude/plans/quiet-meandering-nova.md Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 07:34:08 +09:00
Hyungi Ahn	01f144ab25	fix(search): soft_filter boost 약화 (domain 0.01, doctype 제거) ## 1차 측정 결과 (Phase 2.3 초안) \| metric \| Phase 2.2 narrow \| Phase 2.3 (boost 0.03+0.02) \| Δ \| \|---\|---\|---\|---\| \| Recall@10 \| 0.737 \| 0.721 \| -0.016 ❌ \| \| NDCG@10 \| 0.668 \| 0.661 \| -0.007 \| \| exact_keyword NDCG \| 0.96 \| 0.93 \| -0.03 ❌ \| ## 진단 - 같은 도메인 doc이 무차별 boost → exact match doc 상대 우위 손상 - document_type 매칭은 ai_domain/match_reason 휴리스틱 → false positive 다수 ## 수정 - SOFT_FILTER_DOMAIN_BOOST 0.03 → 0.01 - document_type 매칭 로직 제거 - domain 매칭을 "정확 일치 또는 path 포함"으로 좁힘 - max cap 0.05 유지 ## Phase 2.3 위치 - 현재 평가셋(v0.1)에는 filter 쿼리 없음 → 효과 직접 측정 불가 - Phase 2.4에서 queries_v0.2.yaml 확장 후 재측정 예정 - 이 커밋의 목적은 "회귀 방지" — boost가 해를 끼치지 않도록만 (+ CLAUDE.md 동기화: infra_inventory.md 참조 / soft lock 섹션 포함) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 15:40:04 +09:00
Hyungi Ahn	e91c199537	feat(search): Phase 2.3 soft_filter boost (domain/doctype) ## 변경 ### fusion_service.py - SOFT_FILTER_MAX_BOOST = 0.05 (plan 영구 룰, RRF score 왜곡 방지) - SOFT_FILTER_DOMAIN_BOOST = 0.03, SOFT_FILTER_DOCTYPE_BOOST = 0.02 - apply_soft_filter_boost(results, soft_filters) → int - ai_domain 부분 문자열 매칭 (path 포함 e.g. "Industrial_Safety/Legislation") - document_type 토큰 매칭 (ai_domain + match_reason 헤이스택) - 상한선 0.05 강제 - boost 후 score 기준 재정렬 ### api/search.py - fusion 직후 호출 조건: - analyzer_cache_hit == True - analyzer_tier != "ignore" (confidence >= 0.5) - query_analysis.soft_filters 존재 - notes에 "soft_filter_boost applied=N" 기록 ## Phase 2.3 범위 - hard_filter SQL WHERE는 현재 평가셋에 명시 필터 쿼리 없어 효과 측정 불가 → Phase 2.4 v0.2 확장 후 - document_type의 file_format 직접 매칭은 의미론적 mismatch → 제외 - hard_filter는 Phase 2.4 이후 iteration Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 15:30:23 +09:00
Hyungi Ahn	21a78fbbf0	fix(search): semaphore로 LLM concurrency=1 강제 + run_eval analyze 파라미터 추가 ## 배경 1차 Phase 2.2 eval에서 발견: 23개 쿼리가 순차 호출되지만 각 request의 background analyzer task는 모두 동시에 MLX에 요청 날림 → MLX single-inference 서버 queue 폭발 → 22개가 15초 timeout. cache 채워지지 않음. ## 수정 ### query_analyzer.py - LLM_CONCURRENCY = 1 상수 추가 - _LLM_SEMAPHORE: lazy init asyncio.Semaphore (event loop 바인딩) - analyze() 내부: semaphore → timeout(실제 LLM 호출만) 이중 래핑 semaphore 대기 시간이 timeout에 포함되지 않도록 주의 ### run_eval.py - --analyze true\|false 파라미터 추가 (Phase 2.1+ 측정용) - call_search / evaluate 시그니처에 analyze 전달 ## 기대 효과 - prewarm/background/동기 호출 모두 1개씩 순차 MLX 호출 - 23개 대기 시 최악 230초 소요, 단 모두 성공해서 cache 채움 - MLX 서버 부하 안정 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 15:12:13 +09:00
Hyungi Ahn	f5c3dea833	feat(search): Phase 2.2 multilingual vector retrieval + query embed cache ## 변경 사항 ### app/services/search/retrieval_service.py - _QUERY_EMBED_CACHE: 모듈 레벨 LRU (maxsize=500, TTL=24h) - sha256(text\|bge-m3) 키. fixed query 재호출 시 vector_ms 절반 감소. - _get_query_embedding(client, text): cache-first helper. 기존 search_vector()도 이를 사용하도록 교체. - search_vector_multilingual(session, normalized_queries, limit): 신규 - normalized_queries 각 언어별 embedding 병렬 생성 (cache hit 활용) - 각 embedding에 대해 docs+chunks hybrid retrieval 병렬 - weight 기반 score 누적 merge (lang_weight 이미 1.0 정규화) - match_reason에 "ml_ko+en" 등 언어 병합 표시 - 호출 조건 문서화 — cache hit + analyzer_tier=analyzed 시에만 ### app/api/search.py - use_multilingual 결정 로직: - analyzer_cache_hit == True - analyzer_tier == "analyzed" (confidence >= 0.85) - normalized_queries >= 2 (다언어 버전 실제 존재) - 위 3조건 모두 만족할 때만 search_vector_multilingual 호출 - 그 외 모든 경로 (cache miss, low conf, single lang)는 기존 search_vector 그대로 사용 (회귀 0 보장) - notes에 `multilingual langs=[ko, en, ...]` 기록 ## 기대 효과 - crosslingual_ko_en NDCG 0.53 → 0.65+ (Phase 2 목표) - 기존 경로 완전 불변 → 회귀 0 - Phase 2.1 async 구조와 결합해 "cache hit일 때만 활성" 조건 준수 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 14:59:20 +09:00
Hyungi Ahn	1e80d4c613	fix(search): query_analyzer가 setup_logger 사용하도록 수정 기본 logging.getLogger()는 WARNING 레벨이라 prewarm/analyze 진행 로그가 stdout/파일 어디에도 안 찍혔음. setup_logger("query_analyzer")로 교체하면 logs/query_analyzer.log + stdout 둘 다 INFO 레벨 출력. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 14:52:46 +09:00
Hyungi Ahn	324537cbc8	fix(search): LLM_TIMEOUT_MS 5000 → 15000 (실측 반영) 축소 프롬프트 재측정: - prompt_tok 2406 → 802 (1/3 감소 성공) - latency 10.5초 → 7~11초 (generation이 dominant) - max_tokens 내려도 무효 (자연 EOS ~289 tok) 5000ms로는 여전히 모든 prewarm timeout. async 구조이므로 background에서 15초 기다려도 retrieval 경로 영향 0. 추가: prewarm delay_between 0.5 → 0.2 (총 prewarm 시간 단축). Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 14:50:56 +09:00
Hyungi Ahn	c81b728ddf	refactor(search): Phase 2.1 QueryAnalyzer를 async-only 구조로 전환 ## 철학 수정 (실측 기반) gemma-4-26b-a4b-it-8bit MLX 실측: - full query_analyze.txt (prompt_tok=2406) → 10.5초 - max_tokens 축소 무효 (모델 자연 EOS 조기 종료) - 쿼리 길이 영향 거의 없음 (프롬프트 자체가 지배) → 800ms timeout 가정은 13배 초과. 동기 호출 완전히 불가능. 따라서 QueryAnalyzer는 "즉시 실행하는 기능" → "미리 준비해두는 기능"으로 포지셔닝 변경. retrieval 경로에서 analyzer 동기 호출 금지. ## 구조 ``` query → retrieval (항상 즉시) ↘ trigger_background_analysis (fire-and-forget) → analyze() [5초+] → cache 저장 다음 호출 (동일 쿼리) → get_cached() 히트 → Phase 2 파이프라인 활성화 ``` ## 변경 사항 ### app/prompts/query_analyze.txt - 5971 chars → 2403 chars (40%) - 예시 4개 → 1개, 규칙 설명 축약 - 목표 prompt_tok 2406 → ~600 (1/4) ### app/services/search/query_analyzer.py - LLM_TIMEOUT_MS 800 → 5000 (background이므로 여유 OK) - PROMPT_VERSION v1 → v2 (cache auto-invalidate) - get_cached / set_cached 유지 — retrieval 경로 O(1) 조회 - trigger_background_analysis(query) 신규 — 동기 함수, 즉시 반환, task 생성 - _PENDING set으로 task 참조 유지 (premature GC 방지) - _INFLIGHT set으로 동일 쿼리 중복 실행 방지 - prewarm_analyzer() 신규 — startup에서 15~20 쿼리 미리 분석 - DEFAULT_PREWARM_QUERIES: 평가셋 fixed 7 + 법령 3 + 뉴스 2 + 실무 3 ### app/api/search.py - 기존 sync analyzer 호출 완전 제거 - analyze=True → get_cached(q) 조회만 O(1) - hit: query_analysis 활용 (Phase 2.2/2.3 파이프라인 조건부 활성화) - miss: trigger_background_analysis(q) + 기존 경로 그대로 - timing["analyze_ms"] 제거 (경로에 LLM 호출 없음) - notes에 analyzer cache_hit/cache_miss 상태 기록 - debug.query_analysis는 cache hit 시에만 채워짐 ### app/main.py - lifespan startup에 prewarm_analyzer() background task 추가 - 논블로킹 — 앱 시작 막지 않음 - delay_between=0.5로 MLX 부하 완화 ## 기대 효과 - cold 요청 latency: 기존 Phase 1.3 그대로 (회귀 0) - warm 요청 + prewarmed: cache hit → query_analysis 활용 - 예상 cache hit rate: 초기 70~80% (prewarm) + 사용 누적 - Phase 2.2/2.3 multilingual/filter 기능은 cache hit 시에만 동작 ## 참조 - memory: feedback_analyzer_async_only.md (영구 룰 저장) - plan: ~/.claude/plans/zesty-painting-kahan.md ("철학 수정" 섹션) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 14:47:09 +09:00
Hyungi Ahn	d28ef2fca0	feat(search): Phase 2.1 QueryAnalyzer + LRU cache + confidence 3-tier QueryAnalyzer 스켈레톤 구현. 자연어 쿼리를 구조화된 분석 결과로 변환. Phase 2.1은 debug 노출 + tier 판정까지만 — retrieval 경로는 변경 X (회귀 0 목표). multilingual/filter 실제 분기는 2.2/2.3에서 이 분석 결과를 활용. app/prompts/query_analyze.txt - gemma-4 JSON-only 응답 규약 - intent/query_type/domain_hint/language_scope/normalized_queries/ hard_filters/soft_filters/expanded_terms/analyzer_confidence - 4가지 예시 (자연어 법령, 정확 조항, 뉴스 다국어, 의미 불명) - classify.txt 구조 참고 app/services/search/query_analyzer.py - LLM_TIMEOUT_MS=800 (MLX 멈춤 시 검색 전체 멈춤 방지, 절대 늘리지 말 것) - MAX_NORMALIZED_QUERIES=3 (multilingual explosion 방지) - in-memory FIFO LRU (maxsize=1000, TTL=86400) - cache key = sha256(query + PROMPT_VERSION + primary.model) → 모델/프롬프트 변경 시 자동 invalidate - 저신뢰(<0.5) / 실패 결과 캐시 금지 - weight 합=1.0 정규화 (fusion 왜곡 방지) - 실패 시 analyzer_confidence=float 0.0 (None 금지, TypeError 방지) app/api/search.py - ?analyze=true\|false 파라미터 (default False — 회귀 영향 0) - query_analyzer.analyze() 호출 + timing["analyze_ms"] 기록 - _analyzer_tier(conf) → "ignore" \| "original_fallback" \| "merge" \| "analyzed" (tier 게이트: 0.5 / 0.7 / 0.85) - debug.query_analysis 필드 채움 + notes에 tier/fallback_reason - logger 라인에 analyzer conf/tier 병기 app/services/search_telemetry.py - record_search_event(analyzer_confidence=None) 추가 - base_ctx에 analyzer_confidence 기록 (다층 confidence 시드) - result confidence와 분리된 축 — Phase 2.2+에서 failure 분류에 활용 검증: - python3 -m py_compile 통과 - 런타임 검증은 GPU 재배포 후 수행 (fixed 7 query + 평가셋) 참조: ~/.claude/plans/zesty-painting-kahan.md (Phase 2.1 섹션) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 14:21:37 +09:00
Hyungi Ahn	2ca67dacea	feat(search): Phase 1.2-G hybrid retrieval (doc + chunks) Phase 1.2-C 평가셋: chunks-only Recall 0.788 → 0.660 catastrophic. ivfflat probes 1 → 10 → 20 진단 결과 잔여 차이는 chunks vs docs embedding의 본질적 차이 (segment 매칭 vs 전체 본문 평균). 해결: doc + chunks hybrid retrieval (정석). 신규 구조: - search_vector(): 두 SQL을 asyncio.gather로 병렬 호출 - _search_vector_docs(): documents.embedding cosine top N (recall robust) - _search_vector_chunks(): document_chunks.embedding window partition (doc당 top 2 chunks, ivfflat top inner_k 후 ROW_NUMBER PARTITION) - _merge_doc_and_chunk_vectors(): 가중치 + dedup - chunk score * 1.2 (segment 매칭 더 정확) - doc score * 1.0 (recall 보완) - doc_id 기준 dedup, chunks 우선 데이터 흐름: 1. query embedding 1번 (bge-m3) 2. asyncio.gather([_docs_call(), _chunks_call()]) 3. _merge_doc_and_chunk_vectors → list[SearchResult] 4. compress_chunks_to_docs (그대로 사용) 5. fusion (그대로) 6. (Phase 1.3) chunks_by_doc 회수 → reranker 검증 게이트 (회복 목표): - Recall@10 ≥ 0.75 (baseline 0.788 - 0.04 이내) - unique_docs per query ≥ 8 - natural_language_ko Recall ≥ 0.65 - latency p95 < 250ms	2026-04-08 13:02:23 +09:00
Hyungi Ahn	f4f9de4402	fix(search): Phase 1.2-C doc-level aggregation으로 다양성 회복 Phase 1.2-C 평가셋: Recall 0.788 → 0.531, natural_language 0.73 → 0.07. 진단: 단순 chunk top-N(limit5=25)으로 raw chunks 가져왔는데 같은 doc의 여러 chunks가 상위에 몰림 → unique doc 다양성 붕괴. warm test debug: 'chunks raw=16 compressed=5 unique_docs=10' 해결 (사용자 추천 C): Window function ROW_NUMBER() PARTITION BY doc_id로 doc당 top 2 chunks만 반환. SQL 흐름: 1. inner CTE topk: ivfflat 인덱스로 top inner_k chunks 빠르게 (inner_k = max(limit10, 200)) 2. ranked CTE: PARTITION BY doc_id ORDER BY dist ROW_NUMBER 3. outer: rn <= 2 (doc당 max 2 chunks) + JOIN documents 4. limit = limit * 4 (chunks 단위, ~limit*2 unique docs) reranker 호환: doc당 max 2 chunks 그대로 반환 → chunks_by_doc 보존 compress_chunks_to_docs는 그대로 동작 (best chunk per doc) Phase 1.3 reranker가 chunks_by_doc에서 raw chunks 회수 가능 핵심 원칙: vector retrieval은 chunk로 찾고 doc으로 선택해야 한다.	2026-04-08 12:47:22 +09:00
Hyungi Ahn	76e723cdb1	feat(search): Phase 1.3 TEI reranker 통합 (코드 골격) 데이터 흐름 원칙: fusion=doc 기준 / reranker=chunk 기준 — 절대 섞지 말 것. 신규/수정: - ai/client.py: rerank() 메서드 추가 (TEI POST /rerank API) - services/search/rerank_service.py: - rerank_chunks() — asyncio.Semaphore(2) + 5s soft timeout + RRF fallback - _make_snippet/_extract_window — title + query 중심 200~400 토큰 (keyword 매치 없으면 첫 800자 fallback) - apply_diversity() — max_per_doc=2, top score>=0.90 unlimited - warmup_reranker() — 10회 retry + 3초 간격 (TEI 모델 로딩 대기) - MAX_RERANK_INPUT=200, MAX_CHUNKS_PER_DOC=2 hard cap - services/search_telemetry.py: compute_confidence_reranked() — sigmoid score 임계값 - api/search.py: - ?rerank=true\|false 파라미터 (기본 true, hybrid 모드만) - 흐름: fused_docs(limit*5) → chunks_by_doc 회수 → rerank_chunks → apply_diversity - text-only 매치 doc은 doc 자체를 chunk처럼 wrap (fallback) - rerank 활성 시 confidence는 reranker score 기반 - tests/search_eval/run_eval.py: --rerank true\|false 플래그 GPU 적용 보류: - TEI 컨테이너 추가 (docker-compose.yml) — 별도 작업 - config.yaml rerank.endpoint 갱신 — GPU 직접 (commit 없음) - 재인덱싱 완료 후 build + warmup + 평가셋 측정	2026-04-08 12:41:47 +09:00
Hyungi Ahn	b80116243f	feat(search): Phase 1.2-C chunks 기반 vector retrieval + raw chunks 보존 retrieval_service.search_vector를 documents.embedding → document_chunks.embedding로 전환. fetch_limit = limit*5로 raw chunks를 넓게 가져온 후 doc 기준 압축. 신규: compress_chunks_to_docs(chunks, limit) → (doc_results, chunks_by_doc) - doc_id 별 best score chunk만 doc_results (fusion 입력) - 모든 raw chunks는 chunks_by_doc dict에 보존 (Phase 1.3 reranker용) - '같은 doc 중복으로 RRF가 false boost' 방지 SearchResult: chunk_id / chunk_index / section_title optional 필드 추가. - text 검색 결과는 None (doc-level) - vector 검색 결과는 채워짐 (chunk-level) search.py 흐름: 1. raw_chunks = await search_vector(...) 2. vector_results, chunks_by_doc = compress_chunks_to_docs(raw_chunks, limit) 3. fusion(text_results, vector_results) — doc 기준 4. (Phase 1.3) chunks_by_doc → reranker — chunk 기준 debug notes: raw=N compressed=M unique_docs=K로 흐름 검증. 데이터 의존: 재인덱싱(reindex_all_chunks.py 진행 중) 완료 후 평가셋으로 검증.	2026-04-08 12:36:47 +09:00
Hyungi Ahn	f9af8dd355	fix(search): trigram threshold 0.3 → 0.15 (set_limit) Phase 1.2-B 평가셋 결과 recall 0.788 → 0.750 회귀. 원인: trigram default threshold 0.3이 multi-token 쿼리에서 너무 엄격. 예: '이란 미국 전쟁 글로벌 반응' 같은 5단어 한국어 뉴스 쿼리는 title/ai_summary trigram 매칭이 거의 안 됨. 해결: search_text 시작 시 set_limit(0.15) 호출. - trigram 매칭 더 관대 (recall ↑) - precision은 ORDER BY similarity 가중 합산이 보정 - p95 latency 169ms 여유 충분 (목표 500ms)	2026-04-08 11:58:41 +09:00
Hyungi Ahn	ca3e1952d2	fix(search): trigram % operator escape 수정 (%% → %) SQLAlchemy text() + asyncpg dialect에서 trigram operator 위치의 %%는 unescape 안 되어 'text %% unknown' 에러 발생. 단일 %로 변경. ILIKE의 string literal 안의 %%는 PostgreSQL에서 두 wildcard로 동작했으나, operator 위치는 escape 처리 경로가 다름.	2026-04-08 11:53:24 +09:00
Hyungi Ahn	fab3c81a0f	fix(search): Phase 1.2-B UNION 분해로 trigram/FTS 인덱스 강제 활용 EXPLAIN 진단: OR 통합 WHERE는 PostgreSQL planner가 인덱스 결합 못 함 (small table 765 docs라 Seq Scan 선택). Filter 524ms. 해결: WHERE OR을 CTE candidates UNION으로 분해. - title trigram → idx_documents_title_trgm (0.5ms) - ai_summary trigram → idx_documents_ai_summary_trgm (length>0 매치 추가) - FTS @@ → idx_documents_fts_full (0.05ms) EXPLAIN 측정: 525ms → 26ms (95% 감소). 본 SELECT(similarity 가중 합산 + ORDER BY) 추가하면 100~150ms 예상.	2026-04-08 11:51:06 +09:00
Hyungi Ahn	22117a2a6d	feat(search): Phase 1.2-AB — migration 016 + trigram retrieval migration 016: documents FTS 확장 + trigram 인덱스 (1.5초 빌드) - idx_documents_fts_full — title+ai_tags+ai_summary+user_note+extracted_text 통합 FTS - idx_documents_title_trgm — title 단독 trigram - idx_documents_extracted_text_trgm — 본문 trigram (NULL 제외) - idx_documents_ai_summary_trgm — AI 요약 trigram - CONCURRENTLY 불필요 (765 docs / 6.5MB) retrieval_service.search_text: ILIKE 완전 제거 → trigram % + similarity() - WHERE: title %, ai_summary %, FTS @@ (모두 인덱스 활용) - ORDER BY: 5컬럼 similarity 가중 합산 + ts_rank * 2.0 - 가중치 그대로 (title 3.0 / tags 2.5 / note 2.0 / summary 1.5 / extracted 1.0) - threshold default 0.3 (필요 시 set_limit으로 조정) 목표: text_ms 470ms → 100~200ms (ILIKE 풀스캔 제거 효과)	2026-04-07 14:36:22 +09:00
Hyungi Ahn	a4eb71d368	feat(search): Phase 1.1a 모듈 분리 — services/search/ 디렉토리 검색 로직을 services/search/* 모듈로 분리. trigram 도입은 Phase 1.2 인덱스와 함께. 신규: - services/search/{__init__,retrieval_service,rerank_service,query_analyzer,evidence_service,synthesis_service}.py - retrieval_service는 search_text/search_vector 이전 (ILIKE 동작 그대로) - 나머지는 Phase 1.3/2/3 placeholder 이동: - services/search_fusion.py → services/search/fusion_service.py (R100) 수정: - api/search.py — thin orchestrator로 축소 (251줄 → 178줄) 동작 변경 없음 — 구조만 분리. 회귀 검증 후 Phase 1.2 진입.	2026-04-07 13:46:04 +09:00
Hyungi Ahn	161ff18a31	feat(search): Phase 0.5 RRF fusion + 강한 신호 boost 기존 weighted-sum merge를 Reciprocal Rank Fusion으로 교체. 정확 키워드 매치에서 RRF가 평탄화되는 문제는 boost로 보완. 신규 모듈 app/services/search_fusion.py: - FusionStrategy ABC - LegacyWeightedSum : 기존 _merge_results 동작 (A/B 비교용) - RRFOnly : 순수 RRF, k=60 - RRFWithBoost : RRF + title/tags/법령조문/high-text-score boost (default) - normalize_display_scores: SearchResult.score를 [0..1] 랭크 기반 정규화 (프론트엔드가 score*100을 % 표시하므로 RRF 원본 점수 노출 시 표시 깨짐) search.py: - ?fusion=legacy\|rrf\|rrf_boost 파라미터 (default rrf_boost) - _merge_results 제거 (LegacyWeightedSum에 흡수) - pre-fusion confidence: hybrid는 raw text/vector 신호로 계산 (fused score는 fusion 전략마다 스케일이 달라 일관 비교 불가) - timing에 fusion_ms 추가 - debug notes에 fusion 전략 표시 telemetry: - compute_confidence_hybrid(text_results, vector_results) 헬퍼 - record_search_event에 confidence override 파라미터 run_eval.py: - --fusion CLI 옵션, call_search 쿼리 파라미터에 전달 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-07 08:58:33 +09:00
Hyungi Ahn	70b27d4a51	fix(search): confidence 임계값 완화 + hybrid +vector boost 가산 baseline 평가셋 실행 시 'summary+vector' top_score 2.39가 임계값 2.5에 미달해 정답 쿼리(산업안전보건법 제6장)가 low_confidence로 잘못 잡힘. - 텍스트 매치 임계값 0.5씩 완화 (실측 분포 반영) - '+vector' 접미사가 있으면 hybrid 합성 매치이므로 confidence +0.10 가산 - 정답률 5/5 → 4/5 false-positive 1건 제거 기대 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-07 08:37:13 +09:00
Hyungi Ahn	50e6b5ad90	fix(search): confidence 휴리스틱 vector-only amplify 버그 수정 vector-only 매치(match_reason == 'vector')에서 raw 코사인 0.43이 0.6으로 잘못 amplify되어 low_confidence threshold(0.5)를 못 넘기던 문제. - vector-only 분기: amplify 제거, _cosine_to_confidence로 일관 환산 - _cosine_to_confidence: bge-m3 코사인 분포 (무관 텍스트 ~0.4) 반영 - 코사인 0.55 = threshold 경계(0.50), 0.45 미만은 명확히 low smoke test 결과 zzzqxywvkpqxnj1234 같은 무의미 쿼리(top cosine 0.43)가 low_confidence로 잡히지 않던 문제 해결. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-07 08:33:25 +09:00
Hyungi Ahn	f005922483	feat(search): Phase 0.3 검색 실패 자동 로깅 검색 실패 케이스를 자동 수집해 gold dataset 시드로 활용. wiggly-weaving-puppy 플랜 Phase 0.3 산출물. 자동 수집 트리거 (3가지): - result_count == 0 → no_result - confidence < 0.5 → low_confidence - 60초 내 동일 사용자 재쿼리 → user_reformulated (이전 쿼리 기록) confidence는 Phase 0.3 휴리스틱 (top score + match_reason). Phase 2 QueryAnalyzer 도입 후 LLM 기반으로 교체 예정. 구현: - migrations/015_search_failure_logs.sql: 테이블 + 3개 인덱스 - app/models/search_failure.py: ORM - app/services/search_telemetry.py: confidence 계산 + recent 트래커 + INSERT - app/api/search.py: BackgroundTasks로 dispatch (응답 latency 영향 X) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-07 08:29:12 +09:00

41 Commits