hyungi_document_server

Author	SHA1	Message	Date
hyungi	2d86683636	refactor(ai): AIClient PR-B — gate 누락 경로 봉인 + 공유 httpx + public classifier/verifier 코드리뷰 AIClient 정비 PR-B (#2 gate·#3 httpx·#4 public). #2 gate 구조 (call-site 컨벤션 — gate 는 caller-managed, AIClient self-gate 금지): · classify_worker consumer call_triage: gate 없이 Mac mini 직타하던 것 → acquire_mlx_gate(BACKGROUND). (drain 경로 call_deep_or_defer 는 맥북 deep 슬롯이라 mini gate 무관, 미적용.) · verifier_service: gate 없이 _request(verifier) 하던 것 → acquire_mlx_gate(FOREGROUND) + call_verifier. classifier/evidence 와 동일 gate 공유로 thundering-herd(22-timeout 사고) 방어. ★재진입 안전 검증: AIClient 메서드 내부 self-gate 0(전부 call-site) + evidence/classifier 는 이미 독립 gate 보유 + api/search 오케스트레이터 gate 미보유 → double-acquire 데드락 불가. #4 public 메서드: call_classifier/call_verifier 추가 → classifier/verifier_service 의 private _request 직접호출 봉인(egress 가드 일관 적용). gate 는 caller-managed 유지(call_primary 와 동일 계약). #3 공유 httpx: 호출마다 AsyncClient 생성(30+ 사이트)을 _get_shared_http() 단일 풀로 — keep-alive 재사용. 이벤트루프 바인딩이라 루프 변경(테스트) 시 재생성, close() 는 no-op. py_compile PASS. (잔여 #4: query_analyzer/digest/backends 의 _request·_call_chat 직접호출은 gated 라 안전, 후속 sweep.) Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-26 20:07:30 +09:00
hyungi	f66b6e2f17	feat(safety): C-1 freshness — law_365d 폐기 + incident(재해사례) 흡수 ★ranking 변경(의도 기록): freshness soft multiplier(floor 0.7) 정책 갱신. - law_365d 폐기: 법령 현행성은 version_status(B-1 버전체인 current/superseded)가 처리. age-decay 는 current 법령을 부당 강등 → law_monitor/law 비적용으로 전환. - incident 흡수(1행): material_type='incident'(KOSHA 재해사례/사망사고) → news_90d. 시간 민감(최근 재해 가중), source_channel 무관(업로드 incident 포함). - _DocMeta/_fetch_meta 에 material_type 추가(getattr 로 mock-safe). 테스트: law 3건(policy/decay/apply) 비적용 전환 + incident 2건 신규. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-20 06:25:31 +00:00
hyungi	3729083dc0	perf(search): synthesis 캐시 TTL enforce + chunk news_source DB 필터 (R10) - synthesis_service: _CACHE 가 ts 없이 result 만 저장해 CACHE_TTL(1h) 미적용 → 원문 수정돼도 CACHE_MAXSIZE 찰 때까지 stale answer 반환. (ts, result) tuple + get_cached 에서 만료 pop (query_rewriter expire_at 정본 복제). - chunk_worker: 문서마다 news_sources 전량 로드 후 Python prefix 루프 → DB 필터 푸시다운 ((name==source_name) \| startswith(source_name+' ')). split[0]==source_name 과 동치, autoescape. 검증: py_compile 통과. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-16 14:24:03 +09:00
hyungi	d58565ef38	refactor(search): Phase 2A cand 슬러그·테이블 제거 (R13) Phase 2A 임베딩 후보(me5_large_inst·snowflake_l_v2·qwen06·qwen4·qwen4m) no-go 종결 (2026-06-12, 후보 전부 -0.03~-0.04) + phase2a_cand_backfill 워커 dormant(미스케줄·미import). - retrieval_service.CANDIDATE_BACKEND_MAP: 5 cand 엔트리 제거(baseline 만 잔존) — read-path 슬러그를 먼저 빼야 embedding_backend=cand_X /search 가 dropped 테이블 읽어 500 안 남. - api.search allowed 하드코딩 리스트 → ["baseline"] (R12 search-error-allowed dangling 동반 제거). - phase2a_cand_backfill.py 삭제(dead code, 드롭될 테이블 참조 — R12 config-bypass 동반 해소). - 마이그 360: cand 10테이블 DROP TABLE IF EXISTS(멱등, 환경별 존재차 흡수). 검증: py_compile 통과, 슬러그 잔존 참조 0. migration txn 제어문 없음. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-16 13:56:42 +09:00
hyungi	9c22337647	fix(search): 공유 AsyncSession 동시 쿼리 직렬화/세션 분리 + rewrite axis 누락 (R2) asyncio.gather 가 단일 AsyncSession 에 동시 execute 를 진입시켜 부하 의존적 'another operation in progress' 비결정 크래시 (정상 순차 경로에서만 검증돼 잠복). 사이트별 처방(균일 처방 회피): - search_with_rewrite._variant_retrieve: variant 마다 독립 async_session() fan-out (사용자 대면 — N variant 병렬 유지) - study explanation_rag / subject_note_rag: 백그라운드 prefetch 라 순차 직렬화 (rerank 도 순차 — DB 순차+rerank gather 분할은 _gather_* 4곳 침습이라 보류, 배경 작업의 rerank 병렬 이득 미미) 추가: rewrite(multi-query) 경로가 axis 필터(material_type/jurisdiction/year)를 single-query path 와 달리 조용히 누락 — search_with_rewrite 에 axis 인자 + _variant_retrieve 가 search_text/search_vector 에 전달. 검증: py_compile 통과. 동시 N variant 부하 테스트(staging)로 크래시 소거 확인 예정. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-16 13:18:17 +09:00
hyungi	151c1ee518	fix(search): text-leg 본문 스코어링 2000자 절단 + bge-m3 keep_alive 로 검색 latency 개선 코퍼스 ~52배 성장(코드 가정 765 → 실제 40k docs) 후 search_text ORDER BY 가 후보 행마다 extracted_text(평균 3.7KB·최대 1.6MB) 전체에 similarity() + to_tsvector() 재토큰화를 재연산 → broad/영어 쿼리 text_ms 최대 4960ms. scoring/match_reason 의 extracted_text 를 left(...,2000) 으로 절단(후보 CTE 의 FTS 매칭은 전체 본문 유지 → recall 불변). embed() 요청에 keep_alive:-1 추가로 ollama bge-m3 GPU 상주 → sparse 검색의 cold reload(~6s) 제거. 검증(snapshot freeze docs 43958/chunks 195671, 51 case, eval-version both): - graded NDCG 0.575 → 0.575 (±0.000, 전 카테고리 byte-identical) - Recall g>=2 0.691 / g>=3 0.739 불변, v0.1 NDCG/Recall/Top-3 불변 - latency p50 760→586ms (-23%) / p95 5230→832ms (-84%) - EXPLAIN 단일쿼리: V0 4917ms → left(2000) 285ms (17x) Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>	2026-06-14 04:34:24 +00:00
hyungi	8a3bea6b31	feat(safety): C-1 후속 — version_status decorate + facets 집계 검색 엔드포인트 wrapper decoration(run_search 코어 무접촉·ranking 무관): - version_status: 법령 결과(material_type=law)에 legal_meta.version_status 부착 (decorate_version_status, law 무결과 시 query skip). SearchResult.version_status 신설. - facets=true: top-K 결과 분류 축(material_type/jurisdiction/version_status) 분포 라벨 (compute_facets). 미요청=None(byte 불변). SearchResponse.facets 신설. - result_decorate.py 신설. 단위 4건. freshness incident 변경(law_365d 제거+흡수)=ranking 변경이라 별 슬라이스 defer. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-13 15:07:57 +09:00
hyungi	a6db6c999b	fix(safety): B-4 리뷰 반영 — 단일 술어 중앙화 + study/briefing 경로 커버 적대 리뷰(10에이전트) 확정 반영: - license_filter.py 신설 — restricted_exclude_sql(raw)/restricted_exclude_orm(ORM) 단일 정의. retrieval _license_sql·digest·briefing·study 풀이가 공유(드리프트 방지). - major: explanation_rag(study 문제 AI 풀이 RAG)에 술어 누락 → doc_meta 쿼리에 ORM 적용(valid_doc_ids 경유로 청크도 차단). briefing/loader 2쿼리에 누락 → digest 와 동일 술어 추가(news restricted 부재=방어적·경로 일관성). - blocker(low-impact): file_watcher changed-doc 경로 material/license 보정(merge 주입· license 부재 시만 — extract_meta clobber 회피, pre-B-4 적재분 동기화). - 테스트: 단일-source 검증 + ORM 구성 스모크 2건 추가. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-13 14:52:04 +09:00
hyungi	ed7740beee	feat(safety): B-4 PR①② — licensed_restricted 차단 술어 + watch 폴더 license 주입 PR① licensed_restricted 단일 술어(_license_sql) — retrieval 3-leg(text/vec-doc/ vec-chunk) + digest loader 공유. a안(U-2①): 색인 허용·구매자료 verbatim 을 RAG 증거/ digest 발행에서 구조적 제외. 술어=COALESCE(extract_meta->'license'->>'restricted', 'false')<>'true' (restricted 부재/false 미제외 → 기존 코퍼스 결과 불변). 개인 파일 열람 미차단. chunk leg 는 outer 의 documents JOIN(항상) 활용 post-rank(restricted 소수). PR② file_watcher _TARGET_AXIS 확장 — Books/Papers_Purchased=restricted / Manuals= non-restricted(사용자 결정) / KGS=law·KR·kogl. ingest 시 extract_meta.license deterministic 주입(classify material IS NULL 일 때만 제안·meta 미기록=보존). PR③(KGS 버전 flip)=별 슬라이스 deferred(파일 포맷 조사 선행). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-13 14:34:42 +09:00
hyungi	60cb48bbe4	fix(safety): C-1 fusion 재구성 시 분류 축 메타 전파 — 3 SearchResult 재생성 지점 fusion legacy(line 66)·RRF(122)·multi_query rewrite(pipeline 456)가 명시 필드 나열로 SearchResult 재구성 → material_type/jurisdiction/published_date 누락(필터는 정확, D-1 유형 표시만 None). 세 지점 동기화. 흉터: SearchResult 필드 추가 시 재구성 지점 전수 동기 필요. Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>	2026-06-13 13:03:27 +09:00
hyungi	79deae0644	feat(safety): C-1 검색 명시 필터 — material_type/jurisdiction/year 3-leg 동등 + documents exclude 해제 plan safety-library-1 C-1 (검색 핵심 경로 — byte 불변 invariant): - AxisFilter + _axis_sql 헬퍼: 미지정 시 모든 SQL 절 빈 문자열(run_eval 회귀 0 보장) - 3 leg 동등 적용: search_text(JOIN 후 WHERE) / _search_vector_docs(prod+cand) / _search_vector_chunks(★inner topk JOIN — R6 결정: outer post-filter면 ANN top-k 후 좁은 필터 후보 붕괴. 미지정 시 JOIN 없음=byte 불변) - SearchResult + material_type/jurisdiction/published_date (3 leg SELECT additive) - year = COALESCE(published_date, created_at) (freshness 동일 사상) - GET /documents/: material_type 지정 시 기본 exclude(news·law_monitor·note) 해제 - _axis_sql 단위 테스트 PASS (미지정=빈문자열+param0 / active 4절 / alias 분기) Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>	2026-06-13 12:59:18 +09:00
hyungi	c3d237766d	feat(search): Phase 2A E-1 — Qwen 후보 3종 백필 CLI + eval 디스패처 확장 (마이그 328~333) - 후보 섀도 테이블 6종(전부 vector 타입 — eval=exact scan 이라 인덱스 불요, halfvec 은 C-1 소관) - workers/phase2a_cand_backfill: resumable(NOT EXISTS)·배치 커밋·동결셋 한정(--doc/chunk-id-max), 문서/청크 입력 = production 경로 동일 구성 + plain - CANDIDATE_BACKEND_MAP += cand_qwen06/qwen4/qwen4m (embed_kind=ollama, 쿼리측 instruct prefix G-1 핀 문자열, qwen4m = dimensions 1024 MRL) - qwen4m 적재는 qwen4 에서 SQL 파생(subvector+l2_normalize) — 본 CLI 비대상 Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>	2026-06-12 08:29:53 +09:00
hyungi	235bbf9881	ops(pipeline): fair-share 번들 — drain classify 합류 + deep 맥미니 폴백 + mlx 게이트 동시 2 사용자 '공평하게 동일한 작업' 지적의 비대칭 잔재 2건 + 예고된 배칭 레버: - queue_drain --stage classify (use_deep: deep 슬롯 endpoint + triage sampling, 완료 시 enqueue_next_stage 로 embed/chunk/markdown 연쇄 — DAG 단절 방지) - deep_summary consumer = 맥북 우선, 불가 시 맥미니 primary 즉시 처리(동일 모델 — 강등 아님). drain 은 defer_on_deep_unavailable=True 로 기존 보류-종료 유지 - llm_gate capacity 일반화 (config pipeline.mlx_gate_concurrency, 기본 1, 운영 2) — 'MLX_CONCURRENCY=1 고정' 영구 룰의 전제(single-inference 서버) 소멸을 docstring 에 개정 박제 - analyze_events FK(users) CLI 컨텍스트 INSERT 실패 fix (models.user 명시 import) Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>	2026-06-12 06:56:02 +09:00
hyungi	eff2c3b7d3	ops(search): Qwen 27B 속도 반영 — synthesis 30s→120s, classifier 슬롯 모델 동승 교체 - config classifier 모델 gemma 잔존 = mlx 서버 Gemma 재로드(이중 적재) 위험 → Qwen 6bit 로 동승 교체 - synthesis 는 timeout 시 graceful skip 이 없는 답변 본체라 단독 상향 (classifier/query_analyzer/ rewriter 의 30s/15s 캡은 초과 시 skip·원쿼리 폴백으로 degrade — 관찰 후 별도 튜닝) - ask.backend.timeout_read_s 30→120 align Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>	2026-06-11 17:31:26 +09:00
hyungi	250896cdfa	feat(eid): deep 모드 = ReAct 자동검색 + 근거 카드 (ds-eid-ask-absorb P1) - deep 분기 _eid_chat_deep: 비생성 probe → phase:searching → agentic_ask_loop (tool_choice=auto 가 검색 여부 자율 판단, 검색 불요는 early-exit 대화) → final_answer + eid_sources envelope → DONE. heartbeat {phase:ping}(~10s, 프록시 idle timeout 차단) · mid-stream BackendUnavailable → in-stream error envelope · disconnect 시 task.cancel() + await(고아화·27B 점유 방지). - daily = call_stream 무변경(맥미니 대화). deep = 맥북 27B ReAct (tool calling 27B 전용, 맥미니 26B token-leak 미검증). 멀티턴 = 메시지 단독 처리(agentic_ask_loop query: str, history 2단계 백로그). - EidEvidenceCard.svelte 접이식 근거 카드(sources 순서번호·제목·점수) + 프론트 SSE 파서 확장(ping/searching/error/eid_sources) + 검색 중 표시 + 이력 보존. - 테스트: deep 4건(검색성/대화성/probe-503/mid-stream-error) + 기존 call_stream 회귀 daily 로 이전 = 29 passed. - 동반(이전 eid-chat 세션 미커밋): /api/eid/status endpoint + llm_gate.gate_status + test_eid_status (채팅 대기 UI 의 '대기 vs 고장' 구분용, 5 passed). Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>	2026-06-11 14:51:00 +09:00
hyungi	6a85087b83	feat(eid): 이드 persona substrate W2~W4 — DS compose·약점진단·egress 코드층 박탈 전 로컬 LLM 관통 '이드' persona substrate 의 Document Server 측 빌드(W2~W4). 설계 = PKM eid-persona-substrate(r1~r3 수렴) / impl = eid-persona-impl. W2 — compose + 표면 배선: - app/eid/compose.py: persona→rules→overlay→task 단일 system 문자열 + 정적 ROUTE_MAP (런타임 sniffing 아님) + rules 부재 fail-loud · persona 부재 quiet · overflow fail-loud. - 자유-prose 3 표면(react_ask·study_subject_note·study_question_explanation) 중복 정체성· generic 정책 trim + compose 배선(AIClient 에 additive system 파라미터). 도메인 calibration 보존. - STRICT JSON 기계류(briefing_comparative·digest_topic)는 persona-ZERO 동결(불변식 #3). - app/prompts/substrate/: persona(외부 컴파일 산출물 vendor) + rules(생성 가드 서브셋) + overlay 5. W3 — migration + 워커 + study_diagnosis: - migration 301~305: eid_* append-only 원장(약점/복습초안/회고) + approval_requests(가변 큐) + 일정 파생뷰 2. - app/workers/study_weakness.py: study_question_progress.pattern_state 집계로 약점 derived 산출 (LLM 0) + bounded tier(watch/review/focus). nightly cron. - study_diagnosis 표면: 최신 스냅샷을 코치 언어로 번역(약점 판정은 코드, LLM 은 블록 값만 인용). W4-1 — egress 코드층 박탈: - app/eid/ai.py EidAIClient: 이드 표면 = call_primary(내부 MLX) only. 외부 LLM fallback 경로 구조적 봉쇄(call_fallback raise · 자동 fallback 제거 · 외부 endpoint 차단). egress 워커는 분리 유지. load-bearing 정정 3(환경 grounding 강제, 설계 회귀 아님): - rules = 운영 ruleset 전체 → 생성 가드 서브셋(HTML 산출물 룰이 study task 와 충돌). - append-only = REVOKE → CREATE RULE DO INSTEAD NOTHING(단일 owner role 은 REVOKE 무효 + migration 검증기가 plpgsql BEGIN 거부) + actor/source_* NOT NULL 스탬프. - 이드 LLM 봉쇄 = path discipline → EidAIClient 구조화. 검증: eid 순수 단위테스트 30 통과 + py_compile + migration 검증기 모사 + egress 적대감사 COMPLETE. DB/LLM/httpx 의존 테스트(append-only RULE·EidAIClient·E2E)는 staging(Docker) 가동. W4-2 네트워크 belt 은 조건부 보류(코드층 1차 충분, P0-3② 원격 실측 후 hard-gate 시 승격). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-06-07 15:13:20 +09:00
hyungi	100aaa3b0c	feat(search): corpus_variant + exact_knn measurement dispatch (replace-diagnose c4+c5) PR-DocSrv-Hier-Replace-Diagnose-1 c4+c5. hier vs prehier(legacy) go/no-go 비파괴 측정 hook. - 측정 뷰 3종 (hier_measure_views.sql, additive/droppable): corpus_chunks_prehier (legacy+null-source 375 포함) / hier_sim_raw / hier_sim_clean (childless-tiny<30 제외, all-tiny doc 은 legacy fallback 정합). - retrieval_service: _resolve_corpus_variant + CORPUS_VARIANT_MAP + _VALID_CHUNKS_TABLE 3 뷰 추가 + exact_knn(SET LOCAL enable_indexscan/bitmapscan=off, eval 전용). chunk leg 만 영향 (doc-level + fts/trgm = documents 무관). baseline/None path 회귀 0. - search_pipeline.run_search + search.py: corpus_variant/exact_knn 전달, unknown→400, embedding_backend cand 와 동시 사용 금지(400). - run_eval: --corpus-variant + --exact-knn flag. - tests/test_corpus_variant.py 22 PASS (resolver/map/allowlist + SQL injection 거부). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-25 05:37:15 +00:00
hyungi	f940f50c60	feat(search): route retrieval through corpus_chunks view (Hier-Decomp-1 c2) baseline chunk 벡터검색을 document_chunks → corpus_chunks 뷰(in_corpus=true)로 rewire. in_corpus=false(비활성 hier leaf 등) 자동 제외 = 검색 오염 구조적 차단(B choke point). - retrieval_service: baseline chunks_table=corpus_chunks, _VALID_CHUNKS_TABLE 에 corpus_chunks 허용, snapshot_clause 조건 corpus_chunks 포함(eval snapshot 보존). candidate(cand_*) 경로 불변. documents 측(FTS+doc embedding) 무변경 — doc row 는 교체 무관. - models/chunk: 5 신규 컬럼 매핑(parent_id/level/node_type/is_leaf/in_corpus). server_default 로 기존 chunk_worker INSERT 무영향(legacy=in_corpus true/is_leaf false). - subject_note_rag/explanation_rag: RAG chunk 로드에 in_corpus=true 필터(교체 doc legacy 중복 방지). 게이트: G4b(rewire 불변) before/after IDENTICAL(현재 view==table no-op) / G4a(누출) synthetic in_corpus=false leaf 가 corpus_chunks 0건·document_chunks raw top(dist 0.0) 양방향 증명. /health 200. plan: hierarchical-decomposition-tiered-nesting-marmot.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 12:58:28 +00:00
hyungi	3b753f18d6	fix(search): Phase 2Q result dedup — apply_diversity unlimited path doc_id inflation 차단 PR-2Q-Search-Result-Dedup. measurement chain 의 마지막 cleanup. plan inline. root cause: apply_diversity 의 top_score ≥ 0.90 → unlimited path (diversity 제약 해제) → 같은 doc 의 N chunks 가 results 에 박제 → returned_ids 에 doc.id 중복 → 모든 graded metric inflation. multi-query 의 reranker score 가 자주 0.90+ → 다수 case 영향. 변경 (baseline path 영향 0, multi-query 전용 invariant): - app/services/search/search_pipeline.py: · _dedup_results_by_doc_id() helper 신규 (doc.id first-only, top score 보존) · search_with_rewrite() 의 rerank path 에 apply_diversity(top_score_threshold=2.0) 강제 + 후속 _dedup_results_by_doc_id 적용 · rerank=False path 도 _dedup_results_by_doc_id(unified_docs) 적용 - tests/test_query_rewriter.py — 신규 4 test (55/55 PASS) 🎯 진짜 측정값 (모든 dedup layer 적용, 51 case gemma): cold: NDCG 0.663 / Recall t≥2 0.729 / Recall t≥3 0.761 / p50 3692ms / p95 9992ms warm: NDCG 0.659 / Recall t≥2 0.721 / Recall t≥3 0.739 / p50 1588ms / p95 3514ms baseline (rewrite_backend=null): NDCG 0.644 / Recall t≥2 0.699 / Recall t≥3 0.761 / p50 378ms Dedup audit: gemma 0/51 ✓ 정상 (fix 작동, eval-dedup 42/51 → 0/51 회복) Δ vs baseline (진짜 multi-query 효과): NDCG +0.019 (cold) / +0.015 (warm) — sub-noise level Recall t≥2 +0.030 (cold) / +0.022 (warm) — 소량 개선 Recall t≥3 0.000 / -0.022 — 동등~약간 회귀 latency p50 +876% (cold) / +320% (warm) — major cost category: english/standards/mixed 약간 우세 / exam/korean 약간 회귀 measurement chain 정정 history: Phase 3 (`a41adb6`) 0.927 — chunk_id 중복 inflation Rerank-Fix (`b734fc5`) 0.876 — doc_id 중복 잔재 Eval-Dedup (`3553573`) 0.641 — eval layer 만 dedup Result-Dedup (본 PR) 0.663 — production + eval 둘 다 dedup ← 정확값 사용자 결정 필요 (3 path, json 박제): (a) rollback — marginal 개선이 latency cost 정당화 X (b) opt-in 유지 + PR-2Q-Cache-Prewarm 진입 (warm path 만 노출) (c) 1주 관찰 종료 후 (2026-05-31) 재결정 (현 상태 유지) 산출물: reports/v0_2_phase2q_result_dedup_gemma_{cold,warm}_2026-05-24.csv tests/search_eval/baselines/v0_2_phase2q_result_dedup_2026-05-24.json (요약 + 사용자 결정 옵션) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 04:48:50 +00:00
hyungi	b734fc54af	fix(search): Phase 2Q rerank payload — chunk_id dedup + cap 60 + TEI batch 64 (Apply prereq) plan pr-2q-rerank-payload-fix-resolute-haven.md. Phase 2Q multi-query path 의 reranker 413 Payload Too Large root cause = TEI 의 MAX_CLIENT_BATCH_SIZE=32 default (batch entries 한도) + multi-query 의 chunks 누적이 32 초과. MAX_BATCH_TOKENS 와 별개 (token sum 한도). 4 iteration 진단 history (json 박제): 1) cap 60 + dedup = 413 다수 (batch 54 > 32) 2) cap 30 + chunks_per_doc=1 = 413 0건 + NDCG 0.666 catastrophic (-0.261) 3) cap 60 + dedup + TEI 16384 only = 413 46건 (batch size 한도 별개) 4) cap 60 + dedup + TEI 16384/64 = 413 1건 + NDCG 0.876 (FINAL) 변경: - app/services/search/search_pipeline.py: · _dedup_chunks_by_id() 신규 helper — chunk_id (None 시 doc.id) 기준 first-only. variant 별 same chunk 중복 누적 회피, 첫 등장 variant 보존. · PHASE2Q_RERANK_INPUT_CAP=60 + PHASE2Q_CHUNKS_PER_DOC=2 신규 상수 (baseline MAX_RERANK_INPUT=200 / MAX_CHUNKS_PER_DOC=2 와 별도). · search_with_rewrite() merge 후 dedup wire-up + rerank input cap swap. - docker-compose.yml reranker env (사용자 결정, plan out-of-scope 정정): · MAX_BATCH_TOKENS 8192 → 16384 (token sum 한도) · MAX_CLIENT_BATCH_SIZE 32 → 64 신규 추가 (batch entries 한도 — root cause) · GPU VRAM free 6199MiB 충분 사전 verify. - tests/test_query_rewriter.py: _dedup_chunks_by_id 5 test + PHASE2Q_* constants test. 38/38 PASS (기존 32 + 신규 6). 측정 결과 (51 case, gemma backend, snapshot 25180/56526): vs Phase 3 (commit `a41adb6` NDCG 0.927, 413 다수): · NDCG 0.876 (-0.051 acceptable, plan 변수 격리 invariant 충족) · Recall t≥2 0.721 (+0.034 회복) · Recall t≥3 0.739 (+0.011) · latency p50 1421ms (-1336ms, -48%) / p95 3392ms (-6292ms, -65%) major win · 413 fallback 1/51 (98%↓ from 다수) + reranker batch error 0 · 카테고리 english_only +0.34 / standards -0.28 / exam -0.19 (Apply 후 분석 항목) closure gate PASS: · unit test 38/38, production smoke 413 0 · 51 case 413 < 5/51 (1건만) · latency 대폭 개선 · NDCG threshold 0.92 미달 단 plan invariant (production 평가 단일 변수) 충족 · Apply PR-2Q-Apply-Query-Rewrite-1 진입 ready 산출물: · reports/v0_2_phase2q_rerank_fix_2026-05-24.csv (raw) · tests/search_eval/baselines/v0_2_phase2q_rerank_fix_2026-05-24.json (4 iter 진단 박제) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 03:54:59 +00:00
hyungi	a41adb63a0	fix(search): Phase 2Q variants bug fix + Phase 3 3 measurement 박제 Phase 3 cold 측정 1차에서 NDCG 0.033 catastrophic 발견 — 모든 query 에 동일 variants 반환. root cause = _call_llm 이 user 메시지 1개에 prompt template 전체 박음. LLM 이 actual query 인식 못 함. fixture request_body 형식 (system=prompt / user=query) 과 mismatch. fixture-first invariant 위반. fix: - app/services/search/query_rewriter.py _call_llm — system/user 메시지 분리. fixture request_body 와 단일 source-of-truth. _render_prompt 는 [deprecated] 유지. - tests/test_query_rewriter.py — Phase 3 regression test 2: · _call_llm 가 system + user 분리 호출 verify (httpx.AsyncClient monkeypatch) · qwen backend = response_format 미사용 verify - 32/32 unit test PASS. Phase 3 측정 (fix 후 재측정, 51 case × 3 candidate × cold/warm = 5 run): - baseline_rebaseline (rewrite_backend=null): NDCG 0.659 = Phase 2A 0.659, diff 0.000 PASS - cand_multi_query_macmini cold: NDCG 0.927 (Δ +0.268), p50 2757ms / p95 9684ms - cand_multi_query_macmini warm: NDCG 0.927 동일, p50 998ms (cache hit -64%) - cand_multi_query_macbook cold: NDCG 0.919 (Δ +0.260), p50 3647ms / p95 5202ms - cand_multi_query_macbook warm: NDCG 0.919 동일, p50 873ms (cache hit -76%) 핵심 약점 회복 (gemma / qwen): - mixed 0.39 → 0.57 / 0.65 - korean_only 0.51 → 0.71 / 0.67 - standards 0.87 → 1.44 / 1.31 - exam 0.74 → 1.11 / 1.04 decision = H1 (both backends 유의미 net 개선). LLM 선택 = Phase 4 decision md 별 step. 산출물: - reports/v0_2_phase2q_*.csv (5 raw run_eval output) - tests/search_eval/baselines/v0_2_phase2q_results_2026-05-24.json (요약 + incident 박제) follow-up: - rerank 413 Payload Too Large 다수 관찰 (RRF fallback 작동, NDCG 영향 없음). Apply PR 전 별 chore — chunk dedup 또는 reranker batch cap 검토. - p95 cold 9684ms 매우 큼. production rollout 시 cache prewarm 정책 필수. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 00:51:56 +00:00
hyungi	ecd2350c15	feat(search): Phase 2Q Diagnose Phase 2 — multi-query retrieval fusion phase-2q-query-rewrite-diagnose.md v6 plan §5.5 + §7 Phase 2. Phase 1B `3e6866b` (scaffold + dispatcher) 위 retrieval 합성 wire-up. 신규: - search_pipeline._rrf_fuse_variants() — N variant ranked list RRF 합성. fusion_service.RRFOnly 알고리즘 동일 (k=60), 첫 등장 variant representative 보존. - search_pipeline.search_with_rewrite() — variant N 별 retrieval+fusion 후 unified RRF (cap 60) → reranker 1회 (query=원본 q) → diversity+freshness+display. · per-variant K = 50//3 = 16 (PHASE2Q_PRODUCTION_TOPK//N, A1 채택) · variant 별 retrieval asyncio.gather 병렬 · chunks_by_doc merge (variant 무관 unified reranker input) · production fusion_service.get_strategy() + rerank_chunks() 재사용 - 상수: PHASE2Q_PRODUCTION_TOPK=50, PHASE2Q_UNIFIED_CAP=60, PHASE2Q_RRF_K=60. 수정: - search_pipeline.run_search() — rewrite_backend param 추가. hybrid + cand_<slug> 시 search_with_rewrite() 위임. baseline/None 시 기존 single-query path 그대로 (invariant). - app/api/search.py — Phase 1B scaffold discard call 제거. run_search 에 rewrite_backend 전달. ValueError → 400 (unknown_rewrite_backend 우선 분기) / RuntimeError → 503 (rewrite_llm_unavailable). - tests/test_query_rewriter.py — Phase 2 test 9개 추가: · _rrf_fuse_variants 6 (single / overlap accumulation / representative / cap limit / empty / rank position) · search_pipeline import + run_search rewrite_backend default=None signature 1 · PHASE2Q_* constants 1 · DATABASE_URL dummy 주입 (api.search import → SQLAlchemy engine init 회피) 30/30 unit test PASS (Phase 1B 21 + Phase 2 9). baseline 회귀 0 invariant: - run_search(rewrite_backend=None) → 기존 path 100% 그대로 (분기 first line guard) - run_search(rewrite_backend=baseline) → 동일 - mode != hybrid → multi-query path 비활성 (text-only/vector-only/trgm 영향 0) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 22:41:50 +00:00
hyungi	3e6866b4ae	feat(search): Phase 2Q Diagnose Phase 1B — scaffold + dispatcher phase-2q-query-rewrite-diagnose.md v6 plan Phase 1 의 fixture 외 잔여. Phase 1A `446ba82` 위 dispatcher + cache + LLM call + API param + eval flag + 21 unit test. retrieval 합성 (search_with_rewrite) 은 Phase 2 별 commit. 신규: - app/services/search/query_rewriter.py — LLM_BACKEND_MAP + _resolve + cache + rewrite() · slug-based allowlist (no silent fallback), httpx 직접, Priority.FOREGROUND semaphore · sampling 박제 (gemma response_format json_object / qwen prompt rule only — Phase 0 inspect 9) · manual TTL cache (query_analyzer 패턴 1:1, sha256[:32] NFKC key, LLM_REWRITE_TIMEOUT_MS=15000) - tests/test_query_rewriter.py — 21 test PASS (resolve / cache key / parser / cache TTL / constants) 수정: - app/api/search.py — ?rewrite_backend= query param + 400 unknown / 503 unavailable. scaffold = call but discard variants (retrieval path 영향 0). Phase 2 에서 합성. - tests/search_eval/run_eval.py — --rewrite-backend flag + 4 hot spot wire-up. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 22:25:03 +00:00
hyungi	076c0e1802	feat(eval): Phase 2B Reranker Diagnose — dispatcher + gte 측정 + decision (H3 bge-reranker-v2-m3 유지) round-2-review-mighty-starfish.md v2.1 (Phase 2B Reranker Diagnose) plan 실행. Phase 2A 의 CANDIDATE_BACKEND_MAP 패턴 재사용 + RERANKER_BACKEND_MAP 신규. 코드 변경 (4 파일): - app/services/search/rerank_service.py: - RERANKER_BACKEND_MAP allowlist (baseline / cand_gte_ml_base, slug-based resolve) - _resolve_reranker(slug) → endpoint URL or None - _rerank_via_candidate_endpoint() — 후보 TEI POST /rerank - rerank_chunks() 시그니처에 reranker_backend + snapshot_*_id_max 추가 + dispatch log - app/services/search/search_pipeline.py: run_search() threading - app/api/search.py: reranker_backend Query parameter + 400 unknown_reranker_backend 에러 매핑 - tests/search_eval/run_eval.py: --reranker-backend flag + call_search/evaluate threading infra: - docker-compose.override.rerank-cand.yml: 3 후보 service (gte_ml_base / mxbai_large / bge_v2_gemma_2b), profile 'rerank-cand' 격리, restart=unless-stopped 측정 산출물 (51 case, scored=46, failure=5): - reports/v0_2_phase2b_baseline_snapshot_2026-05-23.csv (NDCG 0.659, Phase 2A 와 일치 = 재현성 PASS) - reports/v0_2_phase2b_gte_ml_base_2026-05-23.csv - tests/search_eval/baselines/v0_2_phase2b_{baseline_snapshot,gte_ml_base}_2026-05-23.json - reports/phase_2b_reranker_decision_2026-05-23.md - tests/fixtures/tei_rerank_response.json (G0-1 한국어+영어 mixed sample sanity PASS) 후보 TEI 1.7 호환성 (Phase 1 smoke gate): - cand_gte_ml_base : ✅ PASS (xlm-roberta-based, TEI 호환) - cand_mxbai_large : ❌ deberta-v2 미지원 → Phase 2B-Extended (sentence-transformers wrapper) - cand_bge_v2_gemma_2b : ❌ LLM-based reranker, 1_Pooling/config.json 부재 → Phase 2B-Extended (FlagEmbedding wrapper) 결과 (1 후보 측정 + baseline rebaseline): \| Candidate \| NDCG \| Δ baseline \| mixed \| korean \| exam \| p50 ms \| \|------------------------------------\|------:\|-----------:\|------:\|-------:\|------:\|-------:\| \| bge-reranker-v2-m3 (baseline) \| 0.659 \| — \| 0.39 \| 0.51 \| 0.74 \| 454 \| \| cand_gte_ml_base \| 0.604 \| -0.055 \| 0.38 \| 0.41 \| 0.62 \| 345 \| Decision (H3): bge-reranker-v2-m3 유지. gte 의 reranker quality 가 production 보다 약함 (korean_only -0.10, exam -0.12, overall -0.055). 후속 PR 백로그 (6건): - PR-Search-Query-Rewrite-1 (Phase 2Q, korean_only/mixed 보완 권고) - PR-2B-Extended-Mxbai-Large (sentence-transformers wrapper) - PR-2B-Extended-Bge-V2-Gemma (FlagEmbedding LayerwiseReranker wrapper) - PR-2B-Extended-Jina-V2-ML (license 결정 후, 개인 비영리 가정) - PR-2B-Cloud-Reranker-Scaffold-1 (Cohere scaffold-only, 선택) - PR-2B-Rerank-Cand-Cleanup-1 (1주 후 cand 컨테이너 정리) production 영향: - production reranker (bge-reranker-v2-m3) 변경 0 - config.yaml ai.models.rerank.endpoint 변경 0 - embedding (bge-m3 ollama) 변경 0 (Phase 2A 결정 보존) - documents / document_chunks 변경 0 (21365 docs / 30605 chunks 그대로) - 4 smoke PASS (baseline / baseline+snapshot / cand_gte_ml_base / cand_invalid → 400) - dispatch log 박제 verify (endpoint + snapshot id) closure gate: 16 항목 PASS (flex closure 조항 적용 — 1 후보 측정, 2 후보 TEI 호환 탈락 사유 명시). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 08:37:42 +00:00
hyungi	3092e3009d	feat(eval): Phase 2A Diagnose Phase 3+4 — dispatcher + 3 측정 + decision (H3 bge-m3 유지) phase-2a-embedding-diagnose.md v4 § 6 (dispatcher) + § 7 Phase 3 (51 case 측정) + § 7 Phase 4 (decision) Round 2 review: round-2-review-mighty-starfish.md (R2-2 + R2-B1 페어 invariant + slug-based resolve) 코드 변경: - app/services/search/retrieval_service.py: - CANDIDATE_BACKEND_MAP allowlist (baseline / cand_me5_large_inst / cand_snowflake_l_v2) - _resolve_backend(slug) → docs_table/chunks_table/embed_endpoint or None - _embed_query_via_tei() — candidate TEI 엔드포인트 호출 (cache 미사용) - _VALID_DOCS_TABLE + _VALID_CHUNKS_TABLE regex (R2-B1 2단계 gate) - _search_vector_docs / _search_vector_chunks: docs_table/chunks_table + snapshot__id_max 파라미터 - search_vector + search_vector_multilingual: embedding_backend + snapshot__id_max 파라미터 + dispatch log - app/services/search/search_pipeline.py: run_search() 시그니처 + 4 search_vector* 호출 threading - app/api/search.py: 3 Query parameter + ValueError → HTTP 400 (allowed list 응답) - tests/search_eval/run_eval.py: --embedding-backend + --snapshot-doc-id-max + --snapshot-chunk-id-max + call_search/call_search_full/evaluate threading + main 3 asyncio.run threading 측정 산출물 (51 case, scored=46, failure=5): - reports/v0_2_phase2a_baseline_snapshot_2026-05-23.csv (snapshot filter 적용 production path) - reports/v0_2_phase2a_me5_large_inst_2026-05-23.csv - reports/v0_2_phase2a_snowflake_l_v2_2026-05-23.csv - tests/search_eval/baselines/v0_2_phase2a_{baseline_snapshot,me5_large_inst,snowflake_l_v2}_2026-05-23.json (3개) 결과: \| Candidate \| NDCG \| Δ vs baseline \| mixed \| korean_only \| p50 ms \| \|------------------------------------\|-----:\|--------------:\|------:\|------------:\|-------:\| \| bge-m3 (baseline snapshot) \| 0.659\| — \| 0.39 \| 0.51 \| 464 \| \| cand_me5_large_inst \| 0.477\| -0.182 \| 0.17 \| 0.47 \| 194 \| \| cand_snowflake_l_v2 \| 0.616\| -0.043 \| 0.35 \| 0.52 \| 254 \| Decision (H3): bge-m3 유지. 둘 다 net 회귀. - mE5-large-instruct: 전 카테고리 회귀 (-0.182). prefix 미적용 변수 — 별 PR PR-2A-mE5-Prefix-Retry 후보. - snowflake_l_v2: 가벼운 회귀 (-0.043). korean_only +0.01 미세 개선 신호. - korean_only/mixed 약점 보완은 Phase 2B (Reranker) 또는 Phase 2Q (Query rewrite) 권고. Decision report: reports/phase_2a_embedding_decision_2026-05-23.md (§ 1~8 포함, Closure gate 16 항목 모두 PASS). 후속 PR 백로그: - PR-2A-mE5-Prefix-Retry (별 PR) - PR-2A-Extended-Bge-Mgemma2 (별 PR, v3 결정) - PR-2A-Cloud-Embedding-Scaffold-1 (Cohere/Voyage scaffold-only, 선택) - PR-Search-Query-Rewrite-1 (Phase 2Q) - PR-Search-Reranker-V2-Diagnose (Phase 2B) - PR-2A-Chunks-Cand-Cleanup-1 (1주 후 cand 테이블 DROP) production 영향: - documents / document_chunks 컬럼/row 변경 0 - config.yaml 변경 0 (ollama bge-m3 unchanged) - 추가된 endpoint = query parameter opt-in (미지정 시 production path 회귀 0) - smoke 4건 PASS (baseline / baseline+snapshot / cand_me5 / cand_invalid → HTTP 400) - dispatch log 박제 verify (snapshot_doc/chunk_id_max 박제) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 06:55:13 +00:00
hyungi	51c3f6df10	feat(search): /ask/react endpoint with Qwen native tool calling ReAct loop PR-DocSrv-Ask-ToolCalling-ReAct-1 — Qwen3.6-27B-8bit 의 native tool calling 으로 ReAct loop 도입. 기존 /api/search/ask 무수정. 트랙 B (frontend /ask SSE) 와 파일 단위 충돌 0 (search.py 의 ask() 함수 line diff = 0, 순수 추가). 핵심 invariant: - 별 endpoint /api/search/ask/react (qwen-macbook only, implicit opt-in) - MacBook unavailable 시 HTTP 503 + error_reason=macbook_unavailable. Gemma 자동 fallback X (정정 4 의 연장) G0 (구현 전 hard gate, plan b-velvety-hare.md): - G0-1 fixture (tests/fixtures/qwen_tool_call_response.json): 실제 mlx-vlm 응답 박제. shape = OpenAI 표준 호환 (choices[0].message.tool_calls + function.arguments JSON string). generate_with_tools() 가 본 shape 기준 구현. - G0-2 counter semantics: max_tool_rounds=2 + max_llm_calls=3 + search_exec_max=2. 마지막 LLM 호출은 tool_choice="none" + system instruction 으로 final 강제. - G0-3 trace exposure: default response 의 debug_trace=null. debug=true 시만 채움. server log 에는 항상 round 기록. backends.py (193 → 261줄): - QwenMacBookBackend.generate_with_tools(messages, tools, tool_choice) 신규 method. 기존 generate() 무수정. BackendUnavailable 처리 동일. react_loop.py 신규 (275줄): - agentic_ask_loop(session, query, *, backend, max_tool_rounds, debug) - tool round 안에서 run_search 호출, results dedup by id, final round 강제, partial=True 조건 (final content 빈 경우) search.py (+82줄): - POST /api/search/ask/react + AskReactRequest/Response schema - BackendUnavailable → JSONResponse(503, error_reason=macbook_unavailable) config.yaml + config.py: - search.ask.react: { enabled, max_tool_rounds=2, search_tool_limit=5, search_tool_mode=hybrid } tests (566줄, 18 신규 + 23 회귀 모두 PASS): - test_react_loop.py 13건: G0-1 fixture shape / G0-2 counter cap / G0-3 trace exposure / BackendUnavailable propagation / sources dedup - test_search_ask_react_endpoint.py 5건: 503 + run_search 호출 0 / 정상 200 / debug=true trace 노출 / max rounds partial - 회귀 (test_ask_eval_auth 9 + test_search_ask_macbook_503 5 + test_backend_dispatcher 9) 모두 PASS Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-22 13:43:47 +00:00
hyungi	a7b8f15870	feat(search): /ask backend dispatcher (qwen-macbook opt-in, no silent fallback) PR-MacBook-RAG-Backend-1 — /api/search/ask 의 명시 backend 선택 진입점. 핵심 invariant (정정 4): - backend 미지정 = Gemma Mac mini default, 응답 contract 변동 0 - backend="qwen-macbook" 명시 opt-in 만 MacBook M5 Max mlx-vlm.server 호출 - MacBook unavailable 시 HTTP 503 + error_reason=macbook_unavailable - 자동 fallback 절대 금지 — 실패 path 에서 Gemma backend.generate() 호출 0 backend dispatcher (services/llm/): - BackendBase / GemmaMacMiniBackend / QwenMacBookBackend / BackendUnavailable - Qwen backend 는 Mac mini llm_gate 점유 X, 별 Semaphore(1) — llm_gate docstring 의 single-inference 영구 룰은 같은 endpoint 한정으로 scope 명시 - httpx Connect/Read/Pool/Timeout/5xx → BackendUnavailable, 4xx 전파 synthesis_service.py: - backend 인자 추가, status="backend_unavailable" 신규 - cache key 에 backend_name 포함 (qwen ↔ gemma 캐시 충돌 차단) config: - search.ask.backend.{macmini_url, macbook_url, macbook_model, timeout_connect_s=1, timeout_read_s=30} - MacBook endpoint = http://100.118.112.84:8810 (M5 Max Tailscale bind) tests (14 신규): - tests/services/test_backend_dispatcher.py (9): dispatcher 정합성 + Qwen generate path (mock 200 / dead port / 5xx / 4xx) + cache identity - tests/api/test_search_ask_macbook_503.py (5): 정정 4 핵심 invariant. backend=qwen-macbook 비가용 시 gemma.generate.assert_not_called() 기존 ask 회귀 0 (test_ask_eval_auth 9건 등 85건 모두 PASS). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-22 13:10:44 +00:00
Hyungi Ahn	a08b620894	refactor(search): swap 10 call sites to acquire_mlx_gate(Priority.) (B-1) DS-Mac-mini-26B-Priority-Gate-1 — 사용자-facing 7 + worker 3 = 10 site 의 `async with get_mlx_gate():` → `async with acquire_mlx_gate(Priority.):` 교체. Foreground 6 (user-facing path): - app/services/search/evidence_service.py:315 (/ask evidence stage) - app/services/search/classifier_service.py:103 (/ask classifier stage) - app/services/search/synthesis_service.py:299 (/ask synthesis stage) - app/api/documents.py:1306 (수동 analyze API) - app/api/study_topics.py:1183 (subject note 동기 생성) - app/api/study_questions.py:1560 (study explanation 동기 API) Background 4 (worker queue / fire-and-forget): - app/services/search/query_analyzer.py:240 (V0 grep 확인: fire-and-forget only, search_pipeline.py:179 trigger_background_analysis 만, docstring rule "analyze() 동기 호출 금지" 부합 → BACKGROUND 확정) - app/workers/deep_summary_worker.py:110 (classify-escalate worker) - app/workers/study_explanation_worker.py:149 - app/workers/study_session_analysis_worker.py:237 Cleanup: - query_analyzer._get_llm_semaphore() 제거 — self-only, unused, signature 거짓말 (이제 get_mlx_gate 가 Semaphore 아닌 context manager 반환) 기존 get_mlx_gate() legacy wrapper 는 보존 (BACKGROUND 매핑). user-facing path 잔재 0 — closure gate grep 검증 통과 (별 commit 에서).	2026-05-17 08:51:57 +09:00
Hyungi Ahn	7c9aff393a	feat(search): MLX priority gate (B-1, Priority.FOREGROUND vs BACKGROUND) DS-Mac-mini-26B-Priority-Gate-1 — Mac mini 26B single-inference gate 를 FIFO Semaphore → 우선순위 기반 heap dispatch 로 교체. concurrency 1 유지, queue ordering 만 foreground 우선. API: - Priority(IntEnum): FOREGROUND=0, BACKGROUND=100 - acquire_mlx_gate(priority=DEFAULT_PRIORITY) async context manager - DEFAULT_PRIORITY = BACKGROUND (안전 default, foreground 짓밟지 않음) - get_mlx_gate() legacy wrapper — context-manager only 호환 구현: - _inflight: bool + _waiters heap [(priority, seq, future, enqueue_ts)] - fast-path: not inflight and not waiters → 즉시 inflight, Future 생성 X - _dispatch_next_locked: cancelled/done Future skip (heap 잔재 risk 회피) - release: lock 안에서 pop, set_result 는 loop.call_soon (lock 밖) reentry deadlock 회피 - dispatch / enqueue / release / WARN log (observability) - BACKGROUND wait_ms > 300_000 (5분) 시 starvation WARN — aging 은 Phase 2 deferred Tests (tests/test_priority_gate.py, 6 scenario): 1. FIFO within same priority 2. Foreground jumps queue (bg5 대기 중 fg 들어오면 즉시 다음 슬롯) 3. Long-running background blocks foreground (preemption X, intended) 4. Mixed concurrent enqueue (FG fifo 먼저, BG fifo 후) 5. Backward compat (legacy get_mlx_gate() = BACKGROUND 매핑) 6. Cancelled waiter skip (heap 의 죽은 Future 건너뜀, gate stuck X) Site 교체는 별 commit (refactor(search): swap 10 call sites). plan: ~/.claude/plans/hermes-polymorphic-rossum.md	2026-05-17 08:42:58 +09:00
Hyungi Ahn	73f328cb65	fix(search): DS RAG LLM_TIMEOUT_MS align 15s/3s → 30s/10s (B-3 Synthesis-Timeout-Calibration-1) PR-Hermes-Docsrv-Search-1 closure 측정 (synthesis_ms=30~48s / ev_ms=15005 / query_analyze 45s) 으로 15s LLM_TIMEOUT 빈발 timeout 확인. Mac mini 26B 동시 호출 (gate Semaphore 1 직렬화 후에도 evidence + synthesis + classifier + query_analyzer + verifier 가 sequential 누적) 시 각 호출 30s 까지 필요. 5곳 변경: - synthesis_service.LLM_TIMEOUT_MS 15000 → 30000 - evidence_service.LLM_TIMEOUT_MS 15000 → 30000 - verifier_service.LLM_TIMEOUT_MS 3000 → 10000 - query_analyzer.LLM_TIMEOUT_MS 15000 → 30000 - search.py:522 classifier wait_for 15.0 → 30.0 (classifier_service align) - search.py:641 verifier wait_for 4.0 → 10.0 (verifier_service align) classifier (이전 PR 에서 30s 로 align 완료) 와 동일 정책 — outer wait_for 가 inner LLM_TIMEOUT_MS 를 override 하지 않도록 align. ask 응답 latency 상한 ↑ 의도된 trade-off — 안정성 (refusal_gate conservative_refuse 회피 + grounding/verifier 정상 동작) 우선. 영향: PR-1 fixture 회귀 0 예상 (이전 timeout 이 새 한도 안). B-1 Throughput-1 (priority queue / 모델 분리) 별 PR 진입 시 latency 본격 단축 검토.	2026-05-17 08:01:22 +09:00
Hyungi Ahn	ad3d51e3e0	fix(search): classifier + evidence gate 안으로 이동 (Mac mini 26B race 종결) llm_gate.py docstring 영구 룰: "MLX primary 호출 경로는 예외 없이 gate 획득 필수". PR #20 이후 classifier (Mac mini 26B 신규) + evidence (triage→Mac mini 26B 통합) 모두 gate 외부 실행 — concurrent 안전성 별 검토 명시. 1주 관찰 결과: race 빈번. 본 PR-Hermes-Docsrv-Search-1 Layer 1 fixture 측정: - 8/10 query "conservative_refuse(no_classifier)" — classifier 가 동시 부하 시 거의 모두 ReadTimeout 또는 wait_for(6s) timeout - evidence ev_ms=15005 — synthesis 와 race 로 15s 누적 영향: - ask total 시간 증가 (parallel race → serialized): query_analyzer 5s + classifier 3-5s + evidence 5s + synthesis 30s ≈ 40-45s 상한 (현실 평균) - 응답률 ↑: race timeout 으로 인한 conservative_refuse 해소 - 사용자 체감: 빠른 거절 → 의미있는 답변. 단 대기 시간 ↑ 후속: - skill `docsrv_ask` curl `--max-time 20` → 60s 상향 필요 (별 PR 또는 본 PR 안의 follow-up) - 본 메모리 `2026-05-21 Mac mini 26B 1주 부하 측정` observation 의 결정 outcome: gate 복귀 (triage 별 작은 모델 재도입 옵션은 보류)	2026-05-16 19:54:55 +09:00
Hyungi Ahn	a332a8aabe	fix(search): classifier timeout 15s → 30s (concurrent load 2x margin) A1+config(15s) 후속 진단: voice memo PoC plan 호출 elapsed_ms=14432 — 15s 한계 거의 밀착. Mac mini 26B 동시 부하 (classifier + evidence + synthesis 3-way) 시 빈번 ReadTimeout 잔존. 30s 로 2x 마진 확보 — config.yaml + classifier_service.py 양쪽 align. Phase 3.5 guardrail 동작 자체에는 영향 없음 (timeout 시 fallback 경로 동일). 향후 별 트랙 (DS-Mac-mini-26B-Concurrent-Load-1): asyncio.Semaphore 도입으로 Mac mini 26B 동시 호출 제한 vs triage 만 작은 모델 재도입. 본 PR 은 timeout 완화만.	2026-05-16 19:42:49 +09:00
Hyungi Ahn	542b6a0084	fix(search): classifier error log type+repr (empty-msg exception 진단) PR-Hermes-Docsrv-Search-1 Layer 1 fixture 가 classifier error: <빈 메시지> 빈번 발생 보고. isolation 직접 호출은 3/3 성공, 동시 부하 (ask endpoint 의 classifier + evidence parallel) 시에만 발생. Exception type + repr 캡처해서 root cause 식별 (httpx.ReadTimeout / TimeoutError / ConnectionError / 기타 무엇인지). 식별 후 후속 PR (DS-Classifier-Concurrent-Load-1) 에서 본격 mitigation.	2026-05-16 19:08:23 +09:00
Hyungi Ahn	c769ad14ad	fix(search): classifier LLM_TIMEOUT_MS 5s → 15s (Mac mini 26B concurrent load) PR #20 (`f139945`) GPU LLM 제거 후 Mac mini 26B 가 triage + classifier + chat + STT 동시 흡수. classifier_service hardcoded 5s timeout (config.yaml `timeout: 10` 무시) 이 동시 부하 시 빈번 초과 → CIRCUIT_THRESHOLD(5) 누적 → circuit 60s open → verdict=None → refusal_gate conservative_refuse(no_classifier) 경로. 실측: 정상 부하 단독 호출 = 2.3s (500 prompt + 49 completion tokens), 동시 호출 시 ev_ms/synth_ms 가 15s 까지 누적 — 5s 한계가 architectural mismatch. 15s 로 상향 → classifier 정상 verdict 반환 → refusal_gate 가 classifier 의 sufficient/insufficient 사용 (conservative fallback 회피). 본 fix 는 [[2026-05-21 Mac mini 26B 1주 부하 측정]] observation 의 회귀 결과로 자연 정리. config.yaml `classifier.timeout: 10` 와는 별 변수 — 본 1줄은 코드 내 한계, config 항목은 별 PR (Config-Driven-Timeout-1) 에서 통합 검토. 발견 경로: PR-Hermes-Docsrv-Search-1 Layer 1 fixture (curl direct, 10/10 ask) 가 conservative_refuse(no_classifier) 8건 + timeout 2건 보고. fastapi log "classifier circuit OPEN for 60s" + "classifier timeout" 페어 발견.	2026-05-16 19:02:55 +09:00
hyungi	118f32f9b1	refactor(ai): PR #20 reframe cleanup — Ollama LLM 잔재 주석 정정 PR #20 (2026-05-14, GPU LLM 제거 + Mac mini 26B MLX 흡수) 의 swap 이 backends.json + 코드 주석/docstring 까지 따라가지 못한 표현 잔재 정리. - app/ai/client.py: AIClient docstring 및 call_triage / call_fallback docstring 의 "4B Ollama" → "Mac mini 26B MLX" / "현재는 triage 와 동일 엔드포인트" → "Claude Sonnet 4 API (PR #20 swap 완료)" - app/core/config.py: triage/primary/fallback 주석 통합 + Phase 3.5 classifier/verifier 주석에 PR #20 endpoint 명시 (history 보존) - app/services/search/{llm_gate,classifier_service,verifier_service, evidence_service}.py: "fallback(Ollama)" / "Ollama concurrent OK" / "triage(4B Ollama)" 표현을 Mac mini 26B MLX endpoint 기준으로 정정 + concurrent 안전성 별 검토 마커 추가 - app/services/digest/summarizer.py: "MLX hang/Ollama stall 방어" → "MLX hang / fallback Claude API stall 방어" - app/services/prompt_versions.py: SUMMARY_TRIAGE_TASK + ASK_PROMPT_VERSION 주석의 "4B Ollama" / "4B gemma Ollama" → Mac mini 26B MLX - app/workers/classify_worker.py: B-1 tier triage docstring 정정 코드 동작 변경 0 (주석/docstring 만). embed_worker / study_question_embed_worker 의 "Ollama bge-m3" 표현은 사실 정확이라 유지. 검증: - ollama list → bge-m3:latest 잔존 (embedding owner) - /api/embeddings probe → 1024-dim 200 OK - fastapi embed/ollama error 0 (last 10min) - document.hyungi.net 200 plan: ~/.claude/plans/4-stateless-dongarra.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-15 12:09:15 +00:00
Hyungi Ahn	5185501bbd	feat(search): PR-RAG-Time-1 freshness decay (news/law_monitor) 뉴스/법령 알림 retrieval 결과에 시간 가중치 soft multiplier 적용. reranker 이후 final score 합성 단계에서 운영 정책 단계로 분리. - news (source_channel='news'): half-life 90일 - law_monitor (source_channel='law_monitor'): half-life 365일 - 비적용: manual / drive_sync / inbox_route / memo / Manual / Reference / Academic_Paper / Checklist / KGS Code / Study / content_origin='ai_drafted' - formula: decay = exp(-ln(2) * age / HL); final = base * (0.7 + 0.3 * decay) - floor 0.7 (완전 demote 금지) - 가드: missing date / future date / unknown source 모두 no-op - 임시 date source: documents.created_at (published_date 컬럼 부재 — 후속 PR) debug 메타 (?debug=true 응답 + logs/search.log): base_score / age_days / decay_factor / freshness_adjusted_score / freshness_policy / freshness_date_source 신규: app/services/search/freshness_decay.py hook: app/services/search/search_pipeline.py:303 (apply_diversity 직후, normalize 직전) schema: app/api/search.py SearchResult.freshness_debug (Optional[dict]) tests: tests/test_freshness_decay.py 24 case (정책 디스패처 9 + age/decay/score 11 + apply integration 6 — guard 1~6 all) Episode/Fact layer 와 contradiction detection 은 본 PR 스코프 외. plan: ~/.claude/plans/pr-rag-time-1-freshness-decay.md	2026-05-03 08:38:09 +09:00
Hyungi Ahn	34f79f84f2	feat(search): B-2 evidence LLM → 4B triage 전환 + answerability 컬럼 Plan 본래 의도: 근거 선별은 4B, 합성은 26B. - evidence_service: LLM 호출을 primary(26B MLX) → triage(4B Ollama) 로 전환. Ollama concurrent 가능하므로 get_mlx_gate() 제거. synthesis 는 여전히 llm_gate Semaphore(1) 경유로 MLX 보호. - prompt_version v3-evidence-triage bump (synthesis 프롬프트 자체는 v2-600char 그대로, evidence LLM 경로 변경을 분리 추적). - migrations 161/162: analyze_events 에 answerability / partial_basis / suggested_query_count 컬럼 + partial index. /ask 는 이미 ask_events 에 completeness (full/partial/insufficient) 기록 운영 중이므로, analyze_events 쪽은 향후 문서 분석에서 answerability 개념 도입 시 활용 예비. - telemetry record_analyze_event 에 answerability / partial_basis / suggested_query_count 파라미터 확장. 기존 /ask 3-state completeness 로직 (classifier_service + 7-tier gate) 은 그대로 유지 — 이미 Phase 3.5a 에서 완성된 상태. B-2 는 LLM 부하 재분배와 관측성 확장에 집중. MLX 부하 감소 효과: 이전엔 쿼리 1건당 evidence(26B) + synthesis(26B) 2번 MLX 호출. 이제는 evidence(4B Ollama) + synthesis(26B MLX) 로 MLX 호출 절반. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 10:33:32 +09:00
Hyungi Ahn	eb9dc94604	feat(search): E.3 — ask synthesis prompt v2-600char bump 한도 400 → 600 자. baseline 관찰(partial avg 168자 / full 10%)에서 길이 제약이 실제 출력 제약이 되는 현상 확인, 절차·비교 카테고리 답변 깊이 확보 목적. 변경 4 라인: - search_synthesis.txt:17 answer 400→600 characters max - prompt_versions.py:20 v1-400char → v2-600char (telemetry) - synthesis_service.py:42 PROMPT_VERSION v1→v2 (cache key 의미론 동기화) - synthesis_service.py:46 MAX_ANSWER_CHARS 400→600 (hard clip 동기화) v1 post-tier0 baseline: 225 rows, partial 51% / insufficient 49% / full 0% (Tier 0 fix 로 full+refused=True 모순 0 건). E.6 는 이 clean baseline 을 compare-against 로 사용. 향후 티켓: PROMPT_VERSION 과 ASK_PROMPT_VERSION 단일 소스 통합. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-17 12:02:51 +09:00
Hyungi Ahn	5bfbb79641	feat(verifier): Phase 3.5 B2 — numeric_conflict promote (env flag) + Tier 4 VERIFIER_NUMERIC_PROMOTE 환경변수로 numeric_conflict severity 승격 실험. verifier_service.py: - _NUMERIC_PROMOTE = os.getenv('VERIFIER_NUMERIC_PROMOTE', '0') == '1' (import time 평가 — env 변경 시 process restart 필수) - _SEVERITY_MAP['numeric_conflict']: env=1 → critical=strong / minor=medium, env=0 (기본) → 둘 다 medium (기존 동작 유지) - direct_negation 은 env 무관 항상 strong (안전장치) verifier.txt: - numeric_conflict 정의에 critical/minor 분리 명시 (core quantity vs peripheral) - "Range values satisfy any answer within range" rule 추가 - severity mapping 갱신: numeric_conflict 분기 명시 search.py re-gate (Tier 1~7 재번호, B2 신규 Tier 4): - v_strong_numeric = sum(1 for f in v_strong if f.startswith('verifier_numeric_conflict')) - Tier 4 (신규): g_strong + v_strong_numeric >= 1 + low_conf → refuse re_gate value: 'refuse(grounding+verifier_numeric)' - 원칙 유지: verifier strong 단독 refuse 금지 — g_strong 교차 필수 - 호환성: 기존 re_gate string literals 그대로 유지, 신규 1개만 추가 credentials.env.example: VERIFIER_NUMERIC_PROMOTE=0 (off, B3 통과 후 production 전환) tests/test_verifier_numeric_promote.py: 4 케이스 (env off / on / explicit 0 / direct_negation invariant). monkeypatch.setenv + importlib.reload 패턴. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-17 08:11:06 +09:00
Hyungi Ahn	2665d4eb60	feat(grounding): Phase 3.5 B1 — unit-aware fabricated_number + bound semantics Codex adversarial review (no-ship) 반영: fix1: unit-aware numeric clearing - _extract_numeric_corpus(): 단위별 bucket dict (exact_by_unit) + ranges_by_unit (양방향 + 단방향 bound 통합) - _within_unit_range / _close_to_unit_pool: 같은 unit 안에서만 매칭 bare answer 는 보수적으로 range/tolerance 패스 X - 2-pass cleared_pairs (unit, digits): cross-unit cleared 절대 skip 안 함. bare(None) 답변은 unit-anchored cleared 시 duplicate 로 skip (콤마 normalize 부산물 보호 — Codex 케이스는 그대로 flag) fix3: 최대/최소 bound semantics - _APPROX_PREFIX_RE 에서 최대/최소 제거 (약/대략/거의/얼추 만 strip) - _BOUND_PATTERN_RE: 최대 N → range (0, N-1), 최소 N → range (N+1, 1e18) - 경계값 자체는 cleared 대상 아님 ("최대 100명" + answer "100명" → flag) - bound span 내 숫자는 exact pool 에서 제외 기존 prefix strip / 콤마 / 부터 separator / 단위 동의어 / tolerance 4자리+ / 식별자성 단위 1자리 flag 동작 모두 유지. tests/test_grounding_fabricated_number.py: 25 케이스 — 기존 17 + Codex unit-mismatch 3 (won_vs_myeong_range/tol, pct_vs_myeong_range) + bound 5 (최대/최소 boundary/inner/outer). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-17 08:11:06 +09:00
Hyungi Ahn	083aa3126a	feat(search): retrieval+evidence 품질 개선 - embed_worker: ai_summary 누락 시 text[:800] fallback → ToC 감지 + 서술형 문단 우선 선택 (보수적 휴리스틱, 강신호 2개 이상 + 스킵 상한) - retrieval_service: snippet 200자 → 1200자 (리랭커/evidence에 더 넓은 문맥 제공) - evidence_service: CANDIDATE_SNIPPET_CHARS 800 → 1200 (LLM evidence window 확대) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-15 14:56:33 +09:00
Hyungi Ahn	e405ed3414	fix(ask): evidence sparse 문제 해결 — 프롬프트 + supplement + source 분리 근본 원인: evidence 프롬프트가 "<0.5 = 탈락" 명시 → LLM 하향 편향 → candidates 5개 중 4개 탈락 → synthesis 자체 거부. Change 2: evidence_extract.txt - relevance 스케일 재정의: "탈락" 라벨 제거 - 0.3~0.5 약한 부분 연관 / 0.5~0.7 명확한 부분 연관 구간 세분화 - "directly answer" → "no connection at all" 완화 Change 3: search_synthesis.txt - refused 조건: "직접 답 아니면 거부" → "완전 무관일 때만 거부" - "covered only" 제한: partial evidence로 missing part 추론 금지 - supplement evidence weight 지시 추가 (보조 취급) Change 1: evidence_service.py - sparse evidence supplement: kept 1~2 + candidates 3+ → rule-only 보충 - substring + critical token 필터 (recall+precision) - critical token: 길이 3자+ OR 의미 기반 suffix (조건/기준/처벌 등) - EvidenceItem.source 필드 ("llm"\|"supplement"\|"rule_fallback") Change 4: search.py - defense_log["evidence"] 추가 (skip_reason, kept_count) synthesis_service.py - supplement evidence [n] (보충) 마킹 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 16:11:57 +09:00
Hyungi Ahn	b2306c3afd	feat(ask): Phase 3.5b guardrails — verifier + telemetry + grounding 강화 Phase 3.5a(classifier+refusal gate+grounding) 위에 4개 Item 추가: Item 0: ask_events telemetry 배선 - AskEvent ORM 모델 + record_ask_event() — ask_events INSERT 완성 - defense_layers에 input_snapshot(query, chunks, answer) 저장 - refused/normal 두 경로 모두 telemetry 호출 Item 3: evidence 간 numeric conflict detection - 동일 단위 다른 숫자 → weak flag - "이상/이하/초과/미만" threshold 표현 → skip (FP 방지) Item 4: fabricated_number normalization 개선 - 단위 접미사 건/원 추가, 범위 표현(10~20%) 양쪽 추출 - bare number 2자리 이상만 (1자리 FP 제거) Item 1: exaone semantic verifier (판단권 잠금 배선) - verifier_service.py — 3s timeout, circuit breaker, severity 3단계 - direct_negation만 strong, numeric/intent→medium, 나머지→weak - verifier strong 단독 refuse 금지 — grounding과 교차 필수 - 6-tier re-gate (4라운드 리뷰 확정) - grounding strong 2+ OR max_score<0.2 → verifier skip Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 09:49:56 +09:00
Hyungi Ahn	a0e1717206	fix(grounding): citation marker [n] 을 fabricated_number 에서 제외 [1][2][4] 같은 citation 마커의 숫자가 evidence 에 없다고 판정되어 모든 정상 답변이 refuse(2+strong) 되는 critical bug. answer 에서 \[\d+\] 제거 후 숫자 추출. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 08:59:29 +09:00
Hyungi Ahn	06443947bf	feat(ask): Phase 3.5a guardrails (classifier + refusal gate + grounding + partial) 신규 파일: - classifier_service.py: exaone binary classifier (sufficient/insufficient) parallel with evidence, circuit breaker, timeout 5s - refusal_gate.py: multi-signal fusion (score + classifier) AND 조건, conservative fallback 3-tier (classifier 부재 시) - grounding_check.py: strong/weak flag 분리 strong: fabricated_number + intent_misalignment(important keywords) weak: uncited_claim + low_overlap + intent_misalignment(generic) re-gate: 2+ strong → refuse, 1 strong → partial - sentence_splitter.py: regex 기반 (Phase 3.5b KSS 업그레이드) - classifier.txt: exaone Y+ prompt (calibration examples 포함) - search_synthesis_partial.txt: partial answer 전용 프롬프트 - 102_ask_events.sql: /ask 관측 테이블 (completeness 3-분리 지표) - queries.yaml: Phase 3.5 smoke test 평가셋 10개 수정 파일: - search.py /ask: classifier parallel + refusal gate + grounding re-gate + defense_layers 로깅 + AskResponse completeness/aspects/confirmed_items - config.yaml: classifier model 섹션 (exaone3.5:7.8b GPU Ollama) - config.py: classifier optional 파싱 - AskAnswer.svelte: 4분기 렌더 (full/partial/insufficient/loading) - ask.ts: Completeness + ConfirmedItem 타입 P1 실측: exaone ternary 불안정 → binary gate 축소. partial은 grounding이 담당. 토론 9라운드 확정. plan: quiet-meandering-nova.md Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-10 08:49:11 +09:00
Hyungi Ahn	64322e4f6f	feat(search): Phase 3 Ask pipeline (evidence + synthesis + /api/search/ask) - llm_gate.py: MLX single-inference 전역 semaphore (analyzer/evidence/synthesis 공유) - search_pipeline.py: run_search() 추출, /search 와 /ask 단일 진실 소스 - evidence_service.py: Rule + LLM span select (EV-A), doc-group ordering, span too-short 자동 확장(<80자→120자), fallback 은 query 중심 window 강제 - synthesis_service.py: grounded answer + citation 검증 + LRU 캐시(1h/300), refused 처리, span_text ONLY 룰 (full_snippet 프롬프트 금지) - /api/search/ask: 15s timeout, 9가지 failure mode + 한국어 no_results_reason - rerank_service: rerank_score raw 보존 (display drift 방지) - query_analyzer: _get_llm_semaphore 를 llm_gate.get_mlx_gate 로 위임 - prompts: evidence_extract.txt, search_synthesis.txt (JSON-only, example 포함) config.yaml / docker / ollama / infra_inventory 변경 없음. plan: ~/.claude/plans/quiet-meandering-nova.md Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-09 07:34:08 +09:00
Hyungi Ahn	01f144ab25	fix(search): soft_filter boost 약화 (domain 0.01, doctype 제거) ## 1차 측정 결과 (Phase 2.3 초안) \| metric \| Phase 2.2 narrow \| Phase 2.3 (boost 0.03+0.02) \| Δ \| \|---\|---\|---\|---\| \| Recall@10 \| 0.737 \| 0.721 \| -0.016 ❌ \| \| NDCG@10 \| 0.668 \| 0.661 \| -0.007 \| \| exact_keyword NDCG \| 0.96 \| 0.93 \| -0.03 ❌ \| ## 진단 - 같은 도메인 doc이 무차별 boost → exact match doc 상대 우위 손상 - document_type 매칭은 ai_domain/match_reason 휴리스틱 → false positive 다수 ## 수정 - SOFT_FILTER_DOMAIN_BOOST 0.03 → 0.01 - document_type 매칭 로직 제거 - domain 매칭을 "정확 일치 또는 path 포함"으로 좁힘 - max cap 0.05 유지 ## Phase 2.3 위치 - 현재 평가셋(v0.1)에는 filter 쿼리 없음 → 효과 직접 측정 불가 - Phase 2.4에서 queries_v0.2.yaml 확장 후 재측정 예정 - 이 커밋의 목적은 "회귀 방지" — boost가 해를 끼치지 않도록만 (+ CLAUDE.md 동기화: infra_inventory.md 참조 / soft lock 섹션 포함) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 15:40:04 +09:00
Hyungi Ahn	e91c199537	feat(search): Phase 2.3 soft_filter boost (domain/doctype) ## 변경 ### fusion_service.py - SOFT_FILTER_MAX_BOOST = 0.05 (plan 영구 룰, RRF score 왜곡 방지) - SOFT_FILTER_DOMAIN_BOOST = 0.03, SOFT_FILTER_DOCTYPE_BOOST = 0.02 - apply_soft_filter_boost(results, soft_filters) → int - ai_domain 부분 문자열 매칭 (path 포함 e.g. "Industrial_Safety/Legislation") - document_type 토큰 매칭 (ai_domain + match_reason 헤이스택) - 상한선 0.05 강제 - boost 후 score 기준 재정렬 ### api/search.py - fusion 직후 호출 조건: - analyzer_cache_hit == True - analyzer_tier != "ignore" (confidence >= 0.5) - query_analysis.soft_filters 존재 - notes에 "soft_filter_boost applied=N" 기록 ## Phase 2.3 범위 - hard_filter SQL WHERE는 현재 평가셋에 명시 필터 쿼리 없어 효과 측정 불가 → Phase 2.4 v0.2 확장 후 - document_type의 file_format 직접 매칭은 의미론적 mismatch → 제외 - hard_filter는 Phase 2.4 이후 iteration Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 15:30:23 +09:00
Hyungi Ahn	21a78fbbf0	fix(search): semaphore로 LLM concurrency=1 강제 + run_eval analyze 파라미터 추가 ## 배경 1차 Phase 2.2 eval에서 발견: 23개 쿼리가 순차 호출되지만 각 request의 background analyzer task는 모두 동시에 MLX에 요청 날림 → MLX single-inference 서버 queue 폭발 → 22개가 15초 timeout. cache 채워지지 않음. ## 수정 ### query_analyzer.py - LLM_CONCURRENCY = 1 상수 추가 - _LLM_SEMAPHORE: lazy init asyncio.Semaphore (event loop 바인딩) - analyze() 내부: semaphore → timeout(실제 LLM 호출만) 이중 래핑 semaphore 대기 시간이 timeout에 포함되지 않도록 주의 ### run_eval.py - --analyze true\|false 파라미터 추가 (Phase 2.1+ 측정용) - call_search / evaluate 시그니처에 analyze 전달 ## 기대 효과 - prewarm/background/동기 호출 모두 1개씩 순차 MLX 호출 - 23개 대기 시 최악 230초 소요, 단 모두 성공해서 cache 채움 - MLX 서버 부하 안정 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 15:12:13 +09:00
Hyungi Ahn	f5c3dea833	feat(search): Phase 2.2 multilingual vector retrieval + query embed cache ## 변경 사항 ### app/services/search/retrieval_service.py - _QUERY_EMBED_CACHE: 모듈 레벨 LRU (maxsize=500, TTL=24h) - sha256(text\|bge-m3) 키. fixed query 재호출 시 vector_ms 절반 감소. - _get_query_embedding(client, text): cache-first helper. 기존 search_vector()도 이를 사용하도록 교체. - search_vector_multilingual(session, normalized_queries, limit): 신규 - normalized_queries 각 언어별 embedding 병렬 생성 (cache hit 활용) - 각 embedding에 대해 docs+chunks hybrid retrieval 병렬 - weight 기반 score 누적 merge (lang_weight 이미 1.0 정규화) - match_reason에 "ml_ko+en" 등 언어 병합 표시 - 호출 조건 문서화 — cache hit + analyzer_tier=analyzed 시에만 ### app/api/search.py - use_multilingual 결정 로직: - analyzer_cache_hit == True - analyzer_tier == "analyzed" (confidence >= 0.85) - normalized_queries >= 2 (다언어 버전 실제 존재) - 위 3조건 모두 만족할 때만 search_vector_multilingual 호출 - 그 외 모든 경로 (cache miss, low conf, single lang)는 기존 search_vector 그대로 사용 (회귀 0 보장) - notes에 `multilingual langs=[ko, en, ...]` 기록 ## 기대 효과 - crosslingual_ko_en NDCG 0.53 → 0.65+ (Phase 2 목표) - 기존 경로 완전 불변 → 회귀 0 - Phase 2.1 async 구조와 결합해 "cache hit일 때만 활성" 조건 준수 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>	2026-04-08 14:59:20 +09:00

1 2

63 Commits