hyungi_document_server

Author	SHA1	Message	Date
hyungi	cfadaaffd9	feat(search): hier section per-leaf analysis scaffold (Section-Summary-1 c1) chunk_section_analysis 테이블(migration 286) + ORM model + pilot script. document_chunks(retrieval-hot)와 분리된 절-레벨 분석 축. domain 상속, section_type 절-전용 역할 enum, status로 skip 박제, source_content_hash로 stale 탐지. script-only(scripts mount, rebuild 불필요). LLM 0 dry-run 검증 = 5225 147 analyze + 17 skip. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 13:45:30 +00:00
hyungi	a7b16b63db	feat(search): doc-level atomic corpus replace + isolation test (Hier-Decomp-1 c5) replace_doc_corpus(dry_run): G5 precond(doc-local embed 100% + parent 무결성 + leaf>0) 검증 후 단일 트랜잭션 atomic 교체(legacy in_corpus=false / hier leaf in_corpus=true, predicate=is_leaf AND embedding NOT NULL, node_type 미사용). 물리삭제 없음. rollback_doc_corpus 역토글. precond 미충족 시 변경 0(legacy 유지). tests/hier_decomp/test_corpus_isolation.py: in_corpus=false leaf 가 corpus_chunks 누출 0 단언 (부분 ivfflat + 뷰 이중 choke point 회귀 가드). c5: dry-run 3 pilot precond_ok(5140 158L→271leaf / 5186 381→199 / 5225 18→164), 격리 테스트 PASS. 실제 replace 는 c6(1-doc-first). plan: hierarchical-decomposition-tiered-nesting-marmot.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 13:14:36 +00:00
hyungi	fa82bd495b	feat(search): hier persist + partial ivfflat index on in_corpus (Hier-Decomp-1 c4) persist_hier_tree(): build_hier_tree → document_chunks insert. source_type=hier_section, in_corpus=false, is_leaf 노드만 bge-m3 embedding. idempotent(기존 hier 행 삭제 후 재삽입). chunk_index = doc 별 (max+1) offset → 기존 (doc_id,chunk_index) unique 충돌 회피. embedding NULL 파라미터 asyncpg 타입추론 → cast(cast(:emb AS text) AS vector) 이중캐스트. migration 284/285: ivfflat 오염 fix. full 인덱스는 in_corpus=false hier 벡터까지 색인 → 근사 검색이 비활성 벡터에 오염(corpus_chunks 필터해도 근사 이웃 셋 흔들림). partial index (WHERE in_corpus=true)로 교체 → in_corpus=false 는 검색 인덱스에 부재 = 무영향 인덱스 레벨 보장. c4 pilot(5140/5186/5225) G3: 트리 insert, embed_coverage 1.0(doc-local 100%), in_corpus_true=0, dangling_parent=0, dup 0. 부분인덱스 후 검색 baseline IDENTICAL to 원래(pre-hier) = 691 hier 행 영향 0 검증(오염 fix 효과). replace 는 c5/c6. plan: hierarchical-decomposition-tiered-nesting-marmot.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 13:12:42 +00:00
hyungi	d982dce7d1	feat(search): rule hierarchy builder (Hier-Decomp-1 c3) 순수 함수 build_hier_tree(text) → heading 경계 segment 트리 (DB 미접근, c4 에서 insert). - 경계 규칙: ATX 마크다운(#{1,6}) > 한국 제N장/절/조 > 영문 Chapter/Section/Article. - segment = heading + 다음 heading 전까지 본문 (disjoint, 100% 커버). parent/level = heading 깊이 정규화 트리. - 과대 own-text(>HARD_MAX 5000) = 무overlap window 분해(자식 유무 무관), 부모 is_leaf=false(heading 마커, 코퍼스 제외). - 구조 전용 heading(자식 보유 + own body<30자) = is_leaf=false. is_leaf = replace 코퍼스 편입 대상. dry-run G2 (insert 없음, 5 pilot + headingless): - 5140/5186/5225/5151/5124 md_content: coverage 0.9993~1.0, dup_hash 0, empty 0, dangling 0, bad_level 0, leaf_max<=4973(<5000). - 5152 headingless extracted_text(238k): window 89 leaf, coverage 1.0, dup 0, leaf_max 3000. 관찰: tiny heading-only leaf(7~19자) 잔존(무해, tuning 후보). plan: hierarchical-decomposition-tiered-nesting-marmot.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 13:05:06 +00:00
hyungi	f940f50c60	feat(search): route retrieval through corpus_chunks view (Hier-Decomp-1 c2) baseline chunk 벡터검색을 document_chunks → corpus_chunks 뷰(in_corpus=true)로 rewire. in_corpus=false(비활성 hier leaf 등) 자동 제외 = 검색 오염 구조적 차단(B choke point). - retrieval_service: baseline chunks_table=corpus_chunks, _VALID_CHUNKS_TABLE 에 corpus_chunks 허용, snapshot_clause 조건 corpus_chunks 포함(eval snapshot 보존). candidate(cand_*) 경로 불변. documents 측(FTS+doc embedding) 무변경 — doc row 는 교체 무관. - models/chunk: 5 신규 컬럼 매핑(parent_id/level/node_type/is_leaf/in_corpus). server_default 로 기존 chunk_worker INSERT 무영향(legacy=in_corpus true/is_leaf false). - subject_note_rag/explanation_rag: RAG chunk 로드에 in_corpus=true 필터(교체 doc legacy 중복 방지). 게이트: G4b(rewire 불변) before/after IDENTICAL(현재 view==table no-op) / G4a(누출) synthetic in_corpus=false leaf 가 corpus_chunks 0건·document_chunks raw top(dist 0.0) 양방향 증명. /health 200. plan: hierarchical-decomposition-tiered-nesting-marmot.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 12:58:28 +00:00
hyungi	0854c72c70	fix(search): sync doc md_status to failed on permanent markdown queue failure marker_worker 는 변환 시작 시 doc.md_status=processing 으로 표시하는데, 변환이 _fail()/_set_skipped() 를 거치지 않고 예외(예: 대형 batch ReadTimeout)로 죽으면 queue_consumer 가 큐 행만 failed 처리하고 doc.md_status 는 processing 에 영구 고착 = orphan (큐 failed, 문서 processing). markdown consumer 분리 후 이 orphan 이 tail 재처리에서 재발(5149/5201)하여 근본 원인 차단. _process_stage except 블록에서 큐 항목이 영구 실패(attempts>=max)할 때 stage가 markdown 이고 doc.md_status=processing 이면 failed 로 동기화. 재시도 중 (attempts<max)엔 pending 큐 행이 남아 orphan 아니므로 미터치. 검증: synthetic 영구 실패 경로 → md_status processing→failed 동기화 PASS. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 12:06:32 +00:00
hyungi	2edc80d4bb	fix(search): split markdown into dedicated queue consumer to prevent pipeline stall 대형 PDF split 변환(5210 ≈ 40분 실측)이 단일 consume_queue 코루틴을 점유해 extract/classify/embed/chunk 등 전 파이프라인을 stall 시키던 문제 제거. - consume_markdown_queue 신규 — markdown 전용 scheduler job (id=markdown_consumer) - consume_queue 는 MAIN_QUEUE_STAGES (markdown 제외) 만 처리 - _process_stage / _load_workers 헬퍼로 per-stage 로직 공유 - reset_stale_items(stages, threshold_minutes) 파라미터화: main=10min(markdown 제외), markdown=MARKDOWN_STALE_MINUTES(기본 120). marker_worker 는 heartbeat 미기록이라 40분 변환을 10분 stale 로 오인하던 함정 차단 - enqueue flow (classify -> embed,chunk,markdown) 불변 STT/deep_summary 분리 + GPU 동시성 튜닝은 out of scope (follow-up). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 10:33:45 +00:00
hyungi	826f66f8f5	fix(search): correct large-doc manifest wording after commit 4 drop PR-DocSrv-LargeDoc-Split-Markdown-1 follow-up (plan brisk-paging-quokka.md). commit 4(marker_section→document_chunks) 드롭으로, split md_content/manifest 의 「권위 검색본 = document_chunks (source_type=marker_section)」 문구가 실제와 불일치. 실제 = 검색 인덱스는 기존 document_chunks(extracted_text long_pdf window chunks), marker_section chunk 부재, md_content 는 Markdown 렌더링 preview. - _build_large_md_content 헤더: 「검색 인덱스 = 기존 document_chunks long_pdf/ extracted_text window chunks. 아래는 Markdown 렌더링 preview.」 - _split_manifest: canonical_storage(marker_section) → search_index(legacy/extracted_text) - 상수 주석 + _process_split docstring: commit 4 드롭/이중적재 회피 반영 뷰어에 없는 source_type 으로 디버깅 오도 방지. 이미 처리된 5 docs 의 md_content 는 즉시 재처리 X — 자연 reprocess 시 갱신(사용자 결정). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 09:48:03 +00:00
hyungi	cf0d75fe84	fix(search): handle markdown/fileless docs without marker conversion PR-DocSrv-LargeDoc-Split-Markdown-1 commit 5 (plan brisk-paging-quokka.md). 이미 마크다운인 문서는 marker 변환 불필요 → _process_markdown_passthrough 로 파일 내용(없으면 extracted_text)을 md_content 에 직접 적재(success), 비면 skipped. - _is_markdown_doc: file_format=md/markdown 또는 .md/.markdown 확장자 - 분기 위치 = file_path validation 이전 (fileless md = file_path NULL 처리 위함) - engine=passthrough 로 marker 변환본과 구분 기존 버그 해소: fileless md 43건=「no file_path」 fail / .md 파일=unsupported extension skip → 둘 다 md_content 미생성이었음. 검증(docker cp 격리): 13948(.md+file_path)→success md_len=1805(파일) / 23409(fileless 931자)→success(extracted_text) / 20237(fileless 6자)→success. PDF 경로 무영향(_is_markdown_doc=False). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 08:02:30 +00:00
hyungi	7aaabe2c75	feat(search): split markdown processing for large PDFs (>threshold) PR-DocSrv-LargeDoc-Split-Markdown-1 commit 3 (plan brisk-paging-quokka.md). - page_count gauge 분기: 소형(<=120p)=_process_single 통째 1-shot / 대형(>120p)=_process_split - MAX_PAGES=200 hard skip 제거 → 대형은 BATCH_PAGES=40 page-range 윈도우 순차 변환 - 각 batch /convert start_page/end_page(1-based) 호출 + slug 충돌 회피 batch별 ref rewrite + stitch - _persist_images_to_nas seq_offset → batch 간 image_key(img_NNN) 연속 - md_status success/partial/failed (전부/일부/전무) + failed batch manifest JSON - 대형 md_content = head+manifest (LARGE_DOC_MD_CONTENT_HEAD_CHARS=50000), canonical=document_chunks(commit 4) - MARKER_MAX_SPLIT_PAGES=5000 초과 = skipped_too_large 안전상태 검증: G1 소형회귀 doc6675 동일(success,6292,14)/single경로 / G2 doc5180 453p→12batch success manifest+207img(img_001~207 연속) / G4 stuck0 restart0 각batch<300s. 섹션 chunk적재(G3)=commit 4. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 07:39:49 +00:00
hyungi	329c9eac76	feat(documents): PR-Chore-OCR-Column-1 add ocr_derived column RAG-independent data hygiene. ocr_derived 식별 컬럼 부재 = PR-Eval-V0_2 TBD-O FAILED 원인. 향후 OCR/Marker Diagnose, markdown 품질 분류, ingest 품질 통계 어디에서나 재사용 가능. Schema: documents.ocr_derived BOOLEAN NOT NULL DEFAULT false. Backfill rule R1 단독 (실측 audit 후): extract_meta ? ocr_attempted AND ocr_attempted = true. 8 rows true / 21727 false. R2 (file_format IN png/jpg) 폐기 — 1건 R1 흡수 + 1건 marker 미처리. R3 (marker PDF extract_meta 부재 283 rows) 폐기 — born-digital false positive 위험. UPDATE 전 candidate preview + source rule별 count + 표본 audit gate 통과 후 적용. asyncpg single-statement 제약으로 ALTER (277) + UPDATE (278) 분리. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 06:11:29 +00:00
hyungi	c4a40ab18a	docs(search): Phase 2Q closed as evaluated experiment (deprecated, not recommended for production) 사용자 결정 (2026-05-24, measurement chain 4-layer 정정 완료 후): > Phase 2Q Query Rewrite is closed as an evaluated experiment. > After result-level dedup correction, true net gain was marginal > (NDCG +0.019, Recall t≥2 +0.030) while latency cost was high > (cold +876%, warm +320%). Therefore, multi-query rewrite is not > recommended for default production rollout. Keep opt-in path as > experimental/deprecated reference only; do not proceed to > Cache-Prewarm unless future real-query evidence shows a stronger gain. 변경: - docs/phase_2q_apply_opt_in.md: 🛑 DEPRECATED / EXPERIMENTAL status 박제. measurement chain 정정 history (4-layer) + 진짜 효과 + Phase 2Q 성과 보존. - app/api/search.py: rewrite_backend query param description 갱신 (⚠️ EXPERIMENTAL/DEPRECATED, production 추천 문구 제거, opt-in 실험 reference 만 유지 명시). 5 액션 박제 (사용자 결정): 1. opt-in 코드 유지 (recommended=false / experimental) 2. docs/ deprecated 박제 3. search.py description production 추천 제거 4. PR-2Q-Cache-Prewarm + PR-2Q-Apply-Default-ON-1 폐기 5. Extended 4건 중 SynonymDict (deterministic, LLM 우회) 만 별도 후보 보존 신규 feedback memory: [[feedback_measurement_chain_audit]] — Diagnose 측정이 Apply/rollout 결정 기준일 때 retrieval/fusion/rerank/eval 모든 layer audit 필수. Phase 2Q 4-iteration 정정 chain (0.927→0.876→0.641→0.663) origin. Phase 2Q 성과 (실패가 아닌 좋은 실험): - chunk_id/doc_id 중복 inflation 발견 + measurement chain audit pattern 확립 - LLM rewrite 는 현재 DS 검색 기본값으로는 ROI 낮음 결론 확보 - search_pipeline 의 multi-query 합성 + 3-layer dedup 인프라 보존 (Extended SynonymDict 또는 미래 cloud LLM scaffold 재사용 가능) - 신규 feedback memory 4건: fixture-first-call-shape / apply-prereq-structural-fix / graded-ndcg-dedup-invariant / measurement-chain-audit main 위 직접 commit (read-only docs / API description, retrieval path 영향 0). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 04:57:11 +00:00
hyungi	3b753f18d6	fix(search): Phase 2Q result dedup — apply_diversity unlimited path doc_id inflation 차단 PR-2Q-Search-Result-Dedup. measurement chain 의 마지막 cleanup. plan inline. root cause: apply_diversity 의 top_score ≥ 0.90 → unlimited path (diversity 제약 해제) → 같은 doc 의 N chunks 가 results 에 박제 → returned_ids 에 doc.id 중복 → 모든 graded metric inflation. multi-query 의 reranker score 가 자주 0.90+ → 다수 case 영향. 변경 (baseline path 영향 0, multi-query 전용 invariant): - app/services/search/search_pipeline.py: · _dedup_results_by_doc_id() helper 신규 (doc.id first-only, top score 보존) · search_with_rewrite() 의 rerank path 에 apply_diversity(top_score_threshold=2.0) 강제 + 후속 _dedup_results_by_doc_id 적용 · rerank=False path 도 _dedup_results_by_doc_id(unified_docs) 적용 - tests/test_query_rewriter.py — 신규 4 test (55/55 PASS) 🎯 진짜 측정값 (모든 dedup layer 적용, 51 case gemma): cold: NDCG 0.663 / Recall t≥2 0.729 / Recall t≥3 0.761 / p50 3692ms / p95 9992ms warm: NDCG 0.659 / Recall t≥2 0.721 / Recall t≥3 0.739 / p50 1588ms / p95 3514ms baseline (rewrite_backend=null): NDCG 0.644 / Recall t≥2 0.699 / Recall t≥3 0.761 / p50 378ms Dedup audit: gemma 0/51 ✓ 정상 (fix 작동, eval-dedup 42/51 → 0/51 회복) Δ vs baseline (진짜 multi-query 효과): NDCG +0.019 (cold) / +0.015 (warm) — sub-noise level Recall t≥2 +0.030 (cold) / +0.022 (warm) — 소량 개선 Recall t≥3 0.000 / -0.022 — 동등~약간 회귀 latency p50 +876% (cold) / +320% (warm) — major cost category: english/standards/mixed 약간 우세 / exam/korean 약간 회귀 measurement chain 정정 history: Phase 3 (`a41adb6`) 0.927 — chunk_id 중복 inflation Rerank-Fix (`b734fc5`) 0.876 — doc_id 중복 잔재 Eval-Dedup (`3553573`) 0.641 — eval layer 만 dedup Result-Dedup (본 PR) 0.663 — production + eval 둘 다 dedup ← 정확값 사용자 결정 필요 (3 path, json 박제): (a) rollback — marginal 개선이 latency cost 정당화 X (b) opt-in 유지 + PR-2Q-Cache-Prewarm 진입 (warm path 만 노출) (c) 1주 관찰 종료 후 (2026-05-31) 재결정 (현 상태 유지) 산출물: reports/v0_2_phase2q_result_dedup_gemma_{cold,warm}_2026-05-24.csv tests/search_eval/baselines/v0_2_phase2q_result_dedup_2026-05-24.json (요약 + 사용자 결정 옵션) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 04:48:50 +00:00
hyungi	59bde9a399	feat(search): phase-2q apply opt-in — production rollout 시작, 1주 관찰 (gemma-4) plan pr-2q-apply-query-rewrite-1-bright-meadow.md. Phase 2Q Diagnose closure + Rerank-Payload-Fix (main `0257a5d`) 완료 후 Apply rollout. opt-in path 가 Phase 1B/2 부터 이미 production 가동 중 → 본 PR 의 production 영향 0 (marker PR). rollout 정책: · default = rewrite_backend null (single-query path, baseline 회귀 0 invariant) · 명시 opt-in = ?rewrite_backend=cand_multi_query_macmini (추천 gemma-4) · 대안 = cand_multi_query_macbook (qwen3.6, mixed/english 강점, MacBook 가동 시) · 1주 관찰 (2026-05-24 ~ 2026-05-31) → metric 정상 시 default ON 별 PR 변경 (production 영향 0): - docs/phase_2q_apply_opt_in.md 신규 — 사용자 가시화: · 사용 방법 (query param + SvelteKit fetch 예시) · 1주 관찰 metric 목표 (cache hit ≥ 50% / LLM warm p50 ≤ 1500 / 503 ≤ 5/day / Recall t≥3 ≥ 0.74) · 추천 LLM 사유 (decision md §4 4-factor) + 대안 명시 · Phase 2 QueryAnalyzer sequencing 박제 (영향 0, ask_events 0건 운영 관찰 후 확정) · Follow-up PR 5건 명시 (Telemetry / Alert / Default-ON / Cache-Prewarm / Category-Analysis) - app/api/search.py — rewrite_backend query param description 갱신. Apply 진입 박제 + 추천 LLM 표시 + docs 링크. 동작 변경 0. - tests/search_eval/baselines/v0_2_phase2q_apply_smoke_2026-05-24.json — production smoke: · opt-in path HTTP 200 + total_ms 957 (cache hit) + rerank_ms 109 (정상 호출) + fallback 0 · baseline path HTTP 200 + total_ms 207 + rerank_ms 19 + fallback 0 (회귀 0 확정) 38/38 unit test PASS (회귀 0). main HEAD `0257a5d` 위 branch. Closure gate PASS: · docs 가시화 / search.py description / smoke json 박제 · production smoke 양쪽 path 정상 + 회귀 0 verify · 메모리 갱신 + 1주 관찰 종료일 2026-05-31 박제 Follow-up: 1주 후 PR-2Q-Apply-Default-ON-1 (metric 정상 시) 또는 fix PR. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 04:01:49 +00:00
hyungi	b734fc54af	fix(search): Phase 2Q rerank payload — chunk_id dedup + cap 60 + TEI batch 64 (Apply prereq) plan pr-2q-rerank-payload-fix-resolute-haven.md. Phase 2Q multi-query path 의 reranker 413 Payload Too Large root cause = TEI 의 MAX_CLIENT_BATCH_SIZE=32 default (batch entries 한도) + multi-query 의 chunks 누적이 32 초과. MAX_BATCH_TOKENS 와 별개 (token sum 한도). 4 iteration 진단 history (json 박제): 1) cap 60 + dedup = 413 다수 (batch 54 > 32) 2) cap 30 + chunks_per_doc=1 = 413 0건 + NDCG 0.666 catastrophic (-0.261) 3) cap 60 + dedup + TEI 16384 only = 413 46건 (batch size 한도 별개) 4) cap 60 + dedup + TEI 16384/64 = 413 1건 + NDCG 0.876 (FINAL) 변경: - app/services/search/search_pipeline.py: · _dedup_chunks_by_id() 신규 helper — chunk_id (None 시 doc.id) 기준 first-only. variant 별 same chunk 중복 누적 회피, 첫 등장 variant 보존. · PHASE2Q_RERANK_INPUT_CAP=60 + PHASE2Q_CHUNKS_PER_DOC=2 신규 상수 (baseline MAX_RERANK_INPUT=200 / MAX_CHUNKS_PER_DOC=2 와 별도). · search_with_rewrite() merge 후 dedup wire-up + rerank input cap swap. - docker-compose.yml reranker env (사용자 결정, plan out-of-scope 정정): · MAX_BATCH_TOKENS 8192 → 16384 (token sum 한도) · MAX_CLIENT_BATCH_SIZE 32 → 64 신규 추가 (batch entries 한도 — root cause) · GPU VRAM free 6199MiB 충분 사전 verify. - tests/test_query_rewriter.py: _dedup_chunks_by_id 5 test + PHASE2Q_* constants test. 38/38 PASS (기존 32 + 신규 6). 측정 결과 (51 case, gemma backend, snapshot 25180/56526): vs Phase 3 (commit `a41adb6` NDCG 0.927, 413 다수): · NDCG 0.876 (-0.051 acceptable, plan 변수 격리 invariant 충족) · Recall t≥2 0.721 (+0.034 회복) · Recall t≥3 0.739 (+0.011) · latency p50 1421ms (-1336ms, -48%) / p95 3392ms (-6292ms, -65%) major win · 413 fallback 1/51 (98%↓ from 다수) + reranker batch error 0 · 카테고리 english_only +0.34 / standards -0.28 / exam -0.19 (Apply 후 분석 항목) closure gate PASS: · unit test 38/38, production smoke 413 0 · 51 case 413 < 5/51 (1건만) · latency 대폭 개선 · NDCG threshold 0.92 미달 단 plan invariant (production 평가 단일 변수) 충족 · Apply PR-2Q-Apply-Query-Rewrite-1 진입 ready 산출물: · reports/v0_2_phase2q_rerank_fix_2026-05-24.csv (raw) · tests/search_eval/baselines/v0_2_phase2q_rerank_fix_2026-05-24.json (4 iter 진단 박제) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 03:54:59 +00:00
hyungi	1ae7802485	Merge pull request 'Feat/ds ai routing policy' (#23 ) from feat/ds-ai-routing-policy into main Reviewed-on: #23	2026-05-24 12:20:49 +09:00
hyungi	711d4952a2	merge(search): Phase 2Q Query Rewrite Diagnose closed — H1 multi-query gemma-4 추천	2026-05-24 02:57:59 +00:00
hyungi	a41adb63a0	fix(search): Phase 2Q variants bug fix + Phase 3 3 measurement 박제 Phase 3 cold 측정 1차에서 NDCG 0.033 catastrophic 발견 — 모든 query 에 동일 variants 반환. root cause = _call_llm 이 user 메시지 1개에 prompt template 전체 박음. LLM 이 actual query 인식 못 함. fixture request_body 형식 (system=prompt / user=query) 과 mismatch. fixture-first invariant 위반. fix: - app/services/search/query_rewriter.py _call_llm — system/user 메시지 분리. fixture request_body 와 단일 source-of-truth. _render_prompt 는 [deprecated] 유지. - tests/test_query_rewriter.py — Phase 3 regression test 2: · _call_llm 가 system + user 분리 호출 verify (httpx.AsyncClient monkeypatch) · qwen backend = response_format 미사용 verify - 32/32 unit test PASS. Phase 3 측정 (fix 후 재측정, 51 case × 3 candidate × cold/warm = 5 run): - baseline_rebaseline (rewrite_backend=null): NDCG 0.659 = Phase 2A 0.659, diff 0.000 PASS - cand_multi_query_macmini cold: NDCG 0.927 (Δ +0.268), p50 2757ms / p95 9684ms - cand_multi_query_macmini warm: NDCG 0.927 동일, p50 998ms (cache hit -64%) - cand_multi_query_macbook cold: NDCG 0.919 (Δ +0.260), p50 3647ms / p95 5202ms - cand_multi_query_macbook warm: NDCG 0.919 동일, p50 873ms (cache hit -76%) 핵심 약점 회복 (gemma / qwen): - mixed 0.39 → 0.57 / 0.65 - korean_only 0.51 → 0.71 / 0.67 - standards 0.87 → 1.44 / 1.31 - exam 0.74 → 1.11 / 1.04 decision = H1 (both backends 유의미 net 개선). LLM 선택 = Phase 4 decision md 별 step. 산출물: - reports/v0_2_phase2q_*.csv (5 raw run_eval output) - tests/search_eval/baselines/v0_2_phase2q_results_2026-05-24.json (요약 + incident 박제) follow-up: - rerank 413 Payload Too Large 다수 관찰 (RRF fallback 작동, NDCG 영향 없음). Apply PR 전 별 chore — chunk dedup 또는 reranker batch cap 검토. - p95 cold 9684ms 매우 큼. production rollout 시 cache prewarm 정책 필수. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-24 00:51:56 +00:00
hyungi	ecd2350c15	feat(search): Phase 2Q Diagnose Phase 2 — multi-query retrieval fusion phase-2q-query-rewrite-diagnose.md v6 plan §5.5 + §7 Phase 2. Phase 1B `3e6866b` (scaffold + dispatcher) 위 retrieval 합성 wire-up. 신규: - search_pipeline._rrf_fuse_variants() — N variant ranked list RRF 합성. fusion_service.RRFOnly 알고리즘 동일 (k=60), 첫 등장 variant representative 보존. - search_pipeline.search_with_rewrite() — variant N 별 retrieval+fusion 후 unified RRF (cap 60) → reranker 1회 (query=원본 q) → diversity+freshness+display. · per-variant K = 50//3 = 16 (PHASE2Q_PRODUCTION_TOPK//N, A1 채택) · variant 별 retrieval asyncio.gather 병렬 · chunks_by_doc merge (variant 무관 unified reranker input) · production fusion_service.get_strategy() + rerank_chunks() 재사용 - 상수: PHASE2Q_PRODUCTION_TOPK=50, PHASE2Q_UNIFIED_CAP=60, PHASE2Q_RRF_K=60. 수정: - search_pipeline.run_search() — rewrite_backend param 추가. hybrid + cand_<slug> 시 search_with_rewrite() 위임. baseline/None 시 기존 single-query path 그대로 (invariant). - app/api/search.py — Phase 1B scaffold discard call 제거. run_search 에 rewrite_backend 전달. ValueError → 400 (unknown_rewrite_backend 우선 분기) / RuntimeError → 503 (rewrite_llm_unavailable). - tests/test_query_rewriter.py — Phase 2 test 9개 추가: · _rrf_fuse_variants 6 (single / overlap accumulation / representative / cap limit / empty / rank position) · search_pipeline import + run_search rewrite_backend default=None signature 1 · PHASE2Q_* constants 1 · DATABASE_URL dummy 주입 (api.search import → SQLAlchemy engine init 회피) 30/30 unit test PASS (Phase 1B 21 + Phase 2 9). baseline 회귀 0 invariant: - run_search(rewrite_backend=None) → 기존 path 100% 그대로 (분기 first line guard) - run_search(rewrite_backend=baseline) → 동일 - mode != hybrid → multi-query path 비활성 (text-only/vector-only/trgm 영향 0) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 22:41:50 +00:00
hyungi	3e6866b4ae	feat(search): Phase 2Q Diagnose Phase 1B — scaffold + dispatcher phase-2q-query-rewrite-diagnose.md v6 plan Phase 1 의 fixture 외 잔여. Phase 1A `446ba82` 위 dispatcher + cache + LLM call + API param + eval flag + 21 unit test. retrieval 합성 (search_with_rewrite) 은 Phase 2 별 commit. 신규: - app/services/search/query_rewriter.py — LLM_BACKEND_MAP + _resolve + cache + rewrite() · slug-based allowlist (no silent fallback), httpx 직접, Priority.FOREGROUND semaphore · sampling 박제 (gemma response_format json_object / qwen prompt rule only — Phase 0 inspect 9) · manual TTL cache (query_analyzer 패턴 1:1, sha256[:32] NFKC key, LLM_REWRITE_TIMEOUT_MS=15000) - tests/test_query_rewriter.py — 21 test PASS (resolve / cache key / parser / cache TTL / constants) 수정: - app/api/search.py — ?rewrite_backend= query param + 400 unknown / 503 unavailable. scaffold = call but discard variants (retrieval path 영향 0). Phase 2 에서 합성. - tests/search_eval/run_eval.py — --rewrite-backend flag + 4 hot spot wire-up. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 22:25:03 +00:00
hyungi	446ba82c91	feat(eval): Phase 2Q Diagnose Phase 1A — fixture (4 카테고리 × 2 LLM) + prompt v1 phase-2q-query-rewrite-diagnose.md v6 plan 의 Phase 1 fixture 박제 (G0-1 + G0-2). 산출물: - app/prompts/query_rewrite.txt — multi-query rewrite prompt v1 (3 variants: 원본 + 한국어 rephrase + 영어 번역) - tests/fixtures/macmini_gemma4_query_rewrite_response.json — 4 카테고리 (korean_only/mixed/english_only/exam) - tests/fixtures/macbook_qwen_query_rewrite_response.json — 4 카테고리 동일 inspect 9 결과 (2026-05-24): - Mac mini gemma-4-26B-A4B :8801 = response_format json_object 지원 - MacBook qwen3.6-27B-8bit :8810 = response_format json_object 미지원 (120s hang) — prompt rule only - prompt rule \"no markdown, no code fence\" 강제 시 둘 다 strict JSON (gemma 도 fence wrap 없음) - parser fallback (markdown fence regex) 유지 — 첫 호출 prompt 없을 때 wrap 관찰 사례 8 호출 측정: - gemma 1.16~1.36s / qwen 1.93~2.24s (warm) - variants 의미 일관 + 도메인 용어 (ASME/Section VIII/압력용기/가스기사) verbatim preserve - 한국어→영어 cross-lingual translation 자연 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 22:09:29 +00:00
hyungi	a0b11d66f3	fix(worker): summarize ai_model_version label 정정 — qwen3.5 hardcode → primary config 동적 C5 of family-adaptive-bengio. summarize_worker.py 의 doc.ai_model_version 이 실제 모델 (Gemma) 과 무관한 \"qwen3.5-35b-a3b\" hardcode 였음 — 추적/분석/로그 신뢰도 영향. client.ai.primary.model (config.yaml ai.models.primary.model = \"mlx-community/gemma-4-26b-a4b-it-8bit\") 으로 동적 swap — 향후 config model 변경 시 자동 정합. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 21:28:05 +00:00
hyungi	076c0e1802	feat(eval): Phase 2B Reranker Diagnose — dispatcher + gte 측정 + decision (H3 bge-reranker-v2-m3 유지) round-2-review-mighty-starfish.md v2.1 (Phase 2B Reranker Diagnose) plan 실행. Phase 2A 의 CANDIDATE_BACKEND_MAP 패턴 재사용 + RERANKER_BACKEND_MAP 신규. 코드 변경 (4 파일): - app/services/search/rerank_service.py: - RERANKER_BACKEND_MAP allowlist (baseline / cand_gte_ml_base, slug-based resolve) - _resolve_reranker(slug) → endpoint URL or None - _rerank_via_candidate_endpoint() — 후보 TEI POST /rerank - rerank_chunks() 시그니처에 reranker_backend + snapshot_*_id_max 추가 + dispatch log - app/services/search/search_pipeline.py: run_search() threading - app/api/search.py: reranker_backend Query parameter + 400 unknown_reranker_backend 에러 매핑 - tests/search_eval/run_eval.py: --reranker-backend flag + call_search/evaluate threading infra: - docker-compose.override.rerank-cand.yml: 3 후보 service (gte_ml_base / mxbai_large / bge_v2_gemma_2b), profile 'rerank-cand' 격리, restart=unless-stopped 측정 산출물 (51 case, scored=46, failure=5): - reports/v0_2_phase2b_baseline_snapshot_2026-05-23.csv (NDCG 0.659, Phase 2A 와 일치 = 재현성 PASS) - reports/v0_2_phase2b_gte_ml_base_2026-05-23.csv - tests/search_eval/baselines/v0_2_phase2b_{baseline_snapshot,gte_ml_base}_2026-05-23.json - reports/phase_2b_reranker_decision_2026-05-23.md - tests/fixtures/tei_rerank_response.json (G0-1 한국어+영어 mixed sample sanity PASS) 후보 TEI 1.7 호환성 (Phase 1 smoke gate): - cand_gte_ml_base : ✅ PASS (xlm-roberta-based, TEI 호환) - cand_mxbai_large : ❌ deberta-v2 미지원 → Phase 2B-Extended (sentence-transformers wrapper) - cand_bge_v2_gemma_2b : ❌ LLM-based reranker, 1_Pooling/config.json 부재 → Phase 2B-Extended (FlagEmbedding wrapper) 결과 (1 후보 측정 + baseline rebaseline): \| Candidate \| NDCG \| Δ baseline \| mixed \| korean \| exam \| p50 ms \| \|------------------------------------\|------:\|-----------:\|------:\|-------:\|------:\|-------:\| \| bge-reranker-v2-m3 (baseline) \| 0.659 \| — \| 0.39 \| 0.51 \| 0.74 \| 454 \| \| cand_gte_ml_base \| 0.604 \| -0.055 \| 0.38 \| 0.41 \| 0.62 \| 345 \| Decision (H3): bge-reranker-v2-m3 유지. gte 의 reranker quality 가 production 보다 약함 (korean_only -0.10, exam -0.12, overall -0.055). 후속 PR 백로그 (6건): - PR-Search-Query-Rewrite-1 (Phase 2Q, korean_only/mixed 보완 권고) - PR-2B-Extended-Mxbai-Large (sentence-transformers wrapper) - PR-2B-Extended-Bge-V2-Gemma (FlagEmbedding LayerwiseReranker wrapper) - PR-2B-Extended-Jina-V2-ML (license 결정 후, 개인 비영리 가정) - PR-2B-Cloud-Reranker-Scaffold-1 (Cohere scaffold-only, 선택) - PR-2B-Rerank-Cand-Cleanup-1 (1주 후 cand 컨테이너 정리) production 영향: - production reranker (bge-reranker-v2-m3) 변경 0 - config.yaml ai.models.rerank.endpoint 변경 0 - embedding (bge-m3 ollama) 변경 0 (Phase 2A 결정 보존) - documents / document_chunks 변경 0 (21365 docs / 30605 chunks 그대로) - 4 smoke PASS (baseline / baseline+snapshot / cand_gte_ml_base / cand_invalid → 400) - dispatch log 박제 verify (endpoint + snapshot id) closure gate: 16 항목 PASS (flex closure 조항 적용 — 1 후보 측정, 2 후보 TEI 호환 탈락 사유 명시). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 08:37:42 +00:00
hyungi	0e8d5cccaf	feat(worker): summarize sliding window — 50k chunk + cumulative carry-over P3 of family-adaptive-bengio (Mac mini 4-lever bundle). 50k 초과 input 은 CHUNK_SIZE=50000 단위로 N 분할 + cumulative carry-over (prev chunk summary 를 다음 chunk prompt 에 prefix). 50k 이하 input = 기존 동작 (변동 0). 첫 chunk = client.summarize() legacy / 후속 chunk = call_primary + SUMMARY_PROMPT_CONTINUATION. log trace: single vs sliding chunk N/M done. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 07:08:23 +00:00
hyungi	3092e3009d	feat(eval): Phase 2A Diagnose Phase 3+4 — dispatcher + 3 측정 + decision (H3 bge-m3 유지) phase-2a-embedding-diagnose.md v4 § 6 (dispatcher) + § 7 Phase 3 (51 case 측정) + § 7 Phase 4 (decision) Round 2 review: round-2-review-mighty-starfish.md (R2-2 + R2-B1 페어 invariant + slug-based resolve) 코드 변경: - app/services/search/retrieval_service.py: - CANDIDATE_BACKEND_MAP allowlist (baseline / cand_me5_large_inst / cand_snowflake_l_v2) - _resolve_backend(slug) → docs_table/chunks_table/embed_endpoint or None - _embed_query_via_tei() — candidate TEI 엔드포인트 호출 (cache 미사용) - _VALID_DOCS_TABLE + _VALID_CHUNKS_TABLE regex (R2-B1 2단계 gate) - _search_vector_docs / _search_vector_chunks: docs_table/chunks_table + snapshot__id_max 파라미터 - search_vector + search_vector_multilingual: embedding_backend + snapshot__id_max 파라미터 + dispatch log - app/services/search/search_pipeline.py: run_search() 시그니처 + 4 search_vector* 호출 threading - app/api/search.py: 3 Query parameter + ValueError → HTTP 400 (allowed list 응답) - tests/search_eval/run_eval.py: --embedding-backend + --snapshot-doc-id-max + --snapshot-chunk-id-max + call_search/call_search_full/evaluate threading + main 3 asyncio.run threading 측정 산출물 (51 case, scored=46, failure=5): - reports/v0_2_phase2a_baseline_snapshot_2026-05-23.csv (snapshot filter 적용 production path) - reports/v0_2_phase2a_me5_large_inst_2026-05-23.csv - reports/v0_2_phase2a_snowflake_l_v2_2026-05-23.csv - tests/search_eval/baselines/v0_2_phase2a_{baseline_snapshot,me5_large_inst,snowflake_l_v2}_2026-05-23.json (3개) 결과: \| Candidate \| NDCG \| Δ vs baseline \| mixed \| korean_only \| p50 ms \| \|------------------------------------\|-----:\|--------------:\|------:\|------------:\|-------:\| \| bge-m3 (baseline snapshot) \| 0.659\| — \| 0.39 \| 0.51 \| 464 \| \| cand_me5_large_inst \| 0.477\| -0.182 \| 0.17 \| 0.47 \| 194 \| \| cand_snowflake_l_v2 \| 0.616\| -0.043 \| 0.35 \| 0.52 \| 254 \| Decision (H3): bge-m3 유지. 둘 다 net 회귀. - mE5-large-instruct: 전 카테고리 회귀 (-0.182). prefix 미적용 변수 — 별 PR PR-2A-mE5-Prefix-Retry 후보. - snowflake_l_v2: 가벼운 회귀 (-0.043). korean_only +0.01 미세 개선 신호. - korean_only/mixed 약점 보완은 Phase 2B (Reranker) 또는 Phase 2Q (Query rewrite) 권고. Decision report: reports/phase_2a_embedding_decision_2026-05-23.md (§ 1~8 포함, Closure gate 16 항목 모두 PASS). 후속 PR 백로그: - PR-2A-mE5-Prefix-Retry (별 PR) - PR-2A-Extended-Bge-Mgemma2 (별 PR, v3 결정) - PR-2A-Cloud-Embedding-Scaffold-1 (Cohere/Voyage scaffold-only, 선택) - PR-Search-Query-Rewrite-1 (Phase 2Q) - PR-Search-Reranker-V2-Diagnose (Phase 2B) - PR-2A-Chunks-Cand-Cleanup-1 (1주 후 cand 테이블 DROP) production 영향: - documents / document_chunks 컬럼/row 변경 0 - config.yaml 변경 0 (ollama bge-m3 unchanged) - 추가된 endpoint = query parameter opt-in (미지정 시 production path 회귀 0) - smoke 4건 PASS (baseline / baseline+snapshot / cand_me5 / cand_invalid → HTTP 400) - dispatch log 박제 verify (snapshot_doc/chunk_id_max 박제) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 06:55:13 +00:00
hyungi	5cb8d04b50	feat(ai): config-driven sampling profile — triage T=0, primary T=0.3 top_p=0.9 P1 of family-adaptive-bengio (Mac mini 4-lever bundle). AIModelConfig: temperature/top_p Optional fields (None = server default). _request OpenAI/MLX branch payload 조건부 sampling 인자 삽입. config.yaml ai.models.triage.temperature=0.0 (deterministic) / primary temperature=0.3 top_p=0.9 (summary creativity). fallback (Anthropic) branch 미적용 — 별 plan 범위. caller 코드 무변경. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 06:37:46 +00:00
hyungi	bcf644f893	refactor(search): /api/search/ask dispatcher route via llm-router PR-2 of DS AI routing policy (2026-05-23, see plan ~/.claude/plans/document-server-ai-cheeky-reddy.md + memory project_document_server_ai_routing_policy). DS 의 모든 backend 호출이 llm-router :8890 단일 경유. 정칙 정합: - 신규 RouterBackend (services/llm/backends.py) — alias 별 router POST + requires_gate 분기 (mac-mini-default 만 llm_gate FOREGROUND 보호). - 기존 GemmaMacMiniBackend + QwenMacBookBackend = legacy 보존 (DS_BACKENDS_VIA_ROUTER=false rollback safety only). 1주 후 별 cleanup PR (PR-DS-Backends-Legacy-Cleanup-1) 로 폐기. - get_backend factory dual-path (env flag) — backward-compat (gemma-macmini alias → mac-mini-default 매핑). - search.py:457 Query pattern 확장: mac-mini-default\|claude-cloud\|auto 추가. /ask/react 의 isinstance(QwenMacBookBackend) → hasattr duck-typing (RouterBackend + Legacy 모두 generate_with_tools 구현). - SearchAskBackendConfig 에 router_url 신규 (env LLM_ROUTER_URL 또는 hardcoded MVP default http://100.76.254.116:8890). - docker-compose.yml fastapi env 에 LLM_ROUTER_URL + DS_BACKENDS_VIA_ROUTER 추가. AIClient (_call_chat, call_triage, call_primary, call_fallback) 경유 path 는 별 PR (PR-AIClient-Router-Migration-1) — MVP scope C 채택, 회귀 risk 최소화. Closure (즉시 fixture/matrix): - factory smoke 6 alias (None/mac-mini-default/gemma-macmini/ qwen-macbook/claude-cloud/auto) + 1 invalid (nonsense → ValueError). - live 3 case: mac-mini-default 200 \"pong! 🏓\" + qwen-macbook cold 502 upstream_502_primary=ConnectError + claude-cloud 503 provider_not_configured. - silent fallback 0 + direct M5/Mac mini socket 0 (RouterBackend 만 router 호출). Backup: ~/.local/share/ds-routing-pr2-backups/20260523/ (backends.py + config.py + search.py + docker-compose.yml). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-23 03:41:29 +00:00
hyungi	51c3f6df10	feat(search): /ask/react endpoint with Qwen native tool calling ReAct loop PR-DocSrv-Ask-ToolCalling-ReAct-1 — Qwen3.6-27B-8bit 의 native tool calling 으로 ReAct loop 도입. 기존 /api/search/ask 무수정. 트랙 B (frontend /ask SSE) 와 파일 단위 충돌 0 (search.py 의 ask() 함수 line diff = 0, 순수 추가). 핵심 invariant: - 별 endpoint /api/search/ask/react (qwen-macbook only, implicit opt-in) - MacBook unavailable 시 HTTP 503 + error_reason=macbook_unavailable. Gemma 자동 fallback X (정정 4 의 연장) G0 (구현 전 hard gate, plan b-velvety-hare.md): - G0-1 fixture (tests/fixtures/qwen_tool_call_response.json): 실제 mlx-vlm 응답 박제. shape = OpenAI 표준 호환 (choices[0].message.tool_calls + function.arguments JSON string). generate_with_tools() 가 본 shape 기준 구현. - G0-2 counter semantics: max_tool_rounds=2 + max_llm_calls=3 + search_exec_max=2. 마지막 LLM 호출은 tool_choice="none" + system instruction 으로 final 강제. - G0-3 trace exposure: default response 의 debug_trace=null. debug=true 시만 채움. server log 에는 항상 round 기록. backends.py (193 → 261줄): - QwenMacBookBackend.generate_with_tools(messages, tools, tool_choice) 신규 method. 기존 generate() 무수정. BackendUnavailable 처리 동일. react_loop.py 신규 (275줄): - agentic_ask_loop(session, query, *, backend, max_tool_rounds, debug) - tool round 안에서 run_search 호출, results dedup by id, final round 강제, partial=True 조건 (final content 빈 경우) search.py (+82줄): - POST /api/search/ask/react + AskReactRequest/Response schema - BackendUnavailable → JSONResponse(503, error_reason=macbook_unavailable) config.yaml + config.py: - search.ask.react: { enabled, max_tool_rounds=2, search_tool_limit=5, search_tool_mode=hybrid } tests (566줄, 18 신규 + 23 회귀 모두 PASS): - test_react_loop.py 13건: G0-1 fixture shape / G0-2 counter cap / G0-3 trace exposure / BackendUnavailable propagation / sources dedup - test_search_ask_react_endpoint.py 5건: 503 + run_search 호출 0 / 정상 200 / debug=true trace 노출 / max rounds partial - 회귀 (test_ask_eval_auth 9 + test_search_ask_macbook_503 5 + test_backend_dispatcher 9) 모두 PASS Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-22 13:43:47 +00:00
hyungi	a7b8f15870	feat(search): /ask backend dispatcher (qwen-macbook opt-in, no silent fallback) PR-MacBook-RAG-Backend-1 — /api/search/ask 의 명시 backend 선택 진입점. 핵심 invariant (정정 4): - backend 미지정 = Gemma Mac mini default, 응답 contract 변동 0 - backend="qwen-macbook" 명시 opt-in 만 MacBook M5 Max mlx-vlm.server 호출 - MacBook unavailable 시 HTTP 503 + error_reason=macbook_unavailable - 자동 fallback 절대 금지 — 실패 path 에서 Gemma backend.generate() 호출 0 backend dispatcher (services/llm/): - BackendBase / GemmaMacMiniBackend / QwenMacBookBackend / BackendUnavailable - Qwen backend 는 Mac mini llm_gate 점유 X, 별 Semaphore(1) — llm_gate docstring 의 single-inference 영구 룰은 같은 endpoint 한정으로 scope 명시 - httpx Connect/Read/Pool/Timeout/5xx → BackendUnavailable, 4xx 전파 synthesis_service.py: - backend 인자 추가, status="backend_unavailable" 신규 - cache key 에 backend_name 포함 (qwen ↔ gemma 캐시 충돌 차단) config: - search.ask.backend.{macmini_url, macbook_url, macbook_model, timeout_connect_s=1, timeout_read_s=30} - MacBook endpoint = http://100.118.112.84:8810 (M5 Max Tailscale bind) tests (14 신규): - tests/services/test_backend_dispatcher.py (9): dispatcher 정합성 + Qwen generate path (mock 200 / dead port / 5xx / 4xx) + cache identity - tests/api/test_search_ask_macbook_503.py (5): 정정 4 핵심 invariant. backend=qwen-macbook 비가용 시 gemma.generate.assert_not_called() 기존 ask 회귀 0 (test_ask_eval_auth 9건 등 85건 모두 PASS). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-22 13:10:44 +00:00
Hyungi Ahn	eae1f48d62	feat(worker-pool): Registry-1C cap 1MB + deterministic compaction 사용자 결정 2026-05-19: 100KB cap 이 운영 7d 데이터 1.36MB 대비 부족 → cap 상향만으로 raw 비대화 위험. cap 1MB + payload compaction 병행. fetch_recap_context() 변경: - memo payload item field 축소 = id/title/ai_tldr/ai_event_kind/created_at (5 필드) (ai_bullets/file_type/source_channel/category/extracted_text 등 제외) - memo top-N = RECAP_MEMO_TOP_N env (default 200) — 초과분은 aggregate 로 - aggregate = memos_by_day + memos_by_kind + omitted_memos - payload_compacted flag = aggregate fallback 발현 여부 - events 는 raw (운영 7d 데이터에서 통상 0~소량) internal_worker.py: - PAYLOAD_MAX_BYTES → _payload_max_bytes() env override (WORKER_RECAP_PAYLOAD_MAX_BYTES default 1_000_000) - JobsRecapResponse 에 payload_compacted / omitted_memos 노출 - 413 detail 에 "after compaction" 명시 + RECAP_MEMO_TOP_N 조정 안내 테스트 3 항목 신규 + 기존 endpoint 413 test 업데이트: - 700 memo → 200 kept + 500 omitted + compacted=true + < 1MB - 10 memo → compacted=false + omitted=0 - 비정상 큰 title (compaction 후에도 cap 초과) → 413 유지 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-19 12:55:51 +09:00
Hyungi Ahn	0ea72c1aa6	feat(worker-pool): Registry-1C recap context + /jobs/recap + 100KB guard - app/services/worker_recap_context.py — fetch_recap_context(user_id, days) documents file_type='note' 7d (single-user invariant) + events 7d (user_id 매칭 + cancelled 제외) JOIN. timezone Asia/Seoul. - /internal/worker/jobs/recap POST — 일반 user JWT 인증 + context 조립 + worker_jobs INSERT. job_type='recap' + payload JSONB. - payload 100KB guard — JSON 직렬화 100_000 bytes 초과 시 413. - 회귀 위험 0: memos/events API select 절 touch 0, read-only 쿼리만. worker-pool-policy §B.2 invariant 보존: ProcessingQueue 무변경, 운영 자동 분기 변경 0, canonical promote 0 (worker_jobs.payload JSONB only). Notebook-Pilot-1 entry condition 4항목 모두 충족 가능: manual recap E2E / payload <100KB guard / residue 0 / 권한 분리 403. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-19 12:44:07 +09:00
Hyungi Ahn	f60d6e52fc	feat(worker-pool): Registry-1B Pull 활성화 (auth + worker_jobs + 5 endpoint) worker-pool-policy §B 1B 영역 완료. 1A scaffold (mig 270~274 + 503 stub) 위에: - mig 275/276: worker_jobs (status CHECK + user_id=owner) + pending partial index - create_laptop_worker_bot_token + require_worker_user dependency (voice-memo 동형) - /internal/worker/{register,heartbeat,claim,result,drain} 5 endpoint 실 구현 - /claim FOR UPDATE SKIP LOCKED + 204 body 0 - /result 소유권 검증 (worker_id 매칭, 404) + failed 재시도 (attempts/max) - explicit failure 시 request.result 무시 (DB result NULL 유지) - 테스트 22 항목 7 파일 policy §B.2 5 invariant 보존: voice-memo wrapper 변경 0, drain advisory, result raw JSONB, ProcessingQueue 무변경, 운영 자동 분기 변경 0. 활용처 (recap context + /jobs/recap + payload 100KB guard) = Registry-1C 영역. stale recovery / 노트북 client / canonical promote = Notebook-Pilot-1 영역. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-19 08:54:07 +09:00
hyungi	acd29b963e	ops(triage): event_kind_hint diagnostic logging cleanup (PR-4B Apply 영구 보류) chore-memo-NULL-backfill 6/6 H1 (historical artifact) 확정 후 Apply PR 영구 보류. `406b810` 의 8-line logger.info 블록 제거 (behavior 변경 0, 진단 데이터 더 이상 불필요). backup: app/workers/classify_worker.py.pre-eventkind-cleanup (7일 안전망 ~2026-05-25) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-18 11:27:29 +00:00
Hyungi Ahn	bbd92a840a	feat(worker-pool): Registry-1A scaffold — worker_capabilities/heartbeats + /internal/worker/* 5 endpoint 503 stub PR-Worker-Pool-Registry-1A (scaffold only, no runtime activation). 신규: - migrations/270~274 (1 statement/1 file 강제): worker_capabilities + 2 idx + worker_heartbeats + 1 idx - app/models/worker_pool.py: WorkerCapability + WorkerHeartbeat ORM (queue.py 패턴) - app/api/internal_worker.py: 5 endpoint 모두 _stub_503() — register/heartbeat/claim/result/drain - tests/test_internal_worker_stub.py: 503 응답 smoke (inline ASGI client, DB 의존 0) 수정: - app/main.py: import + include_router 각 1줄 (prefix=/internal/worker, internal_study 일관) scaffold-first + phase-gate-material-first 강제 (worker-pool-policy §1, §12): - 인증 dependency 0 (1B 에서 JWT + require_worker_user) - ProcessingQueue 변경 0 (방향 b: worker_jobs 별 table = 1B) - LLM 호출 0 / canonical DB 변경 0 / 운영 자동 분기 0 회귀 0 (1주 안전망 = app/main.py.pre-registry-1a.20260518). plan: ~/.claude/plans/floofy-exploring-mitten.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-18 20:24:59 +09:00
hyungi	406b810e28	ops(triage): PR-4B-Diagnose-EventKindHint-Layer-A — diagnostic logging (no behavior change) Layer-A Diagnose only. classify_worker.py:691 직전에 event_kind_hint 의 raw/normalized/in_valid/confidence 값 capture (logger.info 5줄 insert, lazy formatting + %r repr). guard 통과 X 의 specific root cause (A1 field 부재 / A2 빈 string / A3 invalid enum) 확정용. specific fix (default note / enum mapping / prompt 강화) 는 별 PR-4B-Fix-EventKindHint-Apply. Apply PR closure gate 에 logging cleanup (info → DEBUG 또는 제거) 흡수. plan: ~/.claude/plans/c-1-pr-infra-drift-1-phase-1b-linear-frost.md backup: app/workers/classify_worker.py.pre-4b-eventkind-logging.20260517	2026-05-17 06:41:32 +00:00
hyungi	8998cbea8c	ops(triage): PR-4B-Diagnose — exception logging 강화 (type/repr/exc_info) Layer 1 root cause 진단을 위해 classify_worker.py:595 의 exception logging 을 lazy formatting + exc_info=True 로 강화. f-string 1줄 → 5줄 block. - type=%s: exception class name (TimeoutError/JSONDecodeError/ValueError/etc.) - repr=%r: full exception state - exc_info=True: traceback 까지 capture (wrapper 정확 지점 추적) 본 PR scope = Diagnose only. Layer 1 specific fix (H1/H2/H3/H4) + Layer 2 escalate path ai_event_kind fallback set 은 별 PR queue. plan: ~/.claude/plans/c-1-pr-infra-drift-1-phase-1b-linear-frost.md backup: app/workers/classify_worker.py.pre-4b-diagnose.20260517	2026-05-17 06:22:27 +00:00
hyungi	74876b674c	feat(auth): JWT iat + users.password_changed_at invalidation (PR-Docsrv-JWT-Invalidation-1) PR-Infra-Sec-1H Phase 0 audit 에서 DS jwt invalidation 정책 부재 확정. password rotation 으로 구 365d JWT (voice-memo-bot 등) invalidate 안 되는 hard gate STOP 진입 → 선행 PR 분리. - migration 269: users.password_changed_at timestamptz NULL (legacy 호환) - create_access_token / create_refresh_token: payload 에 iat (int 초) 추가 - verify_password_changed_at helper: int(password_changed_at.timestamp()) > int(iat) 시 401 - get_current_user + refresh_token route: verify helper 호출 - change_password / setup signup / seed_admin INSERT+UPDATE: password_changed_at 갱신 NULL = 검증 skip (migration 직후 운영 영향 0). 첫 password 변경 후만 iat 검증 활성. Sec-1H 의 G-token-old hard gate 통과 path 확보.	2026-05-17 06:20:46 +00:00
Hyungi Ahn	a08b620894	refactor(search): swap 10 call sites to acquire_mlx_gate(Priority.) (B-1) DS-Mac-mini-26B-Priority-Gate-1 — 사용자-facing 7 + worker 3 = 10 site 의 `async with get_mlx_gate():` → `async with acquire_mlx_gate(Priority.):` 교체. Foreground 6 (user-facing path): - app/services/search/evidence_service.py:315 (/ask evidence stage) - app/services/search/classifier_service.py:103 (/ask classifier stage) - app/services/search/synthesis_service.py:299 (/ask synthesis stage) - app/api/documents.py:1306 (수동 analyze API) - app/api/study_topics.py:1183 (subject note 동기 생성) - app/api/study_questions.py:1560 (study explanation 동기 API) Background 4 (worker queue / fire-and-forget): - app/services/search/query_analyzer.py:240 (V0 grep 확인: fire-and-forget only, search_pipeline.py:179 trigger_background_analysis 만, docstring rule "analyze() 동기 호출 금지" 부합 → BACKGROUND 확정) - app/workers/deep_summary_worker.py:110 (classify-escalate worker) - app/workers/study_explanation_worker.py:149 - app/workers/study_session_analysis_worker.py:237 Cleanup: - query_analyzer._get_llm_semaphore() 제거 — self-only, unused, signature 거짓말 (이제 get_mlx_gate 가 Semaphore 아닌 context manager 반환) 기존 get_mlx_gate() legacy wrapper 는 보존 (BACKGROUND 매핑). user-facing path 잔재 0 — closure gate grep 검증 통과 (별 commit 에서).	2026-05-17 08:51:57 +09:00
Hyungi Ahn	7c9aff393a	feat(search): MLX priority gate (B-1, Priority.FOREGROUND vs BACKGROUND) DS-Mac-mini-26B-Priority-Gate-1 — Mac mini 26B single-inference gate 를 FIFO Semaphore → 우선순위 기반 heap dispatch 로 교체. concurrency 1 유지, queue ordering 만 foreground 우선. API: - Priority(IntEnum): FOREGROUND=0, BACKGROUND=100 - acquire_mlx_gate(priority=DEFAULT_PRIORITY) async context manager - DEFAULT_PRIORITY = BACKGROUND (안전 default, foreground 짓밟지 않음) - get_mlx_gate() legacy wrapper — context-manager only 호환 구현: - _inflight: bool + _waiters heap [(priority, seq, future, enqueue_ts)] - fast-path: not inflight and not waiters → 즉시 inflight, Future 생성 X - _dispatch_next_locked: cancelled/done Future skip (heap 잔재 risk 회피) - release: lock 안에서 pop, set_result 는 loop.call_soon (lock 밖) reentry deadlock 회피 - dispatch / enqueue / release / WARN log (observability) - BACKGROUND wait_ms > 300_000 (5분) 시 starvation WARN — aging 은 Phase 2 deferred Tests (tests/test_priority_gate.py, 6 scenario): 1. FIFO within same priority 2. Foreground jumps queue (bg5 대기 중 fg 들어오면 즉시 다음 슬롯) 3. Long-running background blocks foreground (preemption X, intended) 4. Mixed concurrent enqueue (FG fifo 먼저, BG fifo 후) 5. Backward compat (legacy get_mlx_gate() = BACKGROUND 매핑) 6. Cancelled waiter skip (heap 의 죽은 Future 건너뜀, gate stuck X) Site 교체는 별 commit (refactor(search): swap 10 call sites). plan: ~/.claude/plans/hermes-polymorphic-rossum.md	2026-05-17 08:42:58 +09:00
Hyungi Ahn	73f328cb65	fix(search): DS RAG LLM_TIMEOUT_MS align 15s/3s → 30s/10s (B-3 Synthesis-Timeout-Calibration-1) PR-Hermes-Docsrv-Search-1 closure 측정 (synthesis_ms=30~48s / ev_ms=15005 / query_analyze 45s) 으로 15s LLM_TIMEOUT 빈발 timeout 확인. Mac mini 26B 동시 호출 (gate Semaphore 1 직렬화 후에도 evidence + synthesis + classifier + query_analyzer + verifier 가 sequential 누적) 시 각 호출 30s 까지 필요. 5곳 변경: - synthesis_service.LLM_TIMEOUT_MS 15000 → 30000 - evidence_service.LLM_TIMEOUT_MS 15000 → 30000 - verifier_service.LLM_TIMEOUT_MS 3000 → 10000 - query_analyzer.LLM_TIMEOUT_MS 15000 → 30000 - search.py:522 classifier wait_for 15.0 → 30.0 (classifier_service align) - search.py:641 verifier wait_for 4.0 → 10.0 (verifier_service align) classifier (이전 PR 에서 30s 로 align 완료) 와 동일 정책 — outer wait_for 가 inner LLM_TIMEOUT_MS 를 override 하지 않도록 align. ask 응답 latency 상한 ↑ 의도된 trade-off — 안정성 (refusal_gate conservative_refuse 회피 + grounding/verifier 정상 동작) 우선. 영향: PR-1 fixture 회귀 0 예상 (이전 timeout 이 새 한도 안). B-1 Throughput-1 (priority queue / 모델 분리) 별 PR 진입 시 latency 본격 단축 검토.	2026-05-17 08:01:22 +09:00
Hyungi Ahn	ad3d51e3e0	fix(search): classifier + evidence gate 안으로 이동 (Mac mini 26B race 종결) llm_gate.py docstring 영구 룰: "MLX primary 호출 경로는 예외 없이 gate 획득 필수". PR #20 이후 classifier (Mac mini 26B 신규) + evidence (triage→Mac mini 26B 통합) 모두 gate 외부 실행 — concurrent 안전성 별 검토 명시. 1주 관찰 결과: race 빈번. 본 PR-Hermes-Docsrv-Search-1 Layer 1 fixture 측정: - 8/10 query "conservative_refuse(no_classifier)" — classifier 가 동시 부하 시 거의 모두 ReadTimeout 또는 wait_for(6s) timeout - evidence ev_ms=15005 — synthesis 와 race 로 15s 누적 영향: - ask total 시간 증가 (parallel race → serialized): query_analyzer 5s + classifier 3-5s + evidence 5s + synthesis 30s ≈ 40-45s 상한 (현실 평균) - 응답률 ↑: race timeout 으로 인한 conservative_refuse 해소 - 사용자 체감: 빠른 거절 → 의미있는 답변. 단 대기 시간 ↑ 후속: - skill `docsrv_ask` curl `--max-time 20` → 60s 상향 필요 (별 PR 또는 본 PR 안의 follow-up) - 본 메모리 `2026-05-21 Mac mini 26B 1주 부하 측정` observation 의 결정 outcome: gate 복귀 (triage 별 작은 모델 재도입 옵션은 보류)	2026-05-16 19:54:55 +09:00
Hyungi Ahn	5846baedc7	fix(search): ask classifier wait_for 6s → 15s (outer wrapper override 해소) A1 (LLM_TIMEOUT_MS 5→15→30) + config(10→15→30) 후속 진단: 8/10 fixture query 가 "classifier ok" 또는 "classifier error" 로그 없이 conservative_refuse(no_classifier) 경로. search.py:518 의 outer wrapper `asyncio.wait_for(classifier_task, timeout=6.0)` 가 classifier_service.LLM_TIMEOUT_MS 와 httpx timeout 모두 override. 6s 한계 → 동시 부하 시 거의 모든 classifier 호출 6s 안에 못 끝남 → AsyncIO TimeoutError → ClassifierResult("timeout") → refusal_gate 가 verdict=None 받아 conservative_refuse. 15s 로 상향 — classifier_service 내부 30s 와 align 하지 않은 이유 = ask 응답 시간 상한 유지 (evidence parallel 종료 후 추가 9s 대기 cap). Mac mini 26B 동시 부하 시 실측 elapsed 11-14s 까지 자주 발생 → 15s 가 합리 균형. 본 fix 가 진짜 closure 효과. PR-Hermes-Docsrv-Search-1 Layer 1 fixture 의 8/10 no_classifier 경로 해소 예상.	2026-05-16 19:46:49 +09:00
Hyungi Ahn	a332a8aabe	fix(search): classifier timeout 15s → 30s (concurrent load 2x margin) A1+config(15s) 후속 진단: voice memo PoC plan 호출 elapsed_ms=14432 — 15s 한계 거의 밀착. Mac mini 26B 동시 부하 (classifier + evidence + synthesis 3-way) 시 빈번 ReadTimeout 잔존. 30s 로 2x 마진 확보 — config.yaml + classifier_service.py 양쪽 align. Phase 3.5 guardrail 동작 자체에는 영향 없음 (timeout 시 fallback 경로 동일). 향후 별 트랙 (DS-Mac-mini-26B-Concurrent-Load-1): asyncio.Semaphore 도입으로 Mac mini 26B 동시 호출 제한 vs triage 만 작은 모델 재도입. 본 PR 은 timeout 완화만.	2026-05-16 19:42:49 +09:00
Hyungi Ahn	542b6a0084	fix(search): classifier error log type+repr (empty-msg exception 진단) PR-Hermes-Docsrv-Search-1 Layer 1 fixture 가 classifier error: <빈 메시지> 빈번 발생 보고. isolation 직접 호출은 3/3 성공, 동시 부하 (ask endpoint 의 classifier + evidence parallel) 시에만 발생. Exception type + repr 캡처해서 root cause 식별 (httpx.ReadTimeout / TimeoutError / ConnectionError / 기타 무엇인지). 식별 후 후속 PR (DS-Classifier-Concurrent-Load-1) 에서 본격 mitigation.	2026-05-16 19:08:23 +09:00
Hyungi Ahn	c769ad14ad	fix(search): classifier LLM_TIMEOUT_MS 5s → 15s (Mac mini 26B concurrent load) PR #20 (`f139945`) GPU LLM 제거 후 Mac mini 26B 가 triage + classifier + chat + STT 동시 흡수. classifier_service hardcoded 5s timeout (config.yaml `timeout: 10` 무시) 이 동시 부하 시 빈번 초과 → CIRCUIT_THRESHOLD(5) 누적 → circuit 60s open → verdict=None → refusal_gate conservative_refuse(no_classifier) 경로. 실측: 정상 부하 단독 호출 = 2.3s (500 prompt + 49 completion tokens), 동시 호출 시 ev_ms/synth_ms 가 15s 까지 누적 — 5s 한계가 architectural mismatch. 15s 로 상향 → classifier 정상 verdict 반환 → refusal_gate 가 classifier 의 sufficient/insufficient 사용 (conservative fallback 회피). 본 fix 는 [[2026-05-21 Mac mini 26B 1주 부하 측정]] observation 의 회귀 결과로 자연 정리. config.yaml `classifier.timeout: 10` 와는 별 변수 — 본 1줄은 코드 내 한계, config 항목은 별 PR (Config-Driven-Timeout-1) 에서 통합 검토. 발견 경로: PR-Hermes-Docsrv-Search-1 Layer 1 fixture (curl direct, 10/10 ask) 가 conservative_refuse(no_classifier) 8건 + timeout 2건 보고. fastapi log "classifier circuit OPEN for 60s" + "classifier timeout" 페어 발견.	2026-05-16 19:02:55 +09:00
Hyungi Ahn	19bf5b1e38	feat(memo): Hermes input gateway — source_channel='hermes' + source_metadata jsonb PR-Hermes-Docsrv-Bridge-1 v1. Hermes Agent (Mac mini Discord) 를 Document Server 입력 게이트웨이로 reframe — 코딩 executor X, Claude Code 변동 0. 변경: - migration 267: source_channel enum 에 'hermes' 추가 - migration 268: documents.source_metadata jsonb NOT NULL DEFAULT '{}' 추가 - Document model: source_metadata 컬럼 ORM 매핑 + enum 'hermes' 노출 - MemoCreate: source_channel + source_metadata 필드 수용 (default='memo' 호환) - create_memo: channel allowlist (memo/voice/hermes) + metadata jsonb 저장 - list_memos: IN tuple 에 'hermes' 추가 (inbox 노출) - MemoResponse + _to_memo_response: source_metadata 노출 (UI 배지 준비) LLM 호출 0 — Hermes 의 HTTP POST 만. 분류/요약은 classify_worker 비동기 처리. promote-to-event guard (562/664) 변경 0 — v1 = hermes 메모 promote 차단 유지. plan: ~/.claude/plans/idempotent-seeking-hollerith.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-16 13:44:15 +09:00
Hyungi Ahn	3627060d2a	fix(ingest): devonagent extract md_status 'ready' → 'success' documents_md_status_check 제약은 {pending/processing/success/partial/failed/skipped} 만 허용. extract_worker 의 web HTML 분기가 'ready' 박아서 CheckViolationError 로 3회 실패. plan/docs/메모리에 'ready' 로 잘못 표기됐던 것 수정. 19668 (첫 sample doc) 검증 중 발견. fix 후 queue 'failed' 행 reset 으로 재실행. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-16 08:42:15 +09:00
Hyungi Ahn	0cbba0ceeb	feat(ingest): devonagent 트랙 Phase 1 ingest 활성화 DEVONagent/DEVONthink 가 발견한 웹페이지를 NAS Web/ drop → file_watcher ingest → extract 4-tier fallback (trafilatura/sibling-md/readability/bs4) → embed + chunk 까지. classify/preview/markdown SKIP. - source_channel='devonagent' (migration 001 dormant 활성화) - file_watcher: SCAN_TARGETS 통합 + Web/ rglob + canonical_url dedup + sidecar 누락 정책 (skip 안 함, web_meta.sidecar_missing=true flag) - extract_worker: HTML+devonagent 분기 + md_extraction_engine 4-tier 구분 (trafilatura → sibling .md ≥200char → readability+markdownify → bs4_text) - queue_consumer: enqueue_next_stage 의 extract stage 만 source_channel- aware override (devonagent → [embed, chunk]) - classify_worker: devonagent safety skip (law_monitor 패턴 mirror, ai_domain='Web', ai_tags=['Web/{host}']) - requirements: trafilatura/readability-lxml/markdownify 추가 - docs: devonthink-web-bridge.md 설치 가이드 + first-wins 정책 명시 Phase 1 closure 기준 = 재료 품질 (검색 가능 + 노이즈율 + dedup + 엔진 분포). 활용처(ai_tldr/digest/PKM 회고)는 1-2주 OR 30-50건 관찰 후 별 PR 에서 결정. Plan: ~/.claude/plans/db-snuggly-petal.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-15 21:23:16 +09:00
hyungi	118f32f9b1	refactor(ai): PR #20 reframe cleanup — Ollama LLM 잔재 주석 정정 PR #20 (2026-05-14, GPU LLM 제거 + Mac mini 26B MLX 흡수) 의 swap 이 backends.json + 코드 주석/docstring 까지 따라가지 못한 표현 잔재 정리. - app/ai/client.py: AIClient docstring 및 call_triage / call_fallback docstring 의 "4B Ollama" → "Mac mini 26B MLX" / "현재는 triage 와 동일 엔드포인트" → "Claude Sonnet 4 API (PR #20 swap 완료)" - app/core/config.py: triage/primary/fallback 주석 통합 + Phase 3.5 classifier/verifier 주석에 PR #20 endpoint 명시 (history 보존) - app/services/search/{llm_gate,classifier_service,verifier_service, evidence_service}.py: "fallback(Ollama)" / "Ollama concurrent OK" / "triage(4B Ollama)" 표현을 Mac mini 26B MLX endpoint 기준으로 정정 + concurrent 안전성 별 검토 마커 추가 - app/services/digest/summarizer.py: "MLX hang/Ollama stall 방어" → "MLX hang / fallback Claude API stall 방어" - app/services/prompt_versions.py: SUMMARY_TRIAGE_TASK + ASK_PROMPT_VERSION 주석의 "4B Ollama" / "4B gemma Ollama" → Mac mini 26B MLX - app/workers/classify_worker.py: B-1 tier triage docstring 정정 코드 동작 변경 0 (주석/docstring 만). embed_worker / study_question_embed_worker 의 "Ollama bge-m3" 표현은 사실 정확이라 유지. 검증: - ollama list → bge-m3:latest 잔존 (embedding owner) - /api/embeddings probe → 1024-dim 200 OK - fastapi embed/ollama error 0 (last 10min) - document.hyungi.net 200 plan: ~/.claude/plans/4-stateless-dongarra.md Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-15 12:09:15 +00:00
Hyungi Ahn	08cf676c26	fix(news): news 문서 chunk stage enqueue 추가 + 7일 백필 스크립트 document_chunks.country 가 7일 분포 기준 99.9% NULL 이었던 root cause = news_collector 가 summarize + embed 만 enqueue 하고 chunk 를 enqueue 하지 않아 chunk_worker 가 news 문서에 한 번도 안 돌고 있었음. queue_consumer.next_stages 의 summarize 키 부재가 follow-up 미연결 원인. news 외 summarize 흐름 부수영향 회피를 위해 next_stages 가 아니라 news_collector RSS/API 양쪽에 chunk enqueue 1줄씩 명시 추가. days_old <= 30 가드 안에서 embed 와 동일 정책. scripts/news_chunk_country_backfill.py — doc 단위 small batch, 실패 doc skip, 50건마다 progress. queue 우회 직접 chunk_worker.process 호출로 timing 통제. Gate (PR closure): A) chunked_doc_pct > 95% 최근 7일 news doc 중 chunk 보유 비율 B) country null_pct < 5% 최근 7일 news chunk country NULL 비율 plan: ~/.claude/plans/7-whimsical-crab.md (PR-News-Prep-Layer-1) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-15 16:35:53 +09:00

1 2 3 4 5 ...

294 Commits