hyungi aeb9290cbd feat(documents): hier 절 char_start offset (Path B) — md_content 점프 builder offset
플랜 ds-outline-anchor-b5 (g1~g6 코드). 핵심 ASME/법령 windowed 절의 0% 점프를
서버계산 char_start(builder offset)로 100% deterministic 점프로 전환.

- g1 migration 318: document_chunks.char_start INTEGER NULL (단일 statement, 멱등)
- g2 builder: char_start emit = FE 라인/offset 모델 미러(split('\n')+UTF-16 code unit+코드펜스 skip).
  window-child=NULL, split-parent=heading offset, preamble=NULL, CR 미strip, NFC=telemetry.
  node.text 보존(라인모델 hash-neutral) → hash_stable doc 보존. 단위테스트 7건.
- g3 persist+backfill 하이브리드:
  * persist INSERT char_start
  * update-char-start (g3-tU): hash_stable doc 비파괴 — 100% jump-target VERIFY(NEW-1) +
    position-aligned PK UPDATE(NEW-2), 미달 doc DEMOTE → re-decompose 합류(NEW-4)
  * --reprocess (g3-t2): md_content 출처(g0-t1) + jump-target-set 완료마커(B1) + B_jumptarget>=1(B3),
    --doc 필수 else REFUSE. self-heal sweep(g3-t3).
- g4 /sections: char_start inner+outer SELECT + split-parent 노출(is_leaf OR %_split)
- g5 FE: resolveAnchorMap(BE-first, NEW-5 jump-target-candidate-scoped 폴백, C1 OR-exclude),
  per-render-site basis guard(C3), endsWith('_split') 정정 + collapseWindows split-parent 흡수(C2).
  단위테스트 25건(NEW-5/B4/C1/C2 포함).
- g6 hier_outline_quality_gate.py: read-only g-measure(verdict/B_jumptarget/hash_stable/dup/fence)

배포(g7: --no-deps, 스냅샷, UPDATE-only 32 + re-decompose 230∪demote, 정확도 게이트)는 별 ops 단계.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-09 10:12:26 +09:00

hyungi_Document_Server

Self-hosted 개인 지식관리(PKM) + 다국 뉴스 비교 분석 웹 애플리케이션.

모델 이름·엔드포인트·머신 정보는 운영 상태에 따라 변하므로 README 에 박지 않습니다. 운영 단일 진실 소스(SSOT): ~/.claude/projects/-Users-hyungiahn/memory/infra_inventory.md. 모델/엔드포인트/포트/SSH 어디서든 README 와 inventory 가 충돌하면 inventory 가 정답입니다.

기술 스택

  • 백엔드: FastAPI + SQLAlchemy 2.0 async, APScheduler cron
  • DB: PostgreSQL 16 + pgvector + pg_trgm (단일 pkm DB)
  • 프론트엔드: SvelteKit 5 (runes mode) + Tailwind CSS 4
  • 문서 파싱: kordoc 마이크로서비스 (HWP/HWPX/PDF → Markdown), LibreOffice headless (오피스), marker (PDF → markdown Phase 1B)
  • AI 파이프라인 (역할별, 자세한 모델 매핑은 inventory):
    • 분류/요약 본체: Mac mini MLX 26B (primary)
    • Triage / fallback / chat: GPU Ollama 4B
    • Embedding: GPU Ollama bge-m3 (1024d)
    • Reranker: GPU TEI 컨테이너 bge-reranker-v2-m3
    • OCR: docker compose ocr-service (Surya OCR GPU)
    • STT: Mac mini MLX Whisper large-v3
    • Premium (수동 trigger): Anthropic Claude (require_explicit_trigger)
  • 인증: JWT (access) + HttpOnly cookie (refresh) + TOTP 2FA
  • 인프라: Docker Compose, Caddy (HTTP only, 앞단 home-caddy 가 HTTPS 종료), Synology NAS NFS

주요 기능

  • 문서 자동 분류/태그/요약 — Triage(4B) → Deep summary(26B) tier 분리, 백로그 guard / 텍스트 슬라이스 / inconsistency 감지
  • 하이브리드 검색 — pgvector 벡터 + pg_trgm 전문검색 + reranker (bge-reranker-v2-m3) + Ask pipeline (HyDE / evidence_service)
  • 다국어 OCR — Surya OCR GPU (한/영/일/중/독/불 등), NFC/NFD 경로 정규화
  • 음성/영상 전사 — MLX Whisper large-v3, /audio /video 라우트 + direct play
  • 법령 변경 모니터링law_monitor cron, freshness decay (365일 반감기)
  • 이메일 자동 수집 — MailPlus IMAP, NFS 저장
  • Phase 4 Global Digest — 매일 04:00 KST 7일 rolling 뉴스 country×topic 2-level 비교 (/digest)
  • 야간 뉴스 브리핑 — 매일 05:10 KST KST 자정~05:00 5시간 윈도우, topic×country 비교 분석 1페이지 카드 (/news)
  • 자료실 (Library) — 카테고리 facet 분류 + AI 제안 1-click 승인
  • 메모/이벤트/공부 — 5초 행동 기록 메모, 일정/할 일/회고 events 도메인, 가스기사 학습 워크스페이스 (274 개념 + 2,100 기출)
  • 마크다운 canonical layer — extracted_images NAS 저장 + document_images 메타 + 단기 토큰 인증 (?token=)

Quick Start

git clone https://git.hyungi.net/hyungi/hyungi_document_server.git
cd hyungi_document_server

# 인증 정보 (DB 비밀번호, JWT secret, Claude API key 등)
cp credentials.env.example credentials.env
$EDITOR credentials.env

# AI 모델 / 엔드포인트 / 경로
$EDITOR config.yaml      # inventory 참조하면서 채움
$EDITOR .env             # POSTGRES_PASSWORD, MAC_MINI_HOST, NAS_NFS_PATH 등

docker compose up -d --build

운영 도메인 (GPU 서버 배포 기준): https://document.hyungi.net API 문서: https://document.hyungi.net/docs

디렉토리 구조

├── app/                FastAPI 백엔드
│   ├── api/              라우터 (documents, search, briefing, digest, memos, events, study, …)
│   ├── workers/          APScheduler / queue (briefing_worker, digest_worker, classify_worker, …)
│   ├── services/         도메인 로직 (briefing/, digest/, search/, clustering_common, …)
│   ├── ai/client.py      AIClient (call_triage / call_primary / call_fallback, parse_json_response)
│   ├── prompts/          *.txt 프롬프트 (분류, 요약, briefing_comparative, digest_topic, …)
│   ├── policy/           AI envelope + prompt_render
│   └── models/           SQLAlchemy ORM
├── frontend/           SvelteKit 5 (runes mode) + Tailwind
│   └── src/routes/       /news (아침 브리핑) /library /memos /audio /video /study /digest /ask …
├── services/
│   ├── kordoc/           HWP/HWPX/PDF 파싱 (Node.js)
│   ├── ocr/              Surya OCR GPU 서비스 (FastAPI)
│   └── marker/           PDF → markdown Phase 1B
├── migrations/         255+ SQL migrations (schema_migrations 추적)
├── docs/               설계 문서
└── tests/              pytest

gpu-server/ 폴더는 v1 잔재로 deprecated (현재 AI Gateway 는 ~/home-gateway/ 별 repo).

인프라 구성 (운영 기준)

머신 역할
GPU 서버 (메인) Docker Compose (fastapi, frontend, postgres pkm, kordoc, ocr-service, marker-service, reranker(TEI), caddy), Ollama (bge-m3, 4B chat), home-gateway 별 compose
Mac mini MLX 26B primary 추론 + MLX Whisper STT (HTTP 추론 endpoint only, ingress 역할 0)
Synology NAS 파일 원본 (/volume4/Document_Server/PKM/), Synology Office/Drive/Calendar/MailPlus, NFS export → GPU
VPS-2 (OVH) 메일 relay (relay.hyungi.net:587 SASL+TLS+DKIM+LE), Gitea bare mirror, Secondary MX

상세 IP / 모델 / 컨테이너 / drift / verify 명령은 infra_inventory.md 참조.

운영 변경 정책

  1. inventory 먼저 갱신
  2. config.yaml / credentials.env 갱신
  3. deploy (commit → push Gitea → GPU git pull && docker compose up -d --build)
  4. verify (smoke endpoints, postgres count, 모니터링)

순서를 어기면 drift. drift 발견 시 infra_inventory.md 의 Drift Log 에 등록 후 정정.

문서

  • 아키텍처 — DB 스키마, AI 전략, UI 설계
  • 배포 가이드 — Docker Compose 배포
  • 개발 단계 — Phase 별 roadmap (Phase 4 Global Digest / 야간 브리핑 등 신규 phase 는 inventory + plan 파일 우선)
S
Description
No description provided
Readme 14 MiB
Languages
Python 67%
Svelte 23.1%
Swift 5.3%
TypeScript 3.2%
Shell 0.5%
Other 0.9%