8fdea88676
plan: ~/.claude/plans/luminous-sprouting-hamster.md §1
- migrations/143_category.sql: doc_category enum (6 활성 + 3 유보) +
documents.category + documents.ai_suggestion JSONB + 2 idx.
- app/models/document.py: category (Enum, create_type=False), ai_suggestion (JSONB).
- app/prompts/classify.txt: document_type enum 에 7 실무 doctype 추가
(발주서/세금계산서/명세표/도면/증명서/계획서/시방서) + facet_doctype
필드 directive.
- config.yaml: document_types 에 7 항목 추가 (worker 검증 통과).
- app/workers/classify_worker.py: FACET_DOCTYPES / LIBRARY_SUGGESTION_DOCTYPES
상수, facet_doctype 파싱(기존값 미덮어씀), 발주서/세금계산서/명세표
감지 시 ai_suggestion={proposed_category=library, proposed_path=@library/
거래/{YYYY}/{doctype}, source_updated_at=doc.updated_at.isoformat(), ...}.
category / user_tags 자동 전이 금지 (suggestion-only).
- app/api/documents.py:
· DocumentResponse 에 category / ai_suggestion 노출
· GET /documents ?category=<cat> / ?has_suggestion / ?proposed_category
(category 지정 시 기본 news/memo 제외 해제 — §2 승인 UI 계약)
· GET /documents/library 를 Document.category=='library' 기반으로 재구현
(path subquery 는 user_tags 유지 — 분류 내부 서가 경로)
· POST /documents/{id}/accept-suggestion — FOR UPDATE + idempotent no-op +
dual 409 stale (payload source_updated_at / documents.updated_at) +
user_tags idempotent append
· DELETE /documents/{id}/suggestion — idempotent, stale 검사 없음
- scripts/backfill_category.py: dry-run / apply. 매핑(news/memo/@library/else)
+ 3-way 상대 검증 (all_rows==categorized, uncategorized==0,
cat_library==has_library_tag — 자동 전이 금지 정책 검증).
남은 DoD (원격 배포 후): docker compose up → migration 143 적용 → backfill
apply → smoke (drive_sync 발주서 업로드 suggestion 생성 / category 유지,
accept-suggestion idempotency + 409 stale 두 벡터, /documents?category=library
== /documents/library 건수 일치).
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
131 lines
5.5 KiB
Python
131 lines
5.5 KiB
Python
"""documents 테이블 ORM"""
|
|
|
|
from datetime import datetime
|
|
|
|
from pgvector.sqlalchemy import Vector
|
|
from sqlalchemy import BigInteger, Boolean, DateTime, Enum, Integer, String, Text
|
|
from sqlalchemy.dialects.postgresql import JSONB
|
|
from sqlalchemy.orm import Mapped, mapped_column
|
|
|
|
# Note: file_type='note' (메모) 문서는 file_path=NULL, file_hash=content SHA-256
|
|
|
|
from core.database import Base
|
|
|
|
|
|
class Document(Base):
|
|
__tablename__ = "documents"
|
|
|
|
id: Mapped[int] = mapped_column(BigInteger, primary_key=True)
|
|
|
|
# 1계층: 원본 파일
|
|
file_path: Mapped[str | None] = mapped_column(Text, nullable=True)
|
|
file_hash: Mapped[str] = mapped_column(String(64), nullable=False)
|
|
file_format: Mapped[str] = mapped_column(String(20), nullable=False)
|
|
file_size: Mapped[int | None] = mapped_column(BigInteger)
|
|
file_type: Mapped[str] = mapped_column(
|
|
Enum("immutable", "editable", "note", name="doc_type"),
|
|
default="immutable"
|
|
)
|
|
import_source: Mapped[str | None] = mapped_column(Text)
|
|
|
|
# 2계층: 텍스트 추출
|
|
extracted_text: Mapped[str | None] = mapped_column(Text)
|
|
extracted_at: Mapped[datetime | None] = mapped_column(DateTime(timezone=True))
|
|
extractor_version: Mapped[str | None] = mapped_column(String(50))
|
|
|
|
# 2계층: 추출 메타 (OCR 판정/실행)
|
|
extract_meta: Mapped[dict | None] = mapped_column(JSONB, default=dict)
|
|
|
|
# 2계층: AI 가공
|
|
ai_summary: Mapped[str | None] = mapped_column(Text)
|
|
ai_tags: Mapped[dict | None] = mapped_column(JSONB, default=[])
|
|
ai_domain: Mapped[str | None] = mapped_column(String(100))
|
|
ai_sub_group: Mapped[str | None] = mapped_column(String(100))
|
|
ai_model_version: Mapped[str | None] = mapped_column(String(50))
|
|
ai_processed_at: Mapped[datetime | None] = mapped_column(DateTime(timezone=True))
|
|
document_type: Mapped[str | None] = mapped_column(String(50))
|
|
importance: Mapped[str | None] = mapped_column(String(20), default="medium")
|
|
ai_confidence: Mapped[float | None] = mapped_column()
|
|
|
|
# 3계층: 벡터 임베딩
|
|
embedding = mapped_column(Vector(1024), nullable=True)
|
|
embed_model_version: Mapped[str | None] = mapped_column(String(50))
|
|
embedded_at: Mapped[datetime | None] = mapped_column(DateTime(timezone=True))
|
|
|
|
# 사용자 메모
|
|
user_note: Mapped[str | None] = mapped_column(Text)
|
|
|
|
# 사용자 태그 (ai_tags와 분리, #태그 파싱 결과 또는 수동 입력)
|
|
user_tags: Mapped[list | None] = mapped_column(JSONB, default=[])
|
|
|
|
# 핀 고정
|
|
pinned: Mapped[bool] = mapped_column(Boolean, default=False)
|
|
|
|
# /ask 합성 포함 여부 (false면 검색은 되지만 evidence에서 제외)
|
|
ask_includable: Mapped[bool] = mapped_column(Boolean, default=True)
|
|
|
|
# 아카이브 (현재 메모 UX 전용, 문서 쪽에는 노출하지 않음)
|
|
archived: Mapped[bool] = mapped_column(Boolean, default=False)
|
|
|
|
# ODF 변환
|
|
derived_path: Mapped[str | None] = mapped_column(Text) # 변환본 경로 (.derived/)
|
|
original_format: Mapped[str | None] = mapped_column(String(20))
|
|
conversion_status: Mapped[str | None] = mapped_column(String(20), default="none")
|
|
|
|
# 읽음 상태 (뉴스용)
|
|
is_read: Mapped[bool | None] = mapped_column(Boolean, default=False)
|
|
|
|
# 승인/삭제
|
|
review_status: Mapped[str | None] = mapped_column(String(20), default="pending")
|
|
deleted_at: Mapped[datetime | None] = mapped_column(DateTime(timezone=True))
|
|
|
|
# 외부 편집 URL
|
|
edit_url: Mapped[str | None] = mapped_column(Text)
|
|
|
|
# 미리보기
|
|
preview_status: Mapped[str | None] = mapped_column(String(20), default="none")
|
|
preview_hash: Mapped[str | None] = mapped_column(String(64))
|
|
preview_at: Mapped[datetime | None] = mapped_column(DateTime(timezone=True))
|
|
|
|
# 메타데이터
|
|
source_channel: Mapped[str | None] = mapped_column(
|
|
Enum("law_monitor", "devonagent", "email", "web_clip",
|
|
"tksafety", "inbox_route", "manual", "drive_sync", "news", "memo",
|
|
name="source_channel")
|
|
)
|
|
data_origin: Mapped[str | None] = mapped_column(
|
|
Enum("work", "external", name="data_origin")
|
|
)
|
|
# 용도 구분 (우선순위: 수동 수정 > 업로드 명시값 > AI 추론)
|
|
doc_purpose: Mapped[str | None] = mapped_column(
|
|
Enum("business", "knowledge", name="document_purpose")
|
|
)
|
|
title: Mapped[str | None] = mapped_column(Text)
|
|
|
|
# 카테고리 (1차 진입점 — UI 탭/라우트 분기)
|
|
# 6 활성: document / library / news / memo / audio / video
|
|
# 3 유보: mail / calendar / plex
|
|
category: Mapped[str | None] = mapped_column(
|
|
Enum("document", "library", "news", "memo", "audio", "video",
|
|
"mail", "calendar", "plex",
|
|
name="doc_category", create_type=False)
|
|
)
|
|
|
|
# AI 가 제안했지만 미승인된 변경 후보 (category / path / doctype)
|
|
# /accept-suggestion 승인 시에만 category / user_tags 반영 (자동 전이 금지)
|
|
ai_suggestion: Mapped[dict | None] = mapped_column(JSONB)
|
|
|
|
# facet 탐색 축 (Phase 2)
|
|
facet_company: Mapped[str | None] = mapped_column(Text)
|
|
facet_topic: Mapped[str | None] = mapped_column(Text)
|
|
facet_year: Mapped[int | None] = mapped_column(Integer)
|
|
facet_doctype: Mapped[str | None] = mapped_column(Text)
|
|
|
|
# 타임스탬프
|
|
created_at: Mapped[datetime] = mapped_column(
|
|
DateTime(timezone=True), default=datetime.now
|
|
)
|
|
updated_at: Mapped[datetime] = mapped_column(
|
|
DateTime(timezone=True), default=datetime.now, onupdate=datetime.now
|
|
)
|