feat(study): study_questions 자동 임베딩 (PR-4)

문제 본문 + 보기 1~4 → bge-m3 1024차원. status 자체가 큐 역할 (별도 큐 테이블 없음 — ProcessingQueue 인프라 영향 0). APScheduler 1분 cron 이 status in {none, failed, stale} 행을 batch=10 처리. 새 문제는 default 'none' 으로 자동 backfill. 데이터 모델 (migrations 193~194): - study_questions: embedding vector(1024), embedding_status VARCHAR(20) DEFAULT 'none' (none/pending/ready/failed/stale), embedding_updated_at, embedding_model - HNSW partial index (vector_cosine_ops) WHERE deleted_at IS NULL AND embedding IS NOT NULL — bge-m3 cosine 기준, documents.embedding (ivfflat) 과 ops 일관 재계산 트리거: question_text / choice_1~4 변경 시 ready→stale 자동. correct_choice / explanation / subject / scope 변경은 재계산 안 함 (의미 검색에 영향 없음). 워커 (workers/study_question_embed_worker.py): - race-safe pending 마킹 (조건부 UPDATE WHERE status IN none/failed/stale) - AIClient.embed(text) bge-m3 호출, 15s timeout - 실패 시 status='failed', 직전 embedding 보존, 다음 cron 틱에 재시도 - 본문 = "문제: ...\n보기:\n1. ...\n2. ...\n3. ...\n4. ..." (subject/scope 의도 제외 — 분류명이 의미 검색 노이즈) 후속 PR 예정: 비슷한 문제 검색 UI / 중복 입력 감지 / RAG 정확도 향상 / 오답 클러스터링. 본 PR 은 임베딩 저장·재계산·backfill 까지만. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-28 08:54:02 +09:00
parent e1a2cdc677
commit 9d4aa201a8
6 changed files with 190 additions and 2 deletions
@@ -620,12 +620,20 @@ async def update_question(

    # PR-3: 문제 핵심 필드 변경 시 AI 해설 stale 전이 (본문은 보존, UI 배지로 안내).
    # ready 상태에서만 stale 로 전이 — pending/failed/none/stale 은 변경 안 함.
-    STALE_TRIGGER = {
+    AI_STALE_TRIGGER = {
        "question_text", "choice_1", "choice_2", "choice_3", "choice_4", "correct_choice",
    }
-    if STALE_TRIGGER & fields_set and q.ai_explanation_status == "ready":
+    if AI_STALE_TRIGGER & fields_set and q.ai_explanation_status == "ready":
        q.ai_explanation_status = "stale"

+    # PR-4: 임베딩 stale 전이. 본문(question_text/choice_*)이 바뀌었을 때만 재계산.
+    # correct_choice 변경은 의미 검색에 영향 없으므로 재계산 안 함.
+    EMBED_STALE_TRIGGER = {
+        "question_text", "choice_1", "choice_2", "choice_3", "choice_4",
+    }
+    if EMBED_STALE_TRIGGER & fields_set and q.embedding_status == "ready":
+        q.embedding_status = "stale"
+
    q.updated_at = datetime.now(timezone.utc)
    await session.commit()

@@ -43,6 +43,7 @@ async def lifespan(app: FastAPI):
    from workers.mailplus_archive import run as mailplus_run
    from workers.news_collector import run as news_collector_run
    from workers.queue_consumer import consume_queue
+    from workers.study_question_embed_worker import run as study_q_embed_run
    from workers.tier_backfill import run as tier_backfill_run
    from workers.upload_cleanup import cleanup_orphan_uploads

@@ -64,6 +65,9 @@ async def lifespan(app: FastAPI):
    scheduler.add_job(consume_queue, "interval", minutes=1, id="queue_consumer")
    scheduler.add_job(watch_inbox, "interval", minutes=5, id="file_watcher")
    scheduler.add_job(cleanup_orphan_uploads, "interval", minutes=10, id="upload_cleanup")
+    # PR-4: study_questions 자동 임베딩 (status='none/failed/stale' 행을 batch=10 처리).
+    # 별도 큐 테이블 없이 status 자체가 큐. backfill 도 cron 이 'none' 행을 자연스럽게 처리.
+    scheduler.add_job(study_q_embed_run, "interval", minutes=1, id="study_q_embed")
    # PR-B 레거시 tier 백필 — 30분 주기로 호출되지만 KST 00:00~06:00 시간대만 실제 enqueue.
    # safety > law > manual 우선순위로 25건씩. 6720 레거시 → 야간당 ~150건 → 약 45일 소화.
    scheduler.add_job(tier_backfill_run, "interval", minutes=30, id="tier_backfill")
@@ -9,6 +9,7 @@ PR-2 가드레일:

 from datetime import datetime

+from pgvector.sqlalchemy import Vector
 from sqlalchemy import BigInteger, Boolean, DateTime, ForeignKey, Integer, SmallInteger, String, Text
 from sqlalchemy.orm import Mapped, mapped_column, relationship

@@ -53,6 +54,18 @@ class StudyQuestion(Base):
    )
    ai_explanation_model: Mapped[str | None] = mapped_column(String(120))

+    # PR-4: 자동 임베딩 (bge-m3 1024차원). status 가 큐 역할.
+    # 재계산 트리거 = question_text / choice_1~4 변경.
+    # correct_choice / subject / scope / explanation 변경은 재계산 안 함.
+    embedding = mapped_column(Vector(1024), nullable=True)
+    embedding_status: Mapped[str] = mapped_column(
+        String(20), default="none", nullable=False
+    )
+    embedding_updated_at: Mapped[datetime | None] = mapped_column(
+        DateTime(timezone=True)
+    )
+    embedding_model: Mapped[str | None] = mapped_column(String(120))
+
    created_at: Mapped[datetime] = mapped_column(
        DateTime(timezone=True), default=datetime.now, nullable=False
    )
@@ -0,0 +1,134 @@
+"""study_questions 자동 임베딩 워커 (PR-4).
+
+별도 큐 테이블 없이 `embedding_status` 자체가 큐 역할:
+  status in {none, failed, stale} → cron 처리 대상
+  status='pending' → race-safe 마킹 (조건부 UPDATE)
+  status='ready' → embedding 완료
+  status='failed' → 다음 cron 틱에 재시도
+
+호출:
+  - main.py lifespan APScheduler 가 1분 간격 cron 으로 run() 진입
+  - 새 문제 입력은 default 'none' → 다음 틱에 자동 처리 (zero-config)
+  - PATCH question_text/choice_* 로 'stale' 전이 → 다음 틱에 재계산
+  - backfill 별도 명령 없음 — cron 이 'none' 행을 자동 backfill
+
+임베딩 본문 = `문제: <question_text>\n보기:\n1. <c1>\n2. <c2>\n3. <c3>\n4. <c4>`
+subject/scope 는 의도적으로 제외 (분류명이 의미 검색에 노이즈).
+
+bge-m3 1024차원, vector_cosine_ops 인덱스 (HNSW partial).
+"""
+
+from __future__ import annotations
+
+import asyncio
+import logging
+from datetime import datetime, timezone
+
+from sqlalchemy import select, update
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from ai.client import AIClient
+from core.database import async_session
+from models.study_question import StudyQuestion
+
+logger = logging.getLogger("study_question_embed_worker")
+
+EMBED_MODEL = "bge-m3"
+BATCH_SIZE = 10  # 한 cron 틱에 처리할 최대 행 수
+EMBED_TIMEOUT_S = 15.0  # bge-m3 단일 호출 timeout (Ollama, 보통 < 1s)
+
+
+def _build_embed_text(q: StudyQuestion) -> str:
+    """문제 본문 + 보기 1~4. subject/scope 제외 (분류명 노이즈 방지)."""
+    return (
+        f"문제: {q.question_text}\n"
+        f"보기:\n"
+        f"1. {q.choice_1}\n"
+        f"2. {q.choice_2}\n"
+        f"3. {q.choice_3}\n"
+        f"4. {q.choice_4}"
+    )
+
+
+async def _claim_question(session: AsyncSession, qid: int) -> bool:
+    """status 를 'pending' 으로 race-safe 마킹. 이미 pending 이면 False (다른 cron 인스턴스가 잡았음).
+    none/failed/stale 상태에서만 lock 획득.
+    """
+    result = await session.execute(
+        update(StudyQuestion)
+        .where(
+            StudyQuestion.id == qid,
+            StudyQuestion.embedding_status.in_(("none", "failed", "stale")),
+        )
+        .values(embedding_status="pending", updated_at=datetime.now(timezone.utc))
+        .returning(StudyQuestion.id)
+    )
+    return result.scalar_one_or_none() is not None
+
+
+async def _process_one(session: AsyncSession, qid: int, client: AIClient) -> bool:
+    """단일 question 임베딩. 성공 True, 실패 False."""
+    if not await _claim_question(session, qid):
+        # 다른 인스턴스가 이미 잡음 — 스킵
+        return False
+    await session.commit()
+
+    q = await session.get(StudyQuestion, qid)
+    if q is None or q.deleted_at is not None:
+        # 삭제됨 — pending 그대로 두지 말고 failed 로 (다음 cron 에서 다시 안 잡힘은 아님 — 어쨌든 정리)
+        if q is not None:
+            q.embedding_status = "failed"
+            await session.commit()
+        return False
+
+    text = _build_embed_text(q)
+    try:
+        async with asyncio.timeout(EMBED_TIMEOUT_S):
+            vec = await client.embed(text)
+    except (asyncio.TimeoutError, Exception) as e:
+        logger.warning("study_q_embed_failed qid=%s err=%s: %s", qid, type(e).__name__, e)
+        # 실패 — status='failed'. 직전 embedding 보존.
+        q.embedding_status = "failed"
+        q.updated_at = datetime.now(timezone.utc)
+        await session.commit()
+        return False
+
+    # 성공
+    q.embedding = vec
+    q.embedding_status = "ready"
+    q.embedding_model = EMBED_MODEL
+    q.embedding_updated_at = datetime.now(timezone.utc)
+    q.updated_at = q.embedding_updated_at
+    await session.commit()
+    logger.info("study_q_embed_ok qid=%s len=%d", qid, len(vec) if vec else 0)
+    return True
+
+
+async def run() -> None:
+    """APScheduler cron 진입점. status in {none, failed, stale} 행을 BATCH_SIZE 만큼 처리."""
+    async with async_session() as session:
+        rows = (
+            await session.execute(
+                select(StudyQuestion.id)
+                .where(
+                    StudyQuestion.deleted_at.is_(None),
+                    StudyQuestion.embedding_status.in_(("none", "failed", "stale")),
+                )
+                .order_by(StudyQuestion.updated_at.asc())
+                .limit(BATCH_SIZE)
+            )
+        ).scalars().all()
+
+        if not rows:
+            return
+
+        logger.info("study_q_embed_run candidates=%d", len(rows))
+        client = AIClient()
+        try:
+            ok_count = 0
+            for qid in rows:
+                if await _process_one(session, qid, client):
+                    ok_count += 1
+            logger.info("study_q_embed_run done ok=%d/%d", ok_count, len(rows))
+        finally:
+            await client.close()
@@ -0,0 +1,18 @@
+-- 193_study_questions_embedding.sql (1/2)
+-- study_questions 자동 임베딩 (PR-4). 문제 본문 + 보기 1~4 → bge-m3 1024차원.
+--
+-- embedding_status 권장값 (강한 enum 미사용, status 자체가 큐 역할):
+--   none    — 신규 입력 (default, 한번도 임베딩 안 됨)
+--   pending — 처리 진행 중 (race-safe 조건부 UPDATE 로 보호)
+--   ready   — 완료
+--   failed  — 실패 (재시도 가능). 직전 embedding 보존.
+--   stale   — question_text/choice_1~4 변경되어 outdated. cron 이 다음 틱에 재계산.
+--
+-- 재계산 트리거: question_text / choice_1~4 변경. correct_choice·explanation·subject·scope 변경은 재계산 안 함.
+-- 별도 큐 테이블 미신설 — embedding_status 가 큐 역할 (cron polling). ProcessingQueue 인프라 영향 없음.
+
+ALTER TABLE study_questions
+    ADD COLUMN IF NOT EXISTS embedding vector(1024),
+    ADD COLUMN IF NOT EXISTS embedding_status VARCHAR(20) NOT NULL DEFAULT 'none',
+    ADD COLUMN IF NOT EXISTS embedding_updated_at TIMESTAMPTZ,
+    ADD COLUMN IF NOT EXISTS embedding_model VARCHAR(120);
@@ -0,0 +1,11 @@
+-- 194_study_questions_embedding_idx.sql (2/2)
+-- HNSW partial index — bge-m3 cosine 기준 (documents 인덱스가 vector_cosine_ops 와 일관).
+-- partial: 삭제·미생성 행 제외해서 인덱스 부피 절약.
+--
+-- documents 는 ivfflat 사용했지만 study_questions 는 데이터 규모가 작고 검색 빈도가 낮아
+-- HNSW recall 우위·튜닝 단순함이 더 큼. 향후 데이터 폭증 시 ivfflat 으로 변경 검토.
+
+CREATE INDEX IF NOT EXISTS idx_study_questions_embedding_hnsw
+    ON study_questions
+    USING hnsw (embedding vector_cosine_ops)
+    WHERE deleted_at IS NULL AND embedding IS NOT NULL;