6785d53d3d
Phase 4-A 가 wrong/unsure 한 문제씩 풀이 캐시. 4-B 는 세션 전체 wrong/unsure
5~30건을 묶어 200~400자 자연어 요약 1건 생성. 결과 화면 헤더 카드.
큐 인프라는 4-A study_question_jobs 와 분리 — FK 단일 의미 + 운영 SQL 명확성
+ 4-A/4-B 가드/payload/재시도 정책 차이. 신규 study_quiz_session_jobs (큐) +
study_quiz_session_analysis (결과 캐시 PK=session_id, UPSERT) + 전용 consumer.
Backend:
- migrations/233 — study_quiz_session_jobs (FK study_quiz_sessions NOT NULL,
status pending/processing/completed/failed/skipped, max_attempts=2)
- migrations/234 — partial unique idx (session_id) WHERE pending/processing
- migrations/235 — study_quiz_session_analysis (session_id PK, summary_md,
confidence, model_name, generated_at, is_stale)
- models/study_quiz_session_job — ORM + enqueue_session_analysis_job() (멱등)
- models/study_quiz_session_analysis — ORM (PK = session_id)
- services/study/session_summary_guard — GUARD_PATTERN (정규식) +
normalize_confidence() 단일 source, worker + tests 가 import 공유
- services/study/session_summary_rag — gather_session_summary_context()
documents 만 (PR-3 _gather_document_evidence 재사용). evidence 없어도 호출
허용 (4-A 와 다른 정책 — 세션 기록 자체가 evidence)
- services/study/session_analysis_enqueue — auto (finalize/fallback) +
request_session_analysis_regenerate (manual). manual 은 wrong/unsure < 5
즉시 차단, active job 차단, 기존 analysis 있으면 is_stale=true 박기
- prompts/study_session_summary_envelope.txt — envelope JSON
{summary_md, confidence}. 정량 정수만 인용 가능, 비율/추세/범위/날짜 금지
- workers/study_session_analysis_worker — terminal status 분기:
· wrong/unsure < 5 → status=skipped, error_code=insufficient_attempts
· question_text/outcome 부족 → skipped, evidence_missing
· GUARD_PATTERN match → failed, guard_fail
· 800자 hard cap + confidence normalize
· timeout/parse/unknown → 재시도 후보
· UPSERT study_quiz_session_analysis ON CONFLICT DO UPDATE (PK session_id)
- workers/study_session_queue_consumer — 4-A consumer 패턴 복제. BATCH_SIZE=1
+ STALE_MINUTES=10. MLX gate 4-A 와 공유 (Semaphore(1))
- main.py — APScheduler add_job(consume_study_session_queue, ..., 1분 주기)
- session_finalize — 끝에서 enqueue_session_analysis_auto (best-effort)
- api/study_topics:
· QuizSessionAnalysisOut + ai_session_analysis 응답 필드 (analysis row +
최신 job status/error_code)
· GET fallback enqueue (기존 analysis 또는 active job 없으면만, non-blocking)
· POST /quiz-sessions/{sid}/regenerate-summary — manual 트리거
Frontend (quiz-sessions/[sid]/+page.svelte):
- 결과 헤더에 세션 요약 카드 (AI 풀이 indicator 직후, 바로 할 일 직전)
- summary_md 박혔으면 markdown 렌더, 없으면 job_status / error_code 분기:
· pending/processing → "AI 가 세션 분석 중"
· insufficient_attempts → "오답·모르겠음 5건 미만"
· evidence_missing → "자료 부족"
· guard_fail → "환각 검증 차단" + 재생성 링크
- confidence='low' 배지 + is_stale "재생성 중" 배지
- 재생성 버튼 + regenerateSummary() — reason 별 toast 분기
ship gate:
- tests/test_session_summary_guard_pattern.py — 허용 5 + 차단 7 케이스 +
normalize_confidence 표준/비표준 검증. python3 직접 실행 패스.
Plan: ~/.claude/plans/nifty-sparking-spindle.md (Phase 4-B v1)
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
73 lines
2.4 KiB
Python
73 lines
2.4 KiB
Python
"""Phase 4-B v1 환각 가드 정규식 단위 테스트 — ship gate.
|
|
|
|
worker 와 같은 모듈을 import 해 검증. plan 의 검증 D 케이스 (허용 5 + 차단 7).
|
|
"""
|
|
|
|
from __future__ import annotations
|
|
|
|
import sys
|
|
from pathlib import Path
|
|
|
|
# 프로젝트 루트의 app/ 를 import path 에 추가 (Document Server 패턴)
|
|
ROOT = Path(__file__).resolve().parent.parent
|
|
sys.path.insert(0, str(ROOT / "app"))
|
|
|
|
from services.study.session_summary_guard import GUARD_PATTERN, normalize_confidence # noqa: E402
|
|
|
|
|
|
# ─── GUARD_PATTERN 허용 케이스 (search() == None 이어야 함) ───
|
|
|
|
ALLOWED_CASES = [
|
|
"오답 5건이 있었습니다.",
|
|
"모르겠음 83건이 남았습니다.",
|
|
"배관 영역에서 흔들린 것으로 보입니다.",
|
|
"같은 영역 문제를 더 풀어보세요.",
|
|
"정답을 다시 한 번 확인해보세요.",
|
|
]
|
|
|
|
|
|
# ─── GUARD_PATTERN 차단 케이스 (search() != None 이어야 함) ───
|
|
|
|
BLOCKED_CASES = [
|
|
"정답률 16%였습니다.",
|
|
"최근 5일 동안 약했습니다.",
|
|
"지난 7일간 비슷한 실수가 반복됐습니다.",
|
|
"5~10문항을 더 풀어보세요.",
|
|
"2026-05-02 기준으로 보면...",
|
|
"5월 2일 이후 흐름은...",
|
|
"지난 7회차에서 반복됐습니다.",
|
|
]
|
|
|
|
|
|
def test_guard_pattern_allows_normal_summary():
|
|
for case in ALLOWED_CASES:
|
|
match = GUARD_PATTERN.search(case)
|
|
assert match is None, f"false positive: {case!r} matched {match!r}"
|
|
|
|
|
|
def test_guard_pattern_blocks_numeric_hallucination():
|
|
for case in BLOCKED_CASES:
|
|
match = GUARD_PATTERN.search(case)
|
|
assert match is not None, f"false negative: {case!r} not matched"
|
|
|
|
|
|
def test_normalize_confidence_standard_values():
|
|
for v in ("high", "medium", "low"):
|
|
assert normalize_confidence(v) == v
|
|
assert normalize_confidence(v.upper()) == v
|
|
assert normalize_confidence(f" {v} ") == v
|
|
|
|
|
|
def test_normalize_confidence_nonstandard_values():
|
|
for v in ("unknown", "mid", "maybe", "", "true", None, 123, [], {}):
|
|
assert normalize_confidence(v) == "low"
|
|
|
|
|
|
if __name__ == "__main__":
|
|
# 직접 실행 시 모든 케이스 빠른 점검
|
|
test_guard_pattern_allows_normal_summary()
|
|
test_guard_pattern_blocks_numeric_hallucination()
|
|
test_normalize_confidence_standard_values()
|
|
test_normalize_confidence_nonstandard_values()
|
|
print("OK")
|