feat(ask): Phase 3.5b guardrails — verifier + telemetry + grounding 강화

Phase 3.5a(classifier+refusal gate+grounding) 위에 4개 Item 추가: Item 0: ask_events telemetry 배선 - AskEvent ORM 모델 + record_ask_event() — ask_events INSERT 완성 - defense_layers에 input_snapshot(query, chunks, answer) 저장 - refused/normal 두 경로 모두 telemetry 호출 Item 3: evidence 간 numeric conflict detection - 동일 단위 다른 숫자 → weak flag - "이상/이하/초과/미만" threshold 표현 → skip (FP 방지) Item 4: fabricated_number normalization 개선 - 단위 접미사 건/원 추가, 범위 표현(10~20%) 양쪽 추출 - bare number 2자리 이상만 (1자리 FP 제거) Item 1: exaone semantic verifier (판단권 잠금 배선) - verifier_service.py — 3s timeout, circuit breaker, severity 3단계 - direct_negation만 strong, numeric/intent→medium, 나머지→weak - verifier strong 단독 refuse 금지 — grounding과 교차 필수 - 6-tier re-gate (4라운드 리뷰 확정) - grounding strong 2+ OR max_score<0.2 → verifier skip Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-10 09:49:56 +09:00
parent a0e1717206
commit b2306c3afd
9 changed files with 533 additions and 20 deletions
--- a/app/api/search.py
+++ b/app/api/search.py
@@ -28,7 +28,8 @@ from services.search.grounding_check import check as grounding_check
 from services.search.refusal_gate import RefusalDecision, decide as refusal_decide
 from services.search.search_pipeline import PipelineResult, run_search
 from services.search.synthesis_service import SynthesisResult, synthesize
-from services.search_telemetry import record_search_event
+from services.search.verifier_service import VerifierResult, verify
+from services.search_telemetry import record_ask_event, record_search_event

 # logs/search.log + stdout 동시 출력 (Phase 0.4)
 logger = setup_logger("search")
@@ -451,11 +452,29 @@ async def ask(
            q[:80], decision.rule_triggered,
            max(all_rerank_scores) if all_rerank_scores else 0.0, total_ms,
        )
-        # telemetry
+        # telemetry — search + ask_events 두 경로 동시
        background_tasks.add_task(
            record_search_event, q, user.id, pr.results, "hybrid",
            pr.confidence_signal, pr.analyzer_confidence,
        )
+        # input_snapshot (디버깅/재현용)
+        defense_log["input_snapshot"] = {
+            "query": q,
+            "top_chunks_preview": [
+                {"title": c.get("title", ""), "snippet": c.get("snippet", "")[:100]}
+                for c in top_chunks[:3]
+            ],
+            "answer_preview": None,
+        }
+        background_tasks.add_task(
+            record_ask_event,
+            q, user.id, "insufficient", "skipped", None,
+            True, classifier_result.verdict,
+            max(all_rerank_scores) if all_rerank_scores else 0.0,
+            sum(sorted(all_rerank_scores, reverse=True)[:3]),
+            [], len(evidence), 0,
+            defense_log, int(total_ms),
+        )
        debug_obj = None
        if debug:
            debug_obj = AskDebug(
@@ -491,36 +510,102 @@ async def ask(
    sr = await synthesize(q, evidence, debug=debug)
    synth_ms = (time.perf_counter() - t_synth) * 1000

-    # 5. Grounding check (post-synthesis) + re-gate
+    # 5. Grounding check + Verifier (조건부 병렬) + re-gate (Phase 3.5b)
    grounding = grounding_check(q, sr.answer or "", evidence)
+
+    # verifier skip: grounding strong 2+ OR retrieval 자체가 망함
+    grounding_only_strong = [
+        f for f in grounding.strong_flags if not f.startswith("verifier_")
+    ]
+    max_rerank = max(all_rerank_scores, default=0.0)
+    if len(grounding_only_strong) >= 2 or max_rerank < 0.2:
+        verifier_result = VerifierResult("skipped", [], 0.0)
+    else:
+        verifier_task = asyncio.create_task(
+            verify(q, sr.answer or "", evidence)
+        )
+        try:
+            verifier_result = await asyncio.wait_for(verifier_task, timeout=4.0)
+        except (asyncio.TimeoutError, Exception):
+            verifier_result = VerifierResult("timeout", [], 0.0)
+
+    # Verifier contradictions → grounding flags 머지 (prefix 로 구분, severity 3단계)
+    for c in verifier_result.contradictions:
+        if c.severity == "strong":
+            grounding.strong_flags.append(f"verifier_{c.type}:{c.claim[:30]}")
+        elif c.severity == "medium":
+            grounding.weak_flags.append(f"verifier_{c.type}_medium:{c.claim[:30]}")
+        else:
+            grounding.weak_flags.append(f"verifier_{c.type}:{c.claim[:30]}")
+
    defense_log["grounding"] = {
        "strong": grounding.strong_flags,
        "weak": grounding.weak_flags,
    }
+    defense_log["verifier"] = {
+        "status": verifier_result.status,
+        "contradictions_count": len(verifier_result.contradictions),
+        "strong_count": sum(1 for c in verifier_result.contradictions if c.severity == "strong"),
+        "medium_count": sum(1 for c in verifier_result.contradictions if c.severity == "medium"),
+        "elapsed_ms": verifier_result.elapsed_ms,
+    }

-    # Completeness 결정: grounding 기반 (classifier 는 binary gate 만)
+    # ── Re-gate: 6-tier completeness 결정 (Phase 3.5b 4차 리뷰 확정) ──
    completeness: Literal["full", "partial", "insufficient"] = "full"
    covered_aspects = classifier_result.covered_aspects or None
    missing_aspects = classifier_result.missing_aspects or None
    confirmed_items: list[ConfirmedItem] | None = None

-    if len(grounding.strong_flags) >= 2:
-        # Re-gate: multiple strong → refuse
+    # verifier/grounding strong 구분
+    g_strong = [f for f in grounding.strong_flags if not f.startswith("verifier_")]
+    v_strong = [f for f in grounding.strong_flags if f.startswith("verifier_")]
+    v_medium = [f for f in grounding.weak_flags if f.startswith("verifier_") and "_medium:" in f]
+    has_direct_negation = any("direct_negation" in f for f in v_strong)
+
+    if len(g_strong) >= 2:
+        # Tier 1: grounding strong 2+ → refuse
        completeness = "insufficient"
        sr.answer = None
        sr.refused = True
        sr.confidence = None
-        defense_log["re_gate"] = "refuse(2+strong)"
-    elif grounding.strong_flags:
-        # Single strong → partial downgrade
+        defense_log["re_gate"] = "refuse(grounding_2+strong)"
+    elif g_strong and has_direct_negation:
+        # Tier 2: grounding strong + verifier direct_negation → refuse
+        completeness = "insufficient"
+        sr.answer = None
+        sr.refused = True
+        sr.confidence = None
+        defense_log["re_gate"] = "refuse(grounding+direct_negation)"
+    elif g_strong and sr.confidence == "low" and max_rerank < 0.25:
+        # Tier 3: grounding strong 1 + (low confidence AND weak evidence) → refuse
+        completeness = "insufficient"
+        sr.answer = None
+        sr.refused = True
+        sr.confidence = None
+        defense_log["re_gate"] = "refuse(grounding+low_conf+weak_ev)"
+    elif g_strong or has_direct_negation:
+        # Tier 4: grounding strong 1 또는 verifier direct_negation 단독 → partial
        completeness = "partial"
        sr.confidence = "low"
-        defense_log["re_gate"] = "partial(1strong)"
+        defense_log["re_gate"] = "partial(strong_or_negation)"
+    elif v_medium:
+        # Tier 5: verifier medium 누적 → count 기반 confidence 하향
+        medium_count = len(v_medium)
+        if medium_count >= 3:
+            sr.confidence = "low"
+            defense_log["re_gate"] = f"conf_low(medium_x{medium_count})"
+        elif medium_count == 2 and sr.confidence == "high":
+            sr.confidence = "medium"
+            defense_log["re_gate"] = "conf_cap_medium(medium_x2)"
+        else:
+            defense_log["re_gate"] = f"medium_x{medium_count}(no_action)"
    elif grounding.weak_flags:
-        # Weak → confidence lower only
+        # Tier 6: weak → confidence 한 단계 하향
        if sr.confidence == "high":
            sr.confidence = "medium"
        defense_log["re_gate"] = "conf_lower(weak)"
+    else:
+        defense_log["re_gate"] = "clean"

    # Confidence cap from refusal gate (classifier 부재 시 conservative)
    if decision.confidence_cap and sr.confidence:
@@ -554,11 +639,29 @@ async def ask(
        ev_ms, synth_ms, total_ms,
    )

-    # 7. telemetry
+    # 7. telemetry — search + ask_events 두 경로 동시
    background_tasks.add_task(
        record_search_event, q, user.id, pr.results, "hybrid",
        pr.confidence_signal, pr.analyzer_confidence,
    )
+    # input_snapshot (디버깅/재현용)
+    defense_log["input_snapshot"] = {
+        "query": q,
+        "top_chunks_preview": [
+            {"title": (r.title or "")[:50], "snippet": (r.snippet or "")[:100]}
+            for r in pr.results[:3]
+        ],
+        "answer_preview": (sr.answer or "")[:200],
+    }
+    background_tasks.add_task(
+        record_ask_event,
+        q, user.id, completeness, sr.status, sr.confidence,
+        sr.refused, classifier_result.verdict,
+        max(all_rerank_scores) if all_rerank_scores else 0.0,
+        sum(sorted(all_rerank_scores, reverse=True)[:3]),
+        sr.hallucination_flags, len(evidence), len(citations),
+        defense_log, int(total_ms),
+    )

    debug_obj = None
    if debug: