feat(search): Phase 2A E-1 — Qwen 후보 3종 백필 CLI + eval 디스패처 확장 (마이그 328~333)
- 후보 섀도 테이블 6종(전부 vector 타입 — eval=exact scan 이라 인덱스 불요, halfvec 은 C-1 소관) - workers/phase2a_cand_backfill: resumable(NOT EXISTS)·배치 커밋·동결셋 한정(--doc/chunk-id-max), 문서/청크 입력 = production 경로 동일 구성 + plain - CANDIDATE_BACKEND_MAP += cand_qwen06/qwen4/qwen4m (embed_kind=ollama, 쿼리측 instruct prefix G-1 핀 문자열, qwen4m = dimensions 1024 MRL) - qwen4m 적재는 qwen4 에서 SQL 파생(subvector+l2_normalize) — 본 CLI 비대상 Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>
This commit is contained in:
@@ -0,0 +1,8 @@
|
||||
-- Phase 2A (embedding-phase2a-1 E-1): 후보 임베딩 docs 섀도 테이블 (eval 전용, 단일 statement).
|
||||
-- 평가 = exact scan 이라 벡터 인덱스 없음 (인덱스 전략 = C-1 컷오버 소관).
|
||||
CREATE TABLE IF NOT EXISTS documents_cand_qwen06 (
|
||||
doc_id BIGINT PRIMARY KEY,
|
||||
embed_input_hash TEXT,
|
||||
embedding vector(1024) NOT NULL,
|
||||
created_at TIMESTAMPTZ NOT NULL DEFAULT now()
|
||||
);
|
||||
@@ -0,0 +1,10 @@
|
||||
-- Phase 2A (embedding-phase2a-1 E-1): 후보 임베딩 chunks 섀도 테이블 (eval 전용, 단일 statement).
|
||||
CREATE TABLE IF NOT EXISTS document_chunks_cand_qwen06 (
|
||||
id BIGINT PRIMARY KEY,
|
||||
doc_id BIGINT NOT NULL,
|
||||
chunk_index INTEGER,
|
||||
section_title TEXT,
|
||||
text TEXT,
|
||||
embedding vector(1024) NOT NULL,
|
||||
created_at TIMESTAMPTZ NOT NULL DEFAULT now()
|
||||
);
|
||||
@@ -0,0 +1,8 @@
|
||||
-- Phase 2A (embedding-phase2a-1 E-1): 후보 임베딩 docs 섀도 테이블 (eval 전용, 단일 statement).
|
||||
-- 평가 = exact scan 이라 벡터 인덱스 없음 (인덱스 전략 = C-1 컷오버 소관).
|
||||
CREATE TABLE IF NOT EXISTS documents_cand_qwen4 (
|
||||
doc_id BIGINT PRIMARY KEY,
|
||||
embed_input_hash TEXT,
|
||||
embedding vector(2560) NOT NULL,
|
||||
created_at TIMESTAMPTZ NOT NULL DEFAULT now()
|
||||
);
|
||||
@@ -0,0 +1,10 @@
|
||||
-- Phase 2A (embedding-phase2a-1 E-1): 후보 임베딩 chunks 섀도 테이블 (eval 전용, 단일 statement).
|
||||
CREATE TABLE IF NOT EXISTS document_chunks_cand_qwen4 (
|
||||
id BIGINT PRIMARY KEY,
|
||||
doc_id BIGINT NOT NULL,
|
||||
chunk_index INTEGER,
|
||||
section_title TEXT,
|
||||
text TEXT,
|
||||
embedding vector(2560) NOT NULL,
|
||||
created_at TIMESTAMPTZ NOT NULL DEFAULT now()
|
||||
);
|
||||
@@ -0,0 +1,8 @@
|
||||
-- Phase 2A (embedding-phase2a-1 E-1): 후보 임베딩 docs 섀도 테이블 (eval 전용, 단일 statement).
|
||||
-- 평가 = exact scan 이라 벡터 인덱스 없음 (인덱스 전략 = C-1 컷오버 소관).
|
||||
CREATE TABLE IF NOT EXISTS documents_cand_qwen4m (
|
||||
doc_id BIGINT PRIMARY KEY,
|
||||
embed_input_hash TEXT,
|
||||
embedding vector(1024) NOT NULL,
|
||||
created_at TIMESTAMPTZ NOT NULL DEFAULT now()
|
||||
);
|
||||
@@ -0,0 +1,10 @@
|
||||
-- Phase 2A (embedding-phase2a-1 E-1): 후보 임베딩 chunks 섀도 테이블 (eval 전용, 단일 statement).
|
||||
CREATE TABLE IF NOT EXISTS document_chunks_cand_qwen4m (
|
||||
id BIGINT PRIMARY KEY,
|
||||
doc_id BIGINT NOT NULL,
|
||||
chunk_index INTEGER,
|
||||
section_title TEXT,
|
||||
text TEXT,
|
||||
embedding vector(1024) NOT NULL,
|
||||
created_at TIMESTAMPTZ NOT NULL DEFAULT now()
|
||||
);
|
||||
Reference in New Issue
Block a user