docker-compose.yml에 reranker 서비스 추가: - image: ghcr.io/huggingface/text-embeddings-inference:1.5 - MODEL_ID=BAAI/bge-reranker-v2-m3 - MAX_BATCH_TOKENS=8192, MAX_CONCURRENT_REQUESTS=4 - GPU 1개 할당 (RTX 4070 Ti Super, CUDA 13.0) - expose 80만 (host 노출 X, internal network 전용) - reranker_cache volume으로 모델 영속화 - fastapi가 depends_on 안 함 → 단독 시작 가능, reranker 없어도 fastapi 동작 (rerank_service가 RRF fallback) 다음 단계: - GPU에서 docker pull로 호환성 확인 - docker compose up -d reranker → warmup - config.yaml의 rerank.endpoint를 http://reranker:80/rerank로 갱신 (GPU 직접) - fastapi rebuild + 평가셋 측정 (rerank=true)
3.2 KiB
3.2 KiB