diff --git a/config.yaml b/config.yaml index 42a6162..3cc09d0 100644 --- a/config.yaml +++ b/config.yaml @@ -5,12 +5,15 @@ ai: endpoint: "http://ai-gateway:8080" models: - # ─── 2-tier routing (PR-B) ─── - # triage: 상시 분류·요약·근거 선별. GPU Ollama gemma-4b (Q8_0, ~11.6GB). - # concurrent OK — llm_gate Semaphore 경유 불필요. + # ─── 단일 generation 호스트 routing (2026-05-14 GPU LLM 제거) ─── + # GPU Ollama gemma4:e4b-it-q8_0 제거. Mac mini 26B-A4B 가 triage + primary + classifier 모두 흡수. + # fallback 은 Claude Sonnet 4 API (Mac mini 다운 시 자동 trigger, premium 과 budget 공유). + # plan: ~/.claude/plans/rosy-launching-otter.md §C/§D/§E + + # triage: 상시 분류·요약·근거 선별. Mac mini 26B (primary 와 동일 endpoint, 짧은 max_tokens). triage: - endpoint: "http://ollama:11434/v1/chat/completions" - model: "gemma4:e4b-it-q8_0" + endpoint: "http://100.76.254.116:8801/v1/chat/completions" + model: "mlx-community/gemma-4-26b-a4b-it-8bit" max_tokens: 4096 timeout: 30 context_char_limit: 120000 @@ -23,11 +26,14 @@ ai: timeout: 180 context_char_limit: 260000 - # fallback: primary 장애 시 최후 방어선. triage 와 동일 모델 — gemma-4b 로 퇴행 허용. + # fallback: primary 장애 시 최후 방어선. Claude Sonnet 4 API (소액 한도, 자동 trigger). + # 호출 빈도 낮음 가정 (Mac mini 가 거의 항상 up) → premium 과 budget 공유 OK. fallback: - endpoint: "http://ollama:11434/v1/chat/completions" - model: "gemma4:e4b-it-q8_0" + endpoint: "https://api.anthropic.com/v1/messages" + model: "claude-sonnet-4-20250514" max_tokens: 4096 + daily_budget_usd: 5.00 + require_explicit_trigger: false timeout: 120 premium: @@ -45,12 +51,11 @@ ai: endpoint: "http://reranker:80/rerank" model: "bge-reranker-v2-m3" - # Phase 3.5a answerability classifier. 모델은 gemma4:e4b 로 통일 (exaone 제거 반영). - # classifier_service 가 hasattr 체크로 optional 이므로 이 섹션 제거 시 classifier gate - # 는 자동 skip (score-only). 지금은 의도적으로 유지. + # Phase 3.5a answerability classifier. 2026-05-14 GPU LLM 제거 후 Mac mini 26B 로 swap. + # classifier_service 가 hasattr 체크로 optional 이므로 이 섹션 제거 시 classifier gate 는 자동 skip (score-only). classifier: - endpoint: "http://ollama:11434/v1/chat/completions" - model: "gemma4:e4b-it-q8_0" + endpoint: "http://100.76.254.116:8801/v1/chat/completions" + model: "mlx-community/gemma-4-26b-a4b-it-8bit" max_tokens: 512 timeout: 10 # 제거: vision (미사용)