d4e1f76e81
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
213 lines
9.2 KiB
YAML
213 lines
9.2 KiB
YAML
# hyungi_Document_Server 설정
|
|
|
|
ai:
|
|
gateway:
|
|
endpoint: "http://ai-gateway:8080"
|
|
|
|
models:
|
|
# ─── 단일 generation 호스트 routing (2026-05-14 GPU LLM 제거) ───
|
|
# 2026-06-11 B안: 맥미니 모델 = Gemma 26B-A4B → Qwen3.6-27B-6bit 풀교체 (사용자 결정).
|
|
# dense 27B 라 디코드 ~13 tok/s 급 (a4b ~42 대비 감속) → timeout 상향 (triage 30→120, primary 180→300).
|
|
# fallback 은 Claude Sonnet 4 API (CLAUDE_API_KEY 미주입 = 비활성).
|
|
# plan: ~/.claude/plans/rosy-launching-otter.md §C/§D/§E + project_macmini_model_decision
|
|
|
|
# triage: 상시 분류·요약·근거 선별. Mac mini Qwen 27B (primary 와 동일 endpoint, 짧은 max_tokens).
|
|
triage:
|
|
endpoint: "http://100.76.254.116:8890/v1/chat/completions"
|
|
model: "mlx-community/Qwen3.6-27B-6bit"
|
|
max_tokens: 4096
|
|
timeout: 480 # 프리필 실측 ~112 tok/s — 120K자 장문 커버 (2026-06-11)
|
|
context_char_limit: 120000
|
|
temperature: 0.0
|
|
|
|
# primary: 에스컬레이션 전용. Qwen 27B MLX (맥미니 Semaphore(1) 보호 대상).
|
|
primary:
|
|
endpoint: "http://100.76.254.116:8890/v1/chat/completions"
|
|
model: "mlx-community/Qwen3.6-27B-6bit"
|
|
max_tokens: 8192
|
|
timeout: 900 # 프리필 실측 ~112 tok/s — 260K자 상한 장문 커버 (2026-06-11)
|
|
context_char_limit: 260000
|
|
temperature: 0.3
|
|
top_p: 0.9
|
|
|
|
# deep: 야간 night-drain 전용 — 맥북 M5 Max Qwen3.6-27B-6bit (llm-router :8890 경유,
|
|
# model=qwen-macbook alias). 2026-06-11 재도입 (사용자: 자기 전 night-drain 으로 백로그 분담).
|
|
# 맥북 불가(503/연결/절단) = StageDeferred 보류 — 맥미니/cloud 강등 없음, attempts 미소모.
|
|
# consumer 의 deep_summary 도 슬롯 존재 시 맥북 경유 (잠들어 있으면 30분 백오프 보류 = 무해).
|
|
# 슬롯 제거 시 deep_summary 는 primary(맥미니) 경로 복귀.
|
|
deep:
|
|
endpoint: "http://100.76.254.116:8890/v1/chat/completions"
|
|
model: "qwen-macbook"
|
|
max_tokens: 8192
|
|
timeout: 900
|
|
context_char_limit: 260000
|
|
temperature: 0.3
|
|
top_p: 0.9
|
|
|
|
# fallback: primary 장애 시 최후 방어선. Claude Sonnet 4 API (소액 한도, 자동 trigger).
|
|
# 호출 빈도 낮음 가정 (Mac mini 가 거의 항상 up) → premium 과 budget 공유 OK.
|
|
fallback:
|
|
endpoint: "https://api.anthropic.com/v1/messages"
|
|
model: "claude-sonnet-4-20250514"
|
|
max_tokens: 4096
|
|
daily_budget_usd: 5.00
|
|
require_explicit_trigger: false
|
|
timeout: 120
|
|
|
|
premium:
|
|
endpoint: "https://api.anthropic.com/v1/messages"
|
|
model: "claude-sonnet-4-20250514"
|
|
max_tokens: 8192
|
|
daily_budget_usd: 5.00
|
|
require_explicit_trigger: true
|
|
|
|
embedding:
|
|
endpoint: "http://ollama:11434/api/embeddings"
|
|
model: "bge-m3"
|
|
|
|
rerank:
|
|
endpoint: "http://reranker:80/rerank"
|
|
model: "bge-reranker-v2-m3"
|
|
|
|
# Phase 3.5a answerability classifier. 2026-05-14 GPU LLM 제거 후 Mac mini 26B 로 swap.
|
|
# classifier_service 가 hasattr 체크로 optional 이므로 이 섹션 제거 시 classifier gate 는 자동 skip (score-only).
|
|
classifier:
|
|
endpoint: "http://100.76.254.116:8890/v1/chat/completions"
|
|
model: "mlx-community/Qwen3.6-27B-6bit" # 2026-06-11 B안 동승 — gemma id 잔존 시 mlx 서버가 Gemma 를 재로드(이중 적재) 위험
|
|
max_tokens: 512
|
|
timeout: 30 # 2026-05-17: 15s 도 동시 부하 시 elapsed 14.4s 직전이라 tight — 30s 로 2x 마진. classifier_service.LLM_TIMEOUT_MS=30000 와 align (초과 = score-only skip, graceful)
|
|
# 제거: vision (미사용)
|
|
|
|
# ─── deep_summary enqueue 폭발 억제 (B-1 R2) ───
|
|
# 초기 튜닝 전 deep_summary 큐에 soft escalate 가 과발생하면 MLX 26B 가 포화된다.
|
|
# 아래 임계치 중 하나라도 초과하면 soft escalate (recommend_deep_summary 만) 를
|
|
# suppress. hard escalate (long_context / triage_json_invalid / low_confidence)는
|
|
# 절대 suppress 되지 않는다.
|
|
deep_summary_backlog:
|
|
ratio_threshold: 0.3 # 지난 window 의 deep_n/classify_n
|
|
pending_threshold: 5 # deep_summary stage 의 pending+processing
|
|
window_minutes: 30
|
|
|
|
# ─── /api/search/ask backend dispatcher (PR-MacBook-RAG-Backend-1) ───
|
|
# backend 미지정 (default) → Gemma Mac mini (settings.ai.primary 경로 그대로, 변동 0).
|
|
# backend="qwen-macbook" 명시 opt-in → MacBook M5 Max mlx-vlm.server. unavailable 시 503.
|
|
# 자동 fallback 없음 ([[macbook-inference-endpoint-role]] Invariant 1).
|
|
search:
|
|
ask:
|
|
backend:
|
|
macmini_url: "http://100.76.254.116:8801" # Gemma 경로 = settings.ai.primary 가 권위, 본 키는 spec 일관성 + 변경 추적용
|
|
macbook_url: "http://100.118.112.84:8810" # MacBook M5 Max Tailscale interface bind
|
|
macbook_model: "mlx-community/Qwen3.6-27B-8bit"
|
|
timeout_connect_s: 1 # MacBook sleep/wake 빠른 감지 (자동 fallback 부재 → 빠른 503)
|
|
timeout_read_s: 120 # 2026-06-11 Qwen 27B(디코드 ~11.7 tok/s) — synthesis_service.LLM_TIMEOUT_MS=120000 와 align
|
|
# PR-DocSrv-Ask-ToolCalling-ReAct-1: /api/search/ask/react ReAct loop (qwen-macbook only)
|
|
react:
|
|
enabled: true
|
|
max_tool_rounds: 2 # G0-2: LLM 호출 최대 3회 (tool round 2 + final 1), search 실행 최대 2회
|
|
search_tool_limit: 5
|
|
search_tool_mode: "hybrid"
|
|
|
|
nas:
|
|
mount_path: "/documents"
|
|
pkm_root: "/documents/PKM"
|
|
|
|
# ─── 업로드 한도 정책 (authoritative) ───
|
|
# 프록시(home-caddy 등) request_body 한도는 max_bytes * content_length_slack_ratio 이상 유지.
|
|
upload:
|
|
max_bytes: 100000000 # 100 MB (SI). 업로드 실제 제한의 단일 진실 공급원.
|
|
content_length_slack_ratio: 1.05 # multipart form 오버헤드(헤더/바운더리) 여유.
|
|
stream_chunk_bytes: 1048576 # 1 MiB 단위 스트리밍 read/write.
|
|
|
|
# ─── 문서 분류 체계 ───
|
|
taxonomy:
|
|
Philosophy:
|
|
Ethics: []
|
|
Metaphysics: []
|
|
Epistemology: []
|
|
Logic: []
|
|
Aesthetics: []
|
|
Eastern_Philosophy: []
|
|
Western_Philosophy: []
|
|
Language:
|
|
Korean: []
|
|
English: []
|
|
Japanese: []
|
|
Translation: []
|
|
Linguistics: []
|
|
Engineering:
|
|
Mechanical: [Piping, HVAC, Equipment]
|
|
Electrical: [Power, Instrumentation]
|
|
Chemical: [Process, Material]
|
|
Civil: []
|
|
Network: [Server, Security, Infrastructure]
|
|
Industrial_Safety:
|
|
Legislation: [Act, Decree, Foreign_Law, Korea_Law_Archive, Enforcement_Rule, Public_Notice, SAPA]
|
|
Theory: [Industrial_Safety_General, Safety_Health_Fundamentals]
|
|
Academic_Papers: [Safety_General, Risk_Assessment_Research]
|
|
Cases: [Domestic, International]
|
|
Practice: [Checklist, Contractor_Management, Safety_Education, Emergency_Plan, Patrol_Inspection, Permit_to_Work, PPE, Safety_Plan]
|
|
Risk_Assessment: [KRAS, JSA, Checklist_Method]
|
|
Safety_Manager: [Appointment, Duty_Record, Improvement, Inspection, Meeting]
|
|
Health_Manager: [Appointment, Duty_Record, Ergonomics, Health_Checkup, Mental_Health, MSDS, Work_Environment]
|
|
Programming:
|
|
Programming_Language: [Python, JavaScript, Go, Rust]
|
|
Framework: [FastAPI, SvelteKit, React]
|
|
DevOps: [Docker, CI_CD, Linux_Administration]
|
|
AI_ML: [Large_Language_Model, Computer_Vision, Data_Science]
|
|
Database: []
|
|
Software_Architecture: []
|
|
General:
|
|
Reading_Notes: []
|
|
Self_Development: []
|
|
Business: []
|
|
Science: []
|
|
History: []
|
|
|
|
document_types:
|
|
- Reference
|
|
- Standard
|
|
- Manual
|
|
- Drawing
|
|
- Template
|
|
- Note
|
|
- Academic_Paper
|
|
- Law_Document
|
|
- Report
|
|
- Memo
|
|
- Checklist
|
|
- Meeting_Minutes
|
|
- Specification
|
|
- 발주서
|
|
- 세금계산서
|
|
- 명세표
|
|
- 도면
|
|
- 증명서
|
|
- 계획서
|
|
- 시방서
|
|
|
|
schedule:
|
|
law_monitor: "07:00"
|
|
mailplus_archive: ["07:00", "18:00"]
|
|
daily_digest: "20:00"
|
|
file_watcher_interval_minutes: 5
|
|
queue_consumer_interval_minutes: 10
|
|
|
|
# 생성 LLM 홀드 게이트 (2026-06-11 신설): held_stages 에 든 이름의 컨슈머/워커는 claim 자체를
|
|
# 하지 않는다 (attempts 미소모, pending 적체). 유효 키 8 = classify/summarize/deep_summary(큐) +
|
|
# digest/briefing(cron) + study_explanation/study_session_analysis/study_memo_card(컨슈머).
|
|
# 그 외 문자열은 무동작(오타 주의). 적용/해제 = 리스트 수정 후 fastapi 재기동.
|
|
# 이력: 2026-06-11 맥미니 모델 확정까지 8키 홀드 → 同日 Qwen3.6-27B-6bit 전환과 함께 해제([]).
|
|
pipeline:
|
|
held_stages: []
|
|
# mlx gate 동시 실행 상한 (config.mlx_gate_concurrency). 현 mlx_vlm = continuous batching
|
|
# (2026-06-11 밤 6~8 concurrent 실측 정상). 2026-06-15: 2→4 — digest/briefing 합성을
|
|
# 이 단일 게이트(BACKGROUND 우선순위)로 라우팅하며 digest(클러스터 44~68)가 하드캡 내
|
|
# 완료되도록 동시성 확보. ask/eid(FOREGROUND)는 큐 점프라 영향 최소. 되돌리면 구 동작.
|
|
mlx_gate_concurrency: 2
|
|
# 2026-06-15: digest/briefing 생성 LLM 파라미터 (모델 교체 후 단일소스, 상세 = config.py).
|
|
# 구 하드코딩 25s(빠른 Gemma)가 Qwen 27B(콜당 ~90~300s) 교체 sweep 누락 → digest 600s
|
|
# 초과·briefing 4/4 폴백. 동시성은 위 mlx_gate_concurrency 가 담당(별 키 없음).
|
|
digest_llm_timeout_s: 300
|
|
digest_llm_attempts: 2
|
|
digest_pipeline_hard_cap_s: 5400
|