From f21f950c04b33b3c7d4b8021330fea7054be8c54 Mon Sep 17 00:00:00 2001 From: hyungi Date: Mon, 30 Mar 2026 13:45:16 +0900 Subject: [PATCH] =?UTF-8?q?docs:=20architecture.md=20=EB=8C=80=EA=B7=9C?= =?UTF-8?q?=EB=AA=A8=20=EA=B0=B1=EC=8B=A0=20=E2=80=94=20GPU=20=EC=84=9C?= =?UTF-8?q?=EB=B2=84=20=EC=9E=AC=EA=B5=AC=EC=84=B1=20=EB=B0=98=EC=98=81?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - ChromaDB → Qdrant 전체 치환 (28건) - nomic-embed-text → bge-m3 (1024차원) 전체 치환 (12건) - Qwen2.5-VL-7B → Surya OCR (:8400) 전체 치환 (5건) - VRAM 다이어그램 갱신 (~11.3GB → ~7-8GB) - 3-Tier 라우팅 전략, 모델 협업 파이프라인 갱신 - Komga 만화 서버 GPU 서버 이전 반영 - embed_to_chroma.py 삭제 (embed_to_qdrant.py로 대체) Co-Authored-By: Claude Opus 4.6 (1M context) --- docs/architecture.md | 136 ++++++++++++++++++------------------- scripts/embed_to_chroma.py | 104 ---------------------------- 2 files changed, 68 insertions(+), 172 deletions(-) delete mode 100644 scripts/embed_to_chroma.py diff --git a/docs/architecture.md b/docs/architecture.md index 0417d16..ac07648 100644 --- a/docs/architecture.md +++ b/docs/architecture.md @@ -169,12 +169,12 @@ DEVONthink 4의 커스텀 메타데이터 필드를 활용합니다. ### AI 결과물 저장 전략 — 중복 저장 금지 GPU 서버에서 처리된 AI 결과물은 **각자 목적에 맞는 곳에만** 저장합니다. -DEVONthink와 ChromaDB에 같은 정보를 이중으로 넣지 않습니다. +DEVONthink와 Qdrant에 같은 정보를 이중으로 넣지 않습니다. ``` 처리 결과 저장 위치 이유 ─────────────────────────────────────────────────────── -벡터 임베딩 ChromaDB만 시맨틱 검색 전용, DEVONthink에선 쓸모없음 +벡터 임베딩 Qdrant만 시맨틱 검색 전용, DEVONthink에선 쓸모없음 비전 OCR 텍스트 DEVONthink 본문에 병합 검색 가능한 텍스트가 되어야 하므로 필수 리랭킹 점수 저장 안 함 (휘발) 쿼리 시점에만 의미 있는 일회성 데이터 태그/분류 DEVONthink 태그만 Smart Group, 브라우징에 활용 @@ -183,10 +183,10 @@ OmniFocus 역링크 DEVONthink 메타데이터 양방향 참조에 필요 ``` **핵심 원칙:** -- ChromaDB = 벡터 검색 엔진. 여기엔 임베딩만 들어감 +- Qdrant = 벡터 검색 엔진. 여기엔 임베딩만 들어감 - DEVONthink = 원본 문서 + 사람이 읽는 메타데이터(태그, 링크) - 요약/분석은 RAG로 실시간 생성하면 되므로 별도 캐싱 불필요 -- 비전 모델의 OCR 결과만 DEVONthink 본문에 반드시 병합 (검색성 확보) +- Surya OCR 결과만 DEVONthink 본문에 반드시 병합 (검색성 확보) --- @@ -211,7 +211,7 @@ OmniFocus 역링크 DEVONthink 메타데이터 양방향 참조에 필요 DEVONagent ────┤ ┌──────────────┐ 스캔 문서 ──────┼──► Inbox ──►│ Smart Rule │──► 자동 태깅 이메일 ────────┤ │ + Ollama API │ + 적절한 DB로 이동 -파일 드롭 ──────┘ │ + GPU 서버 │ + 벡터 인덱싱 (ChromaDB) +파일 드롭 ──────┘ │ + GPU 서버 │ + 벡터 인덱싱 (Qdrant) └──────────────┘ + OCR 텍스트 병합 (스캔 시) ▼ OmniFocus 작업 생성 @@ -225,9 +225,9 @@ DEVONagent ────┤ ┌───────────── 트리거: Inbox DB에 새 문서 추가 조건: 태그가 비어있음 동작: - 1. 이미지/스캔 문서 → GPU 서버 VL-7B로 OCR → 본문에 병합 + 1. 이미지/스캔 문서 → GPU 서버 Surya OCR(:8400)로 OCR → 본문에 병합 2. Mac mini 35B → 태그 + 분류 대상 DB 생성 → DEVONthink 태그에만 저장 - 3. GPU 서버 nomic-embed → 벡터화 → ChromaDB에만 저장 + 3. GPU 서버 bge-m3 → 벡터화 → Qdrant에만 저장 4. 태그 기반 도메인 DB 자동 이동: #주제/프로그래밍, #주제/AI-ML → 05_Programming #주제/공학, #주제/네트워크 → 03_Engineering @@ -249,7 +249,7 @@ DEVONagent ────┤ ┌───────────── 동작: 1. 발신자 기준 그룹 자동 생성/분류 2. 첨부파일 추출 → 태그 기반 도메인 DB로 복제 (기술문서→03, 도면→97 등) - 3. GPU 서버에서 벡터 임베딩 → ChromaDB 인덱싱 + 3. GPU 서버에서 벡터 임베딩 → Qdrant 인덱싱 ※ 이메일 요약은 저장하지 않음 (RAG로 검색 시 생성) ``` @@ -336,8 +336,8 @@ on performSmartRule(theRecords) end if end try - -- Step 4: GPU 서버 → 벡터 임베딩 → ChromaDB 인덱싱 (비동기) - do shell script "python3 ~/scripts/embed_to_chroma.py " & ¬ + -- Step 4: GPU 서버 → 벡터 임베딩 → Qdrant 인덱싱 (비동기) + do shell script "python3 ~/scripts/embed_to_qdrant.py " & ¬ quoted form of docUUID & " &" -- Step 5: 처리 완료 표시 @@ -567,59 +567,59 @@ if __name__ == "__main__": │ RTX 4070 Ti Super 16GB VRAM │ │ │ │ ┌──────────────────────┐ ┌──────────────────────────────────┐ │ -│ │ 👁️ 비전 모델 │ │ 🔍 리랭커 (Reranker) │ │ -│ │ Qwen2.5-VL-7B (8Q) │ │ bge-reranker-v2-m3 │ │ -│ │ VRAM: ~8GB │ │ VRAM: ~1GB │ │ -│ │ │ │ │ │ -│ │ 용도: │ │ 용도: │ │ -│ │ · 스캔 문서 분석 │ │ · RAG 검색 품질 극대화 │ │ -│ │ · 이미지 캡션/태깅 │ │ · 임베딩 검색 후 정밀 재정렬 │ │ -│ │ · 차트/그래프 해석 │ │ · Top-K → Top-N 정확도 향상 │ │ -│ │ · 사진 자동 분류 │ │ │ │ -│ │ · OCR 보완 │ │ │ │ -│ └──────────────────────┘ └──────────────────────────────────┘ │ +│ │ 📄 Surya OCR │ │ 🔍 리랭커 (Reranker) │ │ +│ │ FastAPI :8400 │ │ bge-reranker-v2-m3 │ │ +│ │ VRAM: ~2-3GB │ │ VRAM: ~1GB │ │ +│ │ │ │ │ │ +│ │ 용도: │ │ 용도: │ │ +│ │ · 스캔 문서 OCR │ │ · RAG 검색 품질 극대화 │ │ +│ │ · 이미지 텍스트 추출 │ │ · 임베딩 검색 후 정밀 재정렬 │ │ +│ │ · 만화 말풍선 OCR │ │ · Top-K → Top-N 정확도 향상 │ │ +│ │ · 한/영/일 다국어 │ │ │ │ +│ └───────────────────────┘ └──────────────────────────────────┘ │ │ │ │ ┌──────────────────────┐ ┌──────────────────────────────────┐ │ │ │ 🔗 임베딩 모델 │ │ 📊 VRAM 배분 │ │ -│ │ nomic-embed-text │ │ │ │ -│ │ VRAM: ~0.3GB │ │ 비전 모델 (8Q): ~8GB │ │ +│ │ bge-m3 (1024차원) │ │ │ │ +│ │ VRAM: ~1.5GB │ │ Surya OCR: ~2-3GB │ │ │ │ │ │ 리랭커: ~1GB │ │ -│ │ 용도: │ │ 임베딩: ~0.3GB │ │ -│ │ · 문서 벡터 임베딩 │ │ 시스템: ~2GB │ │ +│ │ 용도: │ │ 임베딩: ~1.5GB │ │ +│ │ · 문서 벡터 임베딩 │ │ Plex HW 트랜스: ~1-2GB │ │ │ │ · RAG 인덱싱 │ │ ───────────────────── │ │ -│ │ · 쿼리 임베딩 │ │ 합계: ~11.3GB / 16GB │ │ -│ │ │ │ 여유: ~4.7GB ✅ │ │ +│ │ · 쿼리 임베딩 │ │ 합계: ~7-8GB / 16GB │ │ +│ │ │ │ 여유: ~8-9GB ✅ │ │ │ │ ※ GPU 가속으로 │ │ │ │ │ │ 대량 임베딩 시 유리 │ │ │ │ │ └──────────────────────┘ └──────────────────────────────────┘ │ │ │ │ ┌─────────────────────────────────────────────────────────────┐ │ -│ │ 🎬 미디어 서비스 │ │ -│ │ Plex Media Server — GPU 하드웨어 트랜스코딩 활용 │ │ +│ │ 🎬 미디어 + 만화 서비스 │ │ +│ │ Plex Media Server — GPU 하드웨어 트랜스코딩 │ │ +│ │ Komga — 만화 서버 (Docker, NFS → NAS /Comic) │ │ │ └─────────────────────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────────────┘ ``` ### 임베딩을 GPU 서버로 이전하는 이유 -임베딩 모델(nomic-embed-text)을 Mac mini에서 GPU 서버로 이전하는 것을 **권장**합니다: +임베딩 모델(bge-m3)을 Mac mini에서 GPU 서버로 이전하는 것을 **권장**합니다: | 비교 항목 | Mac mini에서 실행 | GPU 서버에서 실행 | |---|---|---| | **대량 인덱싱 속도** | CPU 기반, 느림 | CUDA 가속, 5-10배 빠름 | | **Mac mini 부하** | 35B 모델 + 임베딩 동시 시 경합 | 35B 모델 전용, 쾌적 | -| **VRAM 영향** | 해당 없음 | +0.3GB (무시할 수준) | +| **VRAM 영향** | 해당 없음 | +1.5GB (bge-m3, 1024차원) | | **네트워크 레이턴시** | 없음 | 2.5G 네트워크, 1ms 미만 | | **배치 처리** | 문서 100개 인덱싱 시 수분 | 문서 100개 인덱싱 시 수십초 | -| **ChromaDB 위치** | Mac mini 유지 | Mac mini 유지 (변동 없음) | +| **Qdrant 위치** | Mac mini 유지 | Mac mini 유지 (변동 없음) | **결론:** 임베딩 모델은 단일 요청 레이턴시보다 **배치 처리량**이 중요합니다. GPU 서버의 CUDA 가속을 활용하면 대량 문서 인덱싱이 훨씬 빨라지고, Mac mini의 통합메모리를 35B 모델에 온전히 할당할 수 있습니다. -nomic-embed-text는 0.3GB에 불과해 GPU 서버 VRAM에 거의 영향이 없고, +bge-m3는 ~1.5GB로 GPU 서버 VRAM 16GB 대비 여유 충분하고, 2.5G 네트워크 환경이라 API 호출 레이턴시도 무시할 수준입니다. -다만 **ChromaDB는 Mac mini에 유지**합니다. RAG 질의 시 벡터 검색 → +다만 **Qdrant는 Mac mini에 유지**합니다. RAG 질의 시 벡터 검색 → 리랭킹 → 35B 응답 생성이 연속으로 일어나는데, 벡터 DB가 로컬에 있어야 이 파이프라인이 가장 빠릅니다. @@ -638,15 +638,15 @@ nomic-embed-text는 0.3GB에 불과해 GPU 서버 VRAM에 거의 영향이 없 │ Mac mini │ │ Claude │ │ GPU 서버 │ │ (메인) │ │ (클라우드) │ │ (보조) │ ├─────────────────┤ ├──────────────┤ ├────────────────────┤ - │ Qwen3.5-35B-A3B │ │ Sonnet 4.6 │ │ Qwen2.5-VL-7B (8Q)│ + │ Qwen3.5-35B-A3B │ │ Sonnet 4.6 │ │ Surya OCR (:8400) │ │ 4Q / ~80 tok/s │ │ │ │ bge-reranker-v2-m3 │ - │ │ │ │ │ nomic-embed-text │ + │ │ │ │ │ bge-m3 (1024차원) │ ├─────────────────┤ ├──────────────┤ ├────────────────────┤ - │ · 자동 태깅/분류 │ │ · 심층 분석 │ │ · 이미지/스캔 분석 │ + │ · 자동 태깅/분류 │ │ · 심층 분석 │ │ · 스캔/이미지 OCR │ │ · 문서 요약 │ │ · 리서치 합성 │ │ · RAG 리랭킹 │ │ · 메타데이터 │ │ · 보고서 생성 │ │ · 문서 임베딩/인덱싱│ - │ · 액션아이템추출 │ │ · 복잡한 추론 │ │ · 사진 자동 분류 │ - │ · RAG 응답생성 │ │ · 다국어 번역 │ │ · OCR 후처리 │ + │ · 액션아이템추출 │ │ · 복잡한 추론 │ │ · 만화 텍스트 추출 │ + │ · RAG 응답생성 │ │ · 다국어 번역 │ │ · 한/영/일 다국어 │ ├─────────────────┤ ├──────────────┤ ├────────────────────┤ │ 속도: ~80 tok/s │ │ 속도: ~3초 │ │ 속도: GPU 가속 │ │ 비용: 무료 │ │ 비용: 과금 │ │ 비용: 무료 │ @@ -659,13 +659,13 @@ nomic-embed-text는 0.3GB에 불과해 GPU 서버 VRAM에 거의 영향이 없 | 조건 | 라우팅 | 이유 | |---|---|---| | 텍스트 문서 + 태깅/분류/요약 | Tier 1 (Mac mini 35B) | 메인 범용, 품질 충분 | -| 이미지 포함 문서 / 스캔 PDF | Tier 3 → Tier 1 | 비전 모델로 텍스트 추출 후 35B로 분석 | +| 이미지 포함 문서 / 스캔 PDF | Tier 3 → Tier 1 | Surya OCR로 텍스트 추출 후 35B로 분석 | | 심층 분석 / 긴 보고서 생성 | Tier 2 (Claude API) | 최고 품질 필요 시 | | RAG 검색 결과 리랭킹 | Tier 3 (GPU reranker) | 검색 정확도 극대화 | | RAG 최종 응답 생성 | Tier 1 (Mac mini 35B) | 컨텍스트 기반 응답 | | 새 문서 벡터 인덱싱 | Tier 3 (GPU embed) | CUDA 가속 배치 처리 | | 대량 배치 (100+ 문서) | Tier 1 + Tier 3 병렬 | 양쪽 분산 처리 | -| Synology Photos 자동 태깅 | Tier 3 (GPU vision) | 이미지 분석 특화 | +| 만화 OCR (Komga 연동) | Tier 3 (GPU Surya OCR) | GPU 서버 로컬 처리 | ### 모델 간 협업 파이프라인 @@ -674,26 +674,26 @@ nomic-embed-text는 0.3GB에 불과해 GPU 서버 VRAM에 거의 영향이 없 1. [Smart Rule 트리거] 새 PDF 감지, 이미지 기반 문서로 판단 │ -2. [GPU 서버 · Qwen2.5-VL-7B 8Q] - 이미지 분석 → 텍스트 추출 (OCR) → DEVONthink 본문에 병합 +2. [GPU 서버 · Surya OCR :8400] + 이미지/스캔 PDF → OCR 텍스트 추출 → DEVONthink 본문에 병합 │ 3. [Mac mini · Qwen3.5-35B-A3B] 추출된 텍스트로 태그 생성 → DEVONthink 태그에만 저장 │ -4. [GPU 서버 · nomic-embed-text] - 문서 벡터 임베딩 → ChromaDB에만 저장 +4. [GPU 서버 · bge-m3] + 문서 벡터 임베딩 → Qdrant에만 저장 │ 5. [결과] DEVONthink에는 본문(OCR)+태그+처리일시만 - ChromaDB에는 벡터만. 요약은 저장하지 않음 (RAG로 실시간 생성) + Qdrant에는 벡터만. 요약은 저장하지 않음 (RAG로 실시간 생성) 예시: RAG 질의 시 1. [사용자 질문] "서버 마이그레이션 관련 자료 정리해줘" │ -2. [GPU 서버 · nomic-embed-text] 쿼리 임베딩 +2. [GPU 서버 · bge-m3] 쿼리 임베딩 │ -3. [Mac mini · ChromaDB] 벡터 유사도 검색 → Top-20 후보 +3. [Mac mini · Qdrant] 벡터 유사도 검색 → Top-20 후보 │ 4. [GPU 서버 · bge-reranker-v2-m3] Top-20 → 정밀 리랭킹 → Top-5 선정 @@ -714,9 +714,9 @@ OLLAMA_MAX_LOADED_MODELS=3 # 동시 로드 모델 3개 (비전+리랭커+ OLLAMA_KEEP_ALIVE=10m # 미사용 시 10분 후 언로드 # 모델 다운로드 -ollama pull qwen2.5-vl:7b-instruct-q8_0 # 비전 모델 8Q (~8GB) +# Surya OCR은 별도 systemd 서비스로 운영 (:8400) ollama pull bge-reranker-v2-m3 # 리랭커 (~1GB) -ollama pull nomic-embed-text # 임베딩 (~0.3GB) +ollama pull bge-m3 # 임베딩 (~1.5GB, 1024차원) # Mac mini에서 GPU 서버 호출 예시 # 비전 분석 @@ -725,11 +725,11 @@ curl http://gpu-server:11434/api/generate \ # 임베딩 (배치) curl http://gpu-server:11434/api/embed \ - -d '{"model":"nomic-embed-text", "input":["문서1 텍스트", "문서2 텍스트", ...]}' + -d '{"model":"bge-m3", "input":["문서1 텍스트", "문서2 텍스트", ...]}' ``` **`keep_alive` 활용 전략:** -- 비전 모델 (8Q): `keep_alive: "30m"` — 자주 사용, 항상 대기 +- Surya OCR: systemd 서비스로 상시 구동 (포트 8400) - 리랭커: `keep_alive: "10m"` — RAG 쿼리 시 활성 - 임베딩: `keep_alive: "30m"` — 새 문서 인덱싱 빈도에 맞춰 @@ -750,20 +750,20 @@ curl http://gpu-server:11434/api/embed \ │ [청킹] → 의미 단위로 텍스트 분할 (500토큰) │ │ │ │ │ ▼ │ -│ [임베딩] → GPU 서버 Ollama (nomic-embed-text, CUDA) │ +│ [임베딩] → GPU 서버 Ollama (bge-m3, CUDA) │ │ │ │ │ ▼ │ -│ [벡터 저장] → ChromaDB (Mac mini 로컬) │ +│ [벡터 저장] → Qdrant (Mac mini 로컬) │ │ │ │ │ ─ ─ ─ ─ ─ ─ 쿼리 시 ─ ─ ─ ─ ─ ─ │ │ │ │ │ [질문 입력] │ │ │ │ │ ▼ │ -│ [쿼리 임베딩] → GPU 서버 (nomic-embed-text) │ +│ [쿼리 임베딩] → GPU 서버 (bge-m3) │ │ │ │ │ ▼ │ -│ [유사도 검색] → ChromaDB (Mac mini, Top-20) │ +│ [유사도 검색] → Qdrant (Mac mini, Top-20) │ │ │ │ │ ▼ │ │ [리랭킹] → GPU 서버 (bge-reranker, Top-5 선정) │ @@ -841,7 +841,7 @@ Smart Rule 2차: 하위 그룹 라우팅 → 80_Reference/Standards/ │ ▼ -ChromaDB 벡터 인덱싱 (비동기) +Qdrant 벡터 인덱싱 (비동기) → RAG 검색에 즉시 반영 │ ▼ @@ -1023,7 +1023,7 @@ Mac mini에서는 **자동 스케줄 리서치**, 맥북에서는 **현장 수 │ 배치 + 자동화 중심 │ 인터랙티브 + 즉시성 중심 │ ├────────────────────────┴────────────────────────────────┤ │ 공통: 결과는 모두 DEVONthink Inbox → CloudKit 동기화 │ -│ → Mac mini Smart Rule이 자동 태깅 + ChromaDB 인덱싱 │ +│ → Mac mini Smart Rule이 자동 태깅 + Qdrant 인덱싱 │ └─────────────────────────────────────────────────────────┘ ``` @@ -1095,7 +1095,7 @@ DEVONthink에서 자료 검색/열람 (동기화된 DB) [RAG 질의 시] Tailscale 연결 → RAG API에 자연어 질문 -→ Mac mini에서 GPU 임베딩 → ChromaDB 검색 → 리랭킹 → 35B 응답 +→ Mac mini에서 GPU 임베딩 → Qdrant 검색 → 리랭킹 → 35B 응답 → 결과에 x-devonthink-item:// 링크 포함 → 맥북 DEVONthink에서 해당 문서 바로 열기 @@ -1183,7 +1183,7 @@ RAG 시스템으로 내 지식베이스에 질문 │ 완료 5건 | 신규 3건 | 기한초과 1건 │ │ │ │ ■ 시스템 상태 │ - │ ChromaDB 벡터: 12,847개 (+15) │ + │ Qdrant 벡터: 12,847개 (+15) │ │ Inbox 잔여: 2건 │ │ NAS 동기화: 정상 │ └─────────────────────────────────────────────┘ @@ -1194,7 +1194,7 @@ RAG 시스템으로 내 지식베이스에 질문 · Inbox 미처리 3건 이상 → "Inbox 정리 필요 (N건 미분류)" · 시정조치 overdue → "시정조치 기한초과: [내용]" (긴급 플래그) · 분류 실패 문서 존재 → "수동 분류 필요 (N건)" - · ChromaDB 인덱싱 실패 → "벡터 인덱싱 오류 점검" + · Qdrant 인덱싱 실패 → "벡터 인덱싱 오류 점검" 출력 3 — Synology Chat 알림 (선택, 한 줄 요약): "📋 오늘 다이제스트: 신규 12건, 법령변경 2건, overdue 1건 ⚠" @@ -1222,7 +1222,7 @@ RAG 시스템으로 내 지식베이스에 질문 end tell 5. 시스템 상태 — Python - ChromaDB collection.count(), NAS ping, sync 로그 확인 + Qdrant collection.count(), NAS ping, sync 로그 확인 6. 상위 뉴스 요약 — Ollama 35B 오늘 수집된 뉴스 중 상위 3건을 2-3문장으로 요약 @@ -1259,8 +1259,8 @@ OmniFocus 리뷰 → 완료 작업의 DEVONthink 메타데이터 업데이트 □ DEVONsphere Express 설치 □ OmniFocus, OmniOutliner, OmniGraffle, OmniPlan 설치 □ Ollama 확인 (이미 설치됨) -□ GPU 서버에 nomic-embed-text, Qwen2.5-VL-7B 8Q, bge-reranker 다운로드 -□ ChromaDB 설치 (pip install chromadb) — Mac mini +□ GPU 서버에 bge-m3, bge-reranker 다운로드 + Surya OCR 서비스 설치 +□ Qdrant (Docker, Mac mini) — pkm_documents 컬렉션 (1024차원, Cosine) □ Python 환경 설정 (venv 권장) □ Plex Media Server를 GPU 서버로 이전 ``` @@ -1288,7 +1288,7 @@ OmniFocus 리뷰 → 완료 작업의 DEVONthink 메타데이터 업데이트 ``` □ Ollama 태깅/분류 프롬프트 최적화 □ Claude API 키 Keychain 등록 -□ RAG 파이프라인 구축 (GPU 서버 임베딩 + Mac mini ChromaDB) +□ RAG 파이프라인 구축 (GPU bge-m3 임베딩 + Mac mini Qdrant + MLX 35B 응답) □ DEVONthink Smart Rule과 AI 연동 테스트 □ DEVONagent 자동 검색 스케줄 설정 ``` @@ -1325,7 +1325,7 @@ OmniPlan 0.5GB 낮음 OmniOutliner 0.3GB 낮음 OmniGraffle 0.5GB 낮음 MLX (Qwen3.5-35B-A3B 4bit) ~20GB 중간 MoE: 3B만 활성 -ChromaDB 1-2GB 낮음 +Qdrant (Docker) 1-2GB 낮음 Roon Core 2-4GB 낮음 Komga 0.5GB 낮음 기타 시스템 4-6GB - @@ -1347,9 +1347,9 @@ Plex를 GPU 서버로 이전하고 임베딩도 GPU로 넘김으로써, Mac mini ``` 서비스 VRAM 상태 비고 ───────────────────────────────────────────────────────────── -Qwen2.5-VL-7B (8Q) ~8GB 상주 비전/이미지 분석 +Surya OCR (systemd) ~2-3GB 상주 문서/만화 OCR bge-reranker-v2-m3 ~1GB 상주 RAG 리랭킹 -nomic-embed-text ~0.3GB 상주 임베딩 (CUDA 가속) +bge-m3 (1024차원) ~1.5GB 상주 임베딩 (CUDA 가속) Plex HW Transcoding ~1-2GB 간헐적 NVENC/NVDEC 활용 시스템 오버헤드 ~2GB - diff --git a/scripts/embed_to_chroma.py b/scripts/embed_to_chroma.py deleted file mode 100644 index 503060f..0000000 --- a/scripts/embed_to_chroma.py +++ /dev/null @@ -1,104 +0,0 @@ -#!/usr/bin/env python3 -""" -벡터 임베딩 스크립트 -- DEVONthink 문서 UUID로 텍스트 추출 -- GPU 서버(nomic-embed-text)로 임베딩 생성 -- ChromaDB에 저장 -""" - -import os -import sys -import requests -from pathlib import Path - -sys.path.insert(0, str(Path(__file__).parent)) -from pkm_utils import setup_logger, load_credentials, run_applescript_inline - -logger = setup_logger("embed") - -# ChromaDB 저장 경로 -CHROMA_DIR = Path.home() / ".local" / "share" / "pkm" / "chromadb" -CHROMA_DIR.mkdir(parents=True, exist_ok=True) - - -def get_document_text(uuid: str) -> tuple[str, str]: - """DEVONthink에서 UUID로 문서 텍스트 + 제목 추출""" - script = f''' - tell application id "DNtp" - set theRecord to get record with uuid "{uuid}" - set docText to plain text of theRecord - set docTitle to name of theRecord - return docTitle & "|||" & docText - end tell - ''' - result = run_applescript_inline(script) - parts = result.split("|||", 1) - title = parts[0] if len(parts) > 0 else "" - text = parts[1] if len(parts) > 1 else "" - return title, text - - -def get_embedding(text: str, gpu_server_ip: str) -> list[float] | None: - """GPU 서버의 nomic-embed-text로 임베딩 생성""" - url = f"http://{gpu_server_ip}:11434/api/embeddings" - try: - resp = requests.post(url, json={ - "model": "nomic-embed-text", - "prompt": text[:8000] # 토큰 제한 - }, timeout=60) - resp.raise_for_status() - return resp.json().get("embedding") - except Exception as e: - logger.error(f"임베딩 생성 실패: {e}") - return None - - -def store_in_chromadb(doc_id: str, title: str, text: str, embedding: list[float]): - """ChromaDB에 저장""" - import chromadb - client = chromadb.PersistentClient(path=str(CHROMA_DIR)) - collection = client.get_or_create_collection( - name="pkm_documents", - metadata={"hnsw:space": "cosine"} - ) - collection.upsert( - ids=[doc_id], - embeddings=[embedding], - documents=[text[:2000]], - metadatas=[{"title": title, "source": "devonthink"}] - ) - logger.info(f"ChromaDB 저장: {doc_id} ({title[:30]})") - - -def run(uuid: str): - """단일 문서 임베딩 처리""" - logger.info(f"임베딩 처리 시작: {uuid}") - - creds = load_credentials() - gpu_ip = creds.get("GPU_SERVER_IP") - if not gpu_ip: - logger.warning("GPU_SERVER_IP 미설정 — 임베딩 건너뜀") - return - - try: - title, text = get_document_text(uuid) - if not text or len(text) < 10: - logger.warning(f"텍스트 부족 [{uuid}]: {len(text)}자") - return - - embedding = get_embedding(text, gpu_ip) - if embedding: - store_in_chromadb(uuid, title, text, embedding) - logger.info(f"임베딩 완료: {uuid}") - else: - logger.error(f"임베딩 실패: {uuid}") - - except Exception as e: - logger.error(f"임베딩 처리 에러 [{uuid}]: {e}", exc_info=True) - - -if __name__ == "__main__": - if len(sys.argv) < 2: - print("사용법: python3 embed_to_chroma.py ") - sys.exit(1) - run(sys.argv[1])