feat: NanoClaude 프로덕션 통합 — Docker, Caddy, aiosqlite 로깅

- docker-compose에 nanoclaude 서비스 추가 (포트 8100) - Caddy /nano/* → nanoclaude 리버스 프록시 (SSE flush) - aiosqlite 요청/응답 로깅 (request_logs 테이블) - .env.example, CLAUDE.md 업데이트 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-06 11:19:15 +09:00
parent 1e427bc98a
commit e970ebdbea
10 changed files with 122 additions and 2 deletions
--- a/.env.example
+++ b/.env.example
@@ -14,3 +14,7 @@ BACKENDS_CONFIG=/app/config/backends.json

 # DB path (in Docker)
 DB_PATH=/app/data/gateway.db
+
+# NanoClaude
+EXAONE_MODEL=exaone3.5:7.8b-instruct-q8_0
+NANOCLAUDE_API_KEY=
--- a/CLAUDE.md
+++ b/CLAUDE.md
@@ -9,13 +9,14 @@ GPU 서버(RTX 4070 Ti Super)에서 운영하는 중앙 AI 라우팅 서비스.
 |--------|----------|------|------|
 | Caddy | caddy/ | Caddy 2 | 80/443 |
 | hub-api | hub-api/ | FastAPI + aiosqlite | 8000 |
-| hub-web | hub-web/ | Vite + React + shadcn/ui | 3000 (Phase 2) |
+| hub-web | hub-web/ | Vite + React + shadcn/ui | 3000 |
+| NanoClaude | nanoclaude/ | FastAPI + aiosqlite | 8100 |

 ## 외부 연결

 - GPU Ollama: host.docker.internal:11434
 - 맥미니 Ollama: 100.115.153.119:11434
- NanoClaude: 100.115.153.119:PORT (Phase 1.5)
+- NanoClaude: localhost:8100 (비동기 job 기반 AI Gateway)

 ## 개발

@@ -37,6 +38,11 @@ OpenAI 호환: `/v1/chat/completions`, `/v1/models`, `/v1/embeddings`
 인증: `/auth/login` → Cookie 또는 Bearer 토큰
 모니터링: `/health`, `/gpu`

+## NanoClaude API
+
+비동기 job 기반: `POST /nano/chat` → `{ job_id }`, `GET /nano/chat/{job_id}/stream` → SSE
+취소: `POST /nano/chat/{job_id}/cancel`
+
 ## 백엔드 설정

 `backends.json`에서 백엔드 추가/제거. 서비스 재시작 필요.
--- a/caddy/Caddyfile
+++ b/caddy/Caddyfile
@@ -16,6 +16,12 @@
 	handle /gpu {
 		reverse_proxy hub-api:8000
 	}
+	handle /nano/* {
+		uri strip_prefix /nano
+		reverse_proxy nanoclaude:8100 {
+			flush_interval -1
+		}
+	}
 	handle {
 		reverse_proxy hub-web:80
 	}
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -12,6 +12,7 @@ services:
    depends_on:
      - hub-api
      - hub-web
+      - nanoclaude
    networks:
      - gateway-net

@@ -46,9 +47,31 @@ services:
    networks:
      - gateway-net

+  nanoclaude:
+    build: ./nanoclaude
+    container_name: gpu-nanoclaude
+    restart: unless-stopped
+    environment:
+      - EXAONE_BASE_URL=http://host.docker.internal:11434
+      - EXAONE_MODEL=${EXAONE_MODEL:-exaone3.5:7.8b-instruct-q8_0}
+      - DB_PATH=/app/data/nanoclaude.db
+      - API_KEY=${NANOCLAUDE_API_KEY:-}
+    volumes:
+      - nano_data:/app/data
+    extra_hosts:
+      - "host.docker.internal:host-gateway"
+    healthcheck:
+      test: ["CMD", "curl", "-f", "http://localhost:8100/health"]
+      interval: 15s
+      timeout: 5s
+      retries: 3
+    networks:
+      - gateway-net
+
 volumes:
  caddy_data:
  hub_data:
+  nano_data:

 networks:
  gateway-net:
--- a/nanoclaude/config.py
+++ b/nanoclaude/config.py
@@ -12,6 +12,9 @@ class Settings(BaseSettings):
    host: str = "0.0.0.0"
    port: int = 8100

+    # DB
+    db_path: str = "/app/data/nanoclaude.db"
+
    # Optional API key (empty = disabled)
    api_key: str = ""

--- a/nanoclaude/db/init.py
+++ b/nanoclaude/db/init.py
--- a/nanoclaude/db/database.py
+++ b/nanoclaude/db/database.py
@@ -0,0 +1,47 @@
+"""aiosqlite DB — 요청/응답 로깅 및 메트릭."""
+
+import aiosqlite
+
+from config import settings
+
+SCHEMA = """
+CREATE TABLE IF NOT EXISTS request_logs (
+    id INTEGER PRIMARY KEY AUTOINCREMENT,
+    job_id TEXT NOT NULL,
+    message TEXT NOT NULL,
+    status TEXT NOT NULL DEFAULT 'queued',
+    model TEXT NOT NULL,
+    response_chars INTEGER DEFAULT 0,
+    latency_ms REAL DEFAULT 0,
+    created_at REAL NOT NULL,
+    completed_at REAL
+);
+
+CREATE INDEX IF NOT EXISTS idx_logs_job ON request_logs(job_id);
+CREATE INDEX IF NOT EXISTS idx_logs_created ON request_logs(created_at);
+"""
+
+
+async def init_db():
+    async with aiosqlite.connect(settings.db_path) as db:
+        await db.execute("PRAGMA journal_mode=WAL")
+        await db.executescript(SCHEMA)
+        await db.commit()
+
+
+async def log_request(job_id: str, message: str, model: str, created_at: float):
+    async with aiosqlite.connect(settings.db_path) as db:
+        await db.execute(
+            "INSERT INTO request_logs (job_id, message, model, created_at) VALUES (?, ?, ?, ?)",
+            (job_id, message, model, created_at),
+        )
+        await db.commit()
+
+
+async def log_completion(job_id: str, status: str, response_chars: int, latency_ms: float, completed_at: float):
+    async with aiosqlite.connect(settings.db_path) as db:
+        await db.execute(
+            "UPDATE request_logs SET status=?, response_chars=?, latency_ms=?, completed_at=? WHERE job_id=?",
+            (status, response_chars, latency_ms, completed_at, job_id),
+        )
+        await db.commit()
--- a/nanoclaude/main.py
+++ b/nanoclaude/main.py
@@ -3,12 +3,14 @@
 from __future__ import annotations

 import logging
+from contextlib import asynccontextmanager

 from fastapi import FastAPI, Request
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import JSONResponse

 from config import settings
+from db.database import init_db
 from routers import chat

 logging.basicConfig(
@@ -16,10 +18,17 @@ logging.basicConfig(
    format="%(asctime)s %(levelname)s %(name)s — %(message)s",
 )

+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    await init_db()
+    yield
+
+
 app = FastAPI(
    title="NanoClaude",
    version="0.1.0",
    description="비동기 job 기반 AI Gateway — Phase 1",
+    lifespan=lifespan,
 )

 app.add_middleware(
--- a/nanoclaude/requirements.txt
+++ b/nanoclaude/requirements.txt
@@ -2,3 +2,4 @@ fastapi==0.115.0
 uvicorn[standard]==0.30.0
 httpx==0.27.0
 pydantic-settings==2.5.0
+aiosqlite==0.20.0
--- a/nanoclaude/services/worker.py
+++ b/nanoclaude/services/worker.py
@@ -4,7 +4,10 @@ from __future__ import annotations

 import asyncio
 import logging
+from time import time

+from config import settings
+from db.database import log_completion, log_request
 from models.schemas import JobStatus
 from services.exaone_adapter import stream_chat
 from services.job_manager import Job, job_manager
@@ -18,6 +21,14 @@ HEARTBEAT_INTERVAL = 4.0

 async def run(job: Job) -> None:
    """EXAONE 호출 → SSE 이벤트 발행."""
+    start_time = time()
+
+    # DB 로깅: 요청 기록
+    try:
+        await log_request(job.id, job.message, settings.exaone_model, job.created_at)
+    except Exception:
+        logger.warning("Failed to log request for job %s", job.id, exc_info=True)
+
    try:
        # --- ACK ---
        await state_stream.push(job.id, "ack", {"message": "요청을 확인했습니다. 분석을 시작합니다."})
@@ -50,9 +61,19 @@ async def run(job: Job) -> None:
        if not collected:
            job_manager.set_status(job.id, JobStatus.failed)
            await state_stream.push(job.id, "error", {"message": "EXAONE으로부터 응답을 받지 못했습니다."})
+            status = "failed"
        else:
            job_manager.set_status(job.id, JobStatus.completed)
            await state_stream.push(job.id, "done", {"message": "완료"})
+            status = "completed"
+
+        # DB 로깅: 완료 기록
+        latency_ms = (time() - start_time) * 1000
+        response_text = "".join(collected)
+        try:
+            await log_completion(job.id, status, len(response_text), latency_ms, time())
+        except Exception:
+            logger.warning("Failed to log completion for job %s", job.id, exc_info=True)

    except asyncio.CancelledError:
        job_manager.set_status(job.id, JobStatus.cancelled)