chore: save WIP before importing Document-AI subtree

2025-08-13 08:38:30 +09:00
parent 4c81686657
commit 9c70d3e8a1
9 changed files with 154 additions and 11 deletions
--- a/server/main.py
+++ b/server/main.py
@@ -188,6 +188,7 @@ def paperless_sync(req: PaperlessSyncRequest, _: None = Depends(require_api_key)
    client = PaperlessClient(settings.paperless_base_url, settings.paperless_token)
    from .index_store import IndexRow
    added_total = 0
+    skipped = 0
    next_url: str | None = None
    fetched = 0

@@ -205,13 +206,18 @@ def paperless_sync(req: PaperlessSyncRequest, _: None = Depends(require_api_key)
            doc_id = doc.get("id")
            if not doc_id:
                continue
-            text = client.get_document_text(int(doc_id))
-            if not text:
+            try:
+                text = client.get_document_text(int(doc_id))
+                if not text:
+                    skipped += 1
+                    continue
+                parts = chunk_text(text)
+                for i, t in enumerate(parts):
+                    vec = ollama.embeddings(settings.embedding_model, t)
+                    to_append.append(IndexRow(id=f"paperless:{doc_id}:{i}", text=t, vector=vec, source="paperless"))
+            except Exception:
+                skipped += 1
                continue
-            parts = chunk_text(text)
-            for i, t in enumerate(parts):
-                vec = ollama.embeddings(settings.embedding_model, t)
-                to_append.append(IndexRow(id=f"paperless:{doc_id}:{i}", text=t, vector=vec, source="paperless"))
        if to_append:
            added_total += index.append(to_append)
        fetched += len(results)
@@ -221,7 +227,7 @@ def paperless_sync(req: PaperlessSyncRequest, _: None = Depends(require_api_key)
        if not next_url:
            break

-    return {"status": "synced", "added": added_total}
+    return {"status": "synced", "added": added_total, "skipped": skipped}


 # OpenAI-compatible chat completions (minimal)