feat: pipeline options translate/target_language; allow HTML-only without translation

This commit is contained in:
hyungi
2025-08-13 08:46:08 +09:00
parent a280304adc
commit 6e7cf8eafa
3 changed files with 24 additions and 10 deletions

View File

@@ -215,7 +215,7 @@ curl -s -X POST http://localhost:26000/paperless/hook \
### Paperless 배치 동기화(`/paperless/sync`)
### 문서 파이프라인(`/pipeline/ingest`)
첨부 문서(텍스트가 준비된 상태: OCR/추출 선행) → 벡터 임베딩 → 한국어 번역 → HTML 생성까지 한 번에 처리합니다.
첨부 문서(텍스트가 준비된 상태: OCR/추출 선행) → 벡터 임베딩 → 번역(옵션) → HTML 생성까지 처리합니다.
```bash
curl -s -X POST http://localhost:26000/pipeline/ingest \
@@ -223,11 +223,15 @@ curl -s -X POST http://localhost:26000/pipeline/ingest \
-d '{
"doc_id": "doc-2025-08-13-001",
"text": "(여기에 문서 텍스트)",
"generate_html": true
"generate_html": true,
"translate": true,
"target_language": "ko"
}'
```
응답에 `html_path`가 포함됩니다. 한국어 번역본이 `outputs/html/<doc_id>.html`로 생성되고, 번역문은 인덱스에 추가되어 RAG로 검색됩니다.
응답에 `html_path`가 포함됩니다.
- 번역 켜짐(`translate=true`): 번역본이 `outputs/html/<doc_id>.html`로 생성되고, 번역문이 인덱스에 추가됩니다.
- 번역 꺼짐(`translate=false`): 원문으로 HTML만 생성되고, 원문 텍스트가 인덱스에 추가됩니다.
Paperless에서 다수 문서를 일괄 인덱싱합니다.