feat: add summarization to pipeline (summarize + summary_sentences + summary_language)

This commit is contained in:
hyungi
2025-08-13 08:50:06 +09:00
parent 6346635ac1
commit 8d87b1f46b
3 changed files with 70 additions and 7 deletions

View File

@@ -215,7 +215,7 @@ curl -s -X POST http://localhost:26000/paperless/hook \
### Paperless 배치 동기화(`/paperless/sync`)
### 문서 파이프라인(`/pipeline/ingest`)
첨부 문서(텍스트가 준비된 상태: OCR/추출 선행) → 벡터 임베딩번역(옵션) → HTML 생성까지 처리합니다.
첨부 문서(텍스트가 준비된 상태: OCR/추출 선행) → (옵션)요약 → (옵션)번역 → 임베딩 → HTML 생성까지 처리합니다.
```bash
curl -s -X POST http://localhost:26000/pipeline/ingest \
@@ -225,13 +225,17 @@ curl -s -X POST http://localhost:26000/pipeline/ingest \
"text": "(여기에 문서 텍스트)",
"generate_html": true,
"translate": true,
"target_language": "ko"
"target_language": "ko",
"summarize": false,
"summary_sentences": 5,
"summary_language": null
}'
```
응답에 `html_path`가 포함됩니다.
- 번역 켜짐(`translate=true`): 번역본이 `outputs/html/<doc_id>.html`로 생성되고, 번역문이 인덱스에 추가됩니다.
- 번역 짐(`translate=false`): 원문으로 HTML만 생성되고, 원문 텍스트가 인덱스에 추가됩니다.
- 요약 켜짐(`summarize=true`): 청크별 요약 후 통합 요약을 생성해 사용(기본 5문장). `summary_language`로 요약 언어 선택 가능(기본 번역 언어와 동일, 번역 off면 ko).
- 번역 짐(`translate=true`): 최종 텍스트를 대상 언어로 번역해 HTML+인덱스화.
- 번역 꺼짐(`translate=false`): 최종 텍스트(요약 또는 원문)로 HTML+인덱스화.
파일 업로드 버전(`/pipeline/ingest_file`): `.txt`/`.pdf` 지원