72910db818
kordoc은 PDF 전체를 메모리에 올려 파싱 → 이미지 PDF에서 OOM. PyMuPDF는 페이지 단위 스트리밍으로 40MB+ PDF도 수백 MB 내 처리. - kordoc 시도 → 실패(OOM/timeout/422) → PDF면 PyMuPDF fallback - PyMuPDF도 텍스트 레이어 없으면 로그 경고 (스캔 전용 PDF) - HWP/HWPX는 kordoc 전용 (fallback 없음) - extractor_version으로 어떤 경로로 추출됐는지 추적 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
20 lines
349 B
Plaintext
20 lines
349 B
Plaintext
fastapi>=0.110.0
|
|
uvicorn[standard]>=0.27.0
|
|
sqlalchemy[asyncio]>=2.0.0
|
|
asyncpg>=0.29.0
|
|
pgvector>=0.3.0
|
|
python-dotenv>=1.0.0
|
|
pyyaml>=6.0
|
|
httpx>=0.27.0
|
|
python-jose[cryptography]>=3.3.0
|
|
bcrypt>=4.0.0
|
|
pyotp>=2.9.0
|
|
caldav>=1.3.0
|
|
apscheduler>=3.10.0
|
|
anthropic>=0.40.0
|
|
markdown>=3.5.0
|
|
python-multipart>=0.0.9
|
|
jinja2>=3.1.0
|
|
feedparser>=6.0.0
|
|
pymupdf>=1.24.0
|