e4fe18b7a8
사용자 quality 평가:
"애플펜슬로 필기한건 내 글씨체 이슈에 더해서 좋은 자료를 뽑아내지
못하네 그 외에는 잘되는거 같은데"
분류:
overall_pass=true 24건 — 일반 PDF (born-digital + scan-like 中
5127 같이 정상 변환되는 케이스)
overall_pass=false 4건 — 애플펜슬 필기 4건 (4798/4813/4815
controlled_backfill + 4809 anchor)
overall_pass=empty 2건 — page_count > MAX_PAGES=200 의도 skip
(5178 ASME 272p, 5180 ASME Sec I 453p)
정식 rubric 5축 (text_accuracy/structure/noise_rate/multi_script/
completeness) 점수는 비워둠 — 사용자 약식 판정으로도 의사결정 매트릭스
분기 (필기만 fail → SKIP rule 확장) 가 명확해 정식 채점 over-investment.
후속 라운드 (Marker 튜닝/대안 OCR 도입 시) 같은 30건 재평가에는 정식
rubric 채울 가치 있음.
Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
6.9 KiB
6.9 KiB
| 1 | doc_id | title | sample_source | bucket_label | text_accuracy | structure | noise_rate | multi_script | completeness | overall_pass | notes |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 2 | 4809 | Note_240805_용접교육 필기 | existing_success | existing_anchor | false | 약식: forced anchor — 사용자 어제 시각 확인에서 한중일 OCR 노이즈 + TO STAND 12/4 ghost text 발견. enqueue fix 로 1D 라운드에선 재처리 안 됨 (md_content 보존). 추후 Marker 튜닝 시 1:1 비교 anchor. | |||||
| 3 | 5248 | 작업자 재난안전사고 예방을 위한 위험성평가 기법 연구 | existing_success | existing_calibration | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 4 | 4068 | 공업역학 동역학(제13판)_Chapter 21 3차원 강체 운동역학 | existing_success | existing_calibration | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 5 | 5189 | VIII-1_08-UB | existing_success | existing_calibration | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 6 | 5141 | Structural Analysiss and Design of Process Equipment_00_Contents | existing_success | existing_calibration | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 7 | 4815 | Note_240830_소음진동교육 필기 | controlled_backfill | handwritten | false | 약식: 애플펜슬 필기 — 글씨체 + Marker 한계로 좋은 자료 추출 불가 (1D-A1 handwritten skip 적용 후 재발 방지) | |||||
| 8 | 4798 | Note_240528_다이아프람워크숍 | controlled_backfill | handwritten | false | 약식: 애플펜슬 필기 — 글씨체 + Marker 한계로 좋은 자료 추출 불가 (1D-A1 handwritten skip 적용 후 재발 방지) | |||||
| 9 | 4813 | Note_240827_필기 | controlled_backfill | handwritten | false | 약식: 애플펜슬 필기 — 글씨체 + Marker 한계로 좋은 자료 추출 불가 (1D-A1 handwritten skip 적용 후 재발 방지) | |||||
| 10 | 5151 | THE PIPE FABRICATORS BLUE BOOK | controlled_backfill | scan_likely | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 11 | 5268 | 황현필의 진보를 위한 역사_6장 제주4-3사건의 왜국을 멈추라 | controlled_backfill | scan_likely | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 12 | 5127 | 표준기계설계(KS)_08_핀 | controlled_backfill | scan_likely | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 13 | 8855 | 2월 26일 | controlled_backfill | mixed | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 14 | 4061 | 공업역학 동역학(제13판)_Chapter 14 질점의 운동역학_일과 에너지 | controlled_backfill | mixed | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 15 | 3782 | Safety and Health for Engineers_02_5 Local, International, and Voluntary Laws, Regulations, and Standards | controlled_backfill | mixed | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 16 | 5179 | Hydrogen-Embrittlement | controlled_backfill | mixed | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 17 | 5133 | 압력용기 핸드북_기타 | controlled_backfill | mixed | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 18 | 3757 | Industrial Safety and Health Management(7-ED)_2 Development of the safety and Health Function | controlled_backfill | born_digital | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 19 | 3758 | Industrial Safety and Health Management(7-ED)_3 Concepts of Hazard Avoidance | controlled_backfill | born_digital | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 20 | 5163 | 국내 지속가능경영보고서의 노동인권 분야에 대한 실태 분석 | controlled_backfill | born_digital | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 21 | 5167 | 우리나라 기업의 환경정보 공시 현황과 제도적 개선방안 | controlled_backfill | born_digital | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 22 | 5154 | 국내 금속가공 중소기업의 스마트팩토리 활용 정도에 대한 실증적 연구 | controlled_backfill | born_digital | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 23 | 5155 | 스마트 팩토리의 전략적 활용 연구 | controlled_backfill | born_digital | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 24 | 5137 | Pressure Vessel Design Manual_01 General Topics | controlled_backfill | born_digital | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 25 | 5211 | PTB-4-2013_00_Foreword | controlled_backfill | born_digital | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 26 | 5178 | Hydrogen_Piping_and_Pipelines_ASME_Code | controlled_backfill | born_digital | 약식: page_count > MAX_PAGES=200 의도된 skip (Standard 큰 코드) | ||||||
| 27 | 5168 | TCoYourPaperlessOffice-4.0 | controlled_backfill | born_digital | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 28 | 3765 | Industrial Safety and Health Management(7-ED)_10 Environmental Control and Noise | controlled_backfill | born_digital | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 29 | 3769 | Industrial Safety and Health Management(7-ED)_14 Materials Handling and Storage | controlled_backfill | born_digital | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 30 | 5274 | 황현필의 진보를 위한 역사_12장 대한민국의 정신을 훼손하지 말라 | controlled_backfill | large | true | 약식: 사용자 평가 "그 외에는 잘되는 거 같다" 일반 OK 판정 | |||||
| 31 | 5180 | ASME Sec I 2025 | controlled_backfill | large | 약식: page_count > MAX_PAGES=200 의도된 skip (Standard 큰 코드) |