문자 탐지
고문서에서 글자 영역을 과감하게 많이 잡고, 후속 단계에서 정제하는 탐지 우선 전략입니다.
- CRAFT 기반 문자 탐지
- 격자 제거 + 6종 전처리 + 2개 스케일
- WBF(Weighted Box Fusion) + SAHI 재추론
- PaddleOCR 단독 검출
- Surya 단독 검출
- 단일 스케일 CRAFT
- 토지조사부 같은 격자 문서는 누락보다 과탐 후 정제가 결과적으로 안정적입니다.
- 원문 열화가 심해 단일 전처리나 단일 스케일만으로는 faint ink와 미세 획이 자주 빠집니다.
- WBF와 타일 보강을 써야 작은 글자와 찢김 영역 회수가 가능합니다.
- 방법론 문서 기준 최종 탐지 수는 6,607개입니다.
- 동일 문서에서 Stage 1 결과의 약 절반은 이후 노이즈로 분류됩니다.