2017-12-12 1 views
1

일부 인쇄 양식에서 일부 정보를 추출하기 위해 R에서 tesserect 패키지를 사용하려고합니다. 그러나 일부 문자가 양식 여백을 넘는 경우를 다루기가 어렵습니다.R : OCR 용 테두리 제거

sample form

일부 자습서를 읽은 후, 내 결과를 개선 할 수있는 테두리를 제거하는 것 같다. 어쨌든 나는 R에 대한 패키지를 사용하여이 작업을 수행 할 수 있습니까? 나는 "magick"패키지를 보았고 테두리 감지 기능이없는 것 같습니다. 마지막으로이 문제를 해결할 다른 방법이 있으면 알려 주시기 바랍니다. 감사합니다.

답변

0

그래, 이미지에서 선/격자를 확실히 제거하면 OCR 정확도가 향상됩니다.

인쇄 된 텍스트와 함께 이미지에 가로줄과 세로줄 만 있다고 가정하면 다음과 같은 방법으로 사진을 찍을 수 있습니다.

1) 이미지에있는 선에 따라 주어진 임계 값보다 큰 길이의 수평선을 찾습니다.

2) 광고를 찾기

3) 라인의 화소를 통해 스캔 라인의 화소의 상하에 검은 픽셀이 아닌 경우 삭제 두께. 이 단계는 행을 제거하는 동안 문자 픽셀을 삭제하지 않도록합니다.

4) 세로선은 1, 2를 사용하십시오.

5) 다시 수직선을 스캔하여 라인 픽셀의 왼쪽 및 오른쪽 위치에 검은 픽셀이없는 경우 라인 픽셀을 삭제합니다.