2011-02-09 3 views
3

내가 정팔 포체 3.0.0를 사용하고 나는 다음과 같은 문제에 부딪쳤다 :소음이있는 상태에서 관련 결과를 제공하기 위해 tesseract를 만드는 방법은 무엇입니까?

정팔 포체는 다른 조각과 병합 것 같다 인식하기에 너무 작은 무언가가있다. 결과적으로 관련성이없는 결과가 반환됩니다.

아래 이미지는 3 가지 경우를 보여줍니다. 파선이있는 직사각형 만이 tesseract로 전달됩니다. 직사각형 위에 결과가 나타납니다 (T 이상은 새 라인을 의미 함).

마지막 사례가 문제입니다. 이런 상황에서 tesseract를 향상시킬 수있는 방법이 있습니까? OCR이 완료되기 전에

enter image description here

+0

당신은 이미지를 조금 늘려서의 경우 1과 2가 유사 할 수 있습니다 작동합니다. 바코드의 경우 작동해야합니다. –

+0

이렇게하면 숫자가 늘어나고 어느 시점에서는 읽을 수 없을 수도 있습니다. 또한 다른 경우에는 작동하지 않습니다. – zkunov

답변

5

는 지금까지 내가 아는 한, 정팔 포체 아직 적절한 영상 분할이없는 (또는 문서 분석, 그것은 commertial OCR 응용 프로그램에서라고한다.) 일반적으로, 이미지의가 분할 얻을 수있다 그림, 바코드, 선 등을 포함하는 별도의 영역. 그런 다음 OCR을 텍스트에 대해서만 적용하고 방금 설명한 문제에 직면하지 마십시오.

이전 버전의 Tesseract에는 그 기능이 전혀 없었으며 Tesseract는 더 큰 이미지에서 잘라낸 텍스트의 작은 조각에 사용할 때 라인 인식기 또는 필드 레벨 인식기로 사용되기로되어있었습니다.

나는 3.0에서 소개 된 것을 완전히 따라 가지 않았지만 아마도 이미 부분적으로 존재하지만, 분명히 알아 냈 듯이 예상대로 작동하지 않습니다.

또 다른 오픈 소스 프로젝트 - OCRopus가 있는데, 내가 설명한 것처럼이 문제를 정확히 해결했습니다. - 최초의 문서 분석 (일명 세분화)과 OCR 만있었습니다. 이전 버전에서는 분석 단계가 끝난 후 실제로 OCR에 Tesseract를 사용했습니다. 그러나 나중에 그들은 그들 자신의 OCR (여전히 그리 좋지 않음)을 소개하고 우선 순위 목록에서 Tesseract 플러그인 지원을 아래로 옮겼습니다.

것은 여기에 당신이 실제로 당신의 문제를 해결하기 위해 할 수있는 작업은 다음과 같습니다

  • 이 이미지는 매우 전형적인 구조를 가지고 있다면, 당신은 몇 가지 바보 분할을하고 정팔 포체에 전달하기 전에 이미지를 자신의 텍스트를 잘라 시도 할 수 있습니다. 그러나 지원할 다양한 이미지가있을 것으로 예상되면 잊어 버리십시오.
  • OCRopus를 ckeck하여 이미지의 세분화가 작동하는지 확인할 수 있습니다. 그렇다면 OCRopus + Tesseract를 함께 작동시키는 데 시간을 할애 할 수 있습니다.
  • 글쎄, 당신이하는 일이 단지 재미 만은 아니며 시간을 소중하게 생각한다면 ABBYY와 같은 실제 OCR 엔진에 대해 생각해 보는 것이 좋습니다. Segmentaiton과 OCR 모두보다 높은 정확도를 제공하며 전문적인 고객 지원은 물론 가능합니다.

면책 조항 : 나는 ABBYY

+0

답변을 주셔서 감사합니다 Andrey. V3.0.0의 릴리스 노트에는 "중요한 새 페이지 레이아웃 분석 모듈 추가"가 기록되어 있습니다. 아직 잘 작성되지 않았을 수 있습니다. 문자, 단어, 선 또는 텍스트 블록과 같은 이미지가 무엇인지 나타내는 세그먼테이션 모드를 설정할 수도 있습니다. '블록'세분화 모드를 사용하는 동안 두 번째 경우처럼 tesseract를 다른 라인으로 처리 할 수있는 방법이 있습니다.제안 사항 : 유감스럽게도 이미지의 구조는 다양하지만 두 번째로 엔진/라이브러리가 필요합니다. 지금은 아직 tesseract를 포기하지 않았습니다. – zkunov

관련 문제