2012-01-24 2 views
4

저는 tesseract를 사용하여 자동화 된 OCR을 많이 수행 할 서버를 설정하고 있으며 결과의 일부 후 처리를 수행하려고합니다.기본 OCR 후 처리 (맞춤법 교정기)

이론적 인 측면에서이 문제에 대한 많은 자료가 있지만 실용적인 측면에서 많은 것을 찾지 못했습니다.

  • 은 모음의 모두와 함께 '단어를'제거 연속 3 개 개의 동일한 문자를 제거
  • 것은 제거 '단어'이상 : 내가 좋아하는 당신이 할 수있는 몇 가지 기본적인 것들, 거기에 상상

    특정 길이보다

나는이 생각의 톤 부여하지 않은,하지만 OCR'ed의 텍스트로 공급됩니다 검색 시스템이므로 워드 맵을 작게 유지하는 것은 좋은 일이며 분명히 잘못된 단어를 삭제하거나 수정하는 것과 같습니다.

중요한 내용은 내용 자체가 영어로 작성된 법원 문서입니다. 따라서 때때로 적절한 이름이 있습니다. 그러나 다양한 단어는 아마도 크지 않으며 글꼴은 아마도 꽤 안정적 일 것입니다.

내가 알아야 할 유용한 정보 나 유용한 자료가 있습니까?

답변

0

각 OCR 엔진에는 문서의 글꼴, 스캔 품질, 사용 된 dpi, 색 배경 및 얼룩 제거, 기울기 보정 등의 사용 된 이미지 전처리에 따라 달라지는 일반적인 오류 집합이 있습니다. , 라인 제거. 많은 테스트를 수행하고 공통적 인 오류 세트를 찾는 결과를 분석하여 이러한 오류가 무엇인지 알 수 있습니다.

올바른 스캐너 설정 및 이미지 전처리 알고리즘을 사용하면 OCR 결과를 상당히 향상시킬 수 있습니다. 이 부분을 과소 평가하지 마십시오.

텍스트가 주로 영어 단어 인 경우 퍼지 유형의 조회 시스템이있는 좋은 사전이 매우 유용합니다. 다른 유용한 기술은 두 번째 OCR 엔진을 사용하여 트라이 그램 분석 및 투표입니다.

+0

정부 웹 사이트에서 문서를 가져 오는 동안 검색 프로세스를 제어 할 권한이 없습니다. 성능이 문제가되기 때문에 제 2의 OCR 엔진을 사용하는 것은 좋지 않습니다. – mlissner