2011-07-06 5 views
5

스캔 한 파일의 폴더를 모니터링하는 서비스를 만들고 있습니다. 파일이 있으면 서비스에서 가져 와서 읽을 수있는 PDF로 변환합니다. 이 과정에서 서비스는 바코드도 검색합니다. 이 후에 텍스트가 추출되고 텍스트가 포함 된 파일이 소프트웨어의 데이터베이스에 저장됩니다. 위치는 바코드를 기반으로합니다.Howto : C#을 사용하여 OCR 전에 PDF 품질 향상

이제 OCR의 경우 Atalasoft (http://www.atalasoft.com/) SDK를 사용하고 있습니다. 바코드 인식기도이 SDK에 포함되어 있습니다.

하지만 변환 된 텍스트에는 여전히 실수가 있습니다. (다른 OCR 프로그램과 테스트를 해봤지만 Atalasoft가 좋았습니다.) OCR 용으로 PDF의 품질을 향상시킬 수있는 소프트웨어 (SDK-kit)를 찾고 있습니다.

나는 Kofax VRS Elite (http://www.kofax.com/vrs-virtualrescan/)를 테스트했습니다. 비슷한 것을 찾고 있는데, SDK-kit를 사용하여 서비스에서 구현할 수 있습니다.

이전에이 문제가 있었거나 비슷한 문제가 있었습니까? thx 사전에!

답변

2

다른 경로로 모두 시도해보십시오.
PDF로 직접 스캔하여 OCR을 수행하도록 스캐너를 구성 할 수 있는지 확인하십시오. Lexmark 스캐너가이를 수행 할 수 있습니다. 이렇게하면 선택 가능하고 검색 가능한 텍스트가있는 PDF가 작성됩니다. 이것은 PDF 읽기 라이브러리로 추출 할 수 있습니다.

또는 http://www.abbyy.com/을보고 더 나은 결과가 나오는지 확인해보십시오.

좋은 옵션이 아니면 체계적으로 문제를 해결할 수 있습니다.
1. 스캔 한 이미지의 화질이 좋습니까? 그렇다면 먼저 수정해야합니다. OCR 솔루션은 해상도, 대비 및 색상의 영향을받을 수 있습니다.
2. OCR 소프트웨어입니까? 읽기 쉬운 문서를 작성하고 OCR 소프트웨어가 실수를하는지 확인하십시오. 그렇다면 더 나은 OCR 소프트웨어를 찾아야한다는 것을 알고 있습니다.
3. 문서 품질이 좋고 읽을 수있는 문서의 해독에있어 OCR 소프트웨어의 성공률이 높으면 작동하지 않는 예외를 살펴보고 상황에 따라 예외를 처리 할 수 ​​있습니다.

문서의 얼룩 및 배경 이미지가 문제의 원인 인 경우이를 피하는 방법을 찾아 보거나 API를 노출하는 이미지 처리 소프트웨어로이를 청소하는 것이 좋습니다.

+1

안녕하세요, 귀하의 답변은 thx입니다. 그러나 다른 스캐너를 구입할 수는 없습니다. 그리고 저는 abbyy로 몇 가지 테스트를 실시했습니다. 품질은 atalasoft의 OCR과 비교할 수 있습니다. Anny 다른 제안? –