2013-08-14 2 views
1

Tesseract OCR을 앱에 통합하려고합니다. 불행히도 인정의 품질은 ... 그렇게 좋지는 않습니다. 대답은 OCR을 위해 이미지를 보내기 전에 아주 기본적인 이미지 청소를하는 것 같습니다. 대부분의 사용자가 (흰색 배경 에 일반 흑백 잉크의 Recco에를 수행하려고 할 것이라는 가정에 흰색 경계 상자에코어 이미지를 사용한 얼룩 제거?

  1. 자르기 :

    는 기본적으로 나는 다음을 수행 작은 파이프 라인을 구축 할 계획 나는 2가 2

단계에 의한 아티팩트를 제거

  • 얼룩 제거/
  • 이 검은 색으로 변환) 옵션 흰색 . 쉬운 (쉬운 부분), 그리고 3과 선택적으로 1을하는 방법에 대한 입력을 찾고있다.

  • +0

    http://www.imagemagick.org/script/command-line-options.php#despeckle – Martin

    +0

    예,하지만 Core Image 솔루션을 원했기 때문에 앱에 아직 다른 라이브러리를 포함시키지 않아도됩니다. –

    +0

    그러면 중간 필터링과 노이즈 감소의 조합이 될 수 있습니다. – Martin

    답변

    0

    음 ... ImageMagick 사용에 대한 마틴의 제안이 아마도 내 경우에있어서 최선의 선택 일 것이라고 판명되었다.

    노이즈 제거 기능을하는 CI 필터가 있지만 iOS에서는 사용할 수 없으며 어쨌든 PDF를 OCR 용 TIFF로 변환해야하므로 ImageMagick입니다.

    대안은 image processing libraryChris Greening입니다. 당신이 ImageMagick의 힘을 필요로하지 않는다면 당신을 위해 들어오는 대부분의 빛과 무거운 물건들 중 일부를 할 것입니다.

    +1

    내 오픈 소스 프레임 워크는 https://github.com/BradLarson/GPUImage입니다.이 도구는 얼룩 제거에 도움이되는 몇 가지 작업은 물론 적응 형 및 비 적응 형의 몇 가지 유형을 수행 할 수 있도록합니다. 메디 언 필터 또는 개폐식 필터 (가벼운 내용이나 어두운 내용물 중 어떤 것이 가장 잘 작동하는지 기억이 나지 않음)는 원하는대로 할 수 있습니다. 또한, 조각 쉐이더를 기반으로 사용자 정의 필터를 작성하여 사용할 수도 있습니다. ImageMagick보다 통합하기가 약간 쉬울 수도 있습니다 (GPU를 사용하는 것이 더 효과적 일 수 있습니다). –