2014-12-11 7 views
0

PDF 파일의 이미지에 저장된 Java 코드를 추출하려고합니다.이미지에서 Java 코드 추출 (tesseract?)

이미 Tesseract를 사용하려고했지만 * {...이 영어와 잘 맞지 않습니다. 내 출력 파일이 거의 일치하지 않기 때문입니다.

실제로 자바 코드의 일부 추출물을 인식 할 수 있지만 대부분 텍스트가 손상됩니다.

그래서 저는 Tesseract의 언어 확장 또는 Java 코드를 추출 할 수있는 다른 OCR 소프트웨어를 알고 있는지 궁금합니다.

도움 주셔서 감사합니다 .--).

+0

OCR 소프트웨어에는 텍스트 유형에 맞는 C++를 비롯한 몇 가지 프로그래밍 언어에 대한 특별 사전이 있습니다. 얼마나 많은 페이지를 처리해야합니까? –

+0

그것은 그것을해야합니다! 나는 9 페이지가있다. – amichaud

+0

예제 페이지를 게시하십시오. – nguyenq

답변

0

OCR의 품질은 의심 할 여지없이 이미지의 품질에 달려 있지만 사용 된 기술, 특히 완벽하지 않은 이미지에서도 마찬가지입니다. 또한 이미지의 복잡성 (서식, 특수 글꼴, 특정 텍스트 구조 등)이 올라감에 따라 OCR 소프트웨어의 강점은 더욱 엄격한 테스트를 거칩니다.

프로그래밍 언어의 경우 일반 텍스트 단락보다 많은 특수 문자와 복잡한 줄 구조가있는 일부 OCR 프로그램에는 특수 처리 모드가 있습니다. 예를 들어, ABBYY OCR에서 인식 품질을 높이기 위해 몇 가지 포함 된 프로그래밍 언어 (C++, Java 등) 중 하나를 실제로 선택할 수 있습니다.

이미지는 이미 가지고있는 소프트웨어를 통해 처리 할 수있어서 기쁩니다. 비공개로 내 페이지를 보내주십시오. 나는 wisetrend.com에서 ilyae에 도착할 수있다. 짧은 시간이 필요합니다.

OCR 소프트웨어 라이센스를받지 않고 직접 무료로 처리하거나 나중에 처리해야하는 경우 OCR-IT 웹 API (www.ocr-it.com)를 사용하여 무료 계정. API이기 때문에 몇 줄의 스크립트가 필요하거나 Fiddler를 사용하여 웹 요청을 할 수 있습니다. 언어 목록은 여기 (http://www.ocr-it.com/ocr-cloud-2-0-api/documentation)이며 (페이지 하단 참조) OCR 요청에 "Java"언어를 사용합니다.

+0

OCR의 가장 좋은 스캔 설정은 글꼴 크기가 작 으면 300dpi 또는 400dpi입니다. –

관련 문제