PDF에서 임베디드 OCR 데이터를 추출하는 방법은 무엇입니까?

OCR 데이터가 내장 된 PDF 파일이 있습니다. (그래서 나는 이미 그들을 orcd) 그래서 그들은 검색 할 수 있습니다. 이제 tomcat6 검색 서버에 넣기 때문에이 OCR 데이터를 추출하고 싶습니다. 이 작업을 수행하려면 일반 OCR 데이터가 필요합니다. 내 질문에,이 PDF 파일에서 임베디드 OCR 데이터를 추출 할 수 있습니까? 좌표가있는 파일을 가져 오는 것이 좋습니다. 그러나 평문 파일을 얻는 것만으로도 충분할 것입니다.PDF에서 임베디드 OCR 데이터를 추출하는 방법은 무엇입니까?

출처

2011-03-02 erik

어떤 언어로 제공됩니까? – david

특정 언어가 필요하지 않습니다. Batch-Skript에서 사용할 수 있다면 가장 좋습니다. 그래서 명령 줄 도구가 좋을 것입니다. 그건 그렇고. Windows에서 사용하고 싶습니다 ... – erik

iText 또는 iTextsharp를 사용하여이 작업을 수행 할 수 있어야합니다. 그러나 iTextsharp에는 0 개의 문서가 있으며 많은 수의 함수가 iText에있는 함수와 동등하지 않습니다.

PDFSharp는 iref 스트림을 지원하지 않습니다. 그것들은 거의 유일하게 포괄적 인 오픈 소스 솔루션입니다. 당신이 지불하는 것을 꺼리는 경우에, 비스타 해결책에는 당신을위한 무언가가 있을지도 모른다, 주로 워크 플로우를 취급한다, 그러나 몇몇 꽤 광대 한 pdf 도서관이 또한있다.

출처

2011-03-02 17:04:42 david

PDF에서 임베디드 OCR 데이터를 추출하는 방법은 무엇입니까?

답변

관련 문제