OCR 데이터가 내장 된 PDF 파일이 있습니다. (그래서 나는 이미 그들을 orcd) 그래서 그들은 검색 할 수 있습니다. 이제 tomcat6 검색 서버에 넣기 때문에이 OCR 데이터를 추출하고 싶습니다. 이 작업을 수행하려면 일반 OCR 데이터가 필요합니다. 내 질문에,이 PDF 파일에서 임베디드 OCR 데이터를 추출 할 수 있습니까? 좌표가있는 파일을 가져 오는 것이 좋습니다. 그러나 평문 파일을 얻는 것만으로도 충분할 것입니다.PDF에서 임베디드 OCR 데이터를 추출하는 방법은 무엇입니까?
2
A
답변
0
iText 또는 iTextsharp를 사용하여이 작업을 수행 할 수 있어야합니다. 그러나 iTextsharp에는 0 개의 문서가 있으며 많은 수의 함수가 iText에있는 함수와 동등하지 않습니다.
PDFSharp는 iref 스트림을 지원하지 않습니다. 그것들은 거의 유일하게 포괄적 인 오픈 소스 솔루션입니다. 당신이 지불하는 것을 꺼리는 경우에, 비스타 해결책에는 당신을위한 무언가가 있을지도 모른다, 주로 워크 플로우를 취급한다, 그러나 몇몇 꽤 광대 한 pdf 도서관이 또한있다.
관련 문제
- 1. PDF에서 데이터를 추출하는 방법은 무엇입니까?
- 2. PDF에서 임베디드 글꼴을 제거하십시오
- 3. pdf에서 워드 좌표를 추출하는 라이브러리/도구
- 4. 올바른 순서로 iText를 사용하여 PDF에서 이미지를 추출하는 방법은 무엇입니까?
- 5. PHP에서 df -h에서 데이터를 추출하는 방법은 무엇입니까?
- 6. 두 GQL 클래스에서 데이터를 추출하는 방법은 무엇입니까?
- 7. NSArray를 사용하여 NSArray에서 데이터를 추출하는 방법은 무엇입니까?
- 8. MySQL에서 관련 데이터를 추출하는 방법은 무엇입니까?
- 9. 전자 메일 데이터를 R으로 추출하는 방법은 무엇입니까?
- 10. LinqDataSource에서 여분의 데이터를 추출하는 방법은 무엇입니까?
- 11. Java에서 SOAP 응답의 데이터를 추출하는 방법은 무엇입니까?
- 12. HTML 파일에서 특정 데이터를 추출하는 방법은 무엇입니까?
- 13. .net에서 PDF에서 값을 추출하는 방법 C#
- 14. 이미지 (OCR)에서 텍스트를 추출하는 데 사용할 라이브러리는 무엇입니까?
- 15. 시트를 추출하는 테이블 디자인을 추출하는 방법은 무엇입니까?
- 16. 임베디드 스크립팅을 시작하는 방법은 무엇입니까?
- 17. 파일에서 데이터를 추출하는 방법
- 18. URL에서 세션 ID를 추출하는 방법은 무엇입니까?
- 19. 자바를 사용하여 웹 사이트에서 데이터를 추출하는 방법은 무엇입니까?
- 20. 필요한 경우 데이터베이스에서 데이터를 추출하는 가장 좋은 방법은 무엇입니까?
- 21. matlab에서이 문자열의 데이터를 추출하는 가장 쉬운 방법은 무엇입니까?
- 22. 다른 DBMS에서 XML 데이터를 추출하는 가장 좋은 방법은 무엇입니까?
- 23. 비디오 (m3u8) 파일에서 메타 데이터를 추출하는 방법은 무엇입니까?
- 24. .NET을 사용하여 FoxPro 메모 필드에서 데이터를 추출하는 방법은 무엇입니까?
- 25. Java 웹 응용 프로그램에서 데이터를 추출하는 방법은 무엇입니까?
- 26. 자바 스크립트로 웹 페이지 HTML 데이터를 XML로 추출하는 방법은 무엇입니까?
- 27. PDf에서 문자열로
- 28. PDF에서 ToUnicode 테이블 추출하기
- 29. Java 및 IText를 사용하여 PDF에서 AcroForm 필드 이름을 추출하는 방법은 무엇입니까?
- 30. C# 또는 고전적인 ASP (VBScript)를 사용하여 PDF에서 텍스트를 추출하는 좋은 방법은 무엇입니까?
어떤 언어로 제공됩니까? – david
특정 언어가 필요하지 않습니다. Batch-Skript에서 사용할 수 있다면 가장 좋습니다. 그래서 명령 줄 도구가 좋을 것입니다. 그건 그렇고. Windows에서 사용하고 싶습니다 ... – erik