저는 pdf에서 텍스트를 추출하려고합니다. Pdf 참조는 실제 지옥이며 실질적인 많은 질문에 대답하지 않습니다. 제 질문은 : 글꼴 사전에/ToUnicode CMap 및/인코딩이 포함되어있는 경우 CMap이 항상이 글꼴과 함께 사용되는 모든 문자를 포함한다는 것입니다. 즉, 인쇄 할 텍스트를 얻기 위해/인코딩이나 다른 것을 사용할 필요가 없습니다. 이 글꼴? pdf 참고 문헌의 5.9 장은 그렇다고 대답하는 것으로 보이지만 일부 테스트는 아니오로 대답하는 것 같습니다.pdf에서 텍스트를 추출 할 때 글꼴에 ToUnicode 매핑이 있으면 인코딩해야합니까?
0
A
답변
1
제 5.9 절은 정확하며 ToUnicode Cmap은 텍스트 추출에 충분해야합니다. 문제는 많은 PDF 파일이 PDF 사양을 제대로 따르지 않아 텍스트 추출을위한 고유 한 경험적 방법을 구현해야한다는 것입니다.
PDF 사양으로 시작한 다음 부적합한 PDF 파일을 기반으로 다양한 향상 기능으로 텍스트 추출 방법을 업데이트합니다.
관련 문제
- 1. PDF에서 ToUnicode 테이블 추출하기
- 2. 하나의 PDF에서 toUnicode 맵으로 Extext하고 다른 PDF에서 사용
- 3. PDF에서 텍스트 추출
- 4. PDF에서 C로 텍스트 추출 #
- 5. Perl의 pdf에서 텍스트를 읽을 때 문제가 발생했습니다.
- 6. PDF에서 태그 추출
- 7. PDF에서 이미지 추출
- 8. PDF에서 실제 텍스트 제목 추출
- 9. PDF에서 텍스트 추출 (루비에서 PDF로 링크 됨)
- 10. PHP를 사용하여 PDF에서 서명 추출
- 11. Poppler로 PDF에서 텍스트를 추출하기 (C++)
- 12. pdf에서 숨겨진 텍스트를 찾는 방법
- 13. 특정 글꼴에 PDF에서 특정 문자가 포함되어 있는지 확인하는 방법
- 14. 외부 라이브러리없이 PDF에서 tiff 파일을 추출 할 수 있습니까?
- 15. PHP가 포함 된 .pdf에서 페이지 추출
- 16. .Net을 사용하여 PDF에서 이미지 추출 C#
- 17. 선택한 영역 또는 좌표의 PDF에서 텍스트 및 이미지 추출
- 18. Ghostscript로 PDF에서 텍스트 추출 - 알 수없는 장치 : txtwrite
- 19. PCL로 변환 할 때 고스트 스크립트가 PDF에서 그래픽을 그래픽으로 변환
- 20. PDF에서 문자열 위치가있는 모든 텍스트를 추출하십시오.
- 21. Imagemagick을 사용하여 pdf에서 jpeg로 페이지 범위를 추출 할 때 출력 파일 이름
- 22. pdf에서 단락 추출하기
- 23. JSON으로 다시 전달할 때 HTML을 인코딩해야합니까?
- 24. pdfbox를 사용하여 pdf에서 아랍어 텍스트를 표시하고 싶습니까?
- 25. gridview가 비어 있으면 다시 게시 할 때
- 26. web.xml에 요청과 일치하는 서블릿 매핑이 두 개 있으면 어떻게됩니까?
- 27. PDF : ToUnicode Cmaps가 다른 중복 글꼴
- 28. UTF-8을 사용할 때 HTML 특수 문자를 인코딩해야합니까?
- 29. Cocoa : 현재 글꼴에 서식이 지정된 텍스트를 붙여 넣으시겠습니까?
- 30. PDF에서 모든 것을 추출하십시오.
아마도 당신 말이 맞습니다. 문제는 상업용 독자 (심지어 Adobe 독자도)가 부적합한 PDF 파일을 허용하고 잘 읽음으로써이 분야의 새로운 개발자가 어려움을 겪고 있다는 것입니다. – lonelyass