2012-06-08 2 views
0

저는 pdf에서 텍스트를 추출하려고합니다. Pdf 참조는 실제 지옥이며 실질적인 많은 질문에 대답하지 않습니다. 제 질문은 : 글꼴 사전에/ToUnicode CMap 및/인코딩이 포함되어있는 경우 CMap이 항상이 글꼴과 함께 사용되는 모든 문자를 포함한다는 것입니다. 즉, 인쇄 할 텍스트를 얻기 위해/인코딩이나 다른 것을 사용할 필요가 없습니다. 이 글꼴? pdf 참고 문헌의 5.9 장은 그렇다고 대답하는 것으로 보이지만 일부 테스트는 아니오로 대답하는 것 같습니다.pdf에서 텍스트를 추출 할 때 글꼴에 ToUnicode 매핑이 있으면 인코딩해야합니까?

답변

1

제 5.9 절은 정확하며 ToUnicode Cmap은 텍스트 추출에 충분해야합니다. 문제는 많은 PDF 파일이 PDF 사양을 제대로 따르지 않아 텍스트 추출을위한 고유 한 경험적 방법을 구현해야한다는 것입니다.
PDF 사양으로 시작한 다음 부적합한 PDF 파일을 기반으로 다양한 향상 기능으로 텍스트 추출 방법을 업데이트합니다.

+1

아마도 당신 말이 맞습니다. 문제는 상업용 독자 (심지어 Adobe 독자도)가 부적합한 PDF 파일을 허용하고 잘 읽음으로써이 분야의 새로운 개발자가 어려움을 겪고 있다는 것입니다. – lonelyass

관련 문제