2012-02-17 2 views
0

저는 CGPDFScanner를 사용하여 pdf 페이지의 구문 분석을하고 있습니다. 그러나 나는 serach 결과의 co-oridnate를 찾을 수 없습니다. 무효를 Tm1에서 아이폰의 PDF 페이지에서 CGPDFScanner를 사용하여 Word 좌표를 찾는 방법은 무엇입니까?

(CGPDFScannerRef 스캐너, 무효 * 정보)를, 나는 단지 몇 가지 단어가 아닌 PDF의 모든 단어에 대한 공동 oridnates을 얻고있다.

PDF 페이지의 모든 단어에 대한 예 (x, y)를 어떻게 찾을 수 있습니까?

답변

1

PDF를 텍스트로 변환하는 복잡성을 과소 평가하고 있습니다. 나는 실수도했고, 대부분의 PDF에서 작동하는 텍스트 추출 엔진을 작성하는 데 수개월이 걸렸습니다. 내 코드는 상업,하지만 당신에게 아이디어를 제공하기 위해 :

TD, TD, Tm은, T *, D0는, D1 모든 텍스트를 포함 할 수 있습니다. (d0, d1은 Type3 글꼴 용이며 덜 일반적이지만 Microsoft Word는 실제로 그 글꼴을 좋아합니다.) 따라서 XObjects의 객체도 (재귀 적으로) 할 수 있습니다. 그러나 많은 PDF에는 문자에 "임의의 숫자"를 번역하는 글꼴 (또는 PDF - 합자도 포함될 수있는 문자)이 붙어 있기 때문에 글꼴을 구문 분석해야합니다. XObjects에는 글꼴도 포함될 수 있으므로 올바른 순서로 구문 분석하는 것이 중요합니다. 글꼴에 부모 글꼴이 포함될 수 있기 때문입니다.

Adobe's ToUnicode PDF 당신에게 어떻게 시작하는 몇 가지 아이디어를 제공하지만, 단지 경고, 사양은 매우 불완전하다. 공식 PDF 레퍼런스에는 좀 더 많은 내용이 있지만, (스펙을 볼 때) 작동해서는 안되지만 (Adobe Acrobat에서 시도 할 때) 여전히 작동하는 문서를 찾을 수 있습니다.

관련 문제