2012-02-24 3 views
2

Objective-C의 PDF 페이지에서 텍스트를 가져 오는 방법은 무엇입니까?PDF 페이지에서 텍스트를 가져올 수 있습니까?

+0

중복 질문입니다. http://stackoverflow.com/questions/3287635/how-to-parse-pdf-in-objective-c-for-ipad – Avi

+0

그래서 대답은 어디에 있습니까? – demon9733

+1

@Avram 그 질문은 PDF에서 텍스트 추출과 아무런 관련이 없습니다. – hoha

답변

2

iOS 또는 OS X 용입니까? OS X의 경우 Automator 워크 플로를 생성하여 텍스트를 추출하고 앱에서 해당 워크 플로를 호출 할 수 있습니다. Automator는이 목적을 위해 PDF 작업 "PDF 텍스트 추출"기능을 제공합니다. Automator framework을 사용하면 앱에서 자동화 작업을 호출 할 수 있습니다. 그리고 일부 샘플 코드는 http://rogueamoeba.com/utm/2005/06/03/에서 찾을 수 있습니다 (실제 코드는 Automator 프레임 워크를 사용하도록 업데이트되었습니다).

+0

그것은 iOS에 관한 것입니다. – demon9733

+0

그러면 아래에 언급 된 것처럼 타사 라이브러리를 사용하거나 자신 만의 라이브러리를 개발해야합니다. 이미 언급 한 것 외에 https://github.com/KurtCode/PDFKitten/ (검색 기능도 있지만 텍스트도 추출 할 수 있음) 및 https://github.com/mobfarm/FastPdfKit (무료 버전도 있습니다. 유료 버전을 사용할 수 있음) – VsSoft

4

먼저 PDF 파싱을 위해 "빠른 & 더티 (dirty)"솔루션을 포기하면 비참하게 실패합니다. 동료는 iOS에서이 문제를 올바르게 해결하기 위해 많은 시간을 보냈습니다. 그의 상위 3 개 (품질, 내림차순) 옵션 :

  1. muPDF (http://www.mupdf.com/) 훌륭한 라이브러리 - 추출이 잘됩니다. GPL은 당사의 독점적 인 응용 프로그램에 대한 쇼 스토퍼이지만 GPL 라이센스를 받았습니다.
  2. CGPDFScanner을 기반으로하는 수제 솔루션. 이 작업을 수행하는 방법에 대한 간단한 설명을 참조하십시오. here. 이 접근 방식의 가장 큰 문제점은 SDK 자체입니다. PDF 용 Apple API는 제한적이며 심하게 제한되어 있습니다. 예를 들어 2D 공간에서 추출 된 텍스트 블록을 배치해야합니다. PDF에서 드로잉 순서가 텍스트 흐름과 일치하는지, iOS SDK가 여기에 도움이되지 않을지를 보장하지 않기 때문입니다.
  3. Poppler (http://poppler.freedesktop.org/)는 괜찮습니다. 그러나 텍스트 추출의 경우 두 번째 옵션 (대다수의 추가 종속성 포함)과 대략 동일합니다.

Mac OS X에서는 더 많은 옵션이있을 수 있지만 잘 모르겠습니다.

+1

muPDF는보기 전용입니다. – Jamil

관련 문제