2013-10-15 4 views
0

나는 아래를 가로 질러 scatterred 일부 코드 (어떤 고정 된 위치) 여러 PDF 파일이 : 나는 키를 찾을 수있는 모든 PDF 파일을 구문 분석 할읽기 내용 몇 가지 주요

oneCode=abcd 
twoCode=4566 

"oneCode"또는 " twoCode "내 Java 프로그램 내에서 해당 값을 가져옵니다.

이러한 기능은 PDFBox와 같은 오픈 소스 pdf 파서에서 사용할 수 있습니까?

예를 하나만들 수 있습니까?

또한 내 pdf의 크기가 매우 다양 할 수 있으며 한 번에 내 프로그램에서 수천 개의 PDF를 파싱해야 할 수도 있습니다. 따라서 완전한 pdf를 파싱 한 다음 파싱 된 텍스트에서 키를 검색하는 것은 매우 느릴 수 있습니다.

내 시나리오에서 도움이 될 수있는 기존 기능이 있습니까?

읽어 주셔서 감사합니다.

+0

글쎄, 당신은 분명히 (페이지 방식으로 페이지에서) 완전한 pdfs를 파싱해야 할 것이다.하지만 그러는 동안 키 - 값 쌍에 대한 내용을 검색하고 나중에 그 쌍들의 모음으로 작업 할 수있다. 전체 내용. – mkl

답변

0

선형 검색보다 빠르게 수행 할 수 있다고 생각하지 않습니다. 정렬 또는 인덱싱 작업은 적어도 O (n)의 순서를 취하게되므로 빠른 인덱싱 검색을 사용하는 독자가 있어도 리드 전처리 시간이 필요합니다.

신속하게 데이터를 읽을 수 있도록 데이터를 메모리로 신속하게 전송할 수있는 리더를 찾아야합니다.