나는 아래를 가로 질러 scatterred 일부 코드 (어떤 고정 된 위치) 여러 PDF 파일이 : 나는 키를 찾을 수있는 모든 PDF 파일을 구문 분석 할읽기 내용 몇 가지 주요
oneCode=abcd
twoCode=4566
"oneCode"또는 " twoCode "내 Java 프로그램 내에서 해당 값을 가져옵니다.
이러한 기능은 PDFBox와 같은 오픈 소스 pdf 파서에서 사용할 수 있습니까?
예를 하나만들 수 있습니까?
또한 내 pdf의 크기가 매우 다양 할 수 있으며 한 번에 내 프로그램에서 수천 개의 PDF를 파싱해야 할 수도 있습니다. 따라서 완전한 pdf를 파싱 한 다음 파싱 된 텍스트에서 키를 검색하는 것은 매우 느릴 수 있습니다.
내 시나리오에서 도움이 될 수있는 기존 기능이 있습니까?
읽어 주셔서 감사합니다.
글쎄, 당신은 분명히 (페이지 방식으로 페이지에서) 완전한 pdfs를 파싱해야 할 것이다.하지만 그러는 동안 키 - 값 쌍에 대한 내용을 검색하고 나중에 그 쌍들의 모음으로 작업 할 수있다. 전체 내용. – mkl