2017-10-02 2 views

답변

0

문서가 태그 된 경우 목차를 생성하는 것이 간단해야합니다. 그렇지 않은 경우, 구조 인식 세계에서 재미있는 잠수를 기다리고 있습니다.

PDF는 WYSIWYG 형식이 아닙니다. 텍스트 문서보다는 지침의 컨테이너로 더 생각하십시오.

PDF 문서에서 텍스트를 가져 오는 것은 복잡한 문제입니다 (iText는보기 쉽게 만듭니다). 구문 분석 명령을 처리하고 어떤 좌표에서 렌더링되는지를 추적 한 다음 논리적 인 읽기 순서에 따라 정렬합니다.

그리고 그냥 텍스트를 가져 오는 것입니다. 당신이 원하는 것은 단락이 어디에 있는지, 어떤 단편이 섹션과 하위 섹션의 제목이 될지를 판단하기위한 더 많은 단계가 필요합니다.

+0

모든 페이지의 첫 번째 줄을 유지할 수 있다고 생각했는데이 줄로 토큰을 만들 수 있지만 장이 다른 페이지의 동일한 페이지에 있으면 어떻게됩니까? – thenoobdeveloper

+0

그렇게하고 싶다면 모든 페이지에서 텍스트를 가져와야합니다. 그런 다음 줄 바꿈을 시작합니다. –

관련 문제