2017-01-10 1 views
-4

표 형식의 데이터가있는 pdf 파일이 제공됩니다. 주어진 조건에 따라 데이터를 추출해야합니다 (행 1까지 열 1을 추출하는 것과 같습니다). 자바 프로그래밍을 사용하여 내 상태를 해결하는 방법이나 설명이 필요합니다. 거기에 제 3 자 라이브러리가 있습니까?표 형식의 데이터가 포함 된 pdf 파일이 제공됩니다. 주어진 조건에 따라 데이터를 추출해야합니다.

Image from comment http://www.careerarm.com/wp-content/uploads/2015/09/table.png

+1

참조 용으로 pdf 파일을 공유 할 수 있습니까? 또는 그것이 어떻게 구성되어 있는지 설명해야합니다. 스캔 한 문서로 만든 PDF 파일이고 모든 페이지가 이미지로 생성 된 경우 여기에는 그다지 많은 가능성이 없을 수 있습니다. 그냥 텍스트로 구성되어 있고 "모두 선택"을하고 PDF 리더에서 복사 한 다음 텍스트 편집기에 붙여 넣으면 텍스트 형식으로 표시되어 도움이됩니다. –

+0

테이블 형식의 pdf와 int 및 char 데이터가 포함되어 있습니다. –

+1

그건 도움이되지 않습니다. 왜냐하면 난 열을 현명한 또는 행을 현명하게 구문 분석하기 때문에 조건 –

답변

2

PDF 문서에 대해 서로 다른 기준이 있습니다. 표준에 따라 pdf 문서에 태그가 붙을 수도 있습니다 (ISO 32000-1). 태그가 지정된 pdfs는 렌더링 정보와 함께 문서 (단락, 표, 표 행, 표 셀 등)의 논리적 뷰를 유지 관리합니다. pdf에 태그가 지정되면 요청 된대로 데이터를 추출 할 수 있습니다. 그러나 참조 용 pdf 문서가 없으면 이것이 옵션인지 판단하기가 어렵습니다.

먼저

1

좋아는 난 다운 투표 당신이 이미 작업을 수행하고 함께 붙어 아무것도 도움을 도구 추천을 요구하지 않기 때문에이 질문을. 코멘트에서 매트가 나보다 빠르기 때문에 물어 보는 법에 연결하는 것을 귀찮게하지 않을 것입니다.

이제는 pdf의 테이블에서 데이터를 추출하는이 특정 요구 사항은 Stack에서 몇 번 본 것으로, 나중에 참조 할 수 있도록보다 포괄적 인 대답을 작성하려고합니다. 한마디로

는 쉬운 방법이 없다, 캐치 모든 수행하는 방법 : 그것이 PDF 파일에 기록 된 테이블, 당신은 모든 관계형 정보를 잃을 때 무엇을지고 있기 때문에 PDF 스펙 당

을, PDF에 저장되는 것은 기본적으로 셀, 셀 내용, 테두리 등에 대한 지침을 그리는 데 사용됩니다.이 형식에서 표를 추출하고 재구성하면 추출 지침과 텍스트를 분석하여 텍스트 추출을 적용하고 추출 된 데이터가 테이블 또는 당신이 정의해야 할 일종의 알고리즘을 기반으로하지 않습니다.

이제 기본 사양의 확장 인 tagged-pdf가 있습니다. 이것은 원본 도면 지침 이외에 해당 내용 (StructRoot에 저장되어 있음)에 대한 관계 정보가 포함 된 pdf입니다. 이 정보는 일반적으로 컨텐츠 간의 관계가 아직 알려지지 않은 작성 프로세스 중에 추가됩니다. Pdf가 잘 태그되어 있고 잘 구성되어 있다면, 모든 테이블은 태그에서 하나의 것으로 표시되어 테이블을 재구성하는 것은 간단합니다.

tagged-pdf의 존재는 대부분의 주석 작성자가 파일을 공유하도록 요청하는 이유이므로 태그가 지정되었는지 여부를 확인할 수 있으며 그 사실을 기반으로 조언을 제공합니다. 목표를 달성 할 수 있을지 아니면 어려운 일인지 결정하기 때문에 우선 먼저이를 확인하는 것이 좋습니다.

관련 문제