2012-12-24 1 views
1

IcePDF 또는 PDFBox을 사용하여 PDF에서 콘텐츠를 추출하고 싶습니다. 그러나 나는 지금 추출한 원본 및 심상에서 웹 페이지를 생성하는 계속되는 방법이 아니다 HTML.IcePDF 또는 PDFBox를 사용하여 PDF에서 HTML 페이지 생성

+0

입력에서 무엇을 추출 하시겠습니까? – mkl

+0

모든 pdf 페이지를 모든 데이터 (텍스트, 이미지, 그리드 ..)가있는 HTML 웹 페이지로 변환해야합니다. – Tayba

답변

2

PDFBox로 pdf를 html로 변환 할 수 있습니다. 시도하십시오 this link.

텍스트를 추출 할 때 매개 변수로 -html을 추가하면 pdf의 html을 얻을 수 있습니다. 그러나 이미지, 그래픽 및 기타 세부 정보는 포함되지 않습니다. pdf에서 추출한 텍스트 만 html 형식으로 표시됩니다.

PDF의 모양과 느낌을 정확하게 만들려면 PDFBox에 단일 단계 방법이 없습니다. 내 지식으로는 어떤 도서관도 pdf의 정확한 HTML을 만들 수있는이 시설을 제공하지 않습니다. 그러나 PDFBox를 사용하면 이미지, 텍스트 및 세부 정보를 추출 할 수 있습니다. 이러한 세부 정보를 사용하여 html을 생성하는 논리를 작성해야합니다. 우리는 azzist.com에 대한 pdf를 html로 변환하는 프로젝트를 완료했습니다. PDFBox를 사용하여 변환 작업을 완료했습니다. azzist에서는 이력서를 html 형식으로 변환합니다. (여전히 일부 글꼴 문제가 있습니다.)

Scribd, google, dropbox, zoho 등이 더 나은 방법으로이 전환을 완료했습니다. 이들 사이트 중 어떤 사이트를 보아 그들이 어떻게 성취했는지 확인할 수 있습니다. (당신은 논리를 얻지 못할 것이다. 당신은 그것을 알아 내야 만한다.)

+0

링크가 작동하지 않습니다 .. –

+0

@ chinna_82 링크를 수정했습니다. (바라건대 당신은 그렇게 오래 기다리지 않았다 :-)) –

+0

@ TilmanHausherr thanks. :) –

관련 문제