IcePDF
또는 PDFBox
을 사용하여 PDF에서 콘텐츠를 추출하고 싶습니다. 그러나 나는 지금 추출한 원본 및 심상에서 웹 페이지를 생성하는 계속되는 방법이 아니다 HTML
.IcePDF 또는 PDFBox를 사용하여 PDF에서 HTML 페이지 생성
답변
PDFBox로 pdf를 html로 변환 할 수 있습니다. 시도하십시오 this link.
텍스트를 추출 할 때 매개 변수로 -html을 추가하면 pdf의 html을 얻을 수 있습니다. 그러나 이미지, 그래픽 및 기타 세부 정보는 포함되지 않습니다. pdf에서 추출한 텍스트 만 html 형식으로 표시됩니다.
PDF의 모양과 느낌을 정확하게 만들려면 PDFBox에 단일 단계 방법이 없습니다. 내 지식으로는 어떤 도서관도 pdf의 정확한 HTML을 만들 수있는이 시설을 제공하지 않습니다. 그러나 PDFBox를 사용하면 이미지, 텍스트 및 세부 정보를 추출 할 수 있습니다. 이러한 세부 정보를 사용하여 html을 생성하는 논리를 작성해야합니다. 우리는 azzist.com에 대한 pdf를 html로 변환하는 프로젝트를 완료했습니다. PDFBox를 사용하여 변환 작업을 완료했습니다. azzist에서는 이력서를 html 형식으로 변환합니다. (여전히 일부 글꼴 문제가 있습니다.)
Scribd, google, dropbox, zoho 등이 더 나은 방법으로이 전환을 완료했습니다. 이들 사이트 중 어떤 사이트를 보아 그들이 어떻게 성취했는지 확인할 수 있습니다. (당신은 논리를 얻지 못할 것이다. 당신은 그것을 알아 내야 만한다.)
링크가 작동하지 않습니다 .. –
@ chinna_82 링크를 수정했습니다. (바라건대 당신은 그렇게 오래 기다리지 않았다 :-)) –
@ TilmanHausherr thanks. :) –
- 1. pdfbox를 사용하여 pdf에서 아랍어 텍스트를 표시하고 싶습니까?
- 2. pdfbox를 사용하여 pdf에서 굵은 텍스트를 추출하는 방법?
- 3. PDFBox를 사용하여 페이지 번호 추가
- 4. 페이지 번호를 사용하여 다른 PDF에서 PDF 생성
- 5. Java (pdfbox를 사용하지 않음)를 사용하여 pdf에서 이미지를 추출하는 방법
- 6. Lucene 구문 쿼리와 PDFBOX를 사용하여 PDF에서 문장 검색
- 7. wicked_pdf를 사용하여 생성 된 PDF에서 ZIP 생성
- 8. PDFBox를 사용하여 PDF 페이지 크기 조정
- 9. PDFBox를 사용하여 PDF 보호
- 10. pisa에서 생성 된 pdf에서 페이지 크기를 변경하는 방법
- 11. 자바 생성 HTML 페이지
- 12. PDF에서 이미지 또는 HTML로 분리
- 13. 이미지의 DPI를 PDF에서 추출했습니다.
- 14. PDf에서 문자열로
- 15. pdf에서 이미지 생성
- 16. 자동으로 PDF에서 키워드 생성
- 17. Java를 사용하여 정적 HTML 페이지 생성
- 18. PDF에서 fpdf를 사용하여 랩핑 데이터로 테이블 생성
- 19. 캔버스 또는 영역에서 HTML 페이지 크기 조정
- 20. pdfBox를 사용하여 PDFfx
- 21. jquery는 html 또는 php 페이지
- 22. 보안 PDF에서 페이지 수 얻기
- 23. pdf에서 숨겨진 텍스트를 찾는 방법
- 24. PDFBox를 사용하여 * .ttc 글꼴 포함
- 25. jquery로 동적 HTML 페이지 생성
- 26. PDFBOX를 사용하여 PDF 양식에서 현재 페이지 번호를 얻는 방법은 무엇입니까?
- 27. 단일 페이지 HTML JavaDoc 생성
- 28. PDF로 와이드 HTML 페이지 생성
- 29. CSV 데이터에서 HTML 페이지 생성
- 30. PDFBox를 사용하여 PDF 내용 이동
입력에서 무엇을 추출 하시겠습니까? – mkl
모든 pdf 페이지를 모든 데이터 (텍스트, 이미지, 그리드 ..)가있는 HTML 웹 페이지로 변환해야합니다. – Tayba