2015-01-25 1 views
-1

나는 이미 과 iText이 있음을 알고 있지만 시각적 콘텐츠 추출 기능이없고 PDF로 오프라인으로 작업해야한다는 것도 알고 있습니다. withal, 나는 텍스트와 비디오 컨텐츠를 온라인으로 추출하는 방법을 원한다. PDF 파일을 다운로드 한 다음 물건을 보내고 싶지는 않습니다. Java 언어에는 어떤 종류의 API 또는 라이브러리가 있습니까? 그것은 분명하지 찾을 사람들을위한사진 및 텍스트 추출 양식을 온라인으로 작성하는 방법

편집, 좀 더 설명 :

그냥 다음 DOM 또는 SAX 트리를 만들어 자신의 요소를 통과, 온라인 페이지를 구문 분석 할 수있는 HTML parser를 사용할 때 상상 그 나무에있는 노드의 내용을 기반으로 사진과 텍스트를 추출합니다. 적어도 사진의 경우 해당 HTML 태그를 얻을 수 있고 텍스트의 경우 실제 텍스트를 얻을 수 있습니다. 지금, 나는 PDF로하는 것에 대해 비슷한 것이 있는지 알고 싶습니다. 텍스트 및 이미지 다운로드없이 진행

+1

PDFBox는 텍스트와 이미지를 추출 할 수 있습니다. 물론 PDF를 다운로드해야합니다. –

+0

* 시각적 콘텐츠 추출 * - 의미를 설명하십시오. 또한 귀하의 온라인 - 오프라인 설명에 어떤 의미가없는 것 같습니다. – mkl

+0

@mkl 좋습니다! 두뇌가 그것을 다루기에는 너무 어렵다면, 나는 당신에게 모범을 보인다. HTML 파서를 사용할 때 온라인상에서 페이지를 파싱하고, DOM이나 SAX 트리를 만들고, 그 요소들을 살펴본 후 그 나무에있는 노드의 내용을 기반으로 사진과 텍스트를 추출하는 것을 상상해보십시오. 적어도 사진의 경우 해당 HTML 태그를 얻을 수 있고 텍스트의 경우 실제 텍스트를 얻을 수 있습니다. 지금, 나는 PDF로하는 것에 대해 비슷한 것이 있는지 알고 싶습니다. PDF를 다운로드하지 않고 텍스트와 이미지를 검토하고 있습니까? – lonesome

답변

-2

PDFImageStream 할 수 있습니다. 한 가지 제한 사항 만있는 무료 버전이 있습니다. 단일 스레드 응용 프로그램에서만 사용할 수 있습니다.

+0

나는 그것을 빨리 보았다. 그것은 이미지와 텍스트 추출을 온라인으로합니까? – lonesome

+0

무슨 뜻인가요? 시나리오를, – atao

+0

EDIT를 읽는 방법에 대해? – lonesome

0

Gnostice PDFOne (Java 용)은 텍스트 및 이미지 요소에 대한 PDF 페이지를 구문 분석 할 수있는 getPageElements() 메소드를 가지고 있습니다. PDF의 텍스트가 HTML 또는 XML 문서와 같은 DOM에 없습니다. 텍스트는 다양한 x-y 좌표로 나타나며 마법처럼 잘 형식화되어 나타납니다. 그러나 PDFOne에는 이러한 텍스트 요소를 사용자 친화적 인 문장으로 재구성하는 일부 PDF text extraction 메서드가 있습니다. 공개 : 저는이 도서관을 만드는 회사에서 일합니다.

+0

"PDF의 텍스트가 HTML 또는 XML 문서와 같은 DOM에 없습니다." 나는 이것을 알고 있지만 어쨌든 이런 식의 PDF 파일을 다루는 것이 있다면 의미한다. 가능하다면 전체 pdf 파일을 다운로드하지 말고 메모리에서 설명했던 내용을 수행하십시오. – lonesome

+0

그래서이 라이브러리는 그러한 기능을 제공합니까? – lonesome

+0

getPageElements는 DOM 배열처럼 반복 할 수있는 배열을 반환합니다. 해당 배열의 모든 페이지 요소 또는 텍스트 요소 또는 이미지 요소 또는 formfield 또는 주석을 가져올 수 있습니다. PDFOne은 메모리 스트림 또는 바이트 배열에서 PDF를로드 할 수 있습니다.따라서 온라인 PDF를 메모리 스트림이나 바이트 배열에로드해야합니다. – gn1

관련 문제