나는 이미 과 iText
이 있음을 알고 있지만 시각적 콘텐츠 추출 기능이없고 PDF로 오프라인으로 작업해야한다는 것도 알고 있습니다. withal, 나는 텍스트와 비디오 컨텐츠를 온라인으로 추출하는 방법을 원한다. PDF 파일을 다운로드 한 다음 물건을 보내고 싶지는 않습니다. Java 언어에는 어떤 종류의 API 또는 라이브러리가 있습니까? 그것은 분명하지 찾을 사람들을위한사진 및 텍스트 추출 양식을 온라인으로 작성하는 방법
편집, 좀 더 설명 :
그냥 다음 DOM
또는 SAX
트리를 만들어 자신의 요소를 통과, 온라인 페이지를 구문 분석 할 수있는 HTML parser
를 사용할 때 상상 그 나무에있는 노드의 내용을 기반으로 사진과 텍스트를 추출합니다. 적어도 사진의 경우 해당 HTML 태그를 얻을 수 있고 텍스트의 경우 실제 텍스트를 얻을 수 있습니다. 지금, 나는 PDF로하는 것에 대해 비슷한 것이 있는지 알고 싶습니다. 텍스트 및 이미지 다운로드없이 진행
PDFBox는 텍스트와 이미지를 추출 할 수 있습니다. 물론 PDF를 다운로드해야합니다. –
* 시각적 콘텐츠 추출 * - 의미를 설명하십시오. 또한 귀하의 온라인 - 오프라인 설명에 어떤 의미가없는 것 같습니다. – mkl
@mkl 좋습니다! 두뇌가 그것을 다루기에는 너무 어렵다면, 나는 당신에게 모범을 보인다. HTML 파서를 사용할 때 온라인상에서 페이지를 파싱하고, DOM이나 SAX 트리를 만들고, 그 요소들을 살펴본 후 그 나무에있는 노드의 내용을 기반으로 사진과 텍스트를 추출하는 것을 상상해보십시오. 적어도 사진의 경우 해당 HTML 태그를 얻을 수 있고 텍스트의 경우 실제 텍스트를 얻을 수 있습니다. 지금, 나는 PDF로하는 것에 대해 비슷한 것이 있는지 알고 싶습니다. PDF를 다운로드하지 않고 텍스트와 이미지를 검토하고 있습니까? – lonesome