2012-04-20 4 views
0

현재 웹 사이트 (.doc, .docx, .odt, pdf)에 여러 개의 문서가 업로드되어 있으며이 문서는 SQL 데이터베이스 (mediumblob)에 저장되어 있습니다.업로드 된 문서의 텍스트 추출시 제안 사항

현재 데이터베이스에서 문서를 열고 빠른 참조 및 검색 기능을 위해 데이터베이스의 필드에 텍스트 버전을 잘라내어 붙여 넣습니다.

이 "cut & 붙여 넣기"과정을 자동화하려고합니다. 서식을 지정하는 것이 텍스트를 추출 할 수있는 한 실제 관심사는 아니며, 어떤 사람들은 좋은 경로를 제안 할 수 있기를 희망했습니다. 내려가?

정규식을 사용하여 blob 필드의 내용을 조작 해 보았지만 실제로 작동하지 않았습니다.

필자는 아파치 POI를 업로드 지점에서 추출하여 볼 수 있었지만, 비교적 단순한 필요성을 감안할 때 과장 될지도 모릅니다.

내가 만난 다양한 문서 형식과 blob 필드에 현재 컨텐트를 저장하면 Apache POI가이 인스턴스에서 사용할 수있는 최상의 솔루션이 될 수 있습니까? 아니면 누구나 대안을 제안 할 수 있습니까?

도움 및 의견을 크게 높이 셨습니다.

크리스

+0

POI가 표준 솔루션이라고 생각합니다. 그래서 당신이 붙어 있다면, 그것은 당신이 가장 도움이 될 가능성이있는 것입니다. 나는 당신이 그것을 사용하지 않는 이유를 생각할 수 없다. –

+0

데이비드에게 감사드립니다. 추가 형식이 주어진이 경우 Tika를 사용해 보겠습니다. – Chris

답변

0

Apache POI에만 마이크로 소프트 오피스 포맷 (.XLS, .DOCX, 된 .msg 등)에 대한 작동합니다. 이러한 형식의 경우 텍스트 추출기뿐만 아니라 파일 작업을위한 클래스 (항상 읽기 지원, 많은 쓰기 지원)를 제공합니다.

일반 텍스트 추출 프레임 워크의 경우 Apache Tika을 확인해야합니다. Tika는 Microsoft 형식을 처리하기 위해 POI를 내부적으로 사용하고 다른 형식을 처리하기 위해 여러 라이브러리를 사용합니다. Tika는 예를 들어 PDF 및 ODF/ODT를 처리합니다.이 파일은 질문에서 언급 한 다른 두 가지 파일 형식입니다.

Apache Tika website에는 몇 가지 빠른 시작 자습서와 예제가 있습니다. 자세히 살펴 보시기 바랍니다. 시작하는 것은 매우 빠르며, 평범한 텍스트 버전을 얻기 위해 업로드하는 동안 Tika를 통해 문서를 보내도록 코드를 쉽게 변경할 수 있어야합니다. 더 유용한 경우 이벤트 XHTML을 사용하십시오.

+0

감사합니다. Gagravarr - Tika에게 저를 위해 일하게 할 수 있는지 알아 보도록하겠습니다. – Chris

관련 문제