현재 웹 사이트 (.doc, .docx, .odt, pdf)에 여러 개의 문서가 업로드되어 있으며이 문서는 SQL 데이터베이스 (mediumblob)에 저장되어 있습니다.업로드 된 문서의 텍스트 추출시 제안 사항
현재 데이터베이스에서 문서를 열고 빠른 참조 및 검색 기능을 위해 데이터베이스의 필드에 텍스트 버전을 잘라내어 붙여 넣습니다.
이 "cut & 붙여 넣기"과정을 자동화하려고합니다. 서식을 지정하는 것이 텍스트를 추출 할 수있는 한 실제 관심사는 아니며, 어떤 사람들은 좋은 경로를 제안 할 수 있기를 희망했습니다. 내려가?
정규식을 사용하여 blob 필드의 내용을 조작 해 보았지만 실제로 작동하지 않았습니다.
필자는 아파치 POI를 업로드 지점에서 추출하여 볼 수 있었지만, 비교적 단순한 필요성을 감안할 때 과장 될지도 모릅니다.
내가 만난 다양한 문서 형식과 blob 필드에 현재 컨텐트를 저장하면 Apache POI가이 인스턴스에서 사용할 수있는 최상의 솔루션이 될 수 있습니까? 아니면 누구나 대안을 제안 할 수 있습니까?
도움 및 의견을 크게 높이 셨습니다.
크리스
POI가 표준 솔루션이라고 생각합니다. 그래서 당신이 붙어 있다면, 그것은 당신이 가장 도움이 될 가능성이있는 것입니다. 나는 당신이 그것을 사용하지 않는 이유를 생각할 수 없다. –
데이비드에게 감사드립니다. 추가 형식이 주어진이 경우 Tika를 사용해 보겠습니다. – Chris