최근에 텍스트 (및 메타 데이터와 같은 다른 정보)를 추출하기 위해 여러 유형의 파일을 처리하는 아름다운 툴킷 인 Apache Tika이 나왔습니다.문서 텍스트 추출 및 수정
나는 그 (등등 PDF, DOC, XLS 등 일부 형식) 문서를 주어 직면하고 문제, 내가 그것의 일부를을 수정, 추출물 텍스트에 필요하고 재 -build 원래 형식 (수정 된 텍스트 포함)의 문서. 내 지식으로 티카는 텍스트 추출 기능을 제공하지만 수정 된 문서는 다시 스티치하지 않습니다.
나는 특정 파일 형식에 대해이 작업을 수행 일부 라이브러리가 있다고 생각하지만, 나는 모든을 를 처리하여 나를 위해 엔드 - 투 - 엔드 솔루션을 제공 티카와 유사한 어떤 툴킷, 인식하지 오전 Tika가 지원하는 파일 유형. 나는 또한 Tika 자체가 나를 위해 이것을 할 수 있는지 확실하지 않다.
누군가 이러한 종류의 것을 알고 있다면 알려 주시기 바랍니다. Java로 작성된 라이브러리를 찾고 있습니다.
감사합니다,
살릴
편집 : coderanch.com/how-to/java/AccessingFileFormats 여러 툴킷의 목록 작성을 가지고,하지만 난 종합적 티카가 지원하는 모든 형식을 래핑 뭔가를 부탁드립니다.
그래, 내가 PDF, XML, PPT 및 기타 Office 형식을 포괄적으로 지원하는 것을 찾고있다. 이 링크의 세부 정보 : https : //www.coderanch.com/how-to/java/AccessingFileFormats 그러나이 모든 것들 (그리고 언급 한 것들)은 어떤 포맷이나 다른 것들을 가지고 있습니다. 나는이 모든 형식을 감싸는 무언가를 찾고있다. (Tika과 비슷하다.) 도움 주셔서 감사합니다. – Salil