2013-03-21 2 views
2

최근에 텍스트 (및 메타 데이터와 같은 다른 정보)를 추출하기 위해 여러 유형의 파일을 처리하는 아름다운 툴킷 인 Apache Tika이 나왔습니다.문서 텍스트 추출 및 수정

나는 그 (등등 PDF, DOC, XLS 등 일부 형식) 문서를 주어 직면하고 문제, 내가 그것의 일부를을 수정, 추출물 텍스트에 필요하고 재 -build 원래 형식 (수정 된 텍스트 포함)의 문서. 내 지식으로 티카는 텍스트 추출 기능을 제공하지만 수정 된 문서는 다시 스티치하지 않습니다.

나는 특정 파일 형식에 대해이 작업을 수행 일부 라이브러리가 있다고 생각하지만, 나는 모든을 를 처리하여 나를 위해 엔드 - 투 - 엔드 솔루션을 제공 티카와 유사한 어떤 툴킷, 인식하지 오전 Tika가 지원하는 파일 유형. 나는 또한 Tika 자체가 나를 위해 이것을 할 수 있는지 확실하지 않다.

누군가 이러한 종류의 것을 알고 있다면 알려 주시기 바랍니다. Java로 작성된 라이브러리를 찾고 있습니다.

감사합니다,

살릴

편집 : coderanch.com/how-to/java/AccessingFileFormats 여러 툴킷의 목록 작성을 가지고,하지만 난 종합적 티카가 지원하는 모든 형식을 래핑 뭔가를 부탁드립니다.

답변

2
  • 아파치 POI

아파치 POI는 (엑셀 97-2008 용) 자바 엑셀 솔루션입니다. Google은 다른 OOXML 및 OLE2 형식을 포팅하고 다른 사람들이 참여할 수 있도록 지원하는 완벽한 API를 보유하고 있습니다.

OLE2 파일에는 MFC 직렬화 API 기반 파일 형식뿐만 아니라 XLS, DOC 및 PPT와 같은 대부분의 Microsoft Office 파일이 포함되어 있습니다. 이 프로젝트는 OLE2 파일 시스템 (POIFS) 및 OLE2 문서 속성 (HPSF)에 대한 API를 제공합니다.

Office OpenXML 형식은 Microsoft Office 2007 및 2008에서 발견되는 새로운 표준 기반 XML 파일 형식입니다. 여기에는 XLSX, DOCX 및 PPTX가 포함됩니다.

  • 이클립스 나루토 캐릭터

    Q : BIRT 지원을 어떤 보고서 출력 형식을합니까?

Release 2.1은 HTML, 페이지 매김 된 HTML 및 PDF를 지원합니다. 릴리스 2.2는 HTML, 페이지 번호가 매겨진 HTML, PDF, WORD, XLS 및 PostScript를 지원합니다.

+1

그래, 내가 PDF, XML, PPT 및 기타 Office 형식을 포괄적으로 지원하는 것을 찾고있다. 이 링크의 세부 정보 : https : //www.coderanch.com/how-to/java/AccessingFileFormats 그러나이 모든 것들 (그리고 언급 한 것들)은 어떤 포맷이나 다른 것들을 가지고 있습니다. 나는이 모든 형식을 감싸는 무언가를 찾고있다. (Tika과 비슷하다.) 도움 주셔서 감사합니다. – Salil

0

here과 같은 더 나은 툴킷이없는 것으로 보입니다. 유일한 방법은 하나 이상의 툴킷에 대한 래퍼를 작성하여 작업을 완료하는 것입니다. 티카가 그 시설을 제공했다면 좋았을 것입니다. 그러나 불행하게도 그럴 것 같지 않습니다.