2017-04-20 1 views
0

저는 Apache Tika를 사용하여 다른 문서 형식에서 텍스트를 추출하고 있습니다. 이제 헤더, 꼬리말 및 텍스트 상자를 다르게 처리하려고합니다. 그래서 나는 GitHub에서 Tika의 소스 코드를 다운로드하고 변경하려고했다.Eclipse에서 Tika 소스 코드를 실행하십시오.

Eclipse에서 Apache Tika 소스 코드를 실행하고 입력 문서를 전달하여 실행을 디버그하고 싶습니다. 내가 어떻게 할 수 있니? 너무 많은 메인 클래스가 있습니다. 나는 어디에서 시작합니까? 나는 그것의 Maven 프로젝트를 이해하고 그것에 익숙하지 않다.

그리고 어떻게하면 새로운 jar 파일을 만들 수 있습니까?

+1

[Maven documentation] (http://maven.apache.org/guides/)로 시작한 다음 Eclipse Maven 튜토리얼을 찾으십시오. – spacepickle

답변

1

먼저 Tika의 xhtml 출력을 살펴보십시오. 아마도 머리말/꼬리말을 추출 할 수 있으며 원할 경우 파서 API를 사용하여 이러한 부분을 처리 할 수 ​​있습니다. 그런 식이면 API를 사용하여 examples에 사용자 정의 SAX와 같은 핸들러를 전달합니다.

+0

예, 머리글/바닥 글을 추출하지만 실제로 텍스트가 실제로는 명확하지 않습니다 머리글/바닥 글에서. 그래서 나는 Tika 소스 코드를 파헤쳐 header/footer의 텍스트 주위에 커스텀 태그를 추가하고 싶었다. –

관련 문제