메타 태그를 구문 분석하고 Tika으로 몸체에서 HTML 콘텐츠 가져 오기

위대한 Apache Tika 라이브러리로 파일을 구문 분석합니다. 내 파서로 메타 태그를 추출한 다음 <body> 태그에서 HTML로만 내용을 가져 와서 데이터베이스에 저장하려고합니다.메타 태그를 구문 분석하고 Tika으로 몸체에서 HTML 콘텐츠 가져 오기

내가 :-(시간/일 동안 지금이 시도했지만 해결책 찾을 수 없습니다 : 나는이없이 잘못된 네임 스페이스 예외를 얻을 ToHTMLContentHandler<body> 후 -tag를 사용하는 경우

을 <html> -tag.
BodyContentHandler는 HTML 태그없이 본문 텍스트를 반환합니다.
tika-app는 (I 핸들러 이런 종류의 befor을 들어 본 적이없는 HTML을 얻을 수있는 TransformerHandler를 사용하는 것 e)이 태그를 사용하여 <body> 태그에서 HTML을 가져 와서 메타 태그를 직접 파싱 할 수 있습니까? 이 방법은 ToHTMLContentHandler을 사용하는 것보다 낫습니까?

2013-02-25 Sonson123