2013-02-25 2 views
1

위대한 Apache Tika 라이브러리로 파일을 구문 분석합니다. 내 파서로 메타 태그를 추출한 다음 <body> 태그에서 HTML로만 내용을 가져 와서 데이터베이스에 저장하려고합니다.메타 태그를 구문 분석하고 Tika으로 몸체에서 HTML 콘텐츠 가져 오기

내가 :-(시간/일 동안 지금이 시도했지만 해결책 찾을 수 없습니다 : 나는이없이 잘못된 네임 스페이스 예외를 얻을 ToHTMLContentHandler<body> 후 -tag를 사용하는 경우

  • <html> -tag.
  • BodyContentHandler는 HTML 태그없이 본문 텍스트를 반환합니다.
  • tika-app는 (I 핸들러 이런 종류의 befor을 들어 본 적이없는 HTML을 얻을 수있는 TransformerHandler를 사용하는 것 e)이 태그를 사용하여 <body> 태그에서 HTML을 가져 와서 메타 태그를 직접 파싱 할 수 있습니까? 이 방법은 ToHTMLContentHandler을 사용하는 것보다 낫습니까?

답변

2

다음 링크는 당신에게 약간의 도움을 경우 확인이 볼 수 ..

Content Detection, Metadata and Content Extraction with Apache Tika

Parsing HTML with Apache Tika

+0

감사합니다, 나는이 흥미로운 기사를 몰랐다, 그러나 그들은 내 문제가 해결되지 않습니다 . 나는''-start 엘리먼트를 위조 할 때'' 태그 뒤에서도 작동하는'TransformerHandler'를 사용하여 끝냈다. – Sonson123

+0

다행 이군! 질문에 대한 해결책이 있다면 여기에 게시하고이 스레드를 '답변 됨'으로 표시하십시오. 따라서 유사한 질문을하는 사람들은 여기에서 참고 자료를 얻을 수 있습니다. –

+1

내 솔루션의 일반적인 버전을 게시하는 것은 어렵습니다. 단지 해킹 일뿐입니다. 비슷한 문제가있는 다른 사람이 있다면'tika-app '소스를보고 XSLT 처리에 대해 더 자세히 읽어 보도록 조언하겠다. – Sonson123

관련 문제