템플릿 기반 인덱싱/추출 (Apache Nutch & Solr)

Apache Nutch/Solr 제품군을 처음 사용했습니다. Solr (4.3)과 함께 기본 Nutch (1.6)를 설정하고 사이트를 성공적으로 크롤링했으며 Solr이 크롤링 된 데이터도 색인 생성했습니다.템플릿 기반 인덱싱/추출 (Apache Nutch & Solr)

이제 사용자가 자신의 의견 (예 : http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/)을 제공 할 수있는 웹 블로그를 크롤링하면 Nutch가 사용자의 의견과 기본 블로그를 별도의 문서로 간주 할 수 있도록 할 수 있습니까? 그렇다면 키워드를 검색 할 때 나에게 메인 블로그와 코멘트를 별도의 결과로 돌려주고 나중에 정서 분석에도이 데이터를 사용할 수있다.

여기에서 도움을 주시면 감사하겠습니다.

감사합니다. Tony

출처

2013-06-04 TonyMull

xpath 필터 플러그인을 사용하여 크롤링 된 콘텐츠를 두 개의 다른 입력란으로 구분할 수 있습니다. =는 "포스트"갈 것 클래스 http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

내용이이 필드에, 클래스 = "commentlist"의 콘텐츠가 검색 페이지 논리에서 B.

을 필드로 이동합니다 것입니다, 당신은 필드 A를, 그래서 SOLR를 조회하여 검색 결과는 댓글이 아닌 블로그 게시물에서만 가져올 수 있습니다.

주석 데이터는 여전히 문서에 저장되지만 검색 할 수는 없습니다.

출처

2013-06-16 16:53:14 nimeshjm

템플릿 기반 인덱싱/추출 (Apache Nutch & Solr)

답변

관련 문제