Apache Nutch/Solr 제품군을 처음 사용했습니다. Solr (4.3)과 함께 기본 Nutch (1.6)를 설정하고 사이트를 성공적으로 크롤링했으며 Solr이 크롤링 된 데이터도 색인 생성했습니다.템플릿 기반 인덱싱/추출 (Apache Nutch & Solr)
이제 사용자가 자신의 의견 (예 : http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/)을 제공 할 수있는 웹 블로그를 크롤링하면 Nutch가 사용자의 의견과 기본 블로그를 별도의 문서로 간주 할 수 있도록 할 수 있습니까? 그렇다면 키워드를 검색 할 때 나에게 메인 블로그와 코멘트를 별도의 결과로 돌려주고 나중에 정서 분석에도이 데이터를 사용할 수있다.
여기에서 도움을 주시면 감사하겠습니다.
감사합니다. Tony