0
Nutch 1.4를 사용하고 있습니다. 색인을 생성하기 전에 크롤링 된 URL을 조작하고 싶습니다.색인을 생성하기 전에 크롤링 된 URL 수정
예를 들어 내 URL이 http://xyz.com/home/xyz.aspx 인 경우 URL을 http://xyz.com/index.aspx?role=xyz으로 수정하고 후자의 필드 만 SOLR에서 색인화해야합니다. 그 이유는 첫 번째 URL을 공개하고 싶지 않기 때문입니다. 두 번째 URL은 궁극적으로 같은 페이지로 리디렉션됩니다.
크롤링 된 URL의 색인을 생성하기 전에 Nutch에서 SOLR 색인을 생성하는 조항이 있습니까?
두 번째 접근 방식 덕분에 많은 도움을 받았습니다. :-) –
답변이 도움이된다면 받아 들일 수 있습니다 ... – Jayendra