2013-06-27 4 views
0

Nutch 1.4를 사용하고 있습니다. 색인을 생성하기 전에 크롤링 된 URL을 조작하고 싶습니다.색인을 생성하기 전에 크롤링 된 URL 수정

예를 들어 내 URL이 http://xyz.com/home/xyz.aspx 인 경우 URL을 http://xyz.com/index.aspx?role=xyz으로 수정하고 후자의 필드 만 SOLR에서 색인화해야합니다. 그 이유는 첫 번째 URL을 공개하고 싶지 않기 때문입니다. 두 번째 URL은 궁극적으로 같은 페이지로 리디렉션됩니다.

크롤링 된 URL의 색인을 생성하기 전에 Nutch에서 SOLR 색인을 생성하는 조항이 있습니까?

답변

0

맞춤 플러그인을 작성하지 않는 한 solr에 입력 된 값을 수정하는 방법은 없습니다.
그러나 결과가 사용자에게 표시되기 전에이를 클라이언트 측에서 쉽게 처리 할 수 ​​있습니다.

+0

두 번째 접근 방식 덕분에 많은 도움을 받았습니다. :-) –

+0

답변이 도움이된다면 받아 들일 수 있습니다 ... – Jayendra

관련 문제