2012-03-26 6 views
1

Nutch 1.4를 사용하여 웹 사이트를 크롤링하고 있습니다. 데모 목적으로 jabong.com에서 크롤링을 시작했지만 Nutch가 사이트의 모든 링크를 가져올 수 없음을 확인했습니다.Nutch가 특정 사이트를 크롤링하지 못했습니다.

방문 후 http://www.jabong.com/women/clothing/womens-suits-sets/ 이미지에 매핑 된이 사이트에있는 링크를 가져 오지 못했습니다.

nutch를 다음과 같이 구성했습니다. - conf/nuth-default.xml ---> 에이전트 이름을 conf/regex-urlfilter.txt --- 대신 추가했습니다. * jabong.com/ seed.txt에는 http://www.jabong.com/이 포함되어 있습니다.

누군가가 내게 말해 줄 수있는 문제가 무엇인지 말해 줄 수 있습니까? 링크?

답변

2

마지막으로, 내 머리를 오랫동안 깨뜨린 후이 문제를 해결할 수 있습니다. 그래서 여기에 그것을 공유 : 당신은 conf 디렉토리에 nutch-default.xml에 정의 된 파라미터를 조정

는 그래서 max.content.length을 확인,이 정의 값은 약 60K되지만 실제로 페이지의 함량이 그래서 할 수 없습니다 많이했다 전체 페이지를 크롤링하여 링크가 크롤링 된 페이지에 표시되지 않는 이유입니다.

그래서 :)

PS 크롤링을 즐기 이러한 매개 변수 : 을 확인 않는 사이트를 크롤링하기 전에 : 나는 some1을 구분 미안 해요 내가 여기에 질문을 게시하고 솔루션을 게시 느낀다. 질문을 게시하기 전에 나는 실제로 많은 시도를했다 ..

관련 문제