Nutch 1.4를 사용하여 웹 사이트를 크롤링하고 있습니다. 데모 목적으로 jabong.com에서 크롤링을 시작했지만 Nutch가 사이트의 모든 링크를 가져올 수 없음을 확인했습니다.Nutch가 특정 사이트를 크롤링하지 못했습니다.
방문 후 http://www.jabong.com/women/clothing/womens-suits-sets/ 이미지에 매핑 된이 사이트에있는 링크를 가져 오지 못했습니다.
nutch를 다음과 같이 구성했습니다. - conf/nuth-default.xml ---> 에이전트 이름을 conf/regex-urlfilter.txt --- 대신 추가했습니다. * jabong.com/ seed.txt에는 http://www.jabong.com/이 포함되어 있습니다.
누군가가 내게 말해 줄 수있는 문제가 무엇인지 말해 줄 수 있습니까? 링크?