0
나는 이것에 초보자이며, Nutch 1.2을 사용하여 사이트를 가져 오려고합니다. 저는 리눅스 콘솔을 사용하여 Nutch을 사용할 필요가 없으므로 사용하고 있습니다. 내 명령은 다음과 같습니다. Nutch 크롤링을 사용하여 JavaScript 및 주석을 생략하는 방법은 무엇입니까?
bin/nutch crawl urls -dir crawled -depth 3
여기서 폴더
은입니다. 내 링크가 있고
을 크롤링하여 결과를 얻습니다.. 그리고 내가 입력 한 결과를보고 싶을 때 :
bin/nutch readseg -dump crawled/segments/20110401113805 /home/nutch/dumpfiles
이것은 아주 잘 동작하지만, 깨진 링크가 많이 있습니다. 지금, 내가 할
은
Nutch JavaScript 링크를 따라 가려면 정기적 인 링크 만 따라주세요. 아무도 저에게 힌트/도움을 줄 수 있습니까?
conf/crawl-urlfilter.txt을 수정하려고 시도했지만 결과가 없습니다. 나는 잘못된 명령을 입력했을 수도 있습니다!
도움을 주셨습니다.