Nutch 크롤링을 사용하여 JavaScript 및 주석을 생략하는 방법은 무엇입니까?

나는 이것에 초보자이며, Nutch 1.2을 사용하여 사이트를 가져 오려고합니다. 저는 리눅스 콘솔을 사용하여 Nutch을 사용할 필요가 없으므로 사용하고 있습니다. 내 명령은 다음과 같습니다. Nutch 크롤링을 사용하여 JavaScript 및 주석을 생략하는 방법은 무엇입니까?

 
bin/nutch crawl urls -dir crawled -depth 3

여기서 폴더 은입니다. 내 링크가 있고 을 크롤링하여 결과를 얻습니다.. 그리고 내가 입력 한 결과를보고 싶을 때 : bin/nutch readseg -dump crawled/segments/20110401113805 /home/nutch/dumpfiles 이것은 아주 잘 동작하지만, 깨진 링크가 많이 있습니다. 지금, 내가 할 은 Nutch JavaScript 링크를 따라 가려면 정기적 인 링크 만 따라주세요. 아무도 저에게 힌트/도움을 줄 수 있습니까? conf/crawl-urlfilter.txt을 수정하려고 시도했지만 결과가 없습니다. 나는 잘못된 명령을 입력했을 수도 있습니다!

도움을 주셨습니다.

출처

2011-04-01 dirbacke

원 스톱 크롤링 명령과 단계별 명령의 두 가지 필터 파일이 있습니다. 나머지는 건너 뛸 URL과 일치하는 정규식을 작성하고, 빼기 전에 빼기 만하면됩니다.

출처

2011-04-07 14:23:35 millebii

Nutch 크롤링을 사용하여 JavaScript 및 주석을 생략하는 방법은 무엇입니까?

답변

관련 문제