말도 안되는 캘린더 웹 페이지를 크롤링하지 않도록 Nutch를 구성하는 방법

Nutch를 사용하여 웹 사이트를 색인하고 있습니다. Nutch가 http : // * ** * **/category/events/2015-11과 같은 일부 정크 웹 페이지를 크롤링했음을 확인했습니다. 이 웹 페이지는 2015 년 11 월에 일어난 사건에 관한 것입니다. 이것은 완전히 엉터리입니다. Nutch가 그러한 웹 페이지를 지능적으로 건너 뛸 수 있는지 알고 싶습니다. Regex를 사용하여 이것을 피할 수 있다고 주장 할 수 있습니다. 그러나 캘린더 웹 페이지의 이름 지정 패턴이 항상 같지 않기 때문에이를위한 완벽한 Regex를 작성할 방법이 없습니다. 나는 Heritrix (인터넷 아카이브 크롤러)가 말도 안되는 달력 웹 페이지를 크롤링하는 것을 피할 수있는 기능을 가지고 있다는 것을 알고 있습니다. 누구든지이 문제를 해결합니까?말도 안되는 캘린더 웹 페이지를 크롤링하지 않도록 Nutch를 구성하는 방법

출처

2012-05-04 Xiao

regex URL 필터링을 제외하면 다른 방법은 없습니다. 크롤링 된 콘텐츠를 통해 원하지 않는 페이지를 만들 때마다 정규식 파일에 새 패턴을 계속 추가 할 수 있습니다.

출처

2012-05-06 01:23:17

이렇게하려면 지능적인 방법이없는 것 같습니다. – Xiao

말도 안되는 캘린더 웹 페이지를 크롤링하지 않도록 Nutch를 구성하는 방법

답변

관련 문제