Nutch를 사용하여 웹 사이트를 색인하고 있습니다. Nutch가 http : // * ** * **/category/events/2015-11과 같은 일부 정크 웹 페이지를 크롤링했음을 확인했습니다. 이 웹 페이지는 2015 년 11 월에 일어난 사건에 관한 것입니다. 이것은 완전히 엉터리입니다. Nutch가 그러한 웹 페이지를 지능적으로 건너 뛸 수 있는지 알고 싶습니다. Regex를 사용하여 이것을 피할 수 있다고 주장 할 수 있습니다. 그러나 캘린더 웹 페이지의 이름 지정 패턴이 항상 같지 않기 때문에이를위한 완벽한 Regex를 작성할 방법이 없습니다. 나는 Heritrix (인터넷 아카이브 크롤러)가 말도 안되는 달력 웹 페이지를 크롤링하는 것을 피할 수있는 기능을 가지고 있다는 것을 알고 있습니다. 누구든지이 문제를 해결합니까?말도 안되는 캘린더 웹 페이지를 크롤링하지 않도록 Nutch를 구성하는 방법
0
A
답변
1
regex URL 필터링을 제외하면 다른 방법은 없습니다. 크롤링 된 콘텐츠를 통해 원하지 않는 페이지를 만들 때마다 정규식 파일에 새 패턴을 계속 추가 할 수 있습니다.
관련 문제
- 1. preg_match() 말도 안되는 문자 추가
- 2. 말도 안되는 단어 생성기 PHP는
- 3. 검색 봇이 삭제 된 페이지를 크롤링하지 않도록 하시겠습니까?
- 4. eclipse에서 nutch를 구성하는 방법은 무엇입니까?
- 5. Google 로봇이 특정 페이지를 크롤링하지 못하도록하는 방법
- 6. MSVC 2008 즉석 창 말도 안되는 코드 혼란
- 7. 이 말도 안되는 SQL 다중 조인 문을 어떻게 수행합니까?
- 8. while 루프 내에서 Perl bash 명령을 사용하면 말도 안되는 소리가납니다.
- 9. Nutch가 특정 사이트를 크롤링하지 못했습니다.
- 10. 하이퍼 링크를 사용하지 않도록 HTMLPurifier를 구성하는 방법
- 11. uiwebview가 웹 페이지를 캐싱하지 않도록 어떻게합니까?
- 12. 사이트 루트 아래에 웹 페이지를 표시하도록 Open Rasta를 구성하는 방법
- 13. 기사 크롤링을 위해 Nutch를 확장하는 방법
- 14. Trac, 페이지를 계층 적으로 구성하는 방법?
- 15. MVC 3.0 응용 프로그램에서 페이지를 구성하는 방법
- 16. Ember 웹 응용 프로그램을 구성하는 방법
- 17. 오래된 Visual SourceSafe 말도 안되는 점에서 전통적인 Visual Studio 솔루션을 얻으려면 어떻게해야합니까?
- 18. 고안의이 시간 초과 오류가`고안은 아래와 같이 나에게 말도 안되는 오류를주고, 내 세션이 만료되면
- 19. 프로그램은 make에 의해 실행될 때 실행되지만 쉘을 통해 실행되지는 않습니다 - 말도 안되는 넌센스!
- 20. SQL 서버 - 사용할 수 뭔가 그래서이 말도 안되는 질문이있을 수 있습니다 초보자
- 21. Nutch를 사용하여 hbase에서 데이터를 크롤링하는 방법
- 22. Nhibernate가 현재 세션의 개체를 저장하지 않도록 구성하는 방법
- 23. 테스트 단계에서 데이터베이스에 데이터를 삽입하지 않도록 Hibernate를 구성하는 방법
- 24. null이 아닌 제약 조건 오류를 표시하지 않도록 postgres를 구성하는 방법
- 25. HTML id를 생성하지 않도록 Rails 태그를 구성하는 방법
- 26. Java EE가 경량 웹 페이지를 만들지 않도록 할 수 있습니까?
- 27. 웹 브라우저에 페이지를 캐시하지 않도록 지시하는 방법은 무엇입니까?
- 28. 특정 페이지를 기본 페이지로 서버하도록 웹 서버를 구성하는 방법은 무엇입니까?
- 29. Pyquery 내가 웹 페이지를 구성하는 pyquery를 사용하던 HTML 코드
- 30. Sharepoint 2010 웹 파트에서 캘린더 사용 방법
이렇게하려면 지능적인 방법이없는 것 같습니다. – Xiao