가져올 URL 목록이 1 백만 개 있습니다. 나는이 목록을 누치 종자로 사용하고 기본을 사용하여 크롤 Nutch 명령을 가져 와서 가져옵니다. 그러나 Nutch는 목록에없는 URL을 자동으로 가져 오는 것으로 나타났습니다. 크롤링 매개 변수를 -depth 1 -topN 1000000으로 설정합니다. 그러나 작동하지 않습니다. 누구든지이 작업을 수행하는 방법을 알고 있습니까?Nutch를 사용하여 지정된 URL 목록을 크롤링
0
A
답변
3
nutch-site.xml
에이 속성을 설정합니다. (기본적으로 true이므로 crawldb에 아웃 링크를 추가합니다.)
<property>
<name>db.update.additions.allowed</name>
<value>false</value>
<description>If true, updatedb will add newly discovered URLs, if false
only already existing URLs in the CrawlDb will be updated and no new
URLs will be added.
</description>
</property>
2
- (이전에 만든 경우) 크롤링 및 URL 디렉토리를 삭제
- 은 (URL은 한 줄에 1URL 나열되어 있습니다) seed 파일
- 다시 시작 크롤링 과정
명령을 생성하고 업데이트
nutch crawl urllist -dir crawl -depth 3 -topN 1000000
- urllist - 디렉토리 시드 파일 (URL 목록)
- 기어 존재 - 문제가 지속되는 경우에도 디렉토리 이름을
, 당신의 nutch 폴더를 삭제하고 전체 프로세스를 다시 시작하려고합니다.
관련 문제
- 1. Nutch를 사용하여 페이지 크롤링 후 처리
- 2. Nutch를 사용하여 hbase에서 데이터를 크롤링하는 방법
- 3. Nutch 1.3의 URL 다시 크롤링
- 4. jQuery.ajax()는 지정된 URL
- 5. 크롤링 버전 제어 시스템
- 6. 빈 Nutch 크롤링 목록
- 7. 런타임에 크롤링 될 URL 목록 제어
- 8. Nutch를 사용하여 로컬 HTML 파일 색인 생성
- 9. Nutch가 비디오 사이트를 크롤링 할 수 있습니까?
- 10. Google URL 크롤링 오류 404 - 도메인이 URL 끝에 추가됩니다.
- 11. 파일에서 URL 목록을 얻고
- 12. 오류 페이지에 대한 루트 디렉토리의 URL 크롤링 방법이 필요합니다.
- 13. 동일한 작업을 사용하여 모든 (색인) 객체를 표시하지만 url 매개 변수로 범위가 지정된 목록을 표시합니다.
- 14. 쓰기 메타 데이터는 내부에 우리는 우리의 인트라넷 사이트를 크롤링 nutch를 사용하는
- 15. backbone.js 및 범위가 지정된 URL
- 16. URL 목록을 트리로 변환
- 17. Python/Pexpect를 사용하여 네트워크를 크롤링
- 18. 여러 키워드를 사용하여 Twitter 크롤링
- 19. PHP를 사용하여 웹 사이트를 크롤링
- 20. Nutch를 가져 와서 가져온 모든 URL의 상위를 가져옵니다.
- 21. Nutch : 모든 URL의 시드 URL 얻기
- 22. eclipse에서 nutch를 구성하는 방법은 무엇입니까?
- 23. Nutch를 사용하는 모든 인트라넷 인덱스
- 24. glob를 사용하여 지정된 디렉토리의 폴더 목록을 경로없이 반환합니다.
- 25. SEO : 크롤링 및 색인 가능 데이터베이스에서 데이터 및 URL 검색
- 26. Windows에서 URL 목록을 열려면 어떻게해야합니까?
- 27. 이미지 용 맞춤 URL 크롤링 및 AJAX를 통한 크기 조정
- 28. 크롤링 페이지 텍스트
- 29. 전체 웹 사이트를 크롤링하지 않고 URL 목록을 크롤링하는 crawler4j
- 30. SharePoint 크롤링 작업 문제
Nutch가 시드에서 아웃 링크를 크롤링하지 않고 시드로 제공하는 URL 만 원하지 않습니다. – Xiao