2012-02-06 7 views
0

가져올 URL 목록이 1 백만 개 있습니다. 나는이 목록을 누치 종자로 사용하고 기본을 사용하여 크롤 Nutch 명령을 가져 와서 가져옵니다. 그러나 Nutch는 목록에없는 URL을 자동으로 가져 오는 것으로 나타났습니다. 크롤링 매개 변수를 -depth 1 -topN 1000000으로 설정합니다. 그러나 작동하지 않습니다. 누구든지이 작업을 수행하는 방법을 알고 있습니까?Nutch를 사용하여 지정된 URL 목록을 크롤링

답변

3

nutch-site.xml에이 속성을 설정합니다. (기본적으로 true이므로 crawldb에 아웃 링크를 추가합니다.)

<property> 
    <name>db.update.additions.allowed</name> 
    <value>false</value> 
    <description>If true, updatedb will add newly discovered URLs, if false 
    only already existing URLs in the CrawlDb will be updated and no new 
    URLs will be added. 
    </description> 
</property> 
2
  • (이전에 만든 경우) 크롤링 및 URL 디렉토리를 삭제
  • 은 (URL은 한 줄에 1URL 나열되어 있습니다) seed 파일
  • 다시 시작 크롤링 과정

명령을 생성하고 업데이트

nutch crawl urllist -dir crawl -depth 3 -topN 1000000 
  • urllist - 디렉토리 시드 파일 (URL 목록)
  • 기어 존재 - 문제가 지속되는 경우에도 디렉토리 이름을

, 당신의 nutch 폴더를 삭제하고 전체 프로세스를 다시 시작하려고합니다.

+1

Nutch가 시드에서 아웃 링크를 크롤링하지 않고 시드로 제공하는 URL 만 원하지 않습니다. – Xiao

관련 문제