2009-06-13 14 views
1

다중 스레드 크롤링을 실행하기 위해 nutch를 구성하려고합니다.Nutch Multithreading

그러나 문제가 발생했습니다. 여러 스레드에서 크롤링을 실행할 수 없으며 nutch-site.xml을 25 개의 스레드를 사용하도록 수정했지만 여전히 실행중인 스레드는 1 개만 볼 수 있습니다.

<property> 
    <name>fetcher.threads.fetch</name> 
    <value>25</value> 
    <description>The number of FetcherThreads the fetcher should use. 
    This is also determines the maximum number of requests that are 
    made at once (each FetcherThread handles one connection).</description> 
</property> 

<property> 
    <name>fetcher.threads.per.host</name> 
    <value>25</value> 
    <description>This number is the maximum number of threads that 
    should be allowed to access a host at one time.</description> 
</property> 

나는 항상 activeThreads = 25, spinWaiting = 24, fetchQueues.totalSize = 일부 값의 값을 얻는다.

이게 무슨 의미인지 설명해 주시겠습니까? 어떻게 해결할 수 있습니까?

감사합니다.

감사합니다, 수밋

답변

2

나는 당신의 문제가 새로운 Nutch의 가져 오기/w 알려진 버그 관련이있다 생각합니다. NUTCH-721을 참조하십시오.

Nutch 1.0이있는 경우 OldFetcher를 사용하여 문제가 해결되는지 확인할 수 있습니다.

- 켄

+2

하이 켄, 답변에 대한 감사, 문제가 I가 지금 제대로 작동 25로 설정하면 제대로 설정되지 않은 IP 당 호스트이었다. 나는 bixo 크롤러를 정말 좋아합니다. iam 팬과 Iam이 프로젝트별로 사용하고 있습니다. :) –