0
Nutch를 사용하고 있습니다. 인터넷 웹 사이트 대신 공유 디스크를 크롤링 할 계획입니다.공유 디스크를 크롤링하지 않고 피하는 방법은 무엇입니까?
크롤링하면 디스크가 너무 느려지 게됩니다. 공유 디스크를 크롤링하지 않고 크롤링하지 않으려면 어떻게해야합니까?
Nutch를 사용하고 있습니다. 인터넷 웹 사이트 대신 공유 디스크를 크롤링 할 계획입니다.공유 디스크를 크롤링하지 않고 피하는 방법은 무엇입니까?
크롤링하면 디스크가 너무 느려지 게됩니다. 공유 디스크를 크롤링하지 않고 크롤링하지 않으려면 어떻게해야합니까?
conf/nutch-site.xml에서 요청 간의 스레드 수와 대기 시간을 설정할 수 있습니다.
이러한 속성을 overrinding 시도하고 당신이 편안하게 값을 설정합니다
<property>
<name>fetcher.threads.fetch</name>
<value>10</value>
<description>The number of FetcherThreads the fetcher should use.
This is also determines the maximum number of requests that are
made at once (each FetcherThread handles one connection). The total
number of threads running in distributed mode will be the number of
fetcher threads * number of nodes as fetcher has one map task per node.
</description>
</property>
<property>
<name>fetcher.threads.per.queue</name>
<value>1</value>
<description>This number is the maximum number of threads that
should be allowed to access a queue at one time.
</description>
</property>