2015-02-02 2 views
1

아파치 Nutch 2.3을 사용하고 있습니다. 나는 파싱 단계 인 다음 단계로 아파치 nutch의 단계를 건너 뛰고 싶습니다. 즉, 내 크롤링이 상태를 가져 오는 중이고 단계를 구문 분석하여 일찍 완료한다고 가정합니다.한 단계에서 다음 단계로 아파치 nutch를 건너 뛰는 방법

나는 어떻게 한 걸음에서 다음 단계로 아파치 너치를 건너 뛰는가?

답변

1

Apache Nutch는 Hadoop을 기반으로하므로 다른 작업이 단계적으로 적용됩니다. 그것은 주입을 완료 한 후에 생성을 의미합니다. 가져 오기는 Generate (생성) 후에 나옵니다. 그러나 기본 nutch 동작을 변경하려면 구문 분석 단계에서 사용할 수있는 구성이 있습니다.

<property> 
    <name>fetcher.parse</name> 
    <value>true</value> 
    <description>For merge parse and fetch set it true</description> 
</property> 

fetcher.parse의 기본값은 false입니다. 당신은 그것을 사실로 바꾸고 그 안에 nutch-site.xml을 넣어야합니다. 이 매개 변수는 구문 분석 및 페치를 동시에 수행하는 기본 구문 분석 메커니즘을 변경합니다. nutch의 다른 임무들에 대해서는 스스로 개발해야만한다고 생각합니다.

관련 문제