SOLR 용 Nutch 구성 방법

SOLR 용 Nutch 소스 코드 구성을 찾고있었습니다.SOLR 용 Nutch 구성 방법

여기에 따라야 할 단계가 있으며 성공적으로 구성 할 수 있습니다.

감사합니다,

Jayesh Bhoyar

출처

2014-04-30 Jayesh Bhoyar

체크 아웃과 Nutch 빌드 : 터미널을 사용 SVN에서 최신 소스 코드를하지 1.Get

. Nutch 1.x에서 (ie.trunk)에 대한

이 실행
SVN은 conf의 "에 appropiate 값으로 https://svn.apache.org/repos/asf/nutch/trunk

2.Add"http.agent.name "및"http.robots.agents "공동 /nutch-site.xml ".

nutch-site.xml.template 파일의 이름을 nutch-site.xml로 바꾸고 이에 따라 변경해야합니다.

이러한 속성에 대한 설명은 conf/nutch-default.xml을 참조하십시오.

3. "plugin.folders"를 추가하고 {PATH_TO_NUTCH_CHECKOUT}/build/plugins로 설정하십시오. 예. 더/구축/플러그인은 현재 존재하는 폴더 없습니다 있습니다

<property> 
    <name>plugin.folders</name> 
    <value>/home/Desktop/2.x/build/plugins</value> 
</property>

: Nutch는 "/home/Desktop/2.x"에 존재하는 경우

는에 속성을 설정합니다. 그러나 "ant eclipse"명령을 실행하면 {PATH_TO_NUTCH_CHECKOUT}에 "/ build/plugins"가 표시됩니다.

{PATH_TO_NUTCH_CHECKOUT}/build/plugins로 절대 경로를 설정 한 이유는 무엇입니까?

여기에 상대 경로를 지정하지 마십시오.

4.Run이 명령을
개미 일식

5.Load 프로젝트를 이클립스에서

5.1.In 이클립스, "파일"을 클릭 -> "가져 오기 ..."

5.2 "기존 프로젝트를 작업 공간으로"선택하십시오.

5.3 다음 창에서 nutch 2.x의 체크 아웃을 수행 한 위치로 루트 디렉토리를 설정하십시오 r 트렁크). "마침"을 클릭하십시오.

5.4 이제 2.x (또는 트렁크)라는 새 프로젝트가 작업 영역에 추가 된 것을 볼 수 있습니다. Eclipse가 SVN 캐시를 새로 고치고 작업 영역을 빌드 할 때까지 잠시 기다려주십시오. Eclipse의 오른쪽 하단에서 상태를 볼 수 있습니다.

5.5.In 패키지 탐색기 마우스 오른쪽 프로젝트 "2.x에서"(또는 트렁크)를 클릭, "빌드 경로"를 선택 -> '주문 및 내보내기 "5.6.In

"구성 빌드 경로 " 탭에서 아래로 스크롤하여 "2.x/conf"(또는 trunk/conf)를 선택하십시오. "Top"버튼을 클릭하십시오.슬프게도 이클립스는 다시 작업 공간을 만들지 만 이번에는 많은 시간이 걸리지 않을 것입니다.

6.Need는 jar 파일 다음 다운로드하는 :

http://mvnrepository.com/artifact/org.elasticsearch/elasticsearch/0.90.1

구성 일식 위의 jar 파일.

7. 오류 "ElasticsearchException"이 표시됩니다. 를 변경하면 이클립스에서 nutch 코드를 실행할 수 있습니다 "ElasticSearchException"(S 자본)

8.Now에 :

이

8.1.Lets가 분사 작동을 시작합니다.

8.2 패키지 탐색기에서 프로젝트를 마우스 오른쪽 버튼으로 클릭하고 "Run As"를 선택한 다음 "Run Configurations"를 선택하십시오.

8.3. 새 구성을 작성하십시오. 이름을 "inject"로 지정하십시오. 1.x에서 즉, 트렁크

: 메인 클래스를 설정 같은 : org.apache.nutch.crawl.Injector

2.x를 들어

: org.apache.nutch.crawl.InjectorJob :로 메인 클래스를 설정

8.4. 인수 탭에서 프로그램 인수에 대해 시드 URL이있는 입력 디렉터리의 경로를 제공하십시오.

8.5. VM 인수를 "-Dhadoop.log.dir = logs -Dhadoop.log.file = hadoop.log"로 설정하십시오.

8.6. "적용"을 클릭 한 다음 "실행"을 클릭하십시오.

8.7. 모든 것이 완벽하게 설정 되었다면 콘솔에서 주입 작업이 진행되는 것을 볼 수 있습니다.

Nutch 1.x의 클래스 (ietrunk)

주사한다 : - org.apache.nutch.crawl.Injector

는 생성 : - org.apache.nutch.crawl.Generator

는 가져 오기 : - org.apache.nutch.fetcher.Fetcher

구문 분석 : - org.apache.nutch.parse.ParseSegment

UPD atedb : - Nutch 2.x에서의 org.apache.nutch.crawl.CrawlDb

클래스

주사한다 : - org.apache.nutch.crawl.InjectorJob

는 생성 : - org.apache를

인출 .nutch.crawl.GeneratorJob : - org.apache.nutch.fetcher.FetcherJob

구문 분석 : - org.apache.nutch.parse.ParserJob

updatedb : - org.apache.nutch.crawl.DbUpdaterJob

희망 사항이 도움말 !!!!

출처

2014-04-30 17:29:37

https://wiki.apache.org/nutch/RunNutchInEclipse의 아름다운 사본/pase – HMS

SOLR 용 Nutch 구성 방법

답변

관련 문제