SOLR 용 Nutch 소스 코드 구성을 찾고있었습니다.SOLR 용 Nutch 구성 방법
여기에 따라야 할 단계가 있으며 성공적으로 구성 할 수 있습니다.
감사합니다,
Jayesh Bhoyar
SOLR 용 Nutch 소스 코드 구성을 찾고있었습니다.SOLR 용 Nutch 구성 방법
여기에 따라야 할 단계가 있으며 성공적으로 구성 할 수 있습니다.
감사합니다,
Jayesh Bhoyar
체크 아웃과 Nutch 빌드 : 터미널을 사용 SVN에서 최신 소스 코드를하지 1.Get
. Nutch 1.x에서 (ie.trunk)에 대한
이 실행2.Add"http.agent.name "및"http.robots.agents "공동 /nutch-site.xml ".
nutch-site.xml.template 파일의 이름을 nutch-site.xml로 바꾸고 이에 따라 변경해야합니다.
이러한 속성에 대한 설명은 conf/nutch-default.xml을 참조하십시오.
3. "plugin.folders"를 추가하고 {PATH_TO_NUTCH_CHECKOUT}/build/plugins로 설정하십시오. 예. 더/구축/플러그인은 현재 존재하는 폴더 없습니다 있습니다
<property>
<name>plugin.folders</name>
<value>/home/Desktop/2.x/build/plugins</value>
</property>
: Nutch는 "/home/Desktop/2.x"에 존재하는 경우
는에 속성을 설정합니다. 그러나 "ant eclipse"명령을 실행하면 {PATH_TO_NUTCH_CHECKOUT}에 "/ build/plugins"가 표시됩니다.{PATH_TO_NUTCH_CHECKOUT}/build/plugins로 절대 경로를 설정 한 이유는 무엇입니까?
여기에 상대 경로를 지정하지 마십시오.
4.Run이 명령을
개미 일식
5.Load 프로젝트를 이클립스에서
5.1.In 이클립스, "파일"을 클릭 -> "가져 오기 ..."
5.2 "기존 프로젝트를 작업 공간으로"선택하십시오.
5.3 다음 창에서 nutch 2.x의 체크 아웃을 수행 한 위치로 루트 디렉토리를 설정하십시오 r 트렁크). "마침"을 클릭하십시오.
5.4 이제 2.x (또는 트렁크)라는 새 프로젝트가 작업 영역에 추가 된 것을 볼 수 있습니다. Eclipse가 SVN 캐시를 새로 고치고 작업 영역을 빌드 할 때까지 잠시 기다려주십시오. Eclipse의 오른쪽 하단에서 상태를 볼 수 있습니다.
5.5.In 패키지 탐색기 마우스 오른쪽 프로젝트 "2.x에서"(또는 트렁크)를 클릭, "빌드 경로"를 선택 -> '주문 및 내보내기 "5.6.In
"구성 빌드 경로 " 탭에서 아래로 스크롤하여 "2.x/conf"(또는 trunk/conf)를 선택하십시오. "Top"버튼을 클릭하십시오.슬프게도 이클립스는 다시 작업 공간을 만들지 만 이번에는 많은 시간이 걸리지 않을 것입니다.
6.Need는 jar 파일 다음 다운로드하는 :
http://mvnrepository.com/artifact/org.elasticsearch/elasticsearch/0.90.1
구성 일식 위의 jar 파일.
7. 오류 "ElasticsearchException"이 표시됩니다. 를 변경하면 이클립스에서 nutch 코드를 실행할 수 있습니다 "ElasticSearchException"(S 자본)
8.Now에 :
이8.1.Lets가 분사 작동을 시작합니다.
8.2 패키지 탐색기에서 프로젝트를 마우스 오른쪽 버튼으로 클릭하고 "Run As"를 선택한 다음 "Run Configurations"를 선택하십시오.
8.3. 새 구성을 작성하십시오. 이름을 "inject"로 지정하십시오. 1.x에서 즉, 트렁크
: 메인 클래스를 설정 같은 : org.apache.nutch.crawl.Injector
2.x를 들어: org.apache.nutch.crawl.InjectorJob :로 메인 클래스를 설정
8.4. 인수 탭에서 프로그램 인수에 대해 시드 URL이있는 입력 디렉터리의 경로를 제공하십시오.
8.5. VM 인수를 "-Dhadoop.log.dir = logs -Dhadoop.log.file = hadoop.log"로 설정하십시오.
8.6. "적용"을 클릭 한 다음 "실행"을 클릭하십시오.
8.7. 모든 것이 완벽하게 설정 되었다면 콘솔에서 주입 작업이 진행되는 것을 볼 수 있습니다.
Nutch 1.x의 클래스 (ietrunk)
주사한다 : - org.apache.nutch.crawl.Injector
는 생성 : - org.apache.nutch.crawl.Generator
는 가져 오기 : - org.apache.nutch.fetcher.Fetcher
구문 분석 : - org.apache.nutch.parse.ParseSegment
UPD atedb : - Nutch 2.x에서의 org.apache.nutch.crawl.CrawlDb
클래스
주사한다 : - org.apache.nutch.crawl.InjectorJob
는 생성 : - org.apache를
인출 .nutch.crawl.GeneratorJob : - org.apache.nutch.fetcher.FetcherJob
구문 분석 : - org.apache.nutch.parse.ParserJob
updatedb : - org.apache.nutch.crawl.DbUpdaterJob
희망 사항이 도움말 !!!!
https://wiki.apache.org/nutch/RunNutchInEclipse의 아름다운 사본/pase – HMS