2010-12-16 4 views
-1

내 자신의 검색 엔진을 만들려고합니다.Nutch는 무엇에 관한 것입니까?

검색 엔진, 크롤러 등을 검색 할 때 Nutch에 대해 혼란스러워했습니다.

나는 Nutch가 무엇인지 이해하지 못합니다. Lucene (정확하지 않으면 Im 나 잘못된 경우) 또는 검색 엔진 (예 : going, bing, yahoo)을 만들기위한 프레임 워크와 같은 내부 용입니까?

답변

2

Nutch는 완전한 기능을 갖춘 검색 엔진입니다. Nutch는 외부 웹 사이트를 크롤링 할 수 있으며 robots.txt를 이해하고 존중합니다.

http://nutch.apache.org/about.html

개요 Nutch 오픈 소스 웹 검색 소프트웨어를합니다. 그것은 웹 세부 사항을 추가 루씬과 SOLR을 기반으로, 이러한 크롤러, 링크 - 그래프로 데이터베이스, HTML 및 기타 문서 형식 등을위한 파서

Nutch는 단일 시스템에서 실행할 수 있습니다

있지만, 이익이 시스템은 향상 될 수있다 하둡 클러스터

에서 실행 로부터 많은 힘이 플러그인 메커니즘을 사용하여 (예를 들어 다른 문서 형식을 구문 분석 할 수 있습니다.)

Nutch에 대한 자세한 내용은 Nutch wiki를 참조하십시오.

0

Nutch는 검색을 수행하기 위해 Java Servlet이있는 사전 구성된 구성 가능한 웹 크롤러입니다. 이 작업을 프로젝트로하고 싶다면 Nutch는 검색을 입력하고 결과를 표시하기위한 페이지를 작성하기 때문에 지나치게 많은 작업을 수행합니다.

관련 문제