2009-09-13 7 views
2

내 목표는 뉴스 피드 및 블로그 피드의 집계 도구를 구축하여 인 타이틀먼트를 쉽게 검색/추적 할 수있게하는 것입니다. Terrier, Lucene, SWISH-E 등과 같은 많은 솔루션을 살펴 보았습니다.어떤 오픈 소스 검색 엔진을 사용해야합니까?

기본적으로이 엔진에서 수행 된 비교 연구 소스는 2 개 뿐이며 그 중 하나는 다소 오래되었습니다. 기본적으로 데이터 크기가 너무 크지 않은 경우에 사용되는 검색 엔진을 원하지만 인덱싱은 30 분마다 자주 수행됩니다. 테리어는이 경우에 사용할 좋은 도구가 아닙니다. 데이터 크기가 크고 업데이트 빈도가 낮 으면 더 잘 작동합니다. 정보 검색 분야에서 일한 사람이 조언을 해줄 수 있습니까?

답변

3

Lucene은 잘 알려져 있고 지원되기 때문에 개인적으로는 저의 첫 번째 선택이 될 것입니다.

+0

그는 당신과 동의합니다 - http://zooie.wordpress.com/2009/07/06/a-comparison-of-open-source-search-engines-and-indexing-twitter/ – vinutheraj

+0

만약 나의 주요 목적은 연구를하는 것이지만, Lucene은 다른 유사성/채점 알고리즘의 형태로 많은 것을 제공하지 않습니다. 테리어 이외의 다른 학구적 오픈 소스 엔진이 있습니까? – vinutheraj

+1

Lucene은 득점에 대한 조작을 상당히 허용합니다. 메일 링리스트의 일부 검색은 정보를 가져와야합니다. – daveb

1

언제든지 사용할 수있는 검색 엔진을 찾으려면 fastcatsearch를 확인하십시오.

상업 검색을 위해 개발되었으며 다양한 사이트에 많이 적용되었습니다.

lucene보다 빠르며 쉽게 사용할 웹 기반 웹 관리자가 있습니다.

github에서 호스팅되어 있으므로 확인해보십시오. https://github.com/fastcatgroup/fastcatsearch

관련 문제