2011-03-01 4 views
2

우리는 당신이 이미 우리가 정말 좋은 검색 엔진이 필요하다는 것을 알 수있는 벼룩 시장 웹 사이트를 개발 중에 있습니다. 왼쪽의 필터링 메뉴는 반드시 프로젝트에 있어야합니다. 어쨌든, 젠드 lucene을 사용해야하는지 아니면 lucene 서버를 설치하고 검색 파일을 API와 연결해야하는지 묻습니다. 나는 성능/벤치 마크 비교 결과를 찾을 수 없었고 여기에 물어보고 싶었다. 제한, 장점, 불이익에 대한 의견을 듣고 싶습니다.어떤 방법으로 PHP 또는 lucene 자체와 PHP로 포트로 젠드 lucene 검색을 권장합니까?

+0

출품량, 언어 및 교통량 및 재구성 빈도에 관한 정보를 제공해야합니다. 이러한 요소는 권장 사항에서 중요한 역할을 할 수 있습니다. – allnightgrocery

+0

매일 가장 많은 10k 데이터 항목 (예 : 모델, 작성, 기능 ...과 같은 많은 특성을 가진 중고차 분류) 및 한 달에 10 억 페이지 뷰까지 가능합니다. –

답변

4

내 경험에 의하면 Zend Lucene은 소량의 데이터에는 좋지만 데이터를 추가 할 때 속도가 매우 느립니다. lucene을 zend하기위한 새로운 대안을 연구해야했습니다. 왜냐하면 성능이 현재의 프로젝트에서 그것을 잘라 내지 못하기 때문입니다. 짧은 이야기를하기 위해 Apache Lucene을 기반으로 구축 된 Solr을 사용했습니다. 70k + 기사의 색인 생성은 몇 시간에서 몇 분으로 진행되었습니다.

나는 Sphinx이 나의 결정에서 가까운 순간에 나왔다는 점을 덧붙여 봐야 할 가치가있다.

+0

Jeff, Sphinx는 텍스트 기반 솔루션입니다. 우리는 다음과 같은 검색 필터를 제공하지 못합니다. "2 도어" "4 도어"옵션 (여러 필드)을 가진 자동차. 따라서 스핑크스를 사용하지 않습니다. Solr 대 zend에 대하여; 실제로 우리 웹 사이트에서 "한계"의 측면에서; 일일 최대 데이터 10 만 건 (분류 된 광고)과 매일 최대 약 10 억 건의 고유보기가 매일 발생합니다. 따라서 색인 생성 시간이 아닌 검색에 더 집중하고 있습니다. (색인 생성은 광고가 입력 된 후 자동으로 실행되므로 분이 아닌 1 일 안에 철회됩니다.) –

+0

색인 생성 용량을 제외하고 검색 할 수있는 숫자가 얼마 남지 않았습니다. –

+1

그런 종류의 숫자를 말하는 경우에는 Zend_Lucene 솔루션을 사용하지 마십시오. Zend_Lucene을 사용하여 검색 결과를 기다리는 동안 9 ~ 10 초가 걸리므로 Solr을 사용하여 밀리 초까지 걸렸습니다. 그리고 그것은 70k 레코드에 대한 것이 었습니다. –

1

최소 설치 노력이 필요하며 PHP interface이 있습니다. Solr을 제안합니다. 또한 faceting (측면의 필터)에 대한 내장 지원이 있으며 매우 fast and scalable입니다.

+0

안녕하세요! solr 및 lucene에 대한 예제 performace 차트를 알고 있습니까? solr이 lucene 위에 있기 때문에. 나는 정말로 젠드 루센, 루센, 솔라 사이에 있고 아직 결정할 수 없었다. –

+0

Solr은 Lucene (검색 엔진이 아닌 라이브러리 임) 위에 구축되어 있습니다. 두 가지를 직접 비교할 수는 없습니다. 이미 Solen에있는 코드와 매우 유사한 Lucene을 사용하는 코드를 작성해야합니다. 적절하게 구성된 Solr이 Lucene을 사용하는 사용자 정의 구현보다 현저히 느린 경우 매우 놀랄 것입니다. 다른 사람들이 Solr로부터 얻는 성과를 검토하고 요구 사항을 충족하는지 확인하는 것이 좋습니다. – nikhil500