2011-11-14 3 views
1

저는 프로젝트에서 일하고 있습니다. 여기서 우리는 blogg 데이터 검색 프레임 워크를 소개하려고합니다. 우리는 300 GB가 넘는 대용량 데이터 세트에 대해 lucene/Solr의 성능을 예측하는 데 어려움을 겪고 있습니다.lucene/Solr 성능 및 하드웨어 요구 사항

단일 서버 설정을 사용하여 성능 요구 사항을 충족시킬 수 있는지 또는 복제 된 또는 분산 된 솔루션을 사용해야하는지 여부는 확실하지 않습니다.

누구 하드웨어 위에 추정을 제공 할 수 있고 루씬을 사용하여 실행 가능한 해결책을 확정

+0

더 나은 측정 항목은 실제 색인 생성 가능 텍스트 콘텐츠의 크기를 찾는 것입니다. 300GB의 일반 텍스트에 대한 요구 사항은 300GB의 .doc 파일과 크게 다를 것입니다. 또한 작은 데이터 세트 (예 : 데이터의 10 %)에 대한 테스트를 실행하여 성능 및 리소스 요구 사항에 대한 아이디어를 얻으시기 바랍니다. –

답변

2

아무것도 없다면 데이터 (또는 오히려, 적어도 간단한 기준)에 적합한 모양없이 말할 수있다. 인덱싱 및 검색 성능 (별도로 고려해야 함)은 구성에 따라 크게 다를 수 있습니다.

그러나 this article은 Lucene 인덱싱 속도에 대한 전반적인 인상을 주어야합니다. 최신 현대식 컴퓨터에서 약 13 분 만에 21GB의 위키피디아 기사를 인덱싱 할 수 있습니다.