Solr의 파편 수

6TB의 데이터에 대해 인덱스가 생성 될 것으로 예상됩니다. 색인 크기는 약 10GB입니다. 1) 얼마나 많은 조각이 필요합니까? 2) 하드웨어 제한으로 인해 Shard 수가 1 개인 Solr 시스템 만 사용하려고합니다. 나는 16GB RAM과 4 코어 머신을 가지고있다.Solr의 파편 수

친절하게도이 사실에 대한 귀하의 경험을 알려주십시오.

출처

2014-11-22 Sumanta Pakira

인덱스 크기가 10GB 이상이고 모든 조각이 하나의 단일 서버에서 살아 있다면이 시점에서 샤딩을 고려할 이유가별로 없습니다. 그것은 아마도 당신에게 많은 것을주지 않을 것입니다. 나중에 더 많은 서버를 추가 할 계획이라면 사용할 수있는 자원의 종류가있을 때 색인을 배포 할 수 있습니다. 이 경우 SolrCloud를 살펴보고 복제본과 샤딩을 모두 처리해야합니다.

지금은 단일 서버에서 단일 서버를 사용하고 큰 쿼리로드를 위해 두 번째 서버에 필요한 경우 복제를 수행 할 수 있습니다.

데이터를 다시 색인화하는 과정은 시작 단계에서 모든 방법을 수행하는 것보다 쉽고 간편하게 처리하는 것이 더 중요합니다.

출처

2014-11-22 12:00:08 MatsLindh

만약 내가 틀렸다면 .... 제발 정정하십시오. 제가 하나의 머신을 사용하고 있다면, 같은 박스 안에서 다른 솔라 인스턴스에 복제를 사용해야합니다. 이 경우 색인의 크기를 유지하기 위해 얼마나 많은 인스턴스를 복제해야합니까? 또한 샤딩을 사용할 때 복제를 수행 할 수 있습니까? –

복제는 단일 샤드를 다른 인스턴스로 복제하므로 문제가되지 않습니다. 이미 샤딩 _and_ 복제를하려고한다면 처음부터 SolrCloud를하고 싶을 것입니다. – MatsLindh

항상 그렇듯이 실행중인 쿼리와 데이터에 따라 다릅니다. 나는 약간의 시간을 투자하고 다양한 구성을 테스트하여 어떤 것이 최상의 가치를 제공하는지 확인하는 것이 좋습니다.

고려해야 할 사항 중 하나는 HA를 필요로한다는 것입니다. 두 번째 서버가 필요하기는하지만 사용자의 요구 사항에 따라 모두 달라질 수 있습니다.

하나의 상자에서 4 개의 10GB 샤드가 있고, 32GB가 JVM에 할당되어 있으며 정상적으로 작동합니다. 그것들은 또한 다른 인스턴스로 SolrCloud로 미러링되기 때문에 쿼리가 그들 사이에 분산됩니다. 일반적으로 하루에 약 250,000 건의 조회가 발생하며 각 조회마다 여러 가지 faceting과 몇 가지 기능이 사용됩니다.

희망이 있습니다.

출처

2014-11-23 04:31:43 user2630270

숫자에 감사드립니다. 다른 인스턴스로 미러링 한 경우 미러 된 인스턴스가 동일한 상자 또는 다른 상자에 있습니까? 응용 프로그램의 총 색인 크기는 얼마이고 사용하는 저장 장치 드라이브의 크기는 얼마입니까? –

복제본은 HA의 다른 상자에 있습니다. 총 색인 크기는 하루 45GB, 200k 쿼리입니다. 드라이브에 확실하지 않지만, 그 색인의 대부분은 어쨌든 리눅스 메모리 캐시에있다. – user2630270

Solr의 파편 수

답변

관련 문제