2011-01-25 4 views
2

필자는 CSV 형식의 파일에서 1 페타 바이트 이상의 데이터를 검색해야합니다. LUCENE을 사용하여 색인을 생성 한 후에는 색인 파일의 크기가 원래 파일보다 두 배가됩니다. 인덱싱 된 파일 크기를 줄일 수 있습니까 ??? HADOOP에서 LUCENE 색인 파일을 배포하는 방법과 검색 환경에서 사용하는 방법? 또는 그것은 필요하다, 나는 루펜 색인을 배포하기 위해 solr를 사용해야합니까 ??? 내 요구 사항은 파일의 페타 바이트 이상의 즉시 검색을 수행하고 있습니다 ....데이터의 페타 바이트 단위로 즉각적인 검색

+0

"인스턴트"란 무엇을 의미합니까? 당신이 google/yahoo/어떤 검색 엔진 작풍든지하고 싶은 경우에, 나는 해결책으로 divind의 앞에 그들의 건축술을 공부할 것을 조언 할 것입니다. – Riduidel

+0

옙, 비슷한 Google 즉시 검색. 하지만 여기서 요구 사항은 쿼리를 기반으로 CSV 파일을 검색하고 차트를 그립니다. 쿼리를 변경하면 차트도 변경됩니다. – Nageswaran

답변

1

선반 검색 엔진 (예 : Lucene)에서 괜찮은 모든 데이터 크기를 통해 검색 기능을 제공 할 수 있어야합니다. 인덱스를 디자인하고 검색 작동 방식을 구성하기 위해 약간의 작업을해야 할 수도 있습니다. 그러나 이것은 단지 설정입니다.

즉시 결과를 얻지 못할 수도 있지만 매우 빠르게 결과를 얻을 수 있습니다. 속도는 아마도 당신이 그것을 어떻게 설정하고 당신이 어떤 종류의 하드웨어를 사용하는지에 달려있을 것입니다.

인덱스가 원본 데이터보다 큰 것을 언급합니다. 이것은 예상된다. 인덱싱에는 대개 비정규 화의 일부 형식이 포함됩니다. 인덱스의 크기는 종종 속도와 균형을 이룹니다. 데이터를 미리 슬라이스 앤 다이스 방식으로수록할수록 참조를 찾는 것이 더 빠릅니다.

마지막으로 색인을 배포하는 것에 대해 언급합니다. 이는 거의 이 아니며 무언가입니다. 많은 페타 바이트의 데이터를 배포하는 실용성은 꽤 어렵습니다. 당신이 원하는 것은 어딘가에있는 큰 규모의 컴퓨터에 인덱스를 두어 데이터에 검색 서비스를 제공하는 것입니다 (쿼리를 데이터에 가져오고 데이터를 쿼리로 가져 가지 마십시오).

+0

감사합니다. lucene과 hadoop을 어떻게 통합 할 것인가? Lucene에서 Hadoop을 어느 부분에서 사용할 수 있습니까? 데이터의 페타 바이트가 Hadoop 파일 시스템을 통해서만 배포되기 때문에 .... – Nageswaran

+0

hadoop과 통합하여 Lucene에서 Map/Reduce를 사용할 수 있습니까? – Nageswaran

4

하둡 및 맵 축소는 배치 처리 모델을 기반으로합니다. 즉각적인 응답 속도를 얻지는 못합니다. 도구가 설계 한 것이 아닙니다. Hadoop으로 색인 속도를 높일 수는 있지만 쿼리를 위해 원하는 것은하지 않을 것입니다.

Lucene의 Cassandra 기반 백엔드 인 Lucandra을 살펴보십시오. Cassandra는 Facebook에서 개발 한 또 다른 분산 형 데이터 저장소로, hadoop보다 쿼리 기반 액세스 모델에서 더 빠른 액세스 시간을 제공하도록 설계되었습니다.

0

구현을 변경하지 않으려면 lucene 인덱스를 10, 20 또는 그 이상의 인덱스로 분해하여 병렬로 쿼리해야합니다. 필자의 경우 (8 개의 인덱스 생성), 80GB의 데이터가 있었으며 개발자 머신 (Intel Duo Core, 3GB RAM)에서 작동하는 검색을 구현해야했습니다.

관련 문제