4

전체 텍스트 검색 엔진의 아키텍처를 설계하고 있습니다. 그 중 하나는 응답 시간이 거의없는 대형 데이터 세트 간의 쿼리 처리입니다. 내가 알아낼 수있는 한 가지는 반전 된 인덱스를 파티션으로 분할하는 것입니다. 이를 위해 용어 기반 파티션과 문서 기반 파티션이라는 두 가지 전략이 있습니다. 그러나 큰 데이터 세트 중에서 역변환을 빠르게하는 다른 방법이 있는지 정말 알고 싶습니다.역 색인 검색을 더 빠르게 만드는 방법은 무엇입니까?

답변

8

video은 분산 된 전체 텍스트 검색 엔진 ElasticSearch의 개발자 인 Shay Banon과 연설합니다. 비디오에서는 용어 기반 파티션과 문서 기반 파티션의 장단점에 대해 설명합니다.

기본적으로 용어 기반 파티션은 프로세스/노드간에 너무 많은 네트워크 대역폭을 생성합니다. 그리고 멋지게 구현하는 것이 더 어렵습니다. 문서 기반은 구현 및 결과 생성이 매우 간단합니다.

또한 그는 in this lecture by Jeffrey Dean의 차이점을 설명하고 Google이 문서 기반 파티션을 사용한다고 말합니다.

검색 엔진을 배포하는 두 가지 주요 방법입니다. 나는 그것을하는 다른 방법을 알지 못한다. 어쨌든 당신은 정보 검색 문헌에서 주제에 대한 새로운 연구를 원할 수 있습니다.

관련 문제