2017-05-22 1 views
2

나는 Elasticsearch 5.3.1을 사용하고 있으며 BM25 및 Classic TF/IDF를 평가하고 있습니다. 선택 사항 인 discount_overlaps 속성을 발견했습니다.탄성 검색 유사성 discount_overlaps

표준 계산시 오버랩 토큰 (0 위치 증가 토큰) 을 무시할지 여부를 결정합니다. 기본적으로 이는 사실이며, 겹치는 토큰 인 은 계산 규범에 포함되지 않습니다.

가능한 경우 누군가가 위의 의미를 예제로 설명 할 수 있습니까?

답변

2

먼저 표준은 boost/√length으로 계산되며이 값은 인덱스 시간에 저장됩니다. 이로 인해 짧은 필드의 일치 항목이 더 높은 점수를 얻습니다 (10 개 중 1 개가 일반적으로 1000 개보다 1 일치하므로).

예를 들어, 분석기에 동의어 필터가 있는데,이 필드는 색인 된 양식의 동의어를 색인하는 것입니다. 그럼 우리 지수는이 텍스트 : 남자는 분석기 일단 프리즈

을 던졌다

필드에 모든 동의어를 추가, 그것은 다음과 같습니다 post-analysis graph

을 지금 우리가 검색 할 때 "젠체하는 사람이 원반을 던졌다."우리는 성냥을 얻을 것이다.

질문은 위의 규범 계산을 위해 길이는 얼마입니까?

  • 경우 discount_overlaps = 거짓, 다음 길이 = 12
  • discount_overlaps = true의 경우, 다음
+1

(5)는 당신의 도움을 주셔서 감사합니다 = 길이! 이 링크에 대해 더 읽을 수 있도록 링크가 있습니까? 나는 그것이 책의 일부 인지도 모르겠다 (나는 그것을 살 수있다) – alkis

+0

길이 값을 찾기위한 질의가 있는가? –