2017-10-25 1 views
2

저는 Solr을 처음 접하고 기본적인 채점 모델을 연구하고 있습니다. 기본 점수 모델은 부울을 사용하여 문서 집합을 생성 한 다음 벡터 공간 모델을 사용하여 관련성에 따라 순위를 매기는 것으로 이해합니다. 근접 검색을 사용하는 동안 생성 결과가 벡터 공간 모델에 따라 순위가 매겨 지는지 또는 편집 거리에 따라 점수가 매겨 졌는지 알고 싶습니다.Solr 근접 검색 채점

답변

1

우선 VSM 점수는 org.apache.lucene.search.similarities.TFIDFSimilarity에서 사용됩니다 (Lucene 최신 버전의 기본 유사성은 아닙니다). 예를 들어 org.apache.lucene.search.similarities.BM25Similarity은 비슷한 것을 구현하지만 bag of words이라고합니다.

는 근접 검색의 경우, 기본 클래스 org.apache.lucene.search.similarities.Similarity 중첩 클래스 등 SpanQueryPhraseQuery 같은 "조잡"쿼리를 기록 할 책임이 Similarity.SimScorer있다. 일반적으로 sloppyFreq을 계산하는 방법이 있습니다.이 값은 편집 거리의 함수이며 수식에서 추가 계수로 추가됩니다.

sloppyFreq의 기본 구현 중 하나는 1.0f/(distance + 1)이지만 필요에 따라 사용자 정의 할 수 있습니다.

+0

답변 해 주셔서 감사합니다. 그래서 solr이 문서의 최종 VSM 점수에이 sloppyFreq 점수를 추가합니까? –