2 개의 문서가 있고 "Twitter"라는 키워드를 검색하고 있습니다. 두 문서가 모두 "태그"필드가있는 블로그 게시물이라고 가정합니다.탄성 검색 - 용어의 빈도가 높을수록 점수가 높습니다.
문서 A는 "태그"필드에서 만 1 용어를 가지고 있으며, 그것은 "트위터"입니다. 문서 B는 '태그'입력란에 100 개의 용어가 있지만 그 중 3 개는 'Twitter'입니다.
탄성 검색은 문서 B가 더 높은 주파수가 비록 문서화에 높은 점수를 제공합니다. 그러나 점수에는 용어가 더 많으므로 "희석"됩니다. 검색 빈도가 높기 때문에 문서 B에 더 높은 점수를 부여하려면 어떻게합니까?
나는 ElasticSearch/루씬 문서에서 용어의 수에 따라 약간의 정상화를 수행 알고있다. 문서 B가 더 높은 점수를 얻도록이 정규화를 어떻게 비활성화 할 수 있습니까?