2012-02-10 1 views
4

내 문제는 검색이 내 응용 프로그램에 약간 추가 된 것이므로 전체 아이디어를 파고 들기 위해 많은 시간을 투자하고 싶지는 않습니다. 내 검색 결과를 보면 매우 일반적인 패턴 (7 점 이상)과 매우 나쁜 점 (마녀 점수 0.10 점)이 있습니다. 점수 이외의 다른 기준을 사용하여 결과를 정렬하려면 0.10이 쿼리와 거의 관련이 없으므로 처음에는 목록에서 끝나기 때문에 거의 이해가되지 않습니다.Solr/Lucene을 사용하는 동안 특정 점수 미만의 히트 수를 줄이는 방법은 무엇입니까?

심각하게 말하자면, 점수가 3 점 미만인 모든 항목을 잘라내는 것이 내 결과 방식을 더욱 일관되게 만들고 정렬이 훨씬 의미가 있습니다.

이제 기본적인 연구를 한 후에 많은 사람들이 생각하기에 Solr 결과를 점수로 필터링하는 것은 정말 나쁜 생각입니다. 이 작업을 수행하는 방법에 대한 일부 히트가 있지만 아직 해결 방법을 찾을 수 없습니다.

frange를 사용하여 제안 된 아이디어 (적절한 q 쿼리 또는 qf 모두)는 실제로 작동하지 않습니다. 페이지 매김을 저해하고 느린 일을 처리하며 일반적으로 많은 불필요한 작업을 수행하기 때문에 App 자체에서 낮은 점수 결과를 버리는 것은 꽤 무디다.

구글에서 대략 na 시간 후에 많은 사람들이 실제로이 솔루션을 원한다는 것을 알았지 만, 저에게 도움이되는 것을 찾을 수는 없었습니다.

그래서 솔레 측에서 점수가 낮은 점수를 얻는 방법이 있습니까? 거기에 사용자 지정 필터가 있습니까?

편집 : 광대 한 결과

은 어떤 이유로 하단에 상당한 점수 차이가있다. 예를 들어 마지막으로 관련 결과가 4.5 점이라고하면 0.12에 다음 결과가 항상 더 많습니다 ... 아마도 색인 수준에서 뭔가 잘못하고있는 것입니까? 결과 해시에서 관련없는 결과를 푸시 할 수있는 간단한 방법이 있습니까? 더 많은 조사가 끝난 후에는 < 1 점을 버린 후에 더 좋아지지 않을 것입니다 ...

+2

한 가지 사실은 점수가 절대적인 의미가 아니라 비교 감각에서만 의미가 있다는 것입니다. 감각. "좋은"결과는 특정 검색에 대해 .2의 점수를 가질 수도 있습니다. 따라서 임계 값을 경험적으로 결정해야합니다. 그리고 컷오프를 설정하면 실제로 작업 결과를 차단할 수 있으며 (IMO) 당신과 대화를 거부하는 여자 친구와 심리적으로 동일합니다. 따라서 임계 값을 설정하는 경우 임계 값 아래의 결과 (및 나열된 페이지)가 회색으로 표시됩니다 ([예제보기] (http://stackoverflow.com/questions/209170/how-much-does-it-cost- 개발을위한 아이폰 애플리케이션)) – aitchnyu

+0

임계 값에 대한 결정이 까다 롭다는 것을 알고 있습니다 ... 일반적으로이 경우 정렬 문제를 어떻게 해결할 수 있습니까? 점수에 의해 먼저하고 가격에 의해 나중에하는 것은 스코어가 부유하기 때문에 아무 의미가 없습니다. 결과를 점수 범위로 매핑하는 것조차도 바보입니다. 왜냐하면 사용자에게는 정렬이 깨진 것처럼 보이기 때문입니다. 나는 약간 vaild 결과를 죽이기 위하여 perfetly 벌금이다. 내 경우에는 목록 맨 위에 관련성없는 항목을 표시하는 것보다 훨씬 낫습니다. A.로 시작하기 때문입니다.solr에서 어떻게 해결할 수 있을지 생각해 본 사람이 있습니까? – mdrozdziel

+2

부스트 기능과 쿼리는 필드와 숫자의 숫자 값을 기반으로 ** 검색 점수 **를 향상시킵니다. 점수에 영향을 주도록 가격을 설정할 수 있습니다. (BTW는 그런 기능을 전혀 사용하지 않았기 때문에 경험에 대해 말하지 않습니다.) – aitchnyu

답변

0

대부분의 사람들은 구제하는 것으로 보입니다.

하나의 아이디어는 원하는 백분율을 선택한 다음 첫 번째 문서를보고이를 분모로 사용하고 이후의 모든 문서를 분자로 사용한 다음 비율 미만으로 중지하는 것입니다. 하지만이 수준에서 그렇게하면 페이징 등이 엉망이된다는 것에 동의합니다.

또 다른 아이디어는 점수를 0 점 이하로 낮추는 맞춤형 Solr 플러그인을 작성하여 페이지 매김 및 패싯 등을 수정하는 것입니다. 시작하는 것은 "유사점"채점 코드가 기본이 될 것입니다 (그 이름은 약간 이상합니다. 나는 몇 번 나 혼자 지나쳤습니다)

관련 문제