2011-02-25 5 views
2

solr에서 약 1500 개의 문서를 반환하는 검색이 있습니다. 이 문서는 기본적으로 제품입니다. 예를 들어, 나는 나의 데이터 세트에 여자 신발을 잔뜩 가지고있다. 내 데이터 세트에는 여성용 다양한 신발이 있지만 크기가 11 인 여성용 나이키 트레이너, 크기가 10 인 여성용 나이키 트레이너 등과 같이 매우 유사한 결과가 있습니다. 이제 여성용 신발을 검색 할 때 solr scoring 이 결과 중 특정 세트가 모두 매우 유사한 위쪽으로 거품을 일으 킵니다. 예를 들어 특정 신발 모델의 모든 색상이 맨 위에 올 수 있습니다. 그들은 분명히 다른 제품이지만 나이키 트레이너 신발의 모든 색상보다 더 다양한 결과를 얻고 싶습니다.solr 결과 출력에서 ​​비슷한 상위 결과 감소

누구에게 의견이 있습니까? 참고로, 개별적으로 착색 된 모든 제품을 제거하고 싶지는 않습니다. 누군가 파란색 팔찌 조련사를 검색하면 파란색 모델을 가장 좋은 결과로 가져 오기를 원합니다. 내 주요 쿼리로 dismax 쿼리를 사용하고 있습니다. 제가하고 싶은 것은 기본적으로 "다른 결과와 비교 한 이름의 독창성"과 같은 일종의 요소를 강화하는 것입니다.

답변

2

당신 수 있도록 색상이나 같은 필드에 하나 붕괴 :

http://wiki.apache.org/solr/FieldCollapsing

하거나 중복 검색 근처에서 사용 할 수있을 때 색인 :

http://wiki.apache.org/solr/Deduplication

http://karussell.wordpress.com/2010/12/23/detect-stolen-and-duplicate-tweets-with-solr/

후자를 알고리즘은 jetwick에서 트윗을 구현하므로 t itles이지만 큰 문서에는 충분하지 않습니다 ('짧은 문자열'에 대한 표절 검색 만 가능). 긴 텍스트의 경우 로컬 민감한 해싱이 필요합니다.

http://en.wikipedia.org/wiki/Locality_sensitive_hashing