2011-01-05 7 views
1

TermVery : ExtractTerms는 termvectors/positions/offsets가 켜져있을 때 더 많은 계산을합니까? (경기가 1 번 이상 있다고 가정). 반대로, 거꾸로 된 파일 정보가 꺼져 있어도 ExtractTerms는 항상 1을 반환하고 용어는 1 개만 반환합니까?Lucene 채점 : TermVectors를 사용하는 TermQuery

편집 : 스키마에서 termvectors를 켜면 점수를 얻는 방법과 위치는 어디까지입니까?

답변

1

TermQuery.ExtractTerms은 결과가 아닌 쿼리의 용어를 추출합니다. 따라서 "foo : bar"를 검색하면 색인에 포함 된 내용과 관계없이 항상 하나의 용어 만 반환합니다.

highlighting에 대해 알고 싶은 소리가납니다. Query.ExtractTerms이 아닙니다.

편집 : 당신이 요구하는 것처럼 귀하의 의견을 바탕으로, 그것은 소리 : "어떻게 이 용어 벡터에 의해 영향을 득점한다?" 그 대답은 전혀 아닙니다. 빈도, 표준 등은 색인 시간에 계산되므로 저장하는 항목은 중요하지 않습니다.

slop과 함께 PhraseQuery은 위치라는 용어를 사용합니다. 사소한 예외는 맞춤 스코어링 클래스는 원하는 데이터를 사용할 수 있기 때문에 용어 벡터뿐만 아니라 페이로드 등도 점수에 잠재적으로 영향을 미칠 수 있습니다.

만약 당신이 단지 TermQuery을하고 있다면, 당신이 저장하는 것은 아무런 효과가 없어야합니다.

+0

Thx Xodarap. 나는 강조하고 싶지 않다. 감사. 나는 성능이나 강조가 아닌 득점 효과에 대해서 궁금해 지네. 나는 위치에 근거한 득점에 대한 참고 문헌을 찾을 수 없다. 문헌에서 일반적으로 "제 1 출현"득점으로 알려진 것; inv 인덱스는 위치 정보를 가져야합니다. 마찬가지로 근접 검색. – willemIP

+0

@willemIP : 요청하신 내용을 반영하여 답변을 업데이트했습니다. – Xodarap

+0

@ Xodorap : 그래서 기본적으로 득점 1 위가 없습니까? 근접도 없습니까? 좋습니다.하지만 득점에 영향을줍니다. 재현 가능한 케이스가 있습니다. 이제 인덱스 시간 변경인지 쿼리 시간인지 결정해야합니다. 인덱싱과 쿼리 모두 점수에 영향을 미칩니다. 검색 필드에 termvectors를 간단하게 포함/제외하는 것과 관련성 수치에서 급진적 인 변화를 일으키는 것은 어느 것입니까? – willemIP