2009-12-17 2 views
1
문서 당 검색어 조회수 (발행 수의 수)를 가져
+0

lucene java 또는 lucene .net? – skaffman

답변

1

SpanTermQuery.getSpans가를 줄 것이다 문서 열거 및 용어가 나타나는 위치 문서가 정렬되므로 위치 정보를 무시하고 각 문서가 나타나는 횟수를 계산할 수 있습니다.

5

Lucene은 문서 기반 색인 대신 필드 기반 색인을 사용합니다. 문서 당 단어 수를 얻기 위하여 는 : 문서를 통해

  1. 으로 반복은 IndexReader.document()를 사용으로 isDeleted().
  2. 문서 d에서 Document.getFields()을 사용하여 필드를 반복합니다.
  3. 각 필드 f에 대해 getTermFreqVector()을 사용하여 용어를 가져옵니다.
  4. 용어 벡터로 이동하고 용어 당 합수를 계산하십시오.
  5. 필드 당 용어 빈도의 합계는 문서의 용어 빈도 벡터를 제공합니다.
+1

+1. 텍스트의 형태소 분석 및 기타 변형을 고려해야 할 수도 있습니다. 예를 들어, 줄기가 붙은 필드에서 "아름다움"이라는 단어를 검색 한 경우 색인의 실제 용어는 "beauti"입니다. –

관련 문제