1
문서 당 검색어 조회수 (발행 수의 수)를 가져
A
답변
1
SpanTermQuery.getSpans가를 줄 것이다 문서 열거 및 용어가 나타나는 위치 문서가 정렬되므로 위치 정보를 무시하고 각 문서가 나타나는 횟수를 계산할 수 있습니다.
5
Lucene은 문서 기반 색인 대신 필드 기반 색인을 사용합니다. 문서 당 단어 수를 얻기 위하여 는 : 문서를 통해
- 으로 반복은 IndexReader.document()를 사용으로 isDeleted().
- 문서 d에서 Document.getFields()을 사용하여 필드를 반복합니다.
- 각 필드 f에 대해 getTermFreqVector()을 사용하여 용어를 가져옵니다.
- 용어 벡터로 이동하고 용어 당 합수를 계산하십시오.
- 필드 당 용어 빈도의 합계는 문서의 용어 빈도 벡터를 제공합니다.
+1
+1. 텍스트의 형태소 분석 및 기타 변형을 고려해야 할 수도 있습니다. 예를 들어, 줄기가 붙은 필드에서 "아름다움"이라는 단어를 검색 한 경우 색인의 실제 용어는 "beauti"입니다. –
관련 문제
- 1. Google 큰 표가있는 문서에서 단어의 동시 발생
- 2. 루씬 문서 점수는 후 검색
- 3. 아이폰 SDK : 아버지의 날</p> <p>제목 : 아버지의 날</p> <p>제목
- 4. 어느 것이 가장 좋은 방법입니까?
- 5. 가장 좋은 방법은 내 pythpath에 파일 방법을 추가 할 수 있습니다. 저장할 수 있습니다
- 6. 누구나 C++에서 이름을 나눌 수있는 간단한 방법을 제안 할 수 있습니다.
- 7. 스페인어 데이터베이스를 얻을 수있는 곳 <-> 영어 번역?
- 8. 어떻게 .. <p></p> 내가 어느 날 내가 OpennetCF SDK를 다운로드 할 필요가 있었다 제안 해주십시오 opennetCF..can에서 브라우저 컨트롤을 얻고 싶은 .. opennetCF
- 9. 루씬 쿼리의 임기 문서 루씬과
- 10. 방법 키에 따라 방법 그룹 결과를해야 출력을</p> <p>출력을 얻을 제안 해주십시오 프로그램에 프로그램 아래
- 11. 어느 한 날 정확히 파이썬 피클를 사용하고 나에게 하나의 좋은 예를 제공 곳
- 12. 어느 프로젝트가 vb.net의 반쯤 알려진 학생에게 가장 좋을 수 있는지 제안 해 줄 수 있습니까?
- 13. 새로운 라인이 <code><br></code> 태그를 사용하여 얻을 수있는 HTML에서
- 14. Lucene의 문서 당 히트 수
- 15. 가장 좋은 방법은 그들이 선택할 수있는 내가 로그인하는 고객을 위해 내 웹 사이트에 방법을 추가하고자 한 번 기록하고있어</p> <p>(안 어쩌면) PDF 파일을
- 16. WinForms : 'Processing ..'패널을 쉽게 팝업 할 수있는 방법을 찾고 있습니다.
- 17. 얻을 <JSON 문자열에 표시 할 수 없습니다
- 18. <form target = "IFrame">에서 응답을 얻을 수있는 방법
- 19. 미래에 진행을 얻을 수있는 능력 <T> 개체
- 20. Lucene (.NET) 문서 구조 및 성능 제안
- 21. 페이지의 <title> 태그 내용을 XML로 구문 분석 할 수없는 경우 어떻게 얻을 수 있습니까?
- 22. 비동기가 어느 날 다시 올 것입니까?
- 23. <form>을 추가 한 후 문제가 발생 했습니까?
- 24. 구문이 <a> (또는 기타) 요소에 없음을 확인하십시오.
- 25. UISegmentedControl의 선택된 색인을 파생시키는 좋은 방법으로 제안 할 수있는 것
- 26. 파이썬 : 복잡한 사전을 얻을 수있는 가장 좋은 방법은
- 27. 어느 것이 가장 좋은 COMET 서버입니까?
- 28. 어떻게 루씬
- 29. <% = will_paginate %>로 페이지 당 요소 수 변경
- 30. 내가하려고 할 때, 나는 오류 메시지</p> <p>다음 얻을 .. VS2008
lucene java 또는 lucene .net? – skaffman