가능한 중복 :
내가 인덱스에서 가장 발생하는 단어 또는 단어 그룹을 찾을 필요가
How to get frequently occuring phrases with Lucene루씬 가장 흔한 단어 나 단어 그룹을 찾기위한
대부분 발생하는 텍스트가있을 수 있습니다 의미 단어 그 자체 또는 단어 그룹. 트위터 인기 주제와 매우 비슷합니다 (물론 해시 태그 요소가 없음). Lucene은 그렇게 할 수있는 방법을 제공합니까? 아니면 방대한 데이터에서이를 수행 할 수 있습니까? 질문이 명확하지 않으면 좀 더 구체적인 예를 들려 줄 수 있습니다. 나는 방법으로 자바를 사용하고있다. 그리고 Lucene 3.5.
빠른 편집에는 "단어 그룹"에 최대 3 단어를 포함 할 수 있습니다. 큰 텍스트에서 "날씨"가 500 번 "날씨가 좋음"이 300 번, 단어 그룹이 "날씨가 좋다"라는 단어가 90 번 있다고 가정 해 봅시다. 나는 "날씨가 좋다"고 생각하는 것이 중요하다는 것을 알아야합니다. 그리고 물론 모든 색인 된 단어를 볼 필요가 있습니다 ...
감사합니다. 당신은 최대 길이 3 연속 토큰 대부분의 발생 순서를 찾으려면 질문에 설명 된대로