패싯을 사용하여 대부분의 용어를 색인에서 찾을 수 있다는 것을 알고 있습니다. 다음 입력에 예를 들어 elasticsearch에서 가장 많이 사용되는 문구를 찾는 방법?
:B:3
AA:3
A:2
BB:2
CC:1
C:1
하지만 그게 가능한 다음 목록에 궁금 해요 : :
"A B C"
"AA BB CC"
"A AA B BB"
"AA B"
용어면이 반환
AA B:2
A B:1
BB CC:1
....etc...
인가를 ElasticSearch에는 이러한 기능이 있습니까?
아마도 'shingle'분석기를 사용하는 필드에서 맞춤 분석기를 정의 해보십시오. 이렇게하면 단어를 조합하여 토큰을 만듭니다 (묻는 것처럼). 그런 다음 패싯에서 이러한 결합 된 토큰에 대한 카운트가 반환되는지 확인하려고 할 수 있습니다. [싱글 표지 토큰 필터에 대한 정보는보십시오] – ramseykhalaf
감사합니다. 이것은 작동 할 수도 있습니다. 패싯은 토큰을 반환하므로 대부분이 phrase_tokens도 반환합니다. 그러나 이것은 기존 인덱스에는 적용 할 수 없으며 파일 크기가 너무 커집니다. 매일 5GB의 내 데이터에이 기능이 필요합니다. 그날이 끝나면 더 이상 필요가 없습니다. 따라서 매일 5GB의 데이터를 색인으로 작성하고 패싯 결과를 저장 한 다음 새 색인 데이터를 삭제하는 것이 가장 좋습니다. (이것은 계속 반복 될 것입니다) 다른 옵션은 무엇입니까? – shyos
답변은 http://stackoverflow.com/questions/39380463/get-top-100-most-used-three-word-phrases-in-all-documents에 있습니다. – AlexG