0
에 bigrams의 주파수를 추출하기 위해 Lucene을 ShingleFilter 사용 :는 예를 들어, 다른 크기의, 루씬
"please divide this sentence into shingles"
가된다 :
shingles "please divide", "divide this", "this sentence", "sentence into", and "into shingles"
을
"please divide this please divide sentence into shingles"
,536 :이 발견 bigrams 또는 트라이 그램의 주파수를 반환하는 기타 분석기와 함께 사용 할 수있는 경우
사람은 예를 들어, 알고 있나요
"나누어주세요"로 2를 반환할까요?
내 문자열이 데이터베이스에서 빌드 된 다음 Lucene에 의해 메모리에 인덱싱되고 지속되지 않는다고 추가해야합니다. Solr과 같은 다른 제품의 사용은 의도하지 않았습니다.