2012-09-03 3 views
0

에 bigrams의 주파수를 추출하기 위해 Lucene을 ShingleFilter 사용 :는 예를 들어, 다른 크기의, 루씬

"please divide this sentence into shingles" 

가된다 :

shingles "please divide", "divide this", "this sentence", "sentence into", and "into shingles" 

"please divide this please divide sentence into shingles" 
,536 :이 발견 bigrams 또는 트라이 그램의 주파수를 반환하는 기타 분석기와 함께 사용 할 수있는 경우

사람은 예를 들어, 알고 있나요

"나누어주세요"로 2를 반환할까요?

내 문자열이 데이터베이스에서 빌드 된 다음 Lucene에 의해 메모리에 인덱싱되고 지속되지 않는다고 추가해야합니다. Solr과 같은 다른 제품의 사용은 의도하지 않았습니다.

답변

0

나는 SnowballAnalyzer 및 standardAnalyzers를 매개 변수로 전달하여 ShingleFilterWrappers에 연결하고 TermVectorMapper를 통해 출력을 처리했습니다.