2013-08-30 4 views
0

나는 사용자 정의 스톱 단어 필터링을 기본 형태소 분석과 결합하기 위해 SnowBallAnalyzer을 사용했지만 이전 버전에서는 더 이상 사용되지 않습니다. 예 : 인덱스 구성에, 난 쉽게 지정할 수 있습니다 :Lucene의 스테 밍 + 스톱 워드 필터링 4.0+

IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_32, 
       new SnowballAnalyzer(Version.LUCENE_32, "name", stopSet)); 

stopSet는 불용어 내 사용자 지정 목록입니다.

어떻게하면 스톱 워드를 필터링하고 기본적인 영어 형태소 분석을 할 수있는 단일 분석기를 만들 수 있습니까?

감사합니다.

답변

0

사용 EnglishAnalyzer : 당신이 SnowballAnalyzer 생성자에 유효한 형태소 분석기의 이름을 전달하지 않는 경우

new EnglishAnalyzer(Version.LUCENE_32, stopSet) 

나는, 당신 나열된 코드는 아무것도 특히 유용합니까 방법에 조금 혼란 스러워요. "org.tartarus.snowball.ext.nameStemmer"라고 더 형태소 분석기가없는

Class<?> stemClass = Class.forName("org.tartarus.snowball.ext." + name + "Stemmer"); 

있다는 것을 : 그것은 바로 근처에 예외를 발생한다처럼 보인다.

+0

감사합니다. 문서에서 'EnglishAnalyzer'도 형태소 분석을하는 것은 분명하지 않습니다. – abhinavkulkarni

관련 문제