문자열을 ngrams로 토큰 화하려고합니다. 이상하게도 NGramTokenizer에 대한 문서에서 토큰 화 된 개별 ngram을 리턴하는 메소드가 표시되지 않습니다. 사실 String 객체를 반환하는 NGramTokenizer 클래스에는 두 가지 메소드 만 있습니다. Java Lucene NGramTokenizer
Reader reader = new StringReader("This is a test string");
NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 1, 3);
- 가 어디 ngrams 토큰 화 된되는 : 여기 는 내가 가지고있는 코드를 무엇입니까?
- 어떻게 문자열/단어로 출력 할 수 있습니까?
다음과 같이 출력하고 싶습니다. This is a, test, string, This is a, 테스트 문자열, 테스트 문자열, 테스트 문자열입니다.
나는 특성의 관점에서 문자열 대신 문자로 무엇을 할 수 있습니까? 그러면 출력은 다음과 같습니다 : This is, a, test, string, This is, a test, ... test string. – CodeKingPlusPlus
좋아요, 그건 Lucene의 NGramTokenizer가 처리하도록 설계된 것이 아닙니다. 사용하고자하는 것은 StandardTokenizer와 결합 된 ShingleFilter입니다. 내 대답을 업데이트하고 거기에 표현하기가 더 쉬울 것입니다 ... – femtoRgon
토큰 화 프로세스에서 사용할 수있는 정지 단어 필터에 대해 알고 있습니까? – CodeKingPlusPlus