2013-07-23 3 views
0

후 두둑을 기준으로 문자열을 토큰 화하는 방법은 무엇입니까?apache lucene을 사용하여 문자열에 토큰 화하기

예. 문자열을

arg1:aaa,bbb AND arg2:ccc OR arg3:ddd,eee,fff 

먼저 다음에서 나는 및 AND을 기준으로 토큰 화하려는 OR

그래서

Token set 1 arg1:aaa,bbb 

Token set 2 arg2:ccc 

Token set 3 arg3:ddd,eee,fff 

나중에 내가 "를 기반으로하는 방법에 이러한 개별 토큰 세트를 전달하고 토큰 화하려면 : "

Token set 1 
Token 1 aaa 
Token 2 bbb 

Token set 2 
Token 1 ccc 

Token set 3 
Token 1 ddd 
Token 2 eee 
Token 3 fff 

Lucene을 사용하여 사용자 정의 패턴을 사용하여 토큰을 만드는 방법은 무엇입니까?

+0

사용자 지정 구문이 Lucene 쿼리와 유사하게 보이므로 일부 괄호가 필요하지 않을 수 있습니다. 그게 뭔가 있니? 아니면 부수적인가? – femtoRgon

+0

아니요. 내 응용 프로그램은 타사 공급 업체에서이 형식의 문자열을 가져옵니다. 그리고 그것들의 포맷이고 괄호가 없습니다. 그래서 나는 그것에 대한 통제권이 없다. –

답변

1

사용자 지정 토큰 구현을 수행하려면 일반적으로 자신의 Tokenizer을 구현해야합니다. 구현해야 할 기본 방법은 TokenStream.incrementToken()입니다.

귀하의 TokenizerAnalyzer에 통합 될 수 있습니다.

+0

예. 커스텀 토크 나이저를 구현하는 것은 단지 선택 사항이었습니다. 사용할 수있는 명시 적 라이브러리가 없습니다. –

관련 문제