후 두둑을 기준으로 문자열을 토큰 화하는 방법은 무엇입니까?apache lucene을 사용하여 문자열에 토큰 화하기
예. 문자열을
arg1:aaa,bbb AND arg2:ccc OR arg3:ddd,eee,fff
먼저 다음에서 나는 및 AND을 기준으로 토큰 화하려는 OR
그래서
Token set 1 arg1:aaa,bbb
Token set 2 arg2:ccc
Token set 3 arg3:ddd,eee,fff
나중에 내가 "를 기반으로하는 방법에 이러한 개별 토큰 세트를 전달하고 토큰 화하려면 : "
Token set 1
Token 1 aaa
Token 2 bbb
Token set 2
Token 1 ccc
Token set 3
Token 1 ddd
Token 2 eee
Token 3 fff
Lucene을 사용하여 사용자 정의 패턴을 사용하여 토큰을 만드는 방법은 무엇입니까?
사용자 지정 구문이 Lucene 쿼리와 유사하게 보이므로 일부 괄호가 필요하지 않을 수 있습니다. 그게 뭔가 있니? 아니면 부수적인가? – femtoRgon
아니요. 내 응용 프로그램은 타사 공급 업체에서이 형식의 문자열을 가져옵니다. 그리고 그것들의 포맷이고 괄호가 없습니다. 그래서 나는 그것에 대한 통제권이 없다. –