2011-09-28 6 views
3

LookAhead를 사용하여 Lucene Tokenizer를 구현하는 올바른 방향으로 나를 안내 할 수 있습니까?LookAhead를 사용하는 Lucene Tokenizer

눈덩이 줄기를 사용하고 있는데 도시 이름의 구문을 가져 와서 줄기가 없어지기를 원합니다. "로스 앤젤레스"가 두 개의 토큰이 아닌 하나의 토큰으로 설정됩니다. "로스"와 "앤젤레스".

또한 어떤 도시 이름과도 일치하지 않는 토큰을 한 단어로 유지해야합니다.

어떤 아이디어가 있습니까? TIA

답변

1

Here

난 당신이 원하는 것을하는 쓴 무언가의 요점이다.

+0

** 우수한 ** 나는 Java로 이식했고 매력처럼 작동합니다! 고마워요 :) – isapir

+0

난 여기에 새로운이야;) – isapir