2011-10-04 7 views

답변

25

StandardTokenizerFactory는 : -
은 공백에 토큰 화뿐만 아니라 문자

문서를 제거합니다 : -

분할 단어 문장 부호에서 구두점을 제거. 그러나 공백이없는 점은 토큰의 일부로 간주됩니다. 토큰에 숫자가 없으면 하이픈으로 단어를 분할합니다. 이 경우 전체 토큰은 숫자 인 제품으로 해석되며 분할되지 않습니다. 전자 메일 주소와 인터넷 호스트 이름을 하나의 토큰으로 인식합니다.

필드 데이터를 검색하려는 필드에 사용하십시오.

-

http://example.com/I-am+example?Text=-Hello 

은 (쉼표로 구분) 7 토큰을 생성하는 것 -

http,example.com,I,am,example,Text,Hello 

KeywordTokenizerFactory을 -

키워드 토크 나이 모든 입력을 분리하지 않는다.
문자열에 대한 처리가 수행되지 않으며 전체 문자열이 단일 엔터티로 처리됩니다.
이것은 실제로 어떤 토큰 화도하지 않습니다. 원본 텍스트를 하나의 용어로 반환합니다.

주로 여러 단어로 필터링 할 때 정확한 패싯을 일치시키고 토큰 화 된 필드에서는 정렬이 정렬로 정렬되지 않기 때문에 정렬 또는 패싯 요구 사항에 사용됩니다.

것이다

http://example.com/I-am+example?Text=-Hello 
+2

StandardTokenizerFactory 예를 들어, 모든 문장에 (예를 들어'can't''won't' 등) 아포스트로피를 포함하는 단어를 분할하지 않습니다 -

http://example.com/I-am+example?Text=-Hello 

은 하나의 토큰을 생성 할 전술에 맡기십시오. – Qwerky

+0

예. 언급했듯이 모든 특수 문자를 분리하거나 모든 특수 문자를 제거하지 않습니다. 그것은 특정한 규칙을 가지고 있습니다. – Jayendra

관련 문제