솔루 초급입니다. 사용시기를 알고 싶습니다. 표준 토큰izer 팩토리 및 키워드 토큰 화제?Solr의 StandardTokenizerFactory와 KeywordTokenizerFactory의 차이점은 무엇입니까?
Apache Wiki에서 문서를 읽었지만 이해하지 못했습니다.
아무도 StandardTokenizerFactory와 KeywordTokenizerFactory의 차이점을 설명 할 수 있습니까?
솔루 초급입니다. 사용시기를 알고 싶습니다. 표준 토큰izer 팩토리 및 키워드 토큰 화제?Solr의 StandardTokenizerFactory와 KeywordTokenizerFactory의 차이점은 무엇입니까?
Apache Wiki에서 문서를 읽었지만 이해하지 못했습니다.
아무도 StandardTokenizerFactory와 KeywordTokenizerFactory의 차이점을 설명 할 수 있습니까?
StandardTokenizerFactory는 : -
은 공백에 토큰 화뿐만 아니라 문자
문서를 제거합니다 : -
분할 단어 문장 부호에서 구두점을 제거. 그러나 공백이없는 점은 토큰의 일부로 간주됩니다. 토큰에 숫자가 없으면 하이픈으로 단어를 분할합니다. 이 경우 전체 토큰은 숫자 인 제품으로 해석되며 분할되지 않습니다. 전자 메일 주소와 인터넷 호스트 이름을 하나의 토큰으로 인식합니다.
필드 데이터를 검색하려는 필드에 사용하십시오.
-
http://example.com/I-am+example?Text=-Hello
은 (쉼표로 구분) 7 토큰을 생성하는 것 -
http,example.com,I,am,example,Text,Hello
KeywordTokenizerFactory을 -
키워드 토크 나이 모든 입력을 분리하지 않는다.
문자열에 대한 처리가 수행되지 않으며 전체 문자열이 단일 엔터티로 처리됩니다.
이것은 실제로 어떤 토큰 화도하지 않습니다. 원본 텍스트를 하나의 용어로 반환합니다.
주로 여러 단어로 필터링 할 때 정확한 패싯을 일치시키고 토큰 화 된 필드에서는 정렬이 정렬로 정렬되지 않기 때문에 정렬 또는 패싯 요구 사항에 사용됩니다.
것이다
이http://example.com/I-am+example?Text=-Hello
StandardTokenizerFactory 예를 들어, 모든 문장에 (예를 들어'can't''won't' 등) 아포스트로피를 포함하는 단어를 분할하지 않습니다 -
은 하나의 토큰을 생성 할 전술에 맡기십시오. – Qwerky
예. 언급했듯이 모든 특수 문자를 분리하거나 모든 특수 문자를 제거하지 않습니다. 그것은 특정한 규칙을 가지고 있습니다. – Jayendra