2016-07-07 2 views
0

Solr 코어 및 StandardTokenizerFactory에 문제가 있습니다. 숫자 크기를 만들어야하지만 StandardTokenizer가 잘못된 숫자를 만듭니다.Solr StandardTokenizer가 잘못된 번호를 만듭니다.

"spanplattenschraube 4,5 50"을 찾고 있습니다. 내 SOLR 관리 분석에서

는 토큰 화 "(50)는"

그래서 첫 번째 결과로 나는 문서를 얻을, 숫자 "4.0", "4.5.0", "5"이에서 "50.0"생성 "spanplattenschraube 4,0"은 포함하지만 "spanplattenschraube 4,5"는 포함하지 않습니다.

StandardTokenizerFactory가 잘못된 번호를 만들지 않도록하려면 어떻게해야합니까? 아니면 문제가있는 TokenizerFactory가 더 좋습니까?

+0

어떤 토큰을 원하십니까? – MatsLindh

답변

0

당신은

이 org.apache.lucene.analysis.WhitespaceTokenizer를 작성

solr.WhitespaceTokenizerFactory 예를 들어 간단한 토큰 팩토리를 사용하려고 할 수 있습니다.

공백으로 분리하여 구분 된 문자의 토큰을 만듭니다.

자세한 내용은 여기를 읽어 보시기 바랍니다 : https://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.StandardTokenizerFactory

당신이 단어를 분할 등은 나중에

solr.WordDelimiterFilterFactory

을 사용하는 방법을 더 로직을 구현해야하는 경우

의 조합 WhitespaceTokenizerFactory + WordDelimiterFilterFactory

관련 문제