2
Lucene의 표준 Tokenizer는 공백과 빈 줄을 제거합니까? API (StandardTokenizer)를 읽었으나 지정되지 않았습니다. 어쩌면 토큰 화가가 기본적으로 그렇게 할지도 모르겠다.토큰 화가는 공백을 제거합니까?
Lucene의 표준 Tokenizer는 공백과 빈 줄을 제거합니까? API (StandardTokenizer)를 읽었으나 지정되지 않았습니다. 어쩌면 토큰 화가가 기본적으로 그렇게 할지도 모르겠다.토큰 화가는 공백을 제거합니까?
예. Lucene 토큰 화 프로그램은 공백을 포함하지 않는 문서에서 색인 가능 용어를 가져옵니다. 하지만 원본 문서에서 토큰의 오프셋을 보존합니다.
이 StandardTokenizer
의 문서에 설명되어 있습니다 :
너무
빈 줄이 고려 공백 (공백은 문장 부호입니다.)? – synack
@ Kits89 : 예, 공백이 있습니다. –