2012-05-23 4 views

답변

1

예. Lucene 토큰 화 프로그램은 공백을 포함하지 않는 문서에서 색인 가능 용어를 가져옵니다. 하지만 원본 문서에서 토큰의 오프셋을 보존합니다.

StandardTokenizer의 문서에 설명되어 있습니다 :

  • 분할 단어를 문장 부호에, 문장 부호를 제거.

너무

+0

빈 줄이 고려 공백 (공백은 문장 부호입니다.)? – synack

+0

@ Kits89 : 예, 공백이 있습니다. –

관련 문제