Lucene의 StandardTokenizer을 비 IR 환경에서 단어 토큰 화에 활용할 생각입니다.Lucene의 StandardTokenizer를 사용할 때 구두점 문자 유지
이 토크 나이저는 구두점 문자를 제거합니다. 아무도 별도의 토큰으로 구두점 문자를 출력한다는 것을 알고 있습니까? 현재 동작의
예 : 원하는 동작의
Welcome, Dr. Chasuble! => Welcome Dr. Chasuble
예 :
Welcome, Dr. Chasuble! => Welcome , Dr. Chasuble !
당신은 즉 정규 표현식 단어 경계에 분할하는 토크 나이 패턴 다음에 공백 토크 나이를 사용할 수'\ – arun