1
토큰 화 된 텍스트 (분할 된 문장과 분할 된 단어)가 있습니다. 그리고이 구조를 기반으로 Apache Lucene 색인을 만들려고합니다. 사용자 토큰을 사용하기 위해 스탠드 토어 토크 나이저를 확장하거나 대체하는 가장 쉬운 방법은 무엇입니까? StandardTokenizerImpl을보고 있었지만 매우 복잡해 보입니다. 다른 방법이있을 수 있습니까?apache lucene 용 사용자 정의 토큰 화 도구 4
문장을 색인화해야하는 요구 사항을 충족하지 못합니다. –