2012-09-25 2 views
1

토큰 화 된 텍스트 (분할 된 문장과 분할 된 단어)가 있습니다. 그리고이 구조를 기반으로 Apache Lucene 색인을 만들려고합니다. 사용자 토큰을 사용하기 위해 스탠드 토어 토크 나이저를 확장하거나 대체하는 가장 쉬운 방법은 무엇입니까? StandardTokenizerImpl을보고 있었지만 매우 복잡해 보입니다. 다른 방법이있을 수 있습니까?apache lucene 용 사용자 정의 토큰 화 도구 4

답변

0

표준 TokenizerImpl은 JFlex 문법에서 생성 되었기 때문에 복잡합니다.

고유 한 토크 나이저를 구현하려면 Tokenizer 클래스를 확장하기 만하면됩니다.

예를 들어, WhitespaceTokenizer은 공백에서 토큰을 분리하는 간단한 토큰 화 프로그램입니다.

+0

문장을 색인화해야하는 요구 사항을 충족하지 못합니다. –