Lucene 기반 프로그램에서 소스 코드 파일을 인덱싱하는 경우 Lucene의 StandardTokenizer
은 점을 포함하는 단어를 분리하지 않습니다. foo.bar
. 이 문제는 소스 코드에서 점이 종종 메서드 호출에 사용된다는 것을 의미합니다.이 경우 객체 이름과 메서드 이름을 구분해야합니다.일반 소스 코드 용 Lucene 토큰 화 도구
내 질문은 일반적인 프로그래밍 언어 (예 : 특정 프로그래밍 언어 없음)와 함께 잘 작동하는 사용자 정의 Tokenizer
을 작성하려면 어떻게해야합니까? 기존 구현이 있습니까?