2012-04-17 2 views
1

OpenSearchServer (커뮤니티 에디션) v1.2.4-rc3 - stable - rev 1474 - 빌드 802입니다. C# 및 C++ 프로그래밍 웹 사이트를 크롤링합니다. 이제 C# 또는 C++를 검색하면 #, + 같은 특수 문자가 제거됩니다. 소프트웨어가 반환하는 결과는 정확하지 않습니다. OpenSearchServer/Lucene에서 (#)과 같은 특수 문자는 어떻게 처리합니까? 어느 누구도 저에게 아이디어를 제안 할 수 있습니까? 미리 감사드립니다.OpenSearchServer/Lucene에서 (#)과 같은 특수 문자는 어떻게 처리합니까?

답변

1

C# 및 C++ 코드 용어를 나타내는 데 필요한 특수 문자를 보존하는 사용자 지정 또는 준 사용자 지정 토큰izer를 사용하도록 인덱싱 전략을 변경해야합니다. 인덱싱 및 검색 중에이 토큰 화 도구를 사용합니다.

오프 손, 나는 (토크 나이를 사용 (토크 나이를 구성하는 방법과 같은 몇 가지 아이디어를 얻을 수 org.apache.lucene.analysis.standardorg.apache.lucene.wikipedia.analysis 볼 것 어휘 분석기) JFlex와 같은 generator는 tokenizer를 직접 코딩하지 않고 호출 될 수 있습니다.

관련 문제