2011-03-28 6 views
0

우리는 현재 전체 텍스트 검색이 가능한 앱을 개발하고 있으며 Lucene.NET은 선택의 무기입니다. Lucene.NET이 러시아어, 영어 및 기타 텍스트를 똑같이 검색 할 수 있어야하므로 다른 국가의 사람들이 응용 프로그램을 사용할 것으로 예상됩니다.Lucene.NET에 대한 문화 독립형 스 트리머/분석기

우리의 요구에 맞는 범용 및 문화 독립형 줄기 및 분석기가 있습니까? 궁극적으로 우리는 문화권의 문화를 사용해야 만한다는 것을 이해합니다. 그러나 우리는이 잠재적으로 빠르고 더러운 접근법으로 일어나고 싶습니다.

답변

1

영어와 러시아어의 철자법, 문법 및 문자 집합이 현저히 다르다는 것을 감안할 때 양쪽 모두를 시도한 형태소 분석기는 매우 크거나 성능이 좋지 않습니다.

각 언어에 대해 형태소 분석기를 사용하고 UI 단서 (어떤 언어가 쿼리에 사용되는지) 또는 명시 적 선택에 따라 사용할 형식을 선택하는 것이 훨씬 더 좋습니다.

그렇다고해서 러시아어 텍스트가 영어 검색 용어와 정확히 일치하거나 그 반대가 될 가능성은 거의 없습니다.

좀 더 많은 비즈니스 분석이 코드 외에도 많은 도움이되는 것처럼 들립니다.

1

언어 독립적 인 형태소 분석기 같은 것은 없습니다. 실제로 형태소 분석이 검색 성능을 향상시키는 지 여부는 언어마다 다릅니다. 당신이 할 수있는 최선의 방법은 문서와 쿼리에 대한 언어 추측이며, 적절한 분석기/형태소 분석기로 발송하는 것입니다.

짧은 쿼리에 대한 언어 추측은 하드입니다 (최첨단 기술의 경우 '빠른'n '더티가 아닙니다.). 쿼리가 짧으면 쿼리에 간단한 공백 분석기를 사용하고 아무 것도 걸리지 않을 수도 있습니다.