2012-12-24 3 views
3

나는 Lucene과 함께 문서 색인을 생성하고 검색을 제공했지만, 제 작품은 영어로되어 있었지만 현재는 쿠르드어 언어 인 프로젝트가 있습니다. 쿠르드어 언어는 아랍어 유니 코드 문자를 사용합니다. 문자는 여기에 Table of Unicode Characters used in Kurdish-Arabic scriptLucene Analyzer

내 질문은이 언어에 대한 분석기를 만드는 방법입니까, 아니면이 목적으로 아랍어 분석기를 사용할 수 있습니까?

답변

1

Lucene은 아랍어를 포함하여 list of other analyzers입니다. 특별히 쿠르드어를 목표로하는 사람은 없지만 아랍 분석기를 귀하의 필요에 맞게 확장 할 수 있습니까?

모든 분석기는 Lucene의 주요 배포본에있는 separately입니다.

+0

저는 이미 새로운 불용어 목록을 제공하고 정규화 클래스를 변경함으로써 쿠르드어 관련성이 더 높은 아랍어 분석기를 사용자 정의했습니다. 그러나 형태소 분석은 또 다른 문제입니다. 어떤 제안 pls? – solid

+0

http://stackoverflow.com/questions/6654962/i-want-a-java-arabic-stemmer? – mindas

1

새 언어에 대한 사용자 정의 분석기를 만드는 방법에 대한 질문에 대답하려면 ... "Lucene In Action"책은 사용자 지정 분석기 작성을 다루며 매우 자세합니다. 다른 분석기에있는 많은 코드를 "활용"하고 필요한 것을 바꿀 수 있습니다. Lucene은 오픈 소스이며 확장 성이 뛰어나므로 이러한 변경을 프로파일 링하는 것은 매우 쉽습니다.

+0

나는 새로운 스톱 워드 목록을 제공하고 표준화 클래스를 변경함으로써이 목적을 위해 이미 페르시아 분석기를 사용자 정의하고 있지만, 형태소 분석은 또 다른 문제입니다. 어떤 제안 pls? – solid