나는 Lucene과 함께 문서 색인을 생성하고 검색을 제공했지만, 제 작품은 영어로되어 있었지만 현재는 쿠르드어 언어 인 프로젝트가 있습니다. 쿠르드어 언어는 아랍어 유니 코드 문자를 사용합니다. 문자는 여기에 Table of Unicode Characters used in Kurdish-Arabic scriptLucene Analyzer
내 질문은이 언어에 대한 분석기를 만드는 방법입니까, 아니면이 목적으로 아랍어 분석기를 사용할 수 있습니까?
저는 이미 새로운 불용어 목록을 제공하고 정규화 클래스를 변경함으로써 쿠르드어 관련성이 더 높은 아랍어 분석기를 사용자 정의했습니다. 그러나 형태소 분석은 또 다른 문제입니다. 어떤 제안 pls? – solid
http://stackoverflow.com/questions/6654962/i-want-a-java-arabic-stemmer? – mindas