2017-05-17 1 views
0

NLTK에 과 같은 일부 아랍어 기능을 추가하려고하지만 형태소 분석과 같은 일부 작업에는 형태 학적 분석이 필요합니다. 아랍어에서 NLTK와 같은 특정 언어의 형태 학적 특징을 정의하는 방법이 있습니까? 아니면 분석기를 사용자 정의해야합니까?NLTK에서 특정 언어에 대한 형태 학적 분석을 수행 할 수 있습니까?

+0

스택 오버플로에 오신 것을 환영합니다. [지침] (https://stackoverflow.com/help/mcve)에서 최소, 완전하며 검증 가능한 질문을 작성하십시오. – Toby

답변

1

잊어 버려요. 특히 아랍어와 같은 복잡한 형태를 가진 언어에 대한 형태소 분석기를 만드는 것은 매우 어렵습니다. nltk를 설치하고 인터페이스 할 수있는 솔루션을 둘러보십시오. 그러나 nltk는 아랍어 줄기를 가지고 있습니다 (here 참조). 그것이 좋은 것인지 결정해야합니다.

0

아랍어 처리를 찾는 경우는, 지적 @alexis ISRI의 형태소 분석기있다 : 당신은 일반적인 도구를 요청하는 경우 Python ISRIStemmer for Arabic text

를 참조

>>> from nltk.stem.isri import ISRIStemmer 
>>> isri = ISRIStemmer() 
>>> isri = 'حركات' 
>>> isri = ISRIStemmer() 
>>> s = 'حركات' 
>>> isri.stem(s) 
'حرك' 

, nltk하지 않습니다 실제로 그러한 기능을 가지고 있지만 사용자 정의 형태소 분석을보고있는 경우 NLTK v3.2.3을 사용하여 업데이트 된 사용자 정의 LancasterStemmer 규칙을 시도 할 수 있습니다. https://github.com/nltk/nltk/blob/develop/nltk/stem/lancaster.py#L50을 참조하십시오. 그러나 Lancaster가 처음 작동하는 방식을 이해해야합니다.

어쩌면 Morfessor이 형태 상으로 분리 된 단어/문장에 대한 훈련 데이터가있는 경우 찾고있는 것일 수 있습니다.

관련 문제