2012-12-06 3 views
1

Apache Mahout이 스페인어로 텍스트와 잘 작동하는지 알고있는 사람이 있습니까? 나는 스페인어로 된 신문 기사에 대해 약간의 클러스터링을 할 필요가 있으며 그것을하기위한 많은 도구가 없다. Mahout은이 작업을 수행하기위한 멋진 프레임 워크라고 생각하지만 스페인어 텍스트에서 작업하는 것이 좋습니다.apache mahout in spanish

답변

0

왜 안 되니? bin/mahout 스크립트의 seq2sparse 명령을 사용하고 -a 옵션을 사용하여 해당 Lucene 분석기 (org.apache.lucene.analysis.es.SpanishAnalyzer)를 지정할 수 있습니다. Mahout in Action 서적의 제 8 장 (199 ~ 200 페이지)을보십시오.

이 외에도 기존 분석기를 사용하여 자체 분석기를 작성할 수 있습니다. 이 책에는 많은 예제가 들어 있으며 소스 코드 in repository을 찾을 수 있습니다.

+0

이 정보를 제공해 주셔서 감사합니다. – user1566669