2014-09-15 3 views
0

숫자 데이터 세트는 class, unigram count, bigram count, sentiment입니다. 아파치 마흐트 (Apache Mahout) 문서를 훑어 보았는데 그게 전부 텍스트 데이터에 관한 것이 었습니다. 시퀀스 파일로 변환, 시퀀스 파일을 벡터화, Naive Bayes Classifier를 교육하기 위해 전달하기 위해 3 단계를 수행해야한다는 것을 알고 있습니다. 그러나 Mahout에서 텍스트 데이터 세트를 분류하는 것과 수치 데이터 세트를 분류하는 것의 차이점을 이해하기가 어렵습니다. 내 경우에는 다르게해야합니까? 나는 어떤 도움을 주셔서 감사합니다.Apache Mahout에서 수치 데이터를 어떻게 분류합니까?

답변

1

mahout은 텍스트 데이터를 사용하여 모델을 교육 할 수 없습니다. 숫자 데이터 세트에서 시작하면, mahout이 처리하는 벡터가 숫자 데이터 벡터이므로 분류가 훨씬 쉬워집니다.

텍스트 데이터 세트에서 mahout을 사용했으며이 경우 텍스트 데이터를 숫자 데이터로 변환하기 위해 dictionnary를 사용해야한다는 것을 알고 있습니다. 일부 알고리즘은 다른 알고리즘보다 더 잘 처리합니다 (예 : Naive Bayes는 텍스트와 유사한 데이터를 강력하게 선호합니다).

따라서 귀하의 경우보다 효율적인 결과를 얻기 위해 임의의 포레스트 또는 온라인 물류 회귀와 같은 다른 분류자를 사용해보십시오. 내 경험에 비추어 볼 때, 임의의 포레스트를 사용하면, 가지고있는 지형지 물 유형을 정의 할 수있다. (귀하의 모든 지형지 물은 숫자이다.) 분류가 꽤 쉽게 이루어질 수있다. Naive Bayes를 사용하고 싶다면 수치 데이터 집합을 분류하는 것이 여전히 가능하지만 더 많은 도움을 줄 수는 없습니다.

+0

귀하의 통찰력에 감사드립니다. 이것은 Mahout을 사용한 첫 번째 시도이며 Mahout을 사용한 수치 데이터 분류의 온라인 예제를 찾을 수 없습니다. – Rajath

+0

온라인으로 예제를 찾는 것이 어렵다는 것에 동의합니다. 나의 작품에서 Mahout in Action이라는 책의 코드와 온라인으로 제공되는 코드를 수정했습니다. 이것을 확인해보십시오. https://github.com/fredang/mahout-naive-bayes-example/blob/master/src/main/java/com/chimpler/example/bayes/Classifier.java 다음을 수행 할 수 있어야합니다. 숫자 버전만으로 코드를 수정하십시오 (텍스트와 유사한 데이터를 분류하는 데 복잡한 텍스트 분석기/토크 나이저를 사용할 필요가 없습니다) – razafinr

+0

참고로 감사드립니다! – Rajath

관련 문제