숫자 데이터 세트는 class, unigram count, bigram count, sentiment
입니다. 아파치 마흐트 (Apache Mahout) 문서를 훑어 보았는데 그게 전부 텍스트 데이터에 관한 것이 었습니다. 시퀀스 파일로 변환, 시퀀스 파일을 벡터화, Naive Bayes Classifier를 교육하기 위해 전달하기 위해 3 단계를 수행해야한다는 것을 알고 있습니다. 그러나 Mahout에서 텍스트 데이터 세트를 분류하는 것과 수치 데이터 세트를 분류하는 것의 차이점을 이해하기가 어렵습니다. 내 경우에는 다르게해야합니까? 나는 어떤 도움을 주셔서 감사합니다.Apache Mahout에서 수치 데이터를 어떻게 분류합니까?
0
A
답변
1
mahout은 텍스트 데이터를 사용하여 모델을 교육 할 수 없습니다. 숫자 데이터 세트에서 시작하면, mahout이 처리하는 벡터가 숫자 데이터 벡터이므로 분류가 훨씬 쉬워집니다.
텍스트 데이터 세트에서 mahout을 사용했으며이 경우 텍스트 데이터를 숫자 데이터로 변환하기 위해 dictionnary를 사용해야한다는 것을 알고 있습니다. 일부 알고리즘은 다른 알고리즘보다 더 잘 처리합니다 (예 : Naive Bayes는 텍스트와 유사한 데이터를 강력하게 선호합니다).
따라서 귀하의 경우보다 효율적인 결과를 얻기 위해 임의의 포레스트 또는 온라인 물류 회귀와 같은 다른 분류자를 사용해보십시오. 내 경험에 비추어 볼 때, 임의의 포레스트를 사용하면, 가지고있는 지형지 물 유형을 정의 할 수있다. (귀하의 모든 지형지 물은 숫자이다.) 분류가 꽤 쉽게 이루어질 수있다. Naive Bayes를 사용하고 싶다면 수치 데이터 집합을 분류하는 것이 여전히 가능하지만 더 많은 도움을 줄 수는 없습니다.
관련 문제
- 1. RSS 뉴스 수집기는 데이터를 어떻게 분류합니까?
- 2. 데이터 마이닝 절차에 대한 데이터를 어떻게 분류합니까?
- 3. Apache Mahout에서 두 사용자 간의 피어슨 상관 관계 유사성 표시
- 4. 안드로이드에서 중국어를 어떻게 분류합니까?
- 5. AngularFire 컬렉션을 어떻게 분류합니까?
- 6. Apache Mahout에서 Pearson의 coeficient 뒤에있는 동기는 무엇입니까
- 7. 프롤로그에서 연령 목록을 어떻게 분류합니까?
- 8. 이 코드는 사전을 어떻게 분류합니까?
- 9. .NET은 특수 문자를 어떻게 분류합니까?
- 10. 거대한 파일을 파이썬으로 어떻게 분류합니까?
- 11. PHP/MySQL에서 어떻게 출력을 분류합니까?
- 12. Apache Mahout에서 SQL Server 데이터베이스를 사용할 수 있습니까?
- 13. Mahout에서 randomForest의 소스 코드를 어떻게 변경합니까?
- 14. ClassNotFoundException Hadoop의 Apache Mahout에서 베이지안 알고리즘을 구현하는 중 오류가 발생했습니다.
- 15. TFS 2010/2012에서 어떻게 버그를 분류합니까?
- 16. 다른 벡터와 관련하여 벡터를 어떻게 분류합니까?
- 17. 검색 창에서 GitHub 검색 결과를 어떻게 분류합니까?
- 18. Laravel에서 웅변 물체 모음을 어떻게 분류합니까?
- 19. junit을 사용하여 비정상적인 테스트를 어떻게 분류합니까?
- 20. 플라이 웨이는 버전 번호를 어떻게 분류합니까?
- 21. GAE : 데이터 저장소 뷰어는 엔티티를 어떻게 분류합니까?
- 22. Mahout에서 RandomAccessSparseVector를 serialize
- 23. Mahout에서 회귀 회귀 사용
- 24. 수치
- 25. 이력서 또는 홍보 자료에서 언어 및 기술을 어떻게 분류합니까?
- 26. mahout에서 추천 엔진을 사용하기 위해 데이터를 구성하는 방법
- 27. 수치 적 통합 - 어떻게 병렬화할까요?
- 28. 어떻게 matlab에 사용하고 수치 벡터
- 29. Mahout에서 startPhase를 사용하는 방법
- 30. Mahout에서 SVD recommendender 구현
귀하의 통찰력에 감사드립니다. 이것은 Mahout을 사용한 첫 번째 시도이며 Mahout을 사용한 수치 데이터 분류의 온라인 예제를 찾을 수 없습니다. – Rajath
온라인으로 예제를 찾는 것이 어렵다는 것에 동의합니다. 나의 작품에서 Mahout in Action이라는 책의 코드와 온라인으로 제공되는 코드를 수정했습니다. 이것을 확인해보십시오. https://github.com/fredang/mahout-naive-bayes-example/blob/master/src/main/java/com/chimpler/example/bayes/Classifier.java 다음을 수행 할 수 있어야합니다. 숫자 버전만으로 코드를 수정하십시오 (텍스트와 유사한 데이터를 분류하는 데 복잡한 텍스트 분석기/토크 나이저를 사용할 필요가 없습니다) – razafinr
참고로 감사드립니다! – Rajath