datamining에 대한 질문이 있고 데이터 마이닝에 대해 Weka 및 WekaSharp와 함께 작업하십시오. WekaSharp를 통해 KDD Cup 1999 10 % 데이터베이스 (~ 70MB) 인 상당히 큰 데이터 세트에 대한 분석을 수행했습니다. 결정 트리 J48 알고리즘과 Naive Bayes 알고리즘으로 각각 10 ~ 30 분 정도 걸리는 좋은 결과를 얻었습니다. KNN 알고리즘을 통해이 동일한 데이터를 실행해도 분석이 끝나지 않으면 오류가 발생하지 않고 단순히 실행됩니다. 나는 효과가없는 모든 다른 매개 변수를 시도했다. iris.arff와 같은 더 작은 샘플 데이터 세트에서 동일한 KNN 알고리즘을 실행할 때 어려움없이 끝납니다. 다음은 KNN 매개 변수에 대한 설정입니다. "-K 1 -W 0 -A \"weka.core.neighboursearch.KDTree -A \\ "weka.core.EuclideanDistance -R first-last \\"\ " " KNN 및 대규모 데이터 세트에 고유 한 문제가 있습니까? 아니면 설정에 문제가 있습니까? 고맙습니다.Weka의 KNN 알고리즘 Large Dataset에서 완료하지 마십시오
2
A
답변
2
kNN은 "차원 저주"의 영향을받습니다. 고차원 데이터 세트의 공간 쿼리는 저 차원 데이터 세트와 동일한 방식으로 효과적으로 최적화 할 수 없으므로 효율적으로 무차별 검색으로 전환 할 수 있습니다.
NB는 기본적으로 차원을 무시하기 때문에 차원을 비웃습니다. 많은 의사 결정 트리 변형은 고차원 데이터를 처리하는 데에도 상당히 효과적입니다. kNN은 고차원 데이터를 좋아하지 않습니다. 오랜 시간 동안 기다릴 것으로 예상하십시오.
관련 문제
- 1. PCA 및 KNN 알고리즘
- 2. 이웃의 수 KNN 알고리즘
- 3. 데이터베이스를 검색하기위한 KNN 알고리즘
- 4. j48 알고리즘 내부에 IBk (knn) 주입하는 방법? (weka, java)
- 5. 그림을 선택하기 전까지 구문 분석을 완료하지 마십시오
- 6. 모호한 선택을 넘어 결코 완료하지 마십시오
- 7. weka의 KNN에 Gower의 거리를 사용하는 방법?
- 8. J48 알고리즘과 weka의 decisionStump 알고리즘 사이의 관계는 무엇입니까?
- 9. weka의 이산화
- 10. Jetty 9 Hangs QueuedThreadPool Large Large
- 11. KNN 다차원 벡터
- 12. ggplot의 KNN 모델 윤곽?
- 13. J48 및 IBk (KNN) 알고리즘으로 분류
- 14. DataSet에서 결과 선택
- 15. DataSet에서 데이터베이스 업데이트
- 16. tree.RandomForestExt Weka의 분류기 및 중요도 변수
- 17. Weka의 누락 된 값 -
- 18. WEKA의 멀티 클래스 회귀
- 19. WEKA의 계층화 된 샘플링
- 20. Weka의 ID 속성
- 21. weka의 ARFF에서 데이터 분류하기
- 22. Weka의 SimpleLogistic과 Logistic의 차이점
- 23. Weka의 HMM 사용
- 24. WEKA의 클래스 색인이란 무엇입니까?
- 25. Weka의 인스턴스 분류
- 26. Weka의 숫자 - 이진 필터
- 27. Weka의 RandomTree에 대해서
- 28. Weka의 단일 인스턴스 분류
- 29. weka의 SMO confidence measure
- 30. weka의 조기 말단
답장을 보내 주시면 감사하겠습니다. 매우 유용한 통찰력과 거리 측정 측면에서 많은 의미가있는 내용이었습니다. 아마도이 세트를 통해 많은 실행을 할 수 있기를 원하는 다른 알고리즘을 선택하게 될 것입니다. 다시 감사합니다. – RedMassiveStar
안녕하세요, 업데이트로 알고리즘을 F #에서 완료되도록 실행했으며 지금까지 순차 시간은 평균 53 시간으로 완료되었습니다. 그래서 결국 끝납니다 :-). – RedMassiveStar