Weka의 KNN 알고리즘 Large Dataset에서 완료하지 마십시오

datamining에 대한 질문이 있고 데이터 마이닝에 대해 Weka 및 WekaSharp와 함께 작업하십시오. WekaSharp를 통해 KDD Cup 1999 10 % 데이터베이스 (~ 70MB) 인 상당히 큰 데이터 세트에 대한 분석을 수행했습니다. 결정 트리 J48 알고리즘과 Naive Bayes 알고리즘으로 각각 10 ~ 30 분 정도 걸리는 좋은 결과를 얻었습니다. KNN 알고리즘을 통해이 동일한 데이터를 실행해도 분석이 끝나지 않으면 오류가 발생하지 않고 단순히 실행됩니다. 나는 효과가없는 모든 다른 매개 변수를 시도했다. iris.arff와 같은 더 작은 샘플 데이터 세트에서 동일한 KNN 알고리즘을 실행할 때 어려움없이 끝납니다. 다음은 KNN 매개 변수에 대한 설정입니다. "-K 1 -W 0 -A \"weka.core.neighboursearch.KDTree -A \\ "weka.core.EuclideanDistance -R first-last \\"\ " " KNN 및 대규모 데이터 세트에 고유 한 문제가 있습니까? 아니면 설정에 문제가 있습니까? 고맙습니다.Weka의 KNN 알고리즘 Large Dataset에서 완료하지 마십시오

출처

2013-11-26 RedMassiveStar

kNN은 "차원 저주"의 영향을받습니다. 고차원 데이터 세트의 공간 쿼리는 저 차원 데이터 세트와 동일한 방식으로 효과적으로 최적화 할 수 없으므로 효율적으로 무차별 검색으로 전환 할 수 있습니다.

NB는 기본적으로 차원을 무시하기 때문에 차원을 비웃습니다. 많은 의사 결정 트리 변형은 고차원 데이터를 처리하는 데에도 상당히 효과적입니다. kNN은 고차원 데이터를 좋아하지 않습니다. 오랜 시간 동안 기다릴 것으로 예상하십시오.

출처

2013-11-26 18:57:39 Sneftel

답장을 보내 주시면 감사하겠습니다. 매우 유용한 통찰력과 거리 측정 측면에서 많은 의미가있는 내용이었습니다. 아마도이 세트를 통해 많은 실행을 할 수 있기를 원하는 다른 알고리즘을 선택하게 될 것입니다. 다시 감사합니다. – RedMassiveStar

안녕하세요, 업데이트로 알고리즘을 F #에서 완료되도록 실행했으며 지금까지 순차 시간은 평균 53 시간으로 완료되었습니다. 그래서 결국 끝납니다 :-). – RedMassiveStar

Weka의 KNN 알고리즘 Large Dataset에서 완료하지 마십시오

답변

관련 문제