2013-11-26 1 views
2

datamining에 대한 질문이 있고 데이터 마이닝에 대해 Weka 및 WekaSharp와 함께 작업하십시오. WekaSharp를 통해 KDD Cup 1999 10 % 데이터베이스 (~ 70MB) 인 상당히 큰 데이터 세트에 대한 분석을 수행했습니다. 결정 트리 J48 알고리즘과 Naive Bayes 알고리즘으로 각각 10 ~ 30 분 정도 걸리는 좋은 결과를 얻었습니다. KNN 알고리즘을 통해이 동일한 데이터를 실행해도 분석이 끝나지 않으면 오류가 발생하지 않고 단순히 실행됩니다. 나는 효과가없는 모든 다른 매개 변수를 시도했다. iris.arff와 같은 더 작은 샘플 데이터 세트에서 동일한 KNN 알고리즘을 실행할 때 어려움없이 끝납니다. 다음은 KNN 매개 변수에 대한 설정입니다. "-K 1 -W 0 -A \"weka.core.neighboursearch.KDTree -A \\ "weka.core.EuclideanDistance -R first-last \\"\ " " KNN 및 대규모 데이터 세트에 고유 한 문제가 있습니까? 아니면 설정에 문제가 있습니까? 고맙습니다.Weka의 KNN 알고리즘 Large Dataset에서 완료하지 마십시오

답변

2

kNN은 "차원 저주"의 영향을받습니다. 고차원 데이터 세트의 공간 쿼리는 저 차원 데이터 세트와 동일한 방식으로 효과적으로 최적화 할 수 없으므로 효율적으로 무차별 검색으로 전환 할 수 있습니다.

NB는 기본적으로 차원을 무시하기 때문에 차원을 비웃습니다. 많은 의사 결정 트리 변형은 고차원 데이터를 처리하는 데에도 상당히 효과적입니다. kNN은 고차원 데이터를 좋아하지 않습니다. 오랜 시간 동안 기다릴 것으로 예상하십시오.

+0

답장을 보내 주시면 감사하겠습니다. 매우 유용한 통찰력과 거리 측정 측면에서 많은 의미가있는 내용이었습니다. 아마도이 세트를 통해 많은 실행을 할 수 있기를 원하는 다른 알고리즘을 선택하게 될 것입니다. 다시 감사합니다. – RedMassiveStar

+0

안녕하세요, 업데이트로 알고리즘을 F #에서 완료되도록 실행했으며 지금까지 순차 시간은 평균 53 시간으로 완료되었습니다. 그래서 결국 끝납니다 :-). – RedMassiveStar