2013-10-11 5 views
1

Weker를 사용하여 몇 개의 큰 데이터 세트에서 분류, 클러스터링 및 일부 회귀를 수행합니다. 나는 현재 모든 분류 자 ​​(의사 결정 트리, SVM, 순진 베이 등)를 시험 중이다.모든 기계 학습 분류자를 스윕 하시겠습니까?

사용 가능한 모든 분류 알고리즘을 통과하여 교차 유효성이 가장 높은 정확도 또는 다른 측정 항목을 생성하는 방법을 찾을 수있는 방법이 있습니까?

다른 클러스터링 문제에 대해서도 최상의 클러스터링 알고리즘을 찾고 싶습니다. 아마도 최저 제곱합 오차를 찾는 것일까?

+0

이미 WEKA-Experimenter를 사용해 보았습니까? 많은 분류자를 사용하고 결과를 통계적 테스트와 비교할 수 있습니다. – aldorado

답변

3

지나치게 적합하지 않습니까? 분류 수의 톤을 시도하고 최선을 선택?

또한 전처리는 보통 매우 중요하며 다른 분류기는 다른 전처리가 필요할 수 있습니다. 각각의 분류기는 차례대로 12 개 정도의 매개 변수를 갖습니다 ...

클러스터링과 동일하게 은 일부 메트릭에 의해 클러스터링 알고리즘을 선택하지 않습니다. 예를 들어 "최저 제곱합", k- 평균 이됩니다. 그것은 더 나은 때문이 아닙니다. 그러나 평가 방법에 대해 초과 배수이기 때문에 : k-means는 제곱 합을 최적화합니다. 그 결과는 다른 측정 항목에 쓰레기가 될 수 있지만 SSQ에서는 설계 상 로컬 최적입니다.

데이터 마이닝은 푸시 버튼 레벨로 자동화 할 수있는 것이 아닙니다.

전처리 방법, 알고리즘 선택, 매개 변수 조정 의 실제 결과를 평가하는 기술이 필요합니다. 그렇지 않으면 시장에 데이터를 제공하고 최적의 분류기를 가져 오는 소프트웨어가있을 것입니다.

+1

예, 데이터 마이닝은 대부분의 작업이 피쳐 엔지니어링에있는 멋진 아트라는 것을 알고 있습니다. 그러나 분류 자 ​​선택 프로세스를 자동화하는 방법이 있는지 알고 싶습니다. 저는 Weka를 수작업으로 실행하여 지난 몇 달 동안 각 교차 검증 후에 결과를 검사하여 좀 더 쉽게 만들고 싶습니다. – stackoverflowuser2010

+0

또한 교차 유효성 검사를 수행하는 경우 교차 검증 정확도가 가장 높은 n 배의 분류 기준을 선택하지 않는 이유는 무엇입니까? 그것은 표준 연습, 맞죠? – stackoverflowuser2010

+1

@ Anony-Mousee : "데이터 마이닝은 누름 단추 식으로 자동화 할 수있는 것이 아닙니다." 네가 직업을 지키기 위해 그런 말을하는 거 알아. – stackoverflowuser2010