2012-07-10 2 views
1

가장 중요한 변수를 찾으려면 randomForest를 사용하고 있습니다. 모델의 정확도를 정의하고 중요성에 따라 변수의 순위를 매기는 결과를 기대하고있었습니다. 그러나 나는 지금 약간 혼란 스럽다. randomForest를 시도한 다음 importance()을 실행하여 변수의 중요성을 추출했습니다. 하지만 다른 목적으로 사용하기에 가장 적합한 다른 명령 인 rfcv (기능 선택을위한 임의의 크로스 교차 Valdidation)을 보았습니다. 그러나 이것에 관한 질문은 다음과 같습니다. 가장 중요한 변수의 목록을 얻는 방법 ? 실행 후 출력을 보는 방법? 어떤 명령을 사용해야합니까?randomForest 패키지로 기능을 선택하는 방법은 무엇입니까?

또 다른 점은 randomForestpredict.randomForest의 차이점은 무엇입니까?

저는 randomforest와 R에 익숙하지 않아 도움이 될 것입니다.

미리 감사드립니다.

답변

4

randomForest 모델을 만든 후에는 predict.randomForest을 사용하여 새 데이터에 생성 한 모델을 사용합니다. 교육 데이터가 포함 된 임의의 포리스트를 만들고 predict.randomForest으로 해당 모델을 통해 유효성 검사 데이터를 실행하십시오. 변수의 중요성이

여부 (재) ​​변수 감소 모든

그것의 각 단계에서 평가 :

는 rfcv에 관해서는 (도움)에서 옵션 recursive있다 help file

+1

아니요, 도움말 파일에 모두 포함되어 있지 않습니다. 'rfcv (... recursive = T)'옵션은 어떤 시점에서 개별 변수 importance가 무엇인지 알려주지 않습니다. 따라서 기능 선택에 전혀 쓸모가 없습니다! 'rfcv'는 변수의 수인 n.var의 함수로 추정되는 CV 오류입니다. 그것은 거의 쓸모가 없다. 변수 선택에 원시 기능 중요성을 사용하는 것과 관련하여 특히 함정이 가득합니다. 상호 연관성이 높은 변수들. 그러므로 기능 선택에 의존하지 마십시오. 다른 패키지 중 하나를 사용하십시오. – smci

관련 문제