2017-04-17 4 views
1

나는 Kaggle 연습 대회의 집들에이 데이터를 가지고 있으며 rpart를 사용하여 판매 가격을 예측하는 간단한 첫 번째 모델을 훈련하고 있습니다.rpart에 가중치를 적용하는 방법은 무엇입니까?

판매 조건이 비정상 인 판매 또는 선급금을 모델에서 정확하게 식별하지 못합니다. 따라서 모델에서 간과되는이 변수의 중요성을 높이고 싶습니다.

"weights"매개 변수를 사용하여이 작업을 수행한다고 가정하지만이 매개 변수는 어떻게 사용됩니까? 어떤 변수를 더 높은 가중치로 나타낼 수 있습니까? documentation에서

+3

가중치 *이 * 케이스 무게입니다. 그들은 관측치에 무게를 둡니다. – Zelazny7

+0

기능에 가중치를 추가하는 방법은 무엇입니까? 그냥 관측치를 복사 하시겠습니까? – GreenManXY

+0

가중치 적용 선택 기능을 제공하는 알고리즘을 알지 못합니다. 나는 그들이 존재한다고 확신하지만. 나는 전체 의사 결정 트리의 결과를 받아 판매 조건 기능을 가진 두 번째 의사 결정 트리의 입력으로 사용합니다. 이렇게하면 두 가지 기능 만있는 두 번째 트리가 작성됩니다. 들어오지 않으면 다른 기능으로 간주됩니다. – Zelazny7

답변

0

:

무게

옵션의 경우 무게.

선정

음수 비용 모델의 각 변수에 대한 하나의 벡터. 모든 변수에 대해 기본값은 1입니다. 이것들은 스플릿을 고려할 때 을 적용 할 스케일링이므로, 변수 에서의 스플릿 팅 향상은 어느 스플릿을 선택할지 결정하는 데 드는 비용으로 나뉩니다.

가중치는 행 (예 : 더 작은 클래스에 더 높은 가중치 부여)이고, 비용은 열에 대한 것입니다. 가중치 매개 변수 (반드시 가중치를 정의하는 가장 좋은 방법)을 적용하기위한

사용 예제 : rpart``에서

positiveWeight = 1.0/(nrow(subset(training, Y == TRUE))/nrow(training)) 
negativeWeight = 1.0/(nrow(subset(training, Y != TRUE))/nrow(training)) 

modelWeights <- ifelse(training$Y== TRUE, positiveWeight, negativeWeight) 

dtreeModel <- rpart(predFormula, training, weights = modelWeights) 
관련 문제