2016-06-08 2 views
0

나는 타이타닉 데이터 세트를 연구 중이다. 나는 CABIN 칼럼에서 공란을 채우려고한다. 나는 CABIN 칼럼 값으로부터 첫 글자를 추출한 다음, CABIN_NEW 칼럼에 그것들을 넣었다. 그 후에는 예측을 위해 rpart을 사용하지만, 아래 코드를 실행할 때마다 R은 많은 시간을 소비합니다 (아직 한 번 완료하지 않았고 매회 종료해야합니다).R Studio에서 rpart 실행

DATAset에는 1309 개의 행이 있으며 사용중인 열은 아래 코드에 있습니다. 내가 사용하고있는 시스템은 4기가바이트 램, I5 프로세서와 윈도우 당신이 요인 변수를 많이 사용하는 것을 볼 수 7.

combifit <- rpart(Cabin_New ~ Pclass + Sex + Age + SibSp + Parch + Fare + Embarked + Title 
        + FamilySize + Surname + FamilyID, 
        data = combi[!is.na(combi$Cabin_New),], method = 'class') 

답변

0

에서 실행되고 있습니다. 각 요인에 얼마나 많은 요인 수준이 있는지 확인하십시오. 만약 그것이 높다면 성을 100이라고한다면, R은 다른 모든 인자에 대해 100 개의 변수를 만들어야 할 것입니다. 제 추측에 따르면 이러한 요인 변수 때문에 rpart는 분할을 결정하기 위해 많은 변수를 조사해야합니다. 그러므로 많은 시간이 걸릴 것입니다.

또한 rpart에 전달되는 매개 변수에 따라 rpart가 수행하는 분할 수가 많습니다. 예를 들어 cp은 이러한 매개 변수 중 하나입니다. 기본값은 0.01입니다. 값을 0.5에서 0.1로 변경하십시오. 다른 매개 변수와 비슷하게 재생하면 rpart을 더 빠르게 실행할 수 있습니다.