2017-05-04 4 views
0

~ 70k 관측 및 ~ 105 변수의 데이터 세트로 cforest (party 패키지)을 실행하려고합니다. 그 중 하나가 응답 변수 (2 진수)입니다.Cforest 전산 비용, RAM 한도 초과

포리스트의 특정 정보는 mtry = 10, ntree = 50, maxsurrogate = 3입니다.

cforest (2 시간 50 분)을 빌드하는 데 너무 오래 걸리는데, 예를 들어 ranger은 500 트리의 경우 6 분, mtry=10의 경우에만 발생합니다. 나는 각 프로세스의 배후에있는 방법론이 상당히 다르다는 것을 알고 있지만,이 계산 비용은 정상입니까? 튜닝 파라미터에 문제가 있습니까?

cforest를 구축 한 후 나는 ~ 30K 관측 데이터 집합에서 함수 predict()으로 평가하려고 나는 다음과 같은 오류 메시지가가 나타납니다

Reached total allocation of 8067Mb: see help(memory.size) 

내가 함께 데스크톱 컴퓨터에서 일하고 있어요을 윈도우 7, 기술적 인 기능은 다음과 같습니다

  • 프로세서 : 인텔 코어 i5-5300U CPU의 @의 2.30GHz의 2.30GHz
  • 설치된 메모리 (RAM) : 8.00 GB (사용 가능한 7,88 GB)
  • 시스템 유형 :

시스템 운영 64 비트 시간 내 주셔서 대단히 감사합니다.

답변

1

파티를 사용하면 별도로 나무를 만들고 나중에 결합 할 수는 있지만 지루합니다. R-forge의 partykit devel 버전은 더 나은 메모리 효율성을 목표로하는 ctree/cforest의 재 구현을 제공합니다.

스텐

+0

는 응답 씨 Hothorn 주셔서 대단히 감사합니다, 나는 'partykit'와 'cforest'을 실행하는 몇 가지 문제가 있어요, 내가 이상한 오류 메시지를 받았습니다 'Error 경우 (COV <에 .Machine $ predictor) return (c (-Inf, -Inf)) : where TRUE/FALSE needed' 그리고 필자는 일부 예측 자의 일부 값이 0에 가깝기 때문에 그 값을 추측했다. '파티'패키지가 생겼지 만 문제를 해결하고 여기에 결과를 게시합니다. –

관련 문제