2013-02-08 6 views
0

그래서 의사 결정 트리 프로그램을 작성하는 중입니다. 내가 1000 인스턴스의 데이터 집합을 가지고 있습니다. 나는 그것을 이해합니다 - 교차 유효성 검사를 사용하면 데이터 세트를 900-100 그룹으로 분할합니다. 매번 다른 900 세트를 사용하여 트리를 만들고 100을 테스트합니다.의사 결정 트리 교차 유효성 확인 질문

나는 다음 질문을 이해합니다. 초과 오차로 인한 것일 수 있기 때문에 최소 오류는 좋은 옵션이 아닙니다.) 2. 최종 트리에서 오류를 평가하기 위해 교차 유효성 검사가 사용됩니까? 3. 크로스 밸리데이션에 대한 다른 알고리즘을 발견했습니다. 일부는 동일한 분할 기준을 사용했으며 일부는 최상의 트리를 선택하기 위해 다른 알고리즘을 사용했습니다. 정보를 제공하는 좋은 장소를 알려줄 수 있습니까? 나는 필요하다? 아니면 너 자신을 설명 할까?

감사합니다.

답변

1

Cross validation 귀하의 모델이 예측하는 정확한 을 예측하는 데 사용됩니다.

최상의 트리는 최상의 분류 자로 구성되어야합니다. 즉 데이터를 잘 분리하는 속성을 사용하여 해당 속성을 사용하여 의사 결정 트리를 작성할 수 있습니다.

난 당신에 대한 decision trees

+0

나는 최고의 트리는 데이터를 잘 구분하는 최상의 속성으로 구성되어야한다는 것을 알고 있습니다 .. 의사 결정 트리의 포인트입니다. 어떤 속성이 가장 좋은지 (즉, 이득 배급, 정보 획득, 지니 인덱스 등)를 결정하는 많은 방법이 있습니다. 제 질문은 - 어떻게 교차 유효성 검사가 도움이되는지, 만약 그렇다면 분할에 대한 결정 방법을 선택하는 것입니다. 기준 – ABR

+0

http://stackoverflow.com/questions/2314850/help-understanding-cross-validation-and-decision-trees?rq=1 – ogzd

0
  1. 테스트 데이터에 가장 잘 수행하는 트리를 선택 더 많은 정보를 얻을 수 WikipediaUncle Google을 통해 검색하는 것이 좋습니다.

  2. 결과 검증을 위해 교육 과정에서 교차 검증이 사용됩니다. 테스트 데이터는 최종 트리의 오류를 검사하는 데 사용됩니다.

  3. 완전히 별도의 테스트 세트가 필요합니다. 그렇지 않으면 결과가 오염됩니다.

    그래서 데이터를 400 열차, 100 교차 유효성 검사 및 500 테스트로 분할합니다. 크게 분할하는 방법은 사용 가능한 데이터의 양과 해결하려는 문제의 복잡도에 따라 크게 달라집니다. 교차 검증은 일반적으로 교육 데이터의 약 10 %입니다. 데이터가 많거나 간단한 문제가있는 경우 50-50 개 (기차 + 교차 유효성 검사)까지 테스트 할 수 있지만 데이터 나 복잡한 문제가 적은 경우에는 줄일 수 있습니다 10 %의 낮은 테스트 데이터까지.