2010-12-29 11 views
0

같은 양의 노드에 두 개의 의사 결정 트리가있는 경우 더 좋은 것으로 간주됩니까? 트리 (F는 T가 True 거짓)결정 트리 정보를 얻으려면

alt text

제를 의미하지만 넓은 번째 깊다.

답변

6

나는이 질문이 꽤 오래되었다는 것을 알고 있지만 대답에 여전히 관심이있는 경우 일반적으로 짧고 넓은 나무가 "더 좋을 것"입니다. 내부 결정 노드 "C"에 도달하는 추가 결정이 필요하다는 사실을 고려하십시오.

실제로 봐야 할 것은 각 내부 결정 노드에서 엔트로피입니다. 엔트로피은 특정 변수에 대한 불확실성 또는 임의성의 양입니다. 예를 들어 아니요의 두 가지 클래스가있는 분류 기준을 사용한다고 가정 해 보겠습니다. 예를 들어 x과 같은 특정 변수 또는 속성이 YES 클래스의 세 가지 학습 예제와 NO 클래스의 세 가지 학습 예제 (총 6 개)를 갖는 경우 엔트로피는 1이됩니다. 두 클래스가 같은 수이기 때문입니다 이 변수는 가장 많이 섞여서 얻을 수 있습니다. 마찬가지로, x이 특정 클래스의 여섯 가지 훈련 예를 모두 가지고 있다면, 예를 들어,이 특정 변수가 순수하기 때문에 엔트로피는 0이 될 것이고 따라서 의사 결정 트리에서 잎 노드가됩니다.

엔트로피는 다음과 같은 방법으로 계산 될 수있다

enter image description here

지금 이득을 고려하십시오. 의사 결정 트리의 각 레벨은 해당 노드에 가장 적합한 이득을 나타내는 속성을 선택합니다. 이득은 단순히 무작위 변수 x의 상태를 학습하여 달성되는 엔트로피의 예상 감소량입니다. 게인은 쿨백 - 라이 블러 발산이라고도합니다. 이득은 다음과 같은 방법으로 계산 될 수있다

Kullback-Leibler divergence

+0

후반 코멘트 죄송하지만 그건 안'P _ (-)'엔트로피 계산의 부분 중 하나에? – anderas

관련 문제