2017-02-24 4 views
1

PST 패키지에서 우리는 값을 C으로 사용하여 트리를 잘라내는 데 사용 된 정보 획득 기능을 차단합니다.정보 이득 제거 기능의 맥락에서 알파의 의미는 무엇입니까?

C95 <- qchisq(0.95, 1)/2 

IT는 C 값이 0.05의 알파에 기초하는 것이 무엇을 의미 하는가 다음과 같이 0.05의 알파의 값은 C 계산된다? 우리가 추가 노드가 잘라 내기 알고리즘에 의해 유지되기 위해 이전 노드에 비해 더 많은 정보를 추가한다는 것을 적어도 95 % 확신해야한다는 뜻인가?

답변

1

의 기능은 prune 기능과 관련이 있으며이 게인 기능에 대한 임계 값 C의 선택에 관한 것입니다.

분기를 정리할 수 있는지 여부를 확인하는 데 사용되는 G2 이득 함수의 두 배는 사실 분기를 프 i하기 전후의 트리의 가능성을 비교하는 우도 비율 테스트 통계입니다. 통계 2 * G2는 테스트 된 분기가 정보를 추가하지 않는다는 가정하에 카이 제곱 분포를가집니다. 따라서, 그 차이가 통계적으로 유의하지 않을 때, 즉 G2 값이 주어진 중요도 레벨에 대한 임계 값을 초과하지 않는 한, 브랜치는 프 루닝된다.

알파는 통계 테스트에 사용 된 일반적인 중요도입니다. 일반적으로 1 % 또는 5 %입니다. alpha = 0.05를 선택한다는 것은 샘플의 무작위성으로 인해 분기를 잘못 잘라내 지 않을 5 % 확률을 의미합니다.

관련 문제