2011-01-30 2 views
2

RandomTree 구성에서 minNum 필드를 관찰했을 때 weka로 놀고있었습니다. 나는 "잎에있는 인스턴스의 최소 총 무게"를 설명한 설명을 읽었습니다. 그러나 나는 그것이 실제로 무엇을 의미하는지 이해할 수 없었다.Weka의 RandomTree에 대해서

나는 그 숫자로 놀았으며, 나는 그것을 늘릴 때 생성 된 나무의 크기가 줄어든다는 것을 깨달았다. 왜 이런 일이 일어나는 지에 대해서는 상관 할 수 없었습니다.

도움/참고 자료를 보내 주시면 감사하겠습니다.

답변

2

이것은 리프 노드의 최소 인스턴스 수와 관련이 있습니다 (J48과 같은 의사 결정 트리에서는 종종 2입니다). 이 매개 변수를 높게 설정할수록 인스턴스 수가 적은 많은 잎을 사용하면 트리 구조가 너무 세밀 해 지므로 트리가 더 일반화됩니다.

가 여기에 -M 옵션은 결과 트리의 크기에 영향을 줄 수있는 방법을 보여줍니다 iris 데이터 세트에 두 가지 예 같습니다 (!) 참고로

$ weka weka.classifiers.trees.RandomTree -t iris.arff -i 

petallength < 2.45 : Iris-setosa (50/0) 
petallength >= 2.45 
| petalwidth < 1.75 
| | petallength < 4.95 
| | | petalwidth < 1.65 : Iris-versicolor (47/0) 
| | | petalwidth >= 1.65 : Iris-virginica (1/0) 
| | petallength >= 4.95 
| | | petalwidth < 1.55 : Iris-virginica (3/0) 
| | | petalwidth >= 1.55 
| | | | sepallength < 6.95 : Iris-versicolor (2/0) 
| | | | sepallength >= 6.95 : Iris-virginica (1/0) 
| petalwidth >= 1.75 
| | petallength < 4.85 
| | | sepallength < 5.95 : Iris-versicolor (1/0) 
| | | sepallength >= 5.95 : Iris-virginica (2/0) 
| | petallength >= 4.85 : Iris-virginica (43/0) 

Size of the tree : 17 

$ weka weka.classifiers.trees.RandomTree -M 6 -t iris.arff -i 

petallength < 2.45 : Iris-setosa (50/0) 
petallength >= 2.45 
| petalwidth < 1.75 
| | petallength < 4.95 
| | | petalwidth < 1.65 : Iris-versicolor (47/0) 
| | | petalwidth >= 1.65 : Iris-virginica (1/0) 
| | petallength >= 4.95 : Iris-virginica (6/2) 
| petalwidth >= 1.75 
| | petallength < 4.85 : Iris-virginica (3/1) 
| | petallength >= 4.85 : Iris-virginica (43/0) 

Size of the tree : 11 

을, 임의의 나무의 서브 샘플링 거기에 의미 포기할에 의존 속성 (K는 임의로 각 노드에서 분리되도록 선택됨); 그러나 REPTree와는 달리 RandomForest와 같은 가지 치기가 없으므로 매우 시끄러운 나무로 끝날 수 있습니다.