2011-02-17 2 views
3

저는 2 개월 전부터 weka를 사용해 왔습니다. 현재 Ostfold University College에서 기계 학습 과정을 진행하고 있습니다. 분리 된 교육 및 테스트 세트를 기반으로하는 의사 결정 트리를 구성하는 더 좋은 방법이 필요합니다. 누구나 좋은 생각이 떠오르면 큰 도움이 될 수 있습니다. 고맙습니다.의사 결정 트리 작성 및 분류를위한 훈련 및 테스트 세트의 역할

-Neo

+0

더 나은 무엇입니까? 어떤 방법을 사용하고 있습니까? 지금까지 무엇을 했습니까? – Terrance

+0

C5.0 도구를 사용했습니다. 훈련 및 테스트 데이터 세트를 지정하는 것은 매우 쉽습니다. 그러나 weka에서는, 나는 그런 옵션을 찾지 못했습니다. – Neo182

답변

4

당신은 더 구체적인 뭔가를 요구하지만, 일반적으로 될 수 있습니다

당신은 트레이닝 세트와 의사 결정 트리를 구축, 당신은 테스트 세트를 사용하여 해당 트리의 성능을 평가한다. 즉, 테스트 데이터에서 일반적으로 c * lassify *와 같은 함수를 호출하여 새로 빌드 된 트리와 분류 할 데이터 세트 (테스트 세트 내)를 전달합니다.

이 함수는 해당 데이터 요소가 속한 트리에서 리프 (터미널) 노드를 반환합니다.이 리프의 내용이 동종 (단일 클래스의 데이터로 채워지고 혼합물이 아닌 데이터로 채워져 있음)이라고 가정하면 본질적으로 해당 데이터 포인트에 클래스 레이블이 지정됩니다. 트리에서 할당 한 클래스 레이블을 데이터 포인트의 실제 클래스 레이블과 비교하고 테스트 세트의 모든 인스턴스에 대해 반복 할 때 트리의 성능을 평가할 수있는 메트릭이 있습니다.

경험적으로, 데이터를 섞은 다음 훈련 세트에 90 %를 할당하고 나머지 10 %는 테스트 세트에 할당하십시오.

0

실제로 제가 이와 비슷한 것을 찾고있었습니다 - http://weka.wikispaces.com/Saving+and+loading+models 모델을 저장하고로드하여 교육 세트에 사용하십시오. 이것은 정확히 내가 검색 한 내용입니다. 그것이 내 것과 비슷한 문제를 가진 사람에게 유용 할 수 있기를 바랍니다. 건배 -Neo182

관련 문제