2013-02-12 2 views
0

언제 weKA에서 이산화를 할 적절한시기인지를 알아야합니다. 데이터가 설정되어 있으므로 해당 데이터에서 교육 및 테스트 데이터 샘플을 만들어야합니다. 샘플링 전에 또는 샘플링 후에 숫자 속성에 대한 이산화를 수행해야합니까?weka의 이산화

답변

2

이것은 분명해야합니다.

스플릿과 독립적 인 동일한 결과를 얻는 한 이후에는 수행 할 수 있습니다. 이후에 수행 할 수 있습니다. 그런데 의 혜택은 무엇입니까?? 먼저 사전 처리를 수행하십시오.

반올림하여 이산화하려는 경우 - 예 : float from integer - 그러면 괜찮을 것입니다. (분할에 영향을받지 않습니다). 하지만 예를 들어 왜냐하면 당신은 다른 부분들을 다르게 이산하기 때문입니다.!

의 당신이 두 개의 서로 다른 값으로 데이터를 이산화 가정 해 봅시다 :

Input data Type  Output value 
0.9   good  1.05 
1.0   good  1.05 
1.1   good  1.05 
1.2   good  1.05 
--- 
2.1   good  2.20 
2.3   good  2.20 
2.2   good  2.20 
--- SPLIT HERE --- 
1.1   bad  1.20 
1.2   bad  1.20 
1.3   bad  1.20 
--- 
1.9   bad  2.00 
2.0   bad  2.00 
2.1   bad  2.00 

참조, 모두 "좋은"와 값의 각 클러스터의 평균을 사용하여, 두 개의 분리 된 값으로 이산화했다 "나쁜". 그러나 "선한"과 "나쁜"의 평균이 다르기 때문에 결과로 나온 속성은 참된 회원임을 분명하게 드러냅니다. "불량"을 탐지하는 작업은 상당히 쉬워졌습니다.

별도의 사전 처리를 수행하지 마십시오.

+0

내가 직면하고있는 문제를 해결하자. 두 클래스의 값 (좋음, 나쁨)으로 데이터를 설정했습니다. 불균형 클래스 값을 얻으려고합니다. 따라서 데이터 세트를 두 세트 좋은 인스턴스와 나쁜 인스턴스를 포함합니다.) 전에 이산을 수행하고 두 세트를 병합하면 결과는 만족 스럽지만 나중에 수행하면 좋지 않습니다. 이걸 설명하도록 도와주세요. 미리 감사드립니다. – Aiman

+0

"좋은"결과는 무엇입니까? 무슨이 분화하고 있니? 이것이 지나친 편견/편향을 허용합니까? 우수 = odd, 나쁜 = discretize와 같이 분 류자는 이산화 방법을 배울 수 있습니다. 그래서 나는 분할 된 데이터에 대해 어떤 종류의 전처리도하지 말 것을 강력히 권고한다. –

+0

그것은 내가 아주 명확한 문제를 만들고있는 것 같지 않다, 나는 분류 작업을 위해이 데이터 세트를 준비하지 않고있다. 그러나 나는 이상치 검출 task.i에 대한 그것을 준비하고있다 outliers를 검출하기위한 방법을 개발하고있다. 그러므로 나는 불균형 데이터를 가지고 있어야한다. 나는 다 변수 외계인을 (즉, 좋은 레이블로 인스턴스를 감지하고 나쁜 인스턴스를 감지하고 싶다.) 그런 식으로 만족스러운 결과를 얻을 수있다. 따라서 메서드는 숫자 값을 처리하지 않는다. 그것들을 명목상의 가치로 분리 할 필요가 있습니다. 왜 내가 데이터를 나누어야 하는지를 설명 할 수 있기를 바랍니다. – Aiman