언제 weKA에서 이산화를 할 적절한시기인지를 알아야합니다. 데이터가 설정되어 있으므로 해당 데이터에서 교육 및 테스트 데이터 샘플을 만들어야합니다. 샘플링 전에 또는 샘플링 후에 숫자 속성에 대한 이산화를 수행해야합니까?weka의 이산화
0
A
답변
2
이것은 분명해야합니다.
스플릿과 독립적 인 동일한 결과를 얻는 한 이후에는 수행 할 수 있습니다. 이후에 수행 할 수 있습니다. 그런데 의 혜택은 무엇입니까?? 먼저 사전 처리를 수행하십시오.
반올림하여 이산화하려는 경우 - 예 : float from integer - 그러면 괜찮을 것입니다. (분할에 영향을받지 않습니다). 하지만 예를 들어 왜냐하면 당신은 다른 부분들을 다르게 이산하기 때문입니다.!
의 당신이 두 개의 서로 다른 값으로 데이터를 이산화 가정 해 봅시다 :
Input data Type Output value
0.9 good 1.05
1.0 good 1.05
1.1 good 1.05
1.2 good 1.05
---
2.1 good 2.20
2.3 good 2.20
2.2 good 2.20
--- SPLIT HERE ---
1.1 bad 1.20
1.2 bad 1.20
1.3 bad 1.20
---
1.9 bad 2.00
2.0 bad 2.00
2.1 bad 2.00
참조, 모두 "좋은"와 값의 각 클러스터의 평균을 사용하여, 두 개의 분리 된 값으로 이산화했다 "나쁜". 그러나 "선한"과 "나쁜"의 평균이 다르기 때문에 결과로 나온 속성은 참된 회원임을 분명하게 드러냅니다. "불량"을 탐지하는 작업은 상당히 쉬워졌습니다.
별도의 사전 처리를 수행하지 마십시오.
관련 문제
- 1. 이산화 과정 찾기
- 2. 대용량 데이터 세트에 대한 열로 이산화 R
- 3. Weka의 누락 된 값 -
- 4. WEKA의 멀티 클래스 회귀
- 5. WEKA의 계층화 된 샘플링
- 6. Weka의 ID 속성
- 7. weka의 ARFF에서 데이터 분류하기
- 8. Weka의 SimpleLogistic과 Logistic의 차이점
- 9. Weka의 HMM 사용
- 10. WEKA의 클래스 색인이란 무엇입니까?
- 11. Weka의 인스턴스 분류
- 12. Weka의 숫자 - 이진 필터
- 13. Weka의 RandomTree에 대해서
- 14. Weka의 단일 인스턴스 분류
- 15. weka의 SMO confidence measure
- 16. weka의 조기 말단
- 17. weka의 새 인스턴스 분류
- 18. Weka의 퓨전 분류기?
- 19. weka의 인스턴스에 인스턴스 추가
- 20. IKVM.NET에서 Weka의 MultiLayerPerceptron을 사용합니다.
- 21. Weka의 예측 범위 제한
- 22. . Weka의 이름과 .data
- 23. weka의 사전 처리 단계 직렬화
- 24. Weka의 10 배 교차 검증
- 25. weka의 보이지 않는 공칭 값
- 26. Weka의 공칭 속성 누락 값
- 27. jruby를 사용하여 weka의 알고리즘을 조작하십시오.
- 28. Weka의 공칭 속성 값 범위
- 29. weka의 단항 클래스 텍스트 분류?
- 30. weka의 모델로 이상한 결과가 발생했습니다.
내가 직면하고있는 문제를 해결하자. 두 클래스의 값 (좋음, 나쁨)으로 데이터를 설정했습니다. 불균형 클래스 값을 얻으려고합니다. 따라서 데이터 세트를 두 세트 좋은 인스턴스와 나쁜 인스턴스를 포함합니다.) 전에 이산을 수행하고 두 세트를 병합하면 결과는 만족 스럽지만 나중에 수행하면 좋지 않습니다. 이걸 설명하도록 도와주세요. 미리 감사드립니다. – Aiman
"좋은"결과는 무엇입니까? 무슨이 분화하고 있니? 이것이 지나친 편견/편향을 허용합니까? 우수 = odd, 나쁜 = discretize와 같이 분 류자는 이산화 방법을 배울 수 있습니다. 그래서 나는 분할 된 데이터에 대해 어떤 종류의 전처리도하지 말 것을 강력히 권고한다. –
그것은 내가 아주 명확한 문제를 만들고있는 것 같지 않다, 나는 분류 작업을 위해이 데이터 세트를 준비하지 않고있다. 그러나 나는 이상치 검출 task.i에 대한 그것을 준비하고있다 outliers를 검출하기위한 방법을 개발하고있다. 그러므로 나는 불균형 데이터를 가지고 있어야한다. 나는 다 변수 외계인을 (즉, 좋은 레이블로 인스턴스를 감지하고 나쁜 인스턴스를 감지하고 싶다.) 그런 식으로 만족스러운 결과를 얻을 수있다. 따라서 메서드는 숫자 값을 처리하지 않는다. 그것들을 명목상의 가치로 분리 할 필요가 있습니다. 왜 내가 데이터를 나누어야 하는지를 설명 할 수 있기를 바랍니다. – Aiman